AI 视频剪辑这条线,过去一年有点热过头了。很多工具都在讲“一句话生成视频”“自动剪辑”“智能成片”,听起来很爽,但真正做过内容的人都知道,剪辑不是把素材丢进时间线这么简单。
难点在三处:素材怎么选,节奏怎么控,风格怎么复用。FireRed-OpenStoryline 值得看,不是因为它又把视频剪辑包装成一个聊天框,而是它把剪辑流程拆成 MCP Tool Nodes,再用 Skills 把一套编辑逻辑沉淀下来。说白了,它想做的不是“替你点几下剪映”,而是把一个人的导演习惯变成可重复调用的工作流。
定位:基于自然语言、LLM/VLM 规划和 MCP 工具编排的开源 AI 视频剪辑 Agent。
它不是模板工具,而是“导演式对话”
传统智能剪辑通常像模板:选一个风格、塞素材、自动拼接。它能省事,但也容易产出一堆味儿差不多的视频。OpenStoryline 的重点不太一样,它把用户意图先交给 Agent Client 理解,再通过 MCP Server 调用不同节点,完成素材搜索、镜头拆分、内容理解、片段筛选、文案生成、时间线规划、渲染等步骤。
这个流程最大的好处,是可干预。你不是等它“一键出片”然后听天由命,而是可以在中途说:删掉天空镜头、BGM 换得更轻一点、字幕颜色压暗、这段旁白别那么营销。Agent 会定位相关节点局部重跑,不必每次从头再来。
真正有意思的是 Style Skills
OpenStoryline 最值得单独拎出来讲的,是 Style Skills。
一个视频团队真正稀缺的东西,往往不是“会不会剪”,而是稳定的风格:某类账号的开头节奏、字幕语气、转场密度、BGM 情绪、画面选择偏好、结尾 CTA。过去这些东西藏在剪辑师脑子里,或者散落在项目文件里,很难复制。
OpenStoryline 的做法是:当你对一条成片满意,可以让 Agent 总结这套编辑逻辑,保存成 Markdown Skill。下次换一批素材,只要调用这个 Skill,就能复刻同样的节奏和审美规则。
这点比“一键生成”更现实。因为内容团队真正想要的不是每次都随机出一个新风格,而是同一账号、同一栏目、同一品牌调性能够批量稳定生产。
从源码安装:适合想研究架构的人
如果你想看清楚项目结构,建议先走源码安装。前提是 Python 3.11+,官方推荐 Conda/Miniforge。
git clone https://github.com/FireRedTeam/FireRed-OpenStoryline.git
cd FireRed-OpenStoryline
conda create -n storyline python=3.11
conda activate storylineLinux/macOS 可以先尝试一键安装资源和依赖:
sh build_env.sh手动方式则是下载模型与资源,再安装依赖:
chmod +x download.sh
./download.sh
pip install -r requirements.txt如果你计划使用本地 ASR 粗剪能力,要确认当前环境有 `torchaudio`。口播视频自动去口头禅、语气词、重复句,靠的就是这类音频识别链路。
配 API Key:别以为开源就零成本
OpenStoryline 会接入多种外部服务。你至少要准备和配置这些能力中的一部分:
- LLM / VLM:用于理解意图、画面和生成规划。
- Pexels API Key:用于在线素材搜索。
- TTS:MiniMax 或火山等配音服务。
- AI Transition:MiniMax Hailuo 或阿里云 Wan 这类视频生成服务。
- 自定义 BGM、字体、文案模板资源库。
配置入口是 `config.toml`。这里不要把真实 key 写进公开仓库,也别把它塞进文章或截图。视频生成类 API 成本不低,尤其 AI 转场会受素材、prompt 和模型波动影响,官方也提醒建议小规模测试后再批量开启。
启动方式:先起 MCP,再起界面
源码方式下,先启动 MCP Server。
macOS / Linux:
PYTHONPATH=src python -m open_storyline.mcp.serverWindows PowerShell:
$env:PYTHONPATH="src"; python -m open_storyline.mcp.server然后启动对话界面。命令行入口:
python cli.pyWeb 入口:
uvicorn agent_fastapi:app --host 127.0.0.1 --port 7860浏览器访问:
http://127.0.0.1:7860如果你只是想先体验,不研究代码,Docker 会更省心。
docker pull openstoryline/openstoryline:v1.0.1
docker run \
-v $(pwd)/config.toml:/app/config.toml \
-v $(pwd)/outputs:/app/outputs \
-v $(pwd)/run.sh:/app/run.sh \
-p 7860:7860 \
openstoryline/openstoryline:v1.0.1国内环境也可以按官方说明使用阿里云镜像源。无论哪种方式,都建议把 `config.toml`、`outputs`、素材目录挂载出来,别让容器一删,配置和成片全没了。
OpenClaw / Claude Code 玩法
OpenStoryline 已经接入 OpenClaw,并提供两个 Skills:
- `openstoryline-install`:负责安装、配置和首跑验证。
- `openstoryline-use`:负责启动服务并执行实际剪辑流程。
OpenClaw 里可以直接让它帮你安装相关 Skills。手动方式:
openclaw skills install openstoryline-install
openclaw skills install openstoryline-use如果当前 OpenClaw 版本不支持,也可以试 ClawHub:
npx clawhub install openstoryline-install
npx clawhub install openstoryline-useClaude Code 如果在仓库根目录启动,可以直接用项目内置 Skills:
/openstoryline-install
/openstoryline-use也可以拷贝到全局 Skills:
mkdir -p ~/.claude/skills
cp -R .claude/skills/openstoryline-install ~/.claude/skills/
cp -R .claude/skills/openstoryline-use ~/.claude/skills/这类集成的意义,不是让 Claude Code “知道有这么个项目”,而是让它按项目约定完成安装、启动、素材处理和成片流程。Agent Skills 在这里不只是说明书,更像工作规程。
第一条视频怎么测
第一次别上来就做复杂大片。建议用一个边界很清楚的任务:
用我上传的 6 段咖啡店素材,剪一个 30 秒探店短视频。节奏轻快,字幕口吻像小红书日常分享,BGM 不要太吵,结尾加一句“周末可以来坐坐”。先生成草稿,不要开启 AI 转场。你要重点看四件事:
- 它是否正确拆分素材和识别画面。
- 文案是否真的贴合素材,而不是泛泛营销话。
- BGM、字幕和镜头节奏是否统一。
- 对话式修改是否能局部重做,而不是整条推倒重来。
如果这些都过了,再测试 Style Skill:让它总结这条视频的剪辑逻辑,下次换一组素材复刻同款风格。
适合谁,不适合谁
OpenStoryline 适合三类人:短视频团队、自媒体批量生产者、想研究 Agent + MCP 工作流的开发者。它把视频创作拆成透明节点,这对团队复盘和二次开发很友好。
但它不适合把一切都外包给 AI 的人。素材版权仍然由用户负责;AI 转场有成本和随机性;默认开源素材效果未必能直接达到商业成片质感;真正要长期用,还是要维护自己的音乐、字体、脚本模板和素材库。
所以别把它理解成“剪映平替”。更准确的说法是:它把视频剪辑从手动时间线,推进到可对话、可追踪、可沉淀的 Agent 工作流。能不能出好片,最后还是看你的素材、审美和风格资产。AI 能把活变快,但不会替你长出判断力。