跑通了 Codex 调用 Grok 生成视频的工作流

xAI 的 Grok Imagine Video 可以通过 API 生成视频,但官方没有提供特别方便的本地工具。我找到了一个开源项目,把 Grok 的视频 API 封装成了一套本地 CLI 工作流,在 Codex 里可以直接调用。

跑通之后的使用方式很简单:对 Codex 说"帮我用 Grok 生成视频,提示词是:xxx",等一两分钟,视频就生成好了。

这个工作流能做什么

项目把 Grok Imagine Video 的 API 包装成了命令行工具,主要功能:

  • 文生视频(text-to-video)
  • 图生视频(reference-to-video),支持本地图片或图片 URL,最多 7 张参考图
  • 异步轮询,自动下载生成的视频
  • 输出 metadata JSON 和费用估算
  • 生成联系表(contact sheet)方便快速预览视频帧

支持的参数包括时长(1-15 秒,图生视频最多 10 秒)、比例(16:9、9:16、1:1 等)、分辨率(480p 或 720p)。

怎么用

安装:

git clone https://github.com/Rion-Wu-tech/grok-video-workflow.git cd grok-video-workflow npm install cp .env.example .env

.env 里填上 xAI API Key。注意用的是 xAI API 的额度,不是 Grok 网页端的配额。

文生视频

npm run video -- --prompt "A cinematic AI creator editing videos at midnight, vertical social media style" --duration 5 --aspect-ratio 9:16 --resolution 480p

图生视频

把参考图放到 examples/ 目录下,然后:

npm run video -- --prompt-file prompts/worldcup-fancam.example.txt --reference-image examples/your-storyboard.png --duration 10 --aspect-ratio 1:1 --resolution 720p --prefix worldcup-fancam

生成完成后会输出 request_id、状态、视频链接,视频默认保存在 outputs/ 目录。

检查生成结果

生成完可以跑一个联系表命令,把视频帧拼成一张图快速预览:

npm run review -- --video outputs/your-video.mp4

主要看几个地方:动作是否连贯、人物身份有没有跳变、手和手指是否正常、文字内容是否稳定、有没有意外的场景切换。

费用

xAI 的公开定价大概是:

分辨率 价格
480p $0.05/秒
720p $0.07/秒

5 秒 480p 大概 $0.25,10 秒 720p 大概 $0.70。批量跑之前建议先测试几条。

在 Codex 里怎么用

直接用自然语言跟 Codex 说就行:

"Use this repo to generate a 5 second 9:16 Grok video. First compress my prompt under 4096 characters, then run the CLI and review the contact sheet."
"Generate a reference-to-video clip from examples/storyboard.png, duration 10 seconds, 720p, then create a contact sheet and tell me whether it needs a rerun."

Codex 会帮你压缩 prompt、跑命令、检查结果,整个流程不需要手动操作。

几个限制

  • Prompt 最长 4096 字符
  • 图生视频最长 10 秒
  • 生成的视频可能有文字、手指、人物身份不稳定的情况,发布前要检查
  • 不要把 AI 生成的活动画面当真实素材用

项目地址:github.com/Rion-Wu-tech/grok-video-workflow