
视频样品点击连接:
https://weixin.qq.com/sph/Ar73gjZ6A3
过去做一条产品广告,哪怕只是 1 分钟左右,也通常意味着一整套流程:写脚本、拆分镜、找参考图、生成画面、控制人物一致性、做视频、改镜头、配旁白、加音效……
但这次,我用 2 小时做完了一条 1 分 40 秒的产品广告。不是靠什么神秘黑科技,也不是某个“一键生成视频”的万能按钮。
真正起作用的,是一条有点反常识的 AI 工作流:把创意工作交给 GPT,把快速执行的工作交给 Grok。

为什么不是直接一键生成?
Grok 的画布确实很强。你输入一个想法,它可以一路帮你生成剧本、分镜图,最后再生成视频。速度非常快,成本也低,尤其是在 AI 视频生成这件事上,它目前的体验非常有竞争力。
但我实际用下来,发现一个问题很致命:人物和场景的一致性,还是很难完全把握。
同一个角色,前一个镜头还像都市白领,后一个镜头可能就变成了科技大片里的陌生人。同一个产品,前面是精致桌面设备,后面可能突然变成另一个形态。
这就是“一键生成”的代价:它很快,但它太自由了。而广告片最怕的,恰恰就是失控。
所以我换了一个思路:不要让 Grok 从零开始想。先让 GPT 把创意和画面都规划清楚,再让 Grok 只负责执行。
我真正跑通的 4 步工作流

第 1 步:让 GPT 先做编剧和分镜师
我先把产品信息、目标用户、广告风格、视频时长和表达结构交给 GPT。然后让 GPT 一次性输出完整广告剧本、详细分镜脚本和每一镜对应的分镜图。
广告结构也很清晰:痛点 → 解决方案 → 产品展示 → 行动号召。
这样做的好处是,视频还没开始生成,整条片子的逻辑就已经稳定了。每个镜头拍什么、持续几秒、人物在做什么、产品在哪里出现、情绪怎么推进,都提前被锁定。
这里有一个小技巧:在 prompt 里提前固定角色外貌、场景色调、产品位置和镜头风格。这样 GPT 生成的分镜图之间,天然会有一定连续性。
第 2 步:批量下载所有分镜图
等 GPT 生成完所有分镜图之后,我会一次性全部下载。这一步看起来简单,但很重要。
因为这些图不只是素材,而是后面控制视频一致性的基础。每一张分镜图,都是一个镜头的视觉锚点。
第 3 步:把所有分镜图上传到 Grok 画布

接下来,把这些分镜图全部上传到 Grok 画布里。这一步是整个流程的关键转折。
在 Grok 的画布上,每一张分镜图不再是一张孤立图片,而是一个镜头的“导演台本锚点”。
GPT 先搭好广告片的骨架;分镜图固定住每个镜头的视觉;Grok 负责把这些静态镜头动起来。
第 4 步:给每个镜头填写强指令
最后,在每张分镜图下面,我会逐个填写镜头说明。主要包括三类信息:运镜方式、音效和配乐、旁白或对话。
最好精确到秒,避免视频节奏散掉。
例如:0-3 秒,他盯着电脑屏幕,眉头紧锁。旁白:每天的重复工作,正在偷走你的时间。3-6 秒,镜头缓慢推进到产品界面。旁白:现在,你只需要一个更聪明的工作助手。
当这些信息都填好之后,再让 Grok 按照指令生成对应镜头的视频片段。
这时候,Grok 的角色就很明确了:它不是导演,也不是编剧。它是一个执行速度极快的视频生成器。创意和一致性,前面已经由 GPT 和分镜图解决了。
这套方法为什么效率高?

核心原因只有一个:让不同工具做自己最擅长的事。
GPT 擅长理解目标、组织结构、写剧本、拆分镜、控制叙事逻辑。Grok 擅长快速生成视频,尤其适合把明确的画面和指令转化成动态片段。
如果让 Grok 一口气完成所有工作,它当然可以做。但它既要想创意,又要控角色,又要生成视频,变量太多。
而这套流程的关键,就是把变量拆开:先用 GPT 把“想法”变清楚,再用分镜图把“画面”固定住,最后用 Grok 把“镜头”动起来。
效率自然就上来了。
这套方法适合谁?
我觉得它非常适合三类人。
第一类,是需要快速产出产品广告、短视频、概念片的个人创作者或小团队。
第二类,是被“一键生成”角色变脸折磨过的 AI 视频玩家。
第三类,是对剧本质量和分镜逻辑有要求的人。
当然,它也不是适合所有人。如果你追求电影级角色一致性,尤其是长片级别的严谨连续性,那现在的 AI 视频工具还不够。你可能仍然需要传统制作流程、专业 CG 或更复杂的后期控制。
如果你完全不想碰 prompt,也不想分步骤操作,只想输入一句话直接拿成片,那这套方法也不适合你。
它不是最懒的方法。但它是目前很高效、很可控的方法。
最后说点真心话
现在的 AI 视频工具,还没有一个能同时做到:快、强一致性、高创意自由度。
你想要快,通常会牺牲控制。你想要控制,就要多花步骤。你想要创意自由,又很容易让画面失控。
所以我越来越觉得,我们不必等那个“完美工具”出现。
更聪明的做法,是让两个不完美的工具,做各自擅长的事。GPT 负责想得清楚。Grok 负责做得够快。
而中间那座桥,就是你亲手整理出来的一组分镜图。
下次,如果你也用 2 小时做出一条 1 分 40 秒的产品广告,不用惊讶。
你不是突然变快了。你只是终于找到了一条,匹配当前 AI 能力的正确路径。
发表回复