从资产准备到剪辑拼接的完整流程,教你用 AI 工具链制作 115 秒品牌广告长视频,解决人脸漂移、场景不统一等核心痛点。


从资产准备到剪辑拼接的完整流程,教你用 AI 工具链制作 115 秒品牌广告长视频,解决人脸漂移、场景不统一等核心痛点。
AI 生成视频的单次上限大约是 15 秒。想做完整的长视频只能拼接,一拼就出问题:人脸漂移、动作跳帧、前后场景对不上。本文分享一套经过实战验证的方法论,用 Image2 + Seedance 2.0 成功制作了一条 115 秒的全 AI 品牌广告(Laura Geller 口红),四个年龄段女性,没有一帧真实拍摄。
AI 长视频的一致性问题,根源出在四个地方:
解决思路是 资产前置 + 分镜规划 + 按镜头类型选生成方式 + 规范化剪辑。
所有一致性问题都在这一步解决。分四类准备:
出一张包含正面、侧面、背面的人物全身三视图。正面额外出一张半身版供近景用。表情至少准备 3 种(自然闭嘴、微笑、专注皱眉)。服装和配饰单独出细节图,模型在不同段之间容易漂移,有参考图才能锁住。
先出无人的空景,固定光线和色调。同一场景按景别分别出三张:全景(交代空间)、中景(人物与环境关系)、近景(人物或物品细节)。
进阶做法:先生成一段 360 度场景环视视频,生成人物镜头时附上这段视频并在提示词里写明站位。


旁白音色和人物对白音色分开定,不能混用。选好后出一段 30 秒样本试听确认,全片统一用同一声音。
工具推荐: 出图用豆包(低成本大量试错)或 Image2(追求质量),音色用 ElevenLabs 或 MiniMax。
叙事结构先定。跨境电商广告通用逻辑:痛点 --> 产品出现 --> 效果证明 --> 行动号召。
每个镜头要标清六件事:
时长标准:特写或静态镜头 5 秒,有人物动作的中景 5-10 秒,需要完整交代信息的 10-15 秒。能拆就拆,时长越短利用率越高。
分镜脚本可以用 DeepSeek 或 Gemini 生成初稿,再手动调整。
不要所有镜头都用同一种生成方式。
适合开场、全新场景切入、不需要从前一段画面连过来的镜头。参考图照常用,但这段独立生成,不依赖上一段尾帧。
提示词结构: 主体 + 行为 + 景别 + 运镜 + 风格约束 + 禁止项。禁止项必须写,比如"禁止迁移参考图的画面风格"。
一个提示词描述多个画面,一次生成六宫格或九宫格,每格是一个关键帧。适合多镜头快切、产品多角度展示等不需要强连续的段落。
适合剧情连续、人物动作延续的镜头。操作流程:
踩坑提醒: 不能直接截尾帧就去做下一段首帧,衔接处会有明显色差和跳变。必须把上一段导入剪映/PR 导出一次,用导出后的尾帧做下一段首帧。

工具推荐: 视频生成用 Seedance 2.0 或 Veo 3.1 图生视频效果较好。
转场选择逻辑:
| 场景 | 转场方式 |
|---|---|
| 同场景、景别接近 | 硬切 |
| 跨场景 | 叠化(0.5 秒以内) |
| 情绪转折 | 闪白/闪黑 |
| 两段明显拼不上 | 补生成 2-3 秒过渡镜头 |
剪辑顺序: 按分镜顺序拼素材 --> 逐个检查衔接点 --> 加字幕 --> 最后配音频。不要提前配音,剪辑过程中时长会变。
音频分三类,逻辑完全不同,分开处理:
旁白: 必须整段一次生成,不能按镜头拆成一句一句。拆段会导致语速、情绪、语气前后不一致。正确操作是选好音色后完整文案一次性生成,再在剪辑软件里按画面时长逐句对准时间点。注意是剪音频对画面,不是剪画面对音频。
环境音: 优先在生成视频时同步生成。单独补的话按每个镜头逐段匹配,不能全程循环同一段背景音。
背景音乐: 压到最低,只做氛围托底。混音层级:旁白 > 对白 > 环境音 > 背景音乐,背景音乐不超过旁白音量的 30%。
| 环节 | 推荐工具 |
|---|---|
| 出图 | 豆包(免费)、Image2(高质量) |
| 视频生成 | Seedance 2.0、Veo 3.1 |
| 分镜脚本 | DeepSeek、Gemini |
| 音色 | ElevenLabs、MiniMax |
| 剪辑 | 剪映、Premiere Pro |