火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。


火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。
火山引擎把上一代「豆包语音合成模型 2.0」直接升级并更名为「豆包音频生成模型 1.0(Seed-Audio 1.0)」。从「语音合成」到「音频生成」不是改名游戏——它意味着一次提示词就能把角色对话、环境音效、背景音乐整包吐出来,而不是先生成角色 A、再生成角色 B、再叠 BGM、最后拖进剪辑软件一层层对齐。本篇用三段实测案例说明它能干什么、边界在哪里。
把它类比成「AI 版的整个配音后期工作流」。传统流程里:找一个配音演员录台词,找音效师铺环境声,找作曲做 BGM,最后由混音师合成。Seed-Audio 1.0 把这条线压成一段提示词——你描述一段情景,它把人声、音效、配乐直接打包输出。核心升级点官方命名为「影视级全要素直出」。
把上一版 2.0 里那段「设计师独白」原样保留,用 1.0 接着往下续,整段 1 分 10 秒。前 16 秒是原来的独白,从第 16 秒开始进入他和甲方的对话——同一角色、同一音色、同一疲惫状态,但场景从单人独白变成了两人对峙。
关键细节:电话挂断后那段「嘟——嘟——嘟——」的忙音和三秒死寂是 AI 自己生成的,没有任何后期叠加。这就是「全要素直出」的含金量——它理解一段叙事需要什么样的声音节奏。
测试场景:拿了一段三人漫剧的本子——旁白(青年男性)、长老(老年男性)、少年。台词极具情绪张力,旁白是低沉醇厚的国风漫剧腔,长老声音苍老沙哑带有居高临下的轻蔑,少年音清亮带有怒气。
人声之外,本子里还埋了古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、金属打击、人群哄笑、钟鸣——爽文该有的元素都有。
旧流程需要:分别生成每个角色 → 找 BGM → 叠脚步声、掌风声、火盆声 → 拖进剪辑软件一层层对齐。Seed-Audio 1.0 一段提示词就把整个漫剧该有的声音氛围整包吐出来。
用「佛得角门将零封西班牙」的真实世界杯背景,让它生成一段解说。体育转播要的不是排好的剧情声音设计,而是混乱的现场感:观众在吼、球场有回声、解说员跟着赛事节奏走——压住、加速、爆发、回落。
实际听下来层次分明:人声在前面,现场声音在后面,背景人群声没有盖过人声,听起来就像真的坐在转播席。

用漫剧本子测试多角色场景,不同角色的音色、情绪、空间位置都被一次性还原出来。
API 已开启邀测,可在火山方舟控制台申请。
微信官方 AI 助手小微内测体验:聊天总结、自动回复、调小程序、转账、看朋友圈、开发小工具,八大能力一次看懂。

微信原生 AI 助手小微开放灰测,基于腾讯自研 WeLM 模型,支持发消息、查账、分析朋友圈,但暂不支持定时发送和批量操作。

Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。