Gemini 3.1 Flash Live：谷歌发布实时语音Agent模型，推理速度提升15倍

Gemini 3.1 Flash Live 是什么

谷歌推出的最高质量音频和语音模型，专为实时语音交互设计。核心升级在于实时语音 Agent 能力：语音可以直接驱动应用开发（vibe coding），支持连续对话、多语言处理和工具调用。

已在 Gemini App、Search Live 和 Google AI Studio 中同步开放，开发者可通过 API 调用。上下文窗口提升至此前的 2 倍，函数调用准确率达到 90.8%，在多项评测中超过 GPT-Realtime-1.5 和 Qwen3 Omni 30B。

外网网友称其为 Siri"救星"，苹果已获谷歌完整 Gemini 模型直连权限。

Gemini 3.1 Flash Live 语音交互界面

核心功能

语音驱动应用开发（Vibe Coding）

在 Google AI Studio 的 Live Vibe Coder 页面，你可以边说话边做应用，让开发过程跟上脑暴的节奏。

实际体验：

说"把麦克风做大一点"，界面随即变化
补一句"背景加点黄色波点"，页面背景立刻更新
继续说"加入鼠标悬停时的反馈效果"、"让背景图案持续滚动"，这些改动都在同一段对话中逐步完成
临时调整方向说"干脆整体做成波普风"，模型就在已有基础上继续重做视觉风格

整个过程接近和设计师一对一的实时沟通，UI、交互、风格一段话全部重做。

Vibe Coding 实时开发界面

实时多模态对话

设计协作场景（Stitch 工具）：

语音直接参与界面编辑流程
"这些虚线和方形边框看着有点硬，能不能让数字更贴合圆形？"界面随即调整
"试一个偏棕色、木质一点的配色"，新的视觉版本直接生成

跨语言陪伴场景（Ato 设备）：

先用英语聊天，再说"我要跟奶奶说话，但她只会西班牙语"
模型在同一段对话里切换语言继续交流，对话内容不会因为语言变化而中断
提到"刚从医院出来有点累"，模型会顺着语境回应

游戏角色互动（RPG 游戏《Wit's End》）：

玩家提问时，模型用带有设定的语气回应
围绕"你有没有实体形态""你的能力来自哪里"等问题展开
对话始终保持在角色语境里，不会跳出设定

性能提升

函数调用准确率：在 ComplexFuncBench audio 测试中达到 90.8%，相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5% 有明显提高。

音频输出质量：在 Scale 发布的 Audio MultiChallenge 榜单中得分 36.1%，高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B 的 24.3%。

上下文窗口：提升至此前的 2 倍，支持更长的连续对话。

实时对话优化：

对语调、语速和停顿的处理更细
在嘈杂环境下，对背景噪音的过滤能力增强
对系统约束的遵循能力提升

性能测试对比

API 定价

已公布 API 价格：

文本输入：每百万 token 约 0.5 美元
文本输出：每百万 token 约 4.5 美元
音频输入：每百万 token 约 3 美元
音频输出：每百万 token 约 12 美元

支持多模态输入调用。

适合谁用

应用开发者：需要快速原型设计，用语音驱动界面开发
AI 硬件厂商：为智能音箱、陪伴机器人等设备提供语音交互能力
游戏开发者：为 NPC 角色提供实时语音对话能力
企业客服：搭建支持多语言的实时语音客服系统

使用建议

优势

响应速度快：实时语音交互，延迟低
多语言支持：Search Live 支持 200 多个国家和地区的多语言实时交互
函数调用准确：准确率达 90.8%，适合复杂任务场景
生态完整：已集成到 Gemini App、Search Live 和 Google AI Studio

注意事项

中文语音表现仍偏机械，多轮对话存在中断情况
目前正分批推送，iOS 和安卓用户陆续收到更新
社区反馈：语音回复质量不如文本，需要实际测试验证

开始使用

Gemini 3.1 Flash Live 已在以下平台开放：

Gemini App：移动端直接使用，支持实时语音对话
Search Live：在搜索场景中使用语音交互
Google AI Studio：开发者可通过 API 调用（预览版）

开发者可以访问 Google AI Studio，获取 API 密钥，开始集成到自己的应用中。

行业影响

谷歌正在把语音能力做成一套更完整的通用能力体系，覆盖编程、AI 硬件交互、移动端入口等多个场景。

国内在语音模型能力上的进展也在加快。阶跃星辰 Step-Audio R1.1 在 Artificial Analysis 语音推理榜单中拿下第一，以 96.4% 准确率超过 Grok、Gemini、GPT-Realtime 等模型。

一边是谷歌不断拉高能力上限，尝试覆盖更多场景；另一边是国内玩家在用户规模与模型能力两端同时推进，语音 Agent 的竞争态势正愈演愈烈。

Gemini 3.1 Flash Live 是什么

外网网友称其为 Siri"救星"，苹果已获谷歌完整 Gemini 模型直连权限。

Gemini 3.1 Flash Live 语音交互界面

核心功能

语音驱动应用开发（Vibe Coding）

在 Google AI Studio 的 Live Vibe Coder 页面，你可以边说话边做应用，让开发过程跟上脑暴的节奏。

实际体验：

说"把麦克风做大一点"，界面随即变化
补一句"背景加点黄色波点"，页面背景立刻更新
继续说"加入鼠标悬停时的反馈效果"、"让背景图案持续滚动"，这些改动都在同一段对话中逐步完成
临时调整方向说"干脆整体做成波普风"，模型就在已有基础上继续重做视觉风格

整个过程接近和设计师一对一的实时沟通，UI、交互、风格一段话全部重做。

Vibe Coding 实时开发界面

实时多模态对话

设计协作场景（Stitch 工具）：

语音直接参与界面编辑流程
"这些虚线和方形边框看着有点硬，能不能让数字更贴合圆形？"界面随即调整
"试一个偏棕色、木质一点的配色"，新的视觉版本直接生成

跨语言陪伴场景（Ato 设备）：

先用英语聊天，再说"我要跟奶奶说话，但她只会西班牙语"
模型在同一段对话里切换语言继续交流，对话内容不会因为语言变化而中断
提到"刚从医院出来有点累"，模型会顺着语境回应

游戏角色互动（RPG 游戏《Wit's End》）：

玩家提问时，模型用带有设定的语气回应
围绕"你有没有实体形态""你的能力来自哪里"等问题展开
对话始终保持在角色语境里，不会跳出设定

性能提升

函数调用准确率：在 ComplexFuncBench audio 测试中达到 90.8%，相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5% 有明显提高。

音频输出质量：在 Scale 发布的 Audio MultiChallenge 榜单中得分 36.1%，高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B 的 24.3%。

上下文窗口：提升至此前的 2 倍，支持更长的连续对话。

实时对话优化：

对语调、语速和停顿的处理更细
在嘈杂环境下，对背景噪音的过滤能力增强
对系统约束的遵循能力提升

性能测试对比

API 定价

已公布 API 价格：

文本输入：每百万 token 约 0.5 美元
文本输出：每百万 token 约 4.5 美元
音频输入：每百万 token 约 3 美元
音频输出：每百万 token 约 12 美元

支持多模态输入调用。

适合谁用

应用开发者：需要快速原型设计，用语音驱动界面开发
AI 硬件厂商：为智能音箱、陪伴机器人等设备提供语音交互能力
游戏开发者：为 NPC 角色提供实时语音对话能力
企业客服：搭建支持多语言的实时语音客服系统

使用建议

优势

响应速度快：实时语音交互，延迟低
多语言支持：Search Live 支持 200 多个国家和地区的多语言实时交互
函数调用准确：准确率达 90.8%，适合复杂任务场景
生态完整：已集成到 Gemini App、Search Live 和 Google AI Studio

注意事项

中文语音表现仍偏机械，多轮对话存在中断情况
目前正分批推送，iOS 和安卓用户陆续收到更新
社区反馈：语音回复质量不如文本，需要实际测试验证

开始使用

Gemini 3.1 Flash Live 已在以下平台开放：

Gemini App：移动端直接使用，支持实时语音对话
Search Live：在搜索场景中使用语音交互
Google AI Studio：开发者可通过 API 调用（预览版）

开发者可以访问 Google AI Studio，获取 API 密钥，开始集成到自己的应用中。

行业影响

谷歌正在把语音能力做成一套更完整的通用能力体系，覆盖编程、AI 硬件交互、移动端入口等多个场景。

一边是谷歌不断拉高能力上限，尝试覆盖更多场景；另一边是国内玩家在用户规模与模型能力两端同时推进，语音 Agent 的竞争态势正愈演愈烈。

全部

AI教程

AI产品

AI资源

Gemini 3.1 Flash Live：谷歌发布实时语音Agent模型，推理速度提升15倍

Gemini 3.1 Flash Live：谷歌发布实时语音Agent模型，推理速度提升15倍

作者

分类

相关文章

MaineCoon：史上最快流式音视频社交模型

阿里 HappyHorse 1.1：视频生成五大维度升级

豆包专业版收费：三档定价拆解，到底值不值

Gemini 3.1 Flash Live：谷歌发布实时语音Agent模型，推理速度提升15倍

Gemini 3.1 Flash Live：谷歌发布实时语音Agent模型，推理速度提升15倍

作者

分类

相关文章

MaineCoon：史上最快流式音视频社交模型

阿里 HappyHorse 1.1：视频生成五大维度升级

豆包专业版收费：三档定价拆解，到底值不值