toolin.ai logo
toolin.ai
首页
所有AI工具
AI技能包
AI资讯
精选推文
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具802个
技能包11个
产品功能
  • 所有AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策
Gemini 3.1 Flash Live:谷歌发布实时语音Agent模型,推理速度提升15倍
2026/03/27

Gemini 3.1 Flash Live:谷歌发布实时语音Agent模型,推理速度提升15倍

谷歌推出Gemini 3.1 Flash Live实时语音模型,支持语音驱动应用开发,上下文窗口提升2倍,函数调用准确率达90.8%

Gemini 3.1 Flash Live 是什么

谷歌推出的最高质量音频和语音模型,专为实时语音交互设计。核心升级在于实时语音 Agent 能力:语音可以直接驱动应用开发(vibe coding),支持连续对话、多语言处理和工具调用。

已在 Gemini App、Search Live 和 Google AI Studio 中同步开放,开发者可通过 API 调用。上下文窗口提升至此前的 2 倍,函数调用准确率达到 90.8%,在多项评测中超过 GPT-Realtime-1.5 和 Qwen3 Omni 30B。

外网网友称其为 Siri"救星",苹果已获谷歌完整 Gemini 模型直连权限。

Gemini 3.1 Flash Live 语音交互界面

核心功能

语音驱动应用开发(Vibe Coding)

在 Google AI Studio 的 Live Vibe Coder 页面,你可以边说话边做应用,让开发过程跟上脑暴的节奏。

实际体验:

  • 说"把麦克风做大一点",界面随即变化
  • 补一句"背景加点黄色波点",页面背景立刻更新
  • 继续说"加入鼠标悬停时的反馈效果"、"让背景图案持续滚动",这些改动都在同一段对话中逐步完成
  • 临时调整方向说"干脆整体做成波普风",模型就在已有基础上继续重做视觉风格

整个过程接近和设计师一对一的实时沟通,UI、交互、风格一段话全部重做。

Vibe Coding 实时开发界面

实时多模态对话

设计协作场景(Stitch 工具):

  • 语音直接参与界面编辑流程
  • "这些虚线和方形边框看着有点硬,能不能让数字更贴合圆形?"界面随即调整
  • "试一个偏棕色、木质一点的配色",新的视觉版本直接生成

跨语言陪伴场景(Ato 设备):

  • 先用英语聊天,再说"我要跟奶奶说话,但她只会西班牙语"
  • 模型在同一段对话里切换语言继续交流,对话内容不会因为语言变化而中断
  • 提到"刚从医院出来有点累",模型会顺着语境回应

游戏角色互动(RPG 游戏《Wit's End》):

  • 玩家提问时,模型用带有设定的语气回应
  • 围绕"你有没有实体形态""你的能力来自哪里"等问题展开
  • 对话始终保持在角色语境里,不会跳出设定

性能提升

函数调用准确率:在 ComplexFuncBench audio 测试中达到 90.8%,相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5% 有明显提高。

音频输出质量:在 Scale 发布的 Audio MultiChallenge 榜单中得分 36.1%,高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B 的 24.3%。

上下文窗口:提升至此前的 2 倍,支持更长的连续对话。

实时对话优化:

  • 对语调、语速和停顿的处理更细
  • 在嘈杂环境下,对背景噪音的过滤能力增强
  • 对系统约束的遵循能力提升

性能测试对比

API 定价

已公布 API 价格:

  • 文本输入:每百万 token 约 0.5 美元
  • 文本输出:每百万 token 约 4.5 美元
  • 音频输入:每百万 token 约 3 美元
  • 音频输出:每百万 token 约 12 美元

支持多模态输入调用。

适合谁用

  • 应用开发者:需要快速原型设计,用语音驱动界面开发
  • AI 硬件厂商:为智能音箱、陪伴机器人等设备提供语音交互能力
  • 游戏开发者:为 NPC 角色提供实时语音对话能力
  • 企业客服:搭建支持多语言的实时语音客服系统

使用建议

优势

  • 响应速度快:实时语音交互,延迟低
  • 多语言支持:Search Live 支持 200 多个国家和地区的多语言实时交互
  • 函数调用准确:准确率达 90.8%,适合复杂任务场景
  • 生态完整:已集成到 Gemini App、Search Live 和 Google AI Studio

注意事项

  • 中文语音表现仍偏机械,多轮对话存在中断情况
  • 目前正分批推送,iOS 和安卓用户陆续收到更新
  • 社区反馈:语音回复质量不如文本,需要实际测试验证

开始使用

Gemini 3.1 Flash Live 已在以下平台开放:

  1. Gemini App:移动端直接使用,支持实时语音对话
  2. Search Live:在搜索场景中使用语音交互
  3. Google AI Studio:开发者可通过 API 调用(预览版)

开发者可以访问 Google AI Studio,获取 API 密钥,开始集成到自己的应用中。

行业影响

谷歌正在把语音能力做成一套更完整的通用能力体系,覆盖编程、AI 硬件交互、移动端入口等多个场景。

国内在语音模型能力上的进展也在加快。阶跃星辰 Step-Audio R1.1 在 Artificial Analysis 语音推理榜单中拿下第一,以 96.4% 准确率超过 Grok、Gemini、GPT-Realtime 等模型。

一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音 Agent 的竞争态势正愈演愈烈。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Gemini 3.1 Flash Live 是什么核心功能语音驱动应用开发(Vibe Coding)实时多模态对话性能提升API 定价适合谁用使用建议优势注意事项开始使用行业影响

相关文章

飞书开源 CLI 工具:让 AI Agent 直接操作办公软件
AI产品

飞书开源 CLI 工具:让 AI Agent 直接操作办公软件

飞书开源 lark-cli,覆盖 11 大业务域、200+ 命令,支持 Claude Code、Cursor 等主流 AI 工具直接调用飞书能力,Star 数已达 5.5k

avatar for toolin小编
toolin小编
3天前
飞书开源 CLI 工具:让所有 AI 都能直接操作办公软件
AI教程

飞书开源 CLI 工具:让所有 AI 都能直接操作办公软件

飞书正式开源 lark-cli,覆盖11大业务域、200+命令,支持 Claude Code、Cursor 等主流 AI 工具接入,GitHub 已获 5.5k stars

avatar for toolin小编
toolin小编
3天前
Pretext:前端渲染速度提升 500 倍的开源库
AI产品

Pretext:前端渲染速度提升 500 倍的开源库

React 核心团队成员开源 Pretext,仅几 KB 的纯 TypeScript 库,前端 UI 渲染速度比传统工具快约 500 倍,已获 2.8 万 Star

avatar for toolin小编
toolin小编
3天前