
谷歌推出Gemini 3.1 Flash Live实时语音模型,支持语音驱动应用开发,上下文窗口提升2倍,函数调用准确率达90.8%
谷歌推出的最高质量音频和语音模型,专为实时语音交互设计。核心升级在于实时语音 Agent 能力:语音可以直接驱动应用开发(vibe coding),支持连续对话、多语言处理和工具调用。
已在 Gemini App、Search Live 和 Google AI Studio 中同步开放,开发者可通过 API 调用。上下文窗口提升至此前的 2 倍,函数调用准确率达到 90.8%,在多项评测中超过 GPT-Realtime-1.5 和 Qwen3 Omni 30B。
外网网友称其为 Siri"救星",苹果已获谷歌完整 Gemini 模型直连权限。

在 Google AI Studio 的 Live Vibe Coder 页面,你可以边说话边做应用,让开发过程跟上脑暴的节奏。
实际体验:
整个过程接近和设计师一对一的实时沟通,UI、交互、风格一段话全部重做。

设计协作场景(Stitch 工具):
跨语言陪伴场景(Ato 设备):
游戏角色互动(RPG 游戏《Wit's End》):
函数调用准确率:在 ComplexFuncBench audio 测试中达到 90.8%,相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5% 有明显提高。
音频输出质量:在 Scale 发布的 Audio MultiChallenge 榜单中得分 36.1%,高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B 的 24.3%。
上下文窗口:提升至此前的 2 倍,支持更长的连续对话。
实时对话优化:

已公布 API 价格:
支持多模态输入调用。
Gemini 3.1 Flash Live 已在以下平台开放:
开发者可以访问 Google AI Studio,获取 API 密钥,开始集成到自己的应用中。
谷歌正在把语音能力做成一套更完整的通用能力体系,覆盖编程、AI 硬件交互、移动端入口等多个场景。
国内在语音模型能力上的进展也在加快。阶跃星辰 Step-Audio R1.1 在 Artificial Analysis 语音推理榜单中拿下第一,以 96.4% 准确率超过 Grok、Gemini、GPT-Realtime 等模型。
一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音 Agent 的竞争态势正愈演愈烈。

飞书开源 lark-cli,覆盖 11 大业务域、200+ 命令,支持 Claude Code、Cursor 等主流 AI 工具直接调用飞书能力,Star 数已达 5.5k

飞书正式开源 lark-cli,覆盖11大业务域、200+命令,支持 Claude Code、Cursor 等主流 AI 工具接入,GitHub 已获 5.5k stars

React 核心团队成员开源 Pretext,仅几 KB 的纯 TypeScript 库,前端 UI 渲染速度比传统工具快约 500 倍,已获 2.8 万 Star