提交AI工具提交

Qwen3.5-LiveTranslate：开口即同传，60 种语言实时互译

2026/05/20

·toolin小编

通义千问发布实时同传模型 Qwen3.5-LiveTranslate，支持 60 种语言输入、29 种语音输出，端到端延迟 2.8 秒，实时音色克隆保留说话人原声。

Qwen3.5-LiveTranslate：开口即同传，60 种语言实时互译

Qwen3.5-LiveTranslate：开口即同传，60 种语言实时互译

2026/05/20

Qwen3.5-LiveTranslate：开口即同传，60 种语言实时互译

通义千问发布实时同传模型 Qwen3.5-LiveTranslate，支持 60 种语言输入、29 种语音输出，端到端延迟 2.8 秒，实时音色克隆保留说话人原声。

核心数据核心能力实时音色克隆 2.8 秒端到端延迟动态热词引擎视觉消歧辅助实战场景怎么用适合谁

实时同传一直卡在三大痛点上：延迟高、语种覆盖少、AI 配音"机器感"太重。Qwen3.5-LiveTranslate-Flash 给出了一个系统性解法：60 种语言输入输出、端到端字均延迟 2.8 秒、还能保留说话人的原声音色。

核心数据

能力	Qwen3.5-LiveTranslate	前代 Qwen3-LiveTranslate
输入音频/输出文本语种	60 种	18 种
输出音频语种	29 种	10 种
端到端字均延迟	2.8 秒	4.68 秒
实时音色克隆	支持	不支持
热词引擎	1000 个自定义词条	不支持

语种覆盖对比

核心能力

实时音色克隆

在同传过程中，模型自动捕捉并复刻说话人的音色特征。翻译后，不同语言间仍然保持"同一个人"的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升。

实时音色克隆

2.8 秒端到端延迟

引入全新 Readable Unit（可读单元）实时翻译技术。在保证译文可读性与语义连贯的前提下，实现更激进的流式输出。字均延迟 2.8 秒，适用于直播、连麦、发布会等对时延极敏感的场景。

相比前代，首字延迟降低 3.45 秒、字均延迟降低 1.88 秒，翻译质量几乎无损。

延迟对比

动态热词引擎

支持最多 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与翻译。特别适合技术发布会、医疗/法律/金融会议、企业内训等场景，显著降低"术语翻错、名字听错"的风险。

热词引擎

视觉消歧辅助

结合多模态理解能力，在语境模糊时自动引入视觉信息辅助判断，大幅降低"一词多义"导致的翻译歧义。

实战场景

跨国会议 & 出境旅游：多语混说、复杂口音场景下，精准切分并同步翻译。搭配千问 AI 眼镜在海外点餐实测，语音交互 + 实时同传无缝衔接。

直播带货 & 影视出海：商品参数、价格、折扣数字翻译准确率极高。古文和文化内容也能准确理解并翻译，保留文化韵味。

智能硬件：可嵌入 AI 眼镜、翻译机等设备，提供语音交互 + 实时同传的一体化体验。

怎么用

在线体验：https://omni.qwen.ai/live-translate
技术博客：https://qwen.ai/blog?id=qwen3.5-livetranslate
阿里云百炼 API：即将上线

适合谁

跨境直播/电商团队：商品描述、价格数字精准翻译，保留主播音色
跨国会议参与者：支持 60 种语言输入，29 种语音输出
智能硬件厂商：可嵌入 AI 眼镜、翻译机等终端设备
内容出海团队：影视字幕、文化内容的实时翻译

作者

toolin小编

分类

AI产品

核心数据核心能力实时音色克隆 2.8 秒端到端延迟动态热词引擎视觉消歧辅助实战场景怎么用适合谁

相关文章

Codex实战指南：从注册到上手的开源教程

Codex实战指南：从注册到上手的开源教程

GitHub开源的CodexGuide，覆盖Codex桌面端、CLI、手机端的完整使用教程，含Plus订阅、实战案例和配置指南

天工超级智能体：不折腾的云端AI员工

天工超级智能体：不折腾的云端AI员工

天工超级智能体深度体验：自动盯盘、生成PPT、深度调研，注册即用的云端Agent团队

星尘智能T1：8.99万元的人形机器人开卖

星尘智能T1：8.99万元的人形机器人开卖

星尘智能发布T1人形机器人，8.99万元起，绳驱本体+自研AI模型+具身OS三位一体架构，6月1日起发货