通义千问发布实时同传模型 Qwen3.5-LiveTranslate,支持 60 种语言输入、29 种语音输出,端到端延迟 2.8 秒,实时音色克隆保留说话人原声。


通义千问发布实时同传模型 Qwen3.5-LiveTranslate,支持 60 种语言输入、29 种语音输出,端到端延迟 2.8 秒,实时音色克隆保留说话人原声。
实时同传一直卡在三大痛点上:延迟高、语种覆盖少、AI 配音"机器感"太重。Qwen3.5-LiveTranslate-Flash 给出了一个系统性解法:60 种语言输入输出、端到端字均延迟 2.8 秒、还能保留说话人的原声音色。
| 能力 | Qwen3.5-LiveTranslate | 前代 Qwen3-LiveTranslate |
|---|---|---|
| 输入音频/输出文本语种 | 60 种 | 18 种 |
| 输出音频语种 | 29 种 | 10 种 |
| 端到端字均延迟 | 2.8 秒 | 4.68 秒 |
| 实时音色克隆 | 支持 | 不支持 |
| 热词引擎 | 1000 个自定义词条 | 不支持 |

在同传过程中,模型自动捕捉并复刻说话人的音色特征。翻译后,不同语言间仍然保持"同一个人"的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升。

引入全新 Readable Unit(可读单元)实时翻译技术。在保证译文可读性与语义连贯的前提下,实现更激进的流式输出。字均延迟 2.8 秒,适用于直播、连麦、发布会等对时延极敏感的场景。
相比前代,首字延迟降低 3.45 秒、字均延迟降低 1.88 秒,翻译质量几乎无损。

支持最多 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与翻译。特别适合技术发布会、医疗/法律/金融会议、企业内训等场景,显著降低"术语翻错、名字听错"的风险。

结合多模态理解能力,在语境模糊时自动引入视觉信息辅助判断,大幅降低"一词多义"导致的翻译歧义。
跨国会议 & 出境旅游:多语混说、复杂口音场景下,精准切分并同步翻译。搭配千问 AI 眼镜在海外点餐实测,语音交互 + 实时同传无缝衔接。
直播带货 & 影视出海:商品参数、价格、折扣数字翻译准确率极高。古文和文化内容也能准确理解并翻译,保留文化韵味。
智能硬件:可嵌入 AI 眼镜、翻译机等设备,提供语音交互 + 实时同传的一体化体验。

美团旗下GN06团队发布AI浏览器Tabbit 1.0,基础功能永久免费,专业版9.9元/周,支持多模型同时运行、脚本妙招和Agent任务管理。

月之暗面发布并开源Kimi K2.7 Code编程模型,1.1万亿参数、256K上下文,长程任务过度思考问题大幅改善,高速版6倍速度2倍价格。

清华大学开源视频生成加速框架RhymeFlow,无需重训练即可让Wan 2.1、CogVideoX等DiT模型推理提速1.5x-1.8x,质量几乎无损,62.5%用户无法区分差异。