
CosyVoice2
阿里开源的多语言AI语音生成与克隆模型
Multi-language
免费
AI语音合成
0收藏
84浏览


阿里开源的多语言AI语音生成与克隆模型

CosyVoice是阿里巴巴FunAudioLLM团队开源的多语言大型语音生成模型,提供从推理到训练和部署的全栈能力。该模型基于大型语言模型架构,通过监督语义令牌技术实现了高质量的文本转语音合成。最新的CosyVoice 3.0版本将训练数据从1万小时扩展到100万小时,模型参数从5亿增长至15亿,显著提升了内容一致性、说话人相似度和韵律自然度。
主要功能
应用场景
在语音翻译领域,CosyVoice可以保持说话人音色的同时实现跨语言翻译输出;在有声读物和互动播客制作中,创作者可以快速生成多角色、多情感的语音内容;在智能客服和人机交互场景中,企业可以利用其超低延迟特性实现流畅的实时语音对话。
技术优势
CosyVoice 2.0在性能评测中取得了5.53的MOS(平均意见分)评分,接近商业模型的5.52分水平,相比1.0版本的5.4分有显著提升。在Seed-TTS困难测试集上,CosyVoice 2.0实现了最低的字符错误率,在绕口令、多音字和生僻字处理上表现出色。发音错误率相比1.0版本降低了30-50%,同时支持TensorRT-LLM加速推理,性能提升4倍。项目在GitHub上获得18.4k星标,持续活跃维护,2025年12月刚发布最新版本。
完全免费开源
还没有人评价这个工具