toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具982个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策
工具库AI音视频CosyVoice2
CosyVoice2

CosyVoice2

阿里开源的多语言AI语音生成与克隆模型

Multi-language
免费
AI语音合成
0收藏
84浏览
CosyVoice2 screenshot

工具详细介绍

CosyVoice是阿里巴巴FunAudioLLM团队开源的多语言大型语音生成模型,提供从推理到训练和部署的全栈能力。该模型基于大型语言模型架构,通过监督语义令牌技术实现了高质量的文本转语音合成。最新的CosyVoice 3.0版本将训练数据从1万小时扩展到100万小时,模型参数从5亿增长至15亿,显著提升了内容一致性、说话人相似度和韵律自然度。

主要功能

  • 零样本语音克隆:仅需3-10秒的原始音频即可快速复刻音色,包括韵律、情感等细节特征
  • 广泛语言支持:覆盖9种主流语言(中文、英文、日语、韩语、德语、西班牙语、法语、意大利语、俄语)和18+种中文方言(粤语、闽南语、川语、东北话等)
  • 跨语言语音合成:支持使用一种语言的音色生成另一种语言的语音
  • 自然语言控制:通过指令文本控制语言、方言、情感、语速和音量等参数
  • 流式语音合成:支持双向流式处理,首包合成延迟低至150毫秒
  • 发音微调:支持中文拼音和英文CMU音素的发音精细控制

应用场景

在语音翻译领域,CosyVoice可以保持说话人音色的同时实现跨语言翻译输出;在有声读物和互动播客制作中,创作者可以快速生成多角色、多情感的语音内容;在智能客服和人机交互场景中,企业可以利用其超低延迟特性实现流畅的实时语音对话。

技术优势

CosyVoice 2.0在性能评测中取得了5.53的MOS(平均意见分)评分,接近商业模型的5.52分水平,相比1.0版本的5.4分有显著提升。在Seed-TTS困难测试集上,CosyVoice 2.0实现了最低的字符错误率,在绕口令、多音字和生僻字处理上表现出色。发音错误率相比1.0版本降低了30-50%,同时支持TensorRT-LLM加速推理,性能提升4倍。项目在GitHub上获得18.4k星标,持续活跃维护,2025年12月刚发布最新版本。

完全免费开源

常见问题

CosyVoice2 是一款 AI音视频,阿里开源的多语言AI语音生成与克隆模型。

用户评价

用户评价

暂无评价

还没有人评价这个工具

操作

关键信息

支持平台

Web
Mobile
Desktop

支持语言

Multi-language

更新时间

2025年12月27日

价格

免费

在这些精选工具集中探索 CosyVoice2

相关标签

语音克隆
语音合成
开源模型
多语言TTS
流式语音
广告
atoms.dev

还没有人把此工具收进技能包

创建技能包后,可把本工具加入并分享给他人

去创建技能包

CosyVoice2 相似工具推荐

查看更多
Higgs Audio V2

Higgs Audio V2

AI音视频

Boson AI开源的表现力音频生成模型

IndexTTS-2

IndexTTS-2

AI音视频

B站开源的情感可控零样本语音合成系统

DupDub

DupDub

AI音视频

出门问问AI多媒体内容创作平台

PlayAI

PlayAI

AI音视频

超逼真的AI语音生成和文本转语音平台

Voicv

Voicv

AI音视频

10秒克隆声音的AI语音工具

Noiz

Noiz

AI音视频

表情符号驱动的AI语音合成平台