toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具847个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策
VoxCPM 2:开源2B语音模型,30种语言9种方言
2026/04/09

VoxCPM 2:开源2B语音模型,30种语言9种方言

面壁智能开源2B语音模型VoxCPM 2,支持30种语言、9种中国方言、声音克隆、音色设计与情绪控制,48kHz CD音质,免费商用。

找一个免费、开源、支持方言和多语种的语音合成模型并不容易。市面上的闭源平台按字符收费,开源方案又往往在音质和表现力上打折扣。

VoxCPM 2 是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室推出的2B参数语音模型。它走了一条不同于主流Token-based方案的路线,采用扩散自回归连续表征技术,在保留声音的声学细节和情感特征上做得更好。

最重要的是,它完全开源免费,支持商用。

VoxCPM 2 是什么

用一个类比来理解:如果说传统的语音合成方案是先把油画拍成马赛克照片再试图还原,那VoxCPM 2是在连续的颜色空间里直接作画,跳过了"马赛克"这一步。这使得它在地道方言、声音克隆和情绪表达上的效果明显更好。

核心功能

语言与方言覆盖

  • 30种全球主流语言,特别强化了东南亚八国语言(泰语、越南语、印尼语、马来语、菲律宾语等)
  • 9种中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语

声音克隆

  • 上传5-20秒参考音频即可克隆声音
  • 支持参考音频降噪(勾选即可去除背景杂音)
  • 克隆相似度达到业界领先水平

音色设计

  • 无需上传任何参考音频,通过文字描述从零创造声音
  • 可以精确控制情绪、语速、音量等参数
  • 支持同一文本生成不同情绪的版本

高音质

  • 48000Hz CD级音质(市面普遍为24000Hz)
  • 生成速度约1秒

语音标签控制

  • 支持在文本中插入 [laughing](笑声)、[sigh](叹气)、[Uhm](嗯)等标签控制停顿效果

VoxCPM 2在线体验界面

在线体验:5步生成方言语音

第一步:打开体验页面

访问 https://voxcpm.modelbest.cn/ ,进入在线体验界面。

第二步:上传参考音频(可选)

在左上角上传一段参考音频,建议20秒左右。不上传也可以使用音色设计功能。

上传参考音频

第三步:填写控制指令

在"Control Instruction"中填写方言或语言指令,例如"东北话"、"粤语"、"Thai"等。还可以添加情绪和语速描述。

第四步:填写合成文本

将需要合成的台词文本填入文本框。

第五步:点击生成

点击"Generate Speech"按钮,不到1秒即可生成音频。

参数控制面板

提示: 生成面板还有几个关键参数:Text Normalization(文本规范化,处理日期和数字等AI读不准的内容)、CFG Value(控制AI的听话程度,数值越高越遵循指令)、LocDiT Steps(步数越高音质越好但速度越慢)。

控制参数详解

开发者部署

VoxCPM 2 提供了全家桶级的工具链:

  • 推理:原生Torch推理、LoRA微调、全参数微调都支持
  • 高吞吐:VoxCPM-NanoVLLM 用于GPU推理加速
  • UI插件:ComfyUI、WebUI插件一应俱全
  • Rust版本:为性能要求高的场景准备了Rust重构版

GitHub 地址:https://github.com/OpenBMB/VoxCPM/

HuggingFace 地址:https://huggingface.openbmb.com/model/openbmb/VoxCPM2

实际体验

方言场景:四川话、东北话、粤语的语气词和顿挫感都还原得很到位,不再是"标准普通话带口音"的效果。

音色设计:通过文字描述就能创造出从未存在的声音,比如"清澈男中音,偏冷调,像月光落在雪地上"这种描述也能生成出贴合的声音。

多语种:特别是东南亚语言的效果,海外用户反馈"自家语言的效果很不错"。

应用场景

  • 内容创作:短视频配音、有声书、播客生成
  • 跨境电商:东南亚出海团队的本地化配音,成本只有闭源平台的零头
  • 游戏与影视:角色配音、动画旁白
  • 文化内容:方言保护、地方特色内容创作

成本对比

闭源平台ElevenLabs的Pro套餐每月99美元,仅含50万字符额度。VoxCPM 2完全开源免费,部署成本大约是一张4090显卡的几度电费。

语音标签控制

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
VoxCPM 2 是什么核心功能在线体验:5步生成方言语音第一步:打开体验页面第二步:上传参考音频(可选)第三步:填写控制指令第四步:填写合成文本第五步:点击生成开发者部署实际体验应用场景成本对比

相关文章

Claude Managed Agents:0.6元时薪雇个AI数字员工
AI产品

Claude Managed Agents:0.6元时薪雇个AI数字员工

Anthropic 推出 Managed Agents,企业提供需求即可在云端运行 AI 智能体,基础设施全包按用量收费,0.08美元/会话小时

avatar for toolin小编
toolin小编
1天前
飞书钉钉企微齐出CLI,Agent原生工具怎么用
AI教程

飞书钉钉企微齐出CLI,Agent原生工具怎么用

飞书、钉钉、企业微信相继推出命令行工具,Karpathy强推CLI复兴趋势,本文教你如何用CLI让AI Agent直接操作企业软件。

avatar for toolin小编
toolin小编
3天前
DeepXiv:让AI Agent直接消费2亿篇论文的CLI工具
AI教程

DeepXiv:让AI Agent直接消费2亿篇论文的CLI工具

DeepXiv开源CLI工具,将2亿+开放论文转化为Agent可调用的数据接口,支持搜索、渐进式阅读、热点追踪和深度调研。

avatar for toolin小编
toolin小编
1天前