
面壁智能开源2B语音模型VoxCPM 2,支持30种语言、9种中国方言、声音克隆、音色设计与情绪控制,48kHz CD音质,免费商用。
找一个免费、开源、支持方言和多语种的语音合成模型并不容易。市面上的闭源平台按字符收费,开源方案又往往在音质和表现力上打折扣。
VoxCPM 2 是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室推出的2B参数语音模型。它走了一条不同于主流Token-based方案的路线,采用扩散自回归连续表征技术,在保留声音的声学细节和情感特征上做得更好。
最重要的是,它完全开源免费,支持商用。
用一个类比来理解:如果说传统的语音合成方案是先把油画拍成马赛克照片再试图还原,那VoxCPM 2是在连续的颜色空间里直接作画,跳过了"马赛克"这一步。这使得它在地道方言、声音克隆和情绪表达上的效果明显更好。
语言与方言覆盖
声音克隆
音色设计
高音质
语音标签控制
[laughing](笑声)、[sigh](叹气)、[Uhm](嗯)等标签控制停顿效果
访问 https://voxcpm.modelbest.cn/ ,进入在线体验界面。
在左上角上传一段参考音频,建议20秒左右。不上传也可以使用音色设计功能。

在"Control Instruction"中填写方言或语言指令,例如"东北话"、"粤语"、"Thai"等。还可以添加情绪和语速描述。
将需要合成的台词文本填入文本框。
点击"Generate Speech"按钮,不到1秒即可生成音频。
![]()
提示: 生成面板还有几个关键参数:Text Normalization(文本规范化,处理日期和数字等AI读不准的内容)、CFG Value(控制AI的听话程度,数值越高越遵循指令)、LocDiT Steps(步数越高音质越好但速度越慢)。
![]()
VoxCPM 2 提供了全家桶级的工具链:
GitHub 地址:https://github.com/OpenBMB/VoxCPM/
HuggingFace 地址:https://huggingface.openbmb.com/model/openbmb/VoxCPM2
方言场景:四川话、东北话、粤语的语气词和顿挫感都还原得很到位,不再是"标准普通话带口音"的效果。
音色设计:通过文字描述就能创造出从未存在的声音,比如"清澈男中音,偏冷调,像月光落在雪地上"这种描述也能生成出贴合的声音。
多语种:特别是东南亚语言的效果,海外用户反馈"自家语言的效果很不错"。
闭源平台ElevenLabs的Pro套餐每月99美元,仅含50万字符额度。VoxCPM 2完全开源免费,部署成本大约是一张4090显卡的几度电费。
![]()

Anthropic 推出 Managed Agents,企业提供需求即可在云端运行 AI 智能体,基础设施全包按用量收费,0.08美元/会话小时

飞书、钉钉、企业微信相继推出命令行工具,Karpathy强推CLI复兴趋势,本文教你如何用CLI让AI Agent直接操作企业软件。

DeepXiv开源CLI工具,将2亿+开放论文转化为Agent可调用的数据接口,支持搜索、渐进式阅读、热点追踪和深度调研。