清华 OpenBMB 放出 VoxCPM2,20 亿参数,200 万小时多语言数据训练,48kHz 录音棚级音质。
关键是——不用 Tokenizer。
传统 TTS 先把音频切成离散 token 再生成,信息损失不可避免。VoxCPM2 直接在连续潜空间里做扩散自回归,音色细节保留得更完整。
几个硬指标:
- 30 种语言 + 9 种中文方言
- X 4090 上实时率 0.13,流式输出几乎无延迟
- 用自然语言描述就能凭空创造声音,不需要参考音频
- 声音克隆还能调情绪、语速、表达方式
- Apache 2.0 协议,商用友好
最狠的是「终极克隆」模式:给一段参考音频 + 文本,连呼吸节奏、口癖这种微妙细节都能复刻。
GitHub 已经破万星,之前连续霸榜 GitHub 和 HuggingFace Trending。
播客、有声书、游戏配音、短视频旁白——开源方案已经够用了。
https://github.com/OpenBMB/VoxCPM
互联网充电站