你是否厌倦了机械生硬的AI配音?是否为小语种语音合成效果差而头疼?VoxCPM2 是由清华 OpenBMB 团队推出的下一代端到端语音合成模型,它彻底跳出了传统TTS依赖音素/文本token的框架,直接从文本生成高保真语音波形——不仅支持中、英、日、韩、法、西等10+语言,还能“设计声音”、克隆真人嗓音,甚至让虚拟角色拥有独特声线风格。它不是又一个微调模型,而是一次对语音合成底层逻辑的重构。
核心功能
- 零Tokenizer架构:不依赖音素、字素或任何预定义语音单元,文本输入后直接生成原始音频波形,避免信息损失与对齐误差,显著提升自然度与韵律连贯性
- 开箱即用的多语种合成:原生支持中文、英语、日语、韩语、法语、西班牙语、葡萄牙语、阿拉伯语、越南语、泰语等十余种语言,无需切换模型或额外配置
- 创意语音设计(Creative Voice Design):通过简单提示词(如“温柔女声”“沉稳男播音腔”“带笑意的少年音”),实时调节音色、语速、情绪和风格,让AI声音真正可编辑、可创作
- 高保真语音克隆(True-to-Life Cloning):仅需3秒纯净语音样本,即可复刻说话人的音色、语调与个性特征,克隆效果在中文场景下已达行业领先水平
- 轻量高效,本地可运行:模型经深度优化,单卡RTX 4090即可实时推理(<300ms延迟),支持CPU离线推理(速度稍慢但完全可用),开发者、内容创作者均可轻松部署
- 全链路开源生态支持:提供Hugging Face Space在线体验页、ModelScope镜像、ReadTheDocs完整文档、Docker容器化部署方案及API服务示例,开箱即用无门槛
适合哪些人用
如果你是以下身份之一,VoxCPM2 将极大提升你的工作流效率与创作自由度:
• 短视频/播客创作者:批量生成多语种旁白、定制角色配音、快速试配不同声线脚本;
• 教育科技开发者:为语言学习App集成自然母语发音引擎,支持实时跟读反馈;
• 无障碍技术工程师:为视障用户打造更富表现力、更易理解的语音播报系统;
• 游戏与AIGC团队:为NPC生成个性化语音,或作为语音驱动数字人底层TTS模块;
• 高校研究者与学生:探索无tokenizer语音建模、跨语言声学迁移、低资源语音克隆等前沿方向——代码、数据、训练日志全部公开。
快速上手
无需复杂环境配置,三步开启语音创作:
- 安装依赖:执行
pip install voxcpm(自动安装PyTorch + CUDA适配版本) - 一句话合成:运行 Python 脚本,调用
VoxCPM2.inference(),传入文本、目标语言(如 “zh”)、风格描述(可选)和参考音频路径(克隆时使用) - 在线尝鲜:访问 Hugging Face Demo页,上传语音、输入文字,3秒生成试听——零代码体验全部能力
详细教程、API参数说明、微调指南与中文文档请查阅 官方中文文档。
项目信息
VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning
7.5k
今日 +460 stars today
Stars
901
Forks
Python
Apache-2.0
编程语言:Python|GitHub Star 数:7531|开源协议:Apache-2.0|GitHub 项目地址
该项目由清华大学知识智能实验室(OpenBMB)主导研发,是国产大模型生态中少有的、在语音生成领域实现原创性技术突破的开源项目,已入选 Hugging Face “Featured Model” 及 ModelScope “精选模型”,代表中国AI基础研究在多模态生成方向的扎实进展。
VoxCPM2 不只是更好用的TTS,它是让每个人都能拥有专属声音引擎的开源钥匙——自然、自由、不设限。





