Voicebox 是一个真正开箱即用的开源AI语音平台,它把原本需要调用多个云API、部署复杂模型的语音任务——比如克隆自己的声音、将会议录音转成文字、或让AI助手用你指定的声线说话——全部整合进一个轻量、本地运行的桌面应用中。无需注册账号、不上传隐私音频、不依赖网络,所有语音处理都在你自己的电脑上完成,既安全又自由。
核心功能
- 零门槛声音克隆:只需30秒清晰人声录音,即可生成高保真度的个性化语音模型,支持中文、英文等多语种发音,效果媲美商用TTS服务
- 跨应用实时语音输入(Dictation):开启后可将麦克风语音实时转为文字,直接输入到微信、Word、Notion等任意软件,告别手动打字
- 本地化语音合成与播放:内置Qwen3-TTS引擎,支持情感调节(如欢快、沉稳)、语速/音调微调,输出WAV/MP3格式,离线可用
- Whisper级语音转写:基于优化版Whisper模型,支持中英混合识别、带标点与时间戳的精准转录,会议记录、访谈整理效率翻倍
- AI语音交互扩展能力:提供标准API接口,可接入本地大模型(如Ollama),实现“用你自己的声音和AI对话”的沉浸式体验
- 全平台原生支持:Windows/macOS/Linux三端发布,Mac用户特别适配Apple Silicon(M系列芯片),CUDA加速版支持NVIDIA显卡,性能释放更充分
适合哪些人用
内容创作者可以用它快速生成播客配音或短视频旁白;教师和学生能录制课程讲解并一键转文字做笔记;程序员可将其集成进自动化工作流,实现语音控制脚本执行;听障人士借助高精度转写提升沟通效率;而注重隐私的商务人士,则终于拥有了不必把敏感会议录音上传云端的可靠替代方案。无论你是技术小白还是开发者,Voicebox 都提供了图形界面(Qwen3-TTS-UI)与命令行双路径支持。
快速上手
访问 GitHub Releases 页面,根据系统下载对应安装包(.exe/.dmg/.AppImage)——Windows用户双击安装即用,macOS用户拖入Applications文件夹后允许“未知开发者”即可启动。首次运行会自动下载轻量模型(约1.2GB),全程离线完成。界面简洁直观:点击「录音」克隆声音,点击「麦克风」开启实时听写,拖入音频文件即可批量转写。进阶用户可通过终端执行npx voicebox-cli调用CLI工具,或查阅文档对接自定义AI Agent。
项目信息
The open-source AI voice studio. Clone, dictate, create.
TypeScript 开发|GitHub Star 数:31,831|MIT 开源协议|GitHub 项目地址
如果你厌倦了被厂商锁定的语音服务、担心数据泄露,又渴望真正属于自己的AI声音主权——Voicebox 不是另一个玩具,而是你桌面上正在运行的、值得信赖的语音生产力中枢。




