你的私人AI语音工作室：一键克隆声音、实时转录、本地运行的全能语音工具

昆仑 AI

2026-06-22 0 3

Voicebox 是一个真正开箱即用的开源AI语音平台，它把原本需要调用多个云API、部署复杂模型的语音任务——比如克隆自己的声音、将会议录音转成文字、或让AI助手用你指定的声线说话——全部整合进一个轻量、本地运行的桌面应用中。无需注册账号、不上传隐私音频、不依赖网络，所有语音处理都在你自己的电脑上完成，既安全又自由。

核心功能

零门槛声音克隆：只需30秒清晰人声录音，即可生成高保真度的个性化语音模型，支持中文、英文等多语种发音，效果媲美商用TTS服务
跨应用实时语音输入（Dictation）：开启后可将麦克风语音实时转为文字，直接输入到微信、Word、Notion等任意软件，告别手动打字
本地化语音合成与播放：内置Qwen3-TTS引擎，支持情感调节（如欢快、沉稳）、语速/音调微调，输出WAV/MP3格式，离线可用
Whisper级语音转写：基于优化版Whisper模型，支持中英混合识别、带标点与时间戳的精准转录，会议记录、访谈整理效率翻倍
AI语音交互扩展能力：提供标准API接口，可接入本地大模型（如Ollama），实现“用你自己的声音和AI对话”的沉浸式体验
全平台原生支持：Windows/macOS/Linux三端发布，Mac用户特别适配Apple Silicon（M系列芯片），CUDA加速版支持NVIDIA显卡，性能释放更充分

适合哪些人用

内容创作者可以用它快速生成播客配音或短视频旁白；教师和学生能录制课程讲解并一键转文字做笔记；程序员可将其集成进自动化工作流，实现语音控制脚本执行；听障人士借助高精度转写提升沟通效率；而注重隐私的商务人士，则终于拥有了不必把敏感会议录音上传云端的可靠替代方案。无论你是技术小白还是开发者，Voicebox 都提供了图形界面（Qwen3-TTS-UI）与命令行双路径支持。

快速上手

访问 GitHub Releases 页面，根据系统下载对应安装包（.exe/.dmg/.AppImage）——Windows用户双击安装即用，macOS用户拖入Applications文件夹后允许“未知开发者”即可启动。首次运行会自动下载轻量模型（约1.2GB），全程离线完成。界面简洁直观：点击「录音」克隆声音，点击「麦克风」开启实时听写，拖入音频文件即可批量转写。进阶用户可通过终端执行npx voicebox-cli调用CLI工具，或查阅文档对接自定义AI Agent。