Voicebox免费开源AI语音克隆 | 本地替代 ElevenLabs

#AI视频 #AI端侧 #GitHub工具库推荐 #本地小语言模型

2026-06-29 7K banq

每月省下几十刀，这个开源软件让你的声音随便克隆！

Voicebox 是一个开源、本地优先（Local-first）的 AI 语音工作室，将*语音克隆、文本转语音（TTS）、语音转文字（ASR）、语音代理（Voice Agent）整合到同一个桌面应用中，定位为 ElevenLabs + WisprFlow 的开源替代方案。所有模型和语音数据均可在本地运行，无需上传到云端。

只要录几秒钟自己的声音，电脑就能用你的口音和语调，替你说出任何语言的任何句子，而且永远不收费。每月几十美元的订阅费突然显得像个笑话。

有人算过一笔账。ElevenLabs 每个月收二十二美元，只给你克隆一种声音的额度。Descript 收二十四美元，能生成语音但限制时长。Murf 收二十九美元，套餐里的字数总让人提心吊胆。这些服务都在云端，录音要传上去，生成的音频要下载下来，每个环节都像在别人家客厅里说悄悄话。

而 Voicebox跑在你的电脑上，不联网，不收月费，不限制生成长度。你只需要对着麦克风说几句话，几秒钟就够。它记住你的声音特征，你打字进去，它就念出来。可以念中文，可以念日语，可以念阿拉伯语，可以念斯瓦希里语。可以念得严肃，可以念得兴奋，可以念得阴阳怪气。

最讽刺的地方在于，那些付费服务生怕你多用，用超了要加钱。而这个免费的东西鼓励你随便用，录一整本书都行。它会把长文本自动切成小段，生成完再无缝拼接起来，中间听不出断点。

七个引擎躲在后台等你选，每个都有自己的脾气

Qwen3-TTS 是阿里通义实验室开源的模型，主打自然度和多语言支持。Qwen CustomVoice 允许你通过自然语言指令控制说话风格，比如告诉它“用疲惫的客服语气念这段投诉回复”。LuxTTS 和 Chatterbox 系列专注于多语言和情感表达，Chatterbox Turbo 还能识别方括号里的表演指令。

HumeAI TADA 更倾向于生成富有表现力的对话语音，Kokoro 则提供大量预设声音，不想克隆的人可以直接挑一个顺耳的用。这些引擎有的快，有的慢，有的占显存多，有的占显存少。你可以根据自己电脑的配置和手头任务的紧急程度来回切换。

Voicebox 把它们全塞进一个界面里，点一下按钮就能换。不像某些云服务，换引擎等于换套餐，要重新算钱。

克隆声音这件事，被简化成了读秒游戏

传统的语音克隆需要收集大量录音素材，有时候要录一两个小时，还要做降噪、切分、标注之类的预处理工作。然后把数据传到云端或者用高性能服务器训练几天，才能得到一个勉强能用的声音模型。

Voicebox 的做法是零样本克隆。你录五到十秒的音频，它当场提取声音特征，不需要额外训练。这个技术原理不复杂，但以前被包装得很高大上，仿佛是什么需要博士学位才能操作的黑科技。

它同时支持官方预设声音，如果你不想暴露自己的声音，或者想用某个名人的音色（在合法范围内），直接选一个就行。Kokoro 和 Qwen CustomVoice 合计提供了超过五十种预设选项，涵盖不同年龄、性别和语言背景。

这让它变成了一个语音版的变声器加提词器。你打字，它说话，说的是你的声音或者你选的声音，说任何语言，带任何情绪。

它能听懂方括号里的表演指令，比如笑一声或者叹口气

Chatterbox Turbo 引擎支持表达性副语言标签。你在脚本里写“[laugh]”，生成的语音就会在对应位置插入一声笑。写“[sigh]”就是叹气，写“[gasp]”就是倒抽一口冷气。写“[whisper]”就开始说悄悄话。

这个功能在制作有声书、播客或对话脚本时特别有用。你可以提前标注好人物的情绪状态，让生成的语音带点戏剧效果，而不是干巴巴的朗读。

Qwen CustomVoice 走的是另一条路子。它不用方括号，直接用自然语言指令控制风格。你可以在输入框里写“用温柔的语气，像在哄小孩睡觉那样念这段”，它就能调整语速、音高和停顿方式。虽然效果有时候看运气，但比逐个调节滑块要直观得多。

这些控制方式让语音生成从“朗读”进化到了“表演”。虽然离真人演员还有差距，但已经足够唬住大部分听众了。

后期效果器让声音听起来像在澡堂子里录的

生成完语音之后，你可以给它加各种效果。调音高能让男声变女声，加混响能模拟在大教堂或浴室里说话的效果，加延迟和合唱能制造科幻感的回声。压缩器能让音量更均匀，滤波器能切掉低频噪音或者模拟电话听筒的音质。

这些效果在音乐制作软件里很常见，但很少出现在 TTS 工具里。Voicebox 把它们整合进来，相当于给语音生成加了一层音频后期工作流。你可以把一段平淡的合成语音，处理成像在广播电台里播出的样子。

虽然没有专业插件那么精细，但对于播客、视频配音、有声内容创作来说，已经足够用了。

它能一口气念完一整章小说，中间不带断气的

大多数云 TTS 服务有字数限制，生成一段五分钟的音频已经算长篇。Voicebox 的自动分块和交叉淡入功能让生成长度没有上限。你丢进去一万字的稿件，它会自动切成小段分发给引擎处理，生成后再把每段音频的接缝处做平滑过渡。

这意味着你可以用它制作完整的有声书、长篇播客剧本，或者某个课程的完整语音版。全程不需要手动分段、拼接，也不需要担心停顿处听起来像两句话拼在一起。

当然，生成时间取决于你的电脑配置。用 CPU 跑可能等得比较久，用显卡加速会快很多。苹果自研芯片和英伟达显卡都有对应的优化方案。

除了说话，它还能听你说话并转成文字

语音识别用的是 Whisper 模型，这个开源项目已经被广泛用在各种转录工具里。Voicebox 把它内置进来，让你可以直接对着麦克风说话，它实时转成文字显示在界面上。

这个功能有两种用法。一种是录音转文字，把会议记录、课堂笔记、采访音频转成可编辑的文本。另一种是全局语音输入，按下快捷键就能在任何应用里用语音打字，比如在 Word 里写文档，在聊天框里发消息，在代码编辑器里写注释。

后一种用法对标的是 Wispr Flow 这类语音输入工具。它们通常按年收费，而 Voicebox 不收钱。只不过语音识别的准确率受环境噪音和口音影响，需要自己调整麦克风设置。

它能同时扮演好几个人，演完一场广播剧

多角色语音创作是 Voicebox 的又一个功能。你可以给不同的台词分配不同的声音，有的用预设音色，有的用克隆音色，然后一次性生成带有对话感的音频文件。

这个功能在制作对话体内容时很省事。比如你要做一个两人对谈的播客片段，A 用克隆的男声，B 用预设的女声，脚本里标好每句话是谁说的，生成的音频就会自动切换声音角色。

虽然每个角色的情绪和语调需要单独设置，不能像真人即兴对话那样自然流畅，但对于预算有限的独立创作者来说，已经是一个可行的方案。不用请配音演员，不用租录音棚，不用后期剪辑对白时间轴。

那些用 AI 写代码的工具，现在能开口说话了

Voicebox 自带了 REST API 和 MCP 服务器。MCP 是个模型上下文协议，用来让 AI 工具调用外部功能。这意味着你可以把 Voicebox 的语音能力接入到各种 AI 编程助手里。

比如你用 Claude Code 写代码，它可以在回复你的时候直接念出来。你用 Cursor 或 Windsurf 写代码，语音助手可以播报编译错误或运行结果。你用 VS Code 的 MCP 扩展，可以让编辑器在特定事件触发时发出语音提示。

AI Agent 可以调用 Voicebox 朗读长篇回复，可以播报系统状态，可以管理语音配置。这相当于给 AI 工具装了一张嘴，让它从沉默的文字输出变成有声的交互。

这个功能目前还在早期阶段，连接配置需要手动改几个文件，不像云服务那样一键启用。但对于熟悉命令行操作的开发者来说，折腾一下也不费事。

底层技术其实没什么秘密，就是几样东西拼在一起

桌面应用基于 Tauri 框架，前端用 React 和 TypeScript，后端用 FastAPI 提供 Python 接口。数据库用 SQLite 存储配置和录音记录，模型推理用 MLX（针对苹果芯片）或 PyTorch（支持英伟达 CUDA、AMD ROCm 和纯 CPU）。

Tauri 和 Electron 的区别在于，Tauri 的前端是系统自带的 WebView，体积更小，内存占用更低。这让 Voicebox 的安装包不会膨胀到几百兆，启动速度也比 Electron 应用快一些。

FastAPI 后端负责调用各个 TTS 引擎和 Whisper 模型，然后通过 WebSocket 把生成的音频流推给前端播放。整个过程在本地完成，音频数据不会离开你的电脑。

这种架构让它既是一个独立应用，也是一个本地服务。开着的状态，其他程序可以通过 API 调用它的功能。

官方直接给了安装包，但 Linux 用户得自己动手

Windows 和 macOS 都提供预编译的安装包，下载双击就能装。macOS 分苹果芯片和英特尔芯片两个版本，因为两种架构的优化路径不一样。Docker 镜像也有，方便在服务器上部署成服务。

Linux 没有预编译包，需要从源码自己构建。GitHub 仓库里有构建脚本，跟着 README 操作也不算复杂，只是需要装一堆依赖。对于 Linux 桌面用户来说，这本来就是常态。

所有版本都需要满足硬件要求。语音生成依赖显卡或 CPU 算力，集成显卡的笔记本电脑跑起来会比较吃力，独立显卡或苹果芯片会有更好的体验。官方没有列具体的配置要求，因为不同模型对资源的需求差别太大。

它更像一套语音工具箱，而不是一个玩具

市面上大部分 TTS 应用只做一件事：把文字转成语音。有的附带声音克隆，但克隆功能通常要额外付费。语音识别、语音输入、后期处理这些功能，往往分散在不同产品里，每个都要单独订阅。

Voicebox 把所有这些功能装进一个应用，不收钱，不联网，不限制用量。而且开放 API 接口，可以集成到自动化工作流里。它可能在某些单项功能上不如专业付费产品精细，但综合来看，覆盖了语音创作者的大部分需求。

对于那些每个月都在为语音订阅付费的人来说，这个项目提供了一个值得尝试的替代方案。

如果你愿意折腾，可以省下这笔钱。如果你不喜欢折腾，等它再迭代几个版本，体验应该会更顺畅。

总结

ElevenLabs 每月 22 美元、Descript 24 美元、Murf 29 美元——这些云服务的定价依赖于一个假设：用户没有免费、本地、无限量的替代品。Voicebox 的存在本身，就是对这一商业逻辑的直接质疑。

市场普遍认为高质量的语音克隆和生成服务必须依赖云端算力、按月付费、并受到严格的使用限制，其商业逻辑建立在“本地免费方案不可行”的隐性共识之上。
而 Voicebox 用开源、本地运行、整合多引擎的方式，直接推翻了这一假设，让“无限量使用”与“零成本”同时成立，从而使得每月几十美元的订阅费在功能对等的前提下显得缺乏合理性。

核心特点

本地运行，保护隐私
- 所有模型推理、语音数据和配置均保存在本机。
- 支持离线使用，无需依赖云服务。
多模型 TTS 引擎
- 内置 7 种语音生成引擎，包括：
  - Qwen3-TTS
  - Qwen CustomVoice
  - LuxTTS
  - Chatterbox Multilingual
  - Chatterbox Turbo
  - HumeAI TADA
  - Kokoro
- 可根据质量、速度和显存需求自由切换。
快速语音克隆
- 使用几秒钟参考音频即可完成 Zero-shot Voice Cloning。
- 同时支持官方预设声音，无需提供参考音频即可生成自然语音。
23 种语言支持
- 覆盖英语、中文、日语、阿拉伯语、印地语等多国语言。
- 不同模型支持语言数量有所不同。

不只是 TTS
除了文本转语音，Voicebox 还集成了一整套语音工作流：

Whisper 语音识别（ASR）
全局快捷键语音输入（Dictation）
- 可直接向任意应用输入文字。
语音记录管理
- 保存录音与转录内容，支持重新转录和编辑。
多角色语音创作
- 可制作对话、播客、有声书等多人语音内容。

技术架构

项目采用本地桌面架构：

桌面： Tauri（Rust）
前端： React + TypeScript
后端： FastAPI（Python）
数据库： SQLite
语音识别： Whisper
推理： MLX（Apple Silicon）/ PyTorch（CUDA、ROCm、CPU）

支持平台
目前提供：

Windows
macOS（Apple Silicon / Intel）
Docker

Linux 可从源码构建，官方暂未提供预编译安装包。

项目亮点
相比单一 TTS 工具，Voicebox 更像是一套完整的本地 AI 语音生产平台：

一站式整合语音克隆、TTS、ASR 和 Agent 语音能力
多模型自由切换，而非绑定单一模型
全程本地推理，兼顾隐私与低成本
开放 API 与 MCP，便于集成到 AI 应用和自动化工作流
基于 Tauri 构建，相比 Electron 更轻量。