sesame-csm:免费的文本转语音工具


Sesame CSM是一款 100% 本地、免费的 文本转语音工具,具有 卓越的语音克隆功能!无需云处理,无需 API 密钥 

只需 在您自己的机器上生成纯粹、高质量的 AI 生成语音。

该模型架构采用 Llama 主干和可生成 Mimi 音频代码的小型音频解码器。

 特征:
✅  100% 本地运行 – 无需互联网!
✅ 免费且开源 – 无需付费墙,无需订阅。
✅ 卓越的语音克隆 – 内置于 UI 中!
✅ G电台 UI  – 简洁的界面,方便播放和控制。
✅ 支持 CUDA、MLX 和 CPU  – 适用于 NVIDIA、Apple Silicon 和常规 CPU。

为什么要使用?
如果您正在寻找一款快速、免费、高质量的带语音克隆功能的文本转语音工具,Sesame CSM 是您的完美选择。无论您是开发人员、内容创建者,还是只是尝试使用 AI 生成的语音,此工具都可以让您完全控制,没有任何限制。

入门:

git clone https://github.com/akashjss/sesame-csm.git
cd sesame-csm

安装依赖项,使用 venv 隔离环境,如下所示。

python -m venv venv
source venv/bin/activate
 
pip install -r requirements.txt

python run_csm_gradio.py


服务器运行后,在浏览器中打开 Gradio UI 开始生成语音!

如何使用语音克隆
Sesame CSM 最令人兴奋的功能之一是其内置的语音克隆功能。您可以录制自己的声音并使用它来生成 AI 语音。
克隆你的声音的步骤:

  1. 单击UI 中的麦克风图标。
  2. 按下录音按钮并阅读扬声器提示。
  3. 完成后停止录制。
  4. 单击“生成对话”即可使用您录制的声音创建 AI 生成的语音。