WhisperFusion 基于WhisperLive和 WhisperSpeech的功能而构建,将大型语言模型 (LLM) Mistral 集成到实时语音到文本管道之上。 LLM 和 Whisper 都经过优化,可作为 TensorRT 引擎高效运行,从而最大限度地提高性能和实时处理能力。 WhiperSpeech 是通过 torch.compile 进行优化的。
特征
- 实时语音转文本:利用 OpenAI WhisperLive 将口语实时转换为文本。
- 大型语言模型集成:添加大型语言模型 Mistral,以增强对转录文本的理解和上下文。
- TensorRT 优化:LLM 和 Whisper 都经过优化,可作为 TensorRT 引擎运行,确保高性能和低延迟处理。
- torch.compile:WhisperSpeech 使用 torch.compile 来加速推理,通过将 PyTorch 代码 JIT 编译到优化的内核中,使 PyTorch 代码运行得更快。
项目点击标题