Transformers.js实现浏览器内WebGPU加速的实时语音识别


transformers.js是最先进的Web机器学习。直接在浏览器中运行 Transformers,无需服务器!

Transformers.js 的设计功能与 Hugging Face 的transformers python 库相同,这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式下的常见任务,例如:

  • 自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
  • 计算机视觉:图像分类、物体检测和分割。
  • 音频:自动语音识别和音频分类。
  • 多模态:零样本图像分类。

Transformers.js 使用ONNX Runtime在浏览器中运行模型。最棒的是,您可以使用Optimum轻松将预训练的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX 。

whisper-base
模型 (whisper-base) 完全在设备上运行,并支持 100 种不同语言的多语言转录。

演示:https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu

  • Whisper tiny 甚至可以在 c++ 中以实时速度在 CPU 上运行。
  • 对于这个演示示例 a,运行了一个 4090,生成 50tok/s,通过任务管理器检查,它占用了大约 10% 的 GPU(甚至没有接近完全利用率)。

这是一个 WebComponent,网络上的任何人都可以轻松将其放入他们的网站。