AI大语言模型、AGI

DeepSeek搭载英特尔芯片性能狂飙28倍！

#DeepSeek时刻 #大语言模型LLM #芯片半导体

2025-02-11 1 2K banq

KTransformers推出基于英特尔芯片的DeepSeek-R1/V3，性能飙升28倍！

大家好，我们是 KTransformers 团队（以前因为做了一个叫 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而挺有名的）。

我们听到了大家想要支持 DeepSeek-R1/V3 的请求——现在我们终于搞定了！

抱歉让大家等了这么久，但我们一直在准备一些特别厉害的东西。

今天，我们很自豪地宣布，我们不仅支持 DeepSeek-R1/V3，就像这个视频里展示的那样：https://github.com/kvcache-ai/ktransformers

而且我们还预览了一些即将推出的优化，包括 Intel AMX 加速内核和选择性专家激活方法，这些都会让性能大幅提升。

通过 v0.3-preview 版本，我们实现了高达 286 个 token/s 的预填充速度，这比 llama.cpp 的本地推理速度快了 28 倍。
现在已经有二进制分发了，源代码也会尽快发布！大家可以在这里查看详细信息：https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

这背后有几个原因：

为什么要做 CPU/GPU 混合推理？DeepSeek 的 MLA 运算符计算量非常大。虽然可以在 CPU 上运行所有内容，但把繁重的计算任务交给 GPU 可以大幅提升性能。
加速是怎么来的？
- 专家卸载：和传统的基于层或 KVCache 卸载（比如 llama.cpp 里用的）不同，我们把专家计算卸载到 CPU，把 MLA/KVCache 卸载到 GPU，这样和 DeepSeek 的架构完美匹配，效率最高。
- Intel AMX 优化——我们的 AMX 加速内核经过精心调优，运行速度比现有的 llama.cpp 实现快好几倍。我们计划在整理好后开源这个内核，并且正在考虑把它贡献给 llama.cpp 的上游项目。

为什么选择英特尔 CPU？
Intel 是目前唯一一家支持 AMX 类指令的 CPU 供应商，和只支持 AVX 的替代方案相比，性能明显更好。不过，我们也支持 AMD CPU，而且因为有了专家卸载，它也会比现在的 llama.cpp 更快。

网友：
问：这可以与 Unsloth的 1.58bit gguf 一起使用吗？
https://unsloth.ai/blog/deepseekr1-dynamic
答：这个项目可以支持 q2k、q3k、q5k，但不支持更小的尺寸，因为该型号在较低比特率下性能会显著下降。需要考虑 Qwen 通义千问系列型号。

问：但 1.58 模型的优点在于它为初始层保留了 6/4 位，为所有其他层保留了 1 位。它动态且性能非常好，我使用它时，它的行为和答案就像在线模型一样，它的性能真的很令人惊讶……
答：我们将在 TODO 列表中添加对不同层级的不同 qbit 的支持

这将是巨大的成功！如果你们都使用 unsloths 版本的 deepseek，它将在更少的硬件上运行得更快，达到完整模型 90% 以上的性能。
支持 unsloth 1.58bit 版本会很棒！也许可以联系 unsloth 的人，他们会愿意一起努力，加油！