DeepSeek搭载英特尔芯片性能狂飙28倍!


KTransformers推出基于英特尔芯片的DeepSeek-R1/V3,性能飙升28倍!

大家好,我们是 KTransformers 团队(以前因为做了一个叫 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而挺有名的)。

我们听到了大家想要支持 DeepSeek-R1/V3 的请求——现在我们终于搞定了!

抱歉让大家等了这么久,但我们一直在准备一些特别厉害的东西。

今天,我们很自豪地宣布,我们不仅支持 DeepSeek-R1/V3,就像这个视频里展示的那样:https://github.com/kvcache-ai/ktransformers

而且我们还预览了一些即将推出的优化,包括 Intel AMX 加速内核和选择性专家激活方法,这些都会让性能大幅提升。

通过 v0.3-preview 版本,我们实现了高达 286 个 token/s 的预填充速度,这比 llama.cpp 的本地推理速度快了 28 倍。
现在已经有二进制分发了,源代码也会尽快发布!大家可以在这里查看详细信息:https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

这背后有几个原因:

  1. 为什么要做 CPU/GPU 混合推理?DeepSeek 的 MLA 运算符计算量非常大。虽然可以在 CPU 上运行所有内容,但把繁重的计算任务交给 GPU 可以大幅提升性能。
  2. 加速是怎么来的?
    • 专家卸载:和传统的基于层或 KVCache 卸载(比如 llama.cpp 里用的)不同,我们把专家计算卸载到 CPU,把 MLA/KVCache 卸载到 GPU,这样和 DeepSeek 的架构完美匹配,效率最高。
    • Intel AMX 优化——我们的 AMX 加速内核经过精心调优,运行速度比现有的 llama.cpp 实现快好几倍。我们计划在整理好后开源这个内核,并且正在考虑把它贡献给 llama.cpp 的上游项目。
  • 为什么选择英特尔 CPU?
    Intel 是目前唯一一家支持 AMX 类指令的 CPU 供应商,和只支持 AVX 的替代方案相比,性能明显更好。不过,我们也支持 AMD CPU,而且因为有了专家卸载,它也会比现在的 llama.cpp 更快。

    网友:
    问:这可以与 Unsloth的 1.58bit gguf 一起使用吗?
    https://unsloth.ai/blog/deepseekr1-dynamic
    答:这个项目可以支持 q2k、q3k、q5k,但不支持更小的尺寸,因为该型号在较低比特率下性能会显著下降。需要考虑 Qwen 通义千问系列型号。

    问:但 1.58 模型的优点在于它为初始层保留了 6/4 位,为所有其他层保留了 1 位。它动态且性能非常好,我使用它时,它的行为和答案就像在线模型一样,它的性能真的很令人惊讶……
    答:我们将在 TODO 列表中添加对不同层级的不同 qbit 的支持

    这将是巨大的成功!如果你们都使用 unsloths 版本的 deepseek,它将在更少的硬件上运行得更快,达到完整模型 90% 以上的性能。
    支持 unsloth 1.58bit 版本会很棒!也许可以联系 unsloth 的人,他们会愿意一起努力,加油!