本地运行DeepSeek-R1-0528指南

现在可以在本地设备上运行 DeepSeek-R1-0528!(至少 20GB RAM)
大家好!2天前,DeepSeek对他们的R1模型进行了巨大的更新,使其性能与OpenAI的o3,o 4-mini-high和Google的Gemini 2.5 Pro相当。

早在一月份,你可能还记得我的帖子,关于运行实际的720GB大小的R1(非蒸馏)模型,只有一个RTX 4090(24GB VRAM),现在我们正在做同样的这个更好的模型和更好的技术。

注意:如果你没有GPU,不用担心,DeepSeek还通过微调Qwen 3 -8B发布了R1-0528的更小版本。小型8B型号的性能与Qwen 3 - 235 B相当,因此您可以尝试运行它。该型号只需要20 GB RAM即可有效运行。使用Qwen 3 -8B R1蒸馏模型,您可以在48 GB RAM(无GPU)上获得8个令牌/秒。

在Unsloth,我们研究了R1-0528的架构,然后选择性地将层(如MOE专家层)量化为1.78位,2位等,这大大优于基本版本,计算量最小。我们的开源GitHub仓库:https://github.com/unslothai/unsloth

  • 我们将671 B参数型号R1从715 GB缩减到仅185 GB(大小缩减75%),同时尽可能保持准确性。
  • 你可以在你喜欢的推理引擎中使用它们,比如llama.cpp。
  • 最低要求:由于卸载,您可以使用20 GB的RAM(但它会非常慢)和190 GB的磁盘空间(用于下载模型重量)运行完整的671 B模型。我们建议至少有64 GB的RAM的大!
  • 最佳要求:VRAM+RAM的总和= 120GB+(这将是体面的足够)
  • 不,您不需要数百个RAM+VRAM,但如果您有,您可以每秒获得140个令牌,以提高吞吐量14个令牌/秒,用于使用1xH 100的单用户推理

如果你发现大的在你的设备上太慢,那么我建议你试试小的Qwen 3 -8B:https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF

大型R1 GGUF:https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF

我们还制作了一个完整的分步指南,用于在本地运行您自己的R1:https://docs.unsloth.ai/basics/deepseek-r1-0528

网友热评:
真的感觉美国数据中心/GPU支出的纸牌屋即将倒塌,因为他们不断遭受这样的低价冲击。软银和奥特曼有麻烦了。