在AMD芯片上运 DeepSeek R1精简推理模型


DeepSeek R1 Distilled Reasoning 模型通过“思路链推理”来仔细分析复杂的问题。它们不会马上给出答案,而是先花时间生成一系列的“思考”步骤,这通常需要内部处理几百甚至几千个标记。这种方法让模型在给出最终答案之前,能够评估各种可能性。虽然这会增加一些等待时间,但通常能得到更全面的结果,特别适合科学研究、数学和其他技术领域的任务。

AMD 的处理器和显卡支持不同大小的 DeepSeek R1 模型。比如,高端的 Ryzen AI Max+ 395 系列处理器可以运行较大的模型,如 Qwen-32B,而中端的 Ryzen AI HX 370 或 7040/8040 系列通常能处理 Qwen-14B 或 Llama-14B。对于显卡,像 Radeon RX 7900 XTX 这样的高端显卡可以支持 Qwen-32B,但低端显卡更适合运行较小的模型。为了节省内存并充分利用 GPU 资源,建议使用 Q4 KM 格式来量化这些模型。

要部署 DeepSeek R1 模型,首先需要安装 Adrenalin 25.1.1 或更新版本的驱动程序,并下载 LM Studio 0.3.8 或更高版本。

在 LM Studio 中,通过“发现”选项卡选择你想要的模型,确认使用 Q4 KM 量化,并根据你的系统配置调整 GPU 卸载层。设置完成后,在“聊天”选项卡中加载模型,就可以开始与它的思路链推理过程进行交互了。

这种本地部署方式不仅能增强数据安全性,还能减少延迟,因为所有的推理都在 AMD 硬件上直接运行。为了确保性能稳定,建议查阅官方文档,确认你的系统满足驱动程序和内存要求。

具体步骤:

  1. 确保驱动程序版本:安装 Adrenalin 25.1.1 或更高版本。
  2. 下载 LM Studio:从 lmstudio.ai/ryzenai 下载 LM Studio 0.3.8 或更高版本。
  3. 安装并跳过入门:安装 LM Studio 并跳过初始设置屏幕。
  4. 选择模型:点击“发现”选项卡,选择你想要的 DeepSeek R1 模型。较小的模型(如 Qwen 1.5B)运行速度更快,适合初学者,而较大的模型则提供更强的推理能力。
  5. 确认量化格式:在右侧选择“Q4 KM”量化,然后点击下载。
  6. 加载模型:下载完成后,回到“聊天”选项卡,从下拉菜单中选择 DeepSeek R1 模型,并确保“手动选择参数”已选中。
  7. 调整 GPU 卸载层:将 GPU 卸载层的滑块拉到最大值。
  8. 加载模型:点击“模型加载”。
  9. 开始交互:现在你可以与完全在本地 AMD 硬件上运行的推理模型进行交互了。
具体点击标题