在AMD芯片上运 DeepSeek R1精简推理模型

#芯片半导体 #大语言模型LLM #DeepSeek时刻

2025-02-02 banq

DeepSeek R1 Distilled Reasoning 模型通过“思路链推理”来仔细分析复杂的问题。它们不会马上给出答案，而是先花时间生成一系列的“思考”步骤，这通常需要内部处理几百甚至几千个标记。这种方法让模型在给出最终答案之前，能够评估各种可能性。虽然这会增加一些等待时间，但通常能得到更全面的结果，特别适合科学研究、数学和其他技术领域的任务。

AMD 的处理器和显卡支持不同大小的 DeepSeek R1 模型。比如，高端的 Ryzen AI Max+ 395 系列处理器可以运行较大的模型，如 Qwen-32B，而中端的 Ryzen AI HX 370 或 7040/8040 系列通常能处理 Qwen-14B 或 Llama-14B。对于显卡，像 Radeon RX 7900 XTX 这样的高端显卡可以支持 Qwen-32B，但低端显卡更适合运行较小的模型。为了节省内存并充分利用 GPU 资源，建议使用 Q4 KM 格式来量化这些模型。

要部署 DeepSeek R1 模型，首先需要安装 Adrenalin 25.1.1 或更新版本的驱动程序，并下载 LM Studio 0.3.8 或更高版本。

在 LM Studio 中，通过“发现”选项卡选择你想要的模型，确认使用 Q4 KM 量化，并根据你的系统配置调整 GPU 卸载层。设置完成后，在“聊天”选项卡中加载模型，就可以开始与它的思路链推理过程进行交互了。

这种本地部署方式不仅能增强数据安全性，还能减少延迟，因为所有的推理都在 AMD 硬件上直接运行。为了确保性能稳定，建议查阅官方文档，确认你的系统满足驱动程序和内存要求。

具体步骤：

确保驱动程序版本：安装 Adrenalin 25.1.1 或更高版本。
下载 LM Studio：从 lmstudio.ai/ryzenai 下载 LM Studio 0.3.8 或更高版本。
安装并跳过入门：安装 LM Studio 并跳过初始设置屏幕。
选择模型：点击“发现”选项卡，选择你想要的 DeepSeek R1 模型。较小的模型（如 Qwen 1.5B）运行速度更快，适合初学者，而较大的模型则提供更强的推理能力。
确认量化格式：在右侧选择“Q4 KM”量化，然后点击下载。
加载模型：下载完成后，回到“聊天”选项卡，从下拉菜单中选择 DeepSeek R1 模型，并确保“手动选择参数”已选中。
调整 GPU 卸载层：将 GPU 卸载层的滑块拉到最大值。
加载模型：点击“模型加载”。
开始交互：现在你可以与完全在本地 AMD 硬件上运行的推理模型进行交互了。

具体点击标题

在AMD芯片上运 DeepSeek R1精简推理模型

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道