本地AI：Qwen3+Unsloth=2倍速+少70%显存

#本地小语言模型 #DeepSeek时刻 #芯片半导体

2025-05-03 4K banq

Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍，VRAM 减少 70%

大家好！现在，您可以使用Unsloth 对 Qwen3进行适配器，设置上下文长度比所有使用FA2的设置（24GB GPU）的设置（17.5GB VRAM）最长延长8倍。Qwen3-30B-A3B可以轻松运行在17.5GB VRAM上！

你们中的一些人可能已经看到我们更新了Qwen3的GGUF。如果你使用的是3天前的版本，则重新下载。我们只是改进了矩阵的计算方式，因此准确度应该会进一步提升。

使用我们的 Colab 笔记本免费笔记本 Qwen3 (14B)
由于Qwen3同时支持推理和非推理，您可以使用非推理数据来进行推理，但为了保留推理能力（可选），请添加一些思路链示例。我们的对话笔记本使用的数据集融合了NVIDIA的开放式数学推理数据集和Maxime的FineTome数据集。
提醒一下，Unsloth 现在支持所有内容训练。这包括完整的偏差、预以及对所有模型（如 Mixtral、MoEs、Cohere 等模型）的支持。
您可以在此处阅读我们的完整版 Qwen3 更新： unsloth.ai/blog/qwen3
我们上传了动态的4位安全张量，用于配置/配置。查看所有Qwen3上传，包括GGUF、4位等：模型

Qwen3 动态 4 位指令量：
17亿 4B 8B 14B 32B

信息技术开放系统互连第2部分：互连协议pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo
Colab Notebook 免费控制器 Qwen3 14B：https：//colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_（14B）-Reasoning-Conversational.ipynb

关于 MoE，路由器路由器层可能不是一个好主意——我默认取消了它。
令人惊讶的是，30B MoE 需要 17.5GB 的显存。更多详情请参阅文档：https: //docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048,
    load_in_4bit = True,  
    load_in_8bit = False,
    full_finetuning = False, # Full finetuning now in Unsloth!
)

网友问：优化标准是如何工作的？它排除了思考吗？
笔记本中有 2 个数据集 - Open Math Reasoning，其中包含来自 DeepSeek R1 的推理痕迹以及普通聊天数据集（FineTome）

诀窍在于“混合”——我设置了25%的开放数学+75%的聊天。你可以调整比例。

这使得微调不会“崩溃”，只是一个思考或不思考的模型。

网友问：

假设模型能够不假思索地从 OpenMath（或任何推理数据集）获得一组查询的答案，那么应该如何评估呢？
如果我们将非思考型答案（尽管它们源自思考型数据集）用作正向监督，是否应该添加更多来自 OpenMath 的示例来平衡这些非思考型答案（尽管它们源自思考型数据集）？

回答：问得好！我猜比例/混合比是另一个数字调整可悲的。但是，是的，可能更好地增加推理数据集的比例！

网友：如果unsloth可以让QWEN 3 - 235 b模型在48 GB RAM上工作，那就太好了。使用Mac mini

网友：
Qwen3-235B-A22B 在 Windows 平板（AMD Ryzen AI Max 395 + 128GB RAM）上实现 ~11.1 tokens/s 推理速度，Radeon 8060S iGPU 占用 87.7GB/95.8GB VRAM

核心亮点：
✅ 完整 235B 参数模型在 Windows 平板（AMD Ryzen AI Max 395 + 128GB RAM）上纯 iGPU（Radeon 8060S）推理，无需 CPU 卸载！
✅ ~11.1 tokens/s 推理速度，占用 87.7GB/95.8GB VRAM，剩余 30GB RAM 可正常办公（VS Code、OBS、Chrome 多标签）！
✅ Vulkan 后端 + Q2_K_XL 动态量化（Unsloth 2.0），GPU 100% 负载，CPU 几乎零占用，真正实现边推理边工作！

技术细节 & 优化方案
硬件对比：

AMD Strix Halo（Ryzen AI Max 395）：128GB 统一内存，但带宽仅 256Gb/s（对比 Apple M4 Max 546Gb/s）
性价比优势：128GB RAM 的 Windows 平板（如 ROG Flow Z13）约 $2800，远低于同规格 MacBook

关键优化：

量化策略：Q2_K_XL + Unsloth 动态 2.0 量化，平衡精度与显存占用
llama.cpp 参数：

-m Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf -c 12288 --batch-size 320 -ngl 95 --temp 0.6 --top-k 20 --top-p .95 --min-p 0 --repeat-penalty 1.2 --no-mmap --jinja --chat-template-file ./qwen3-workaround.jinja
- --batch-size 320 是 Vulkan 后端的关键（超过 365 会导致崩溃，Issue #13164）
- -ngl 95 强制所有层跑在 GPU 上，避免 CPU 卸载

现存问题：

ROCm 仅限 Linux：若需更高性能，可自行编译 llama.cpp 启用 ROCm（但 Vulkan 已足够实用）
内存带宽瓶颈：256Gb/s 远低于 Apple M4 Max（546Gb/s），但性价比仍碾压

实际体验：真正的移动端大模型工作站！
流畅多任务：后台跑 235B 模型，前台照常写代码、直播、浏览网页，CPU 完全空闲！
适用场景：本地开发、边缘计算、低成本大模型实验，无需昂贵服务器！

结论：AMD Strix Halo 虽内存带宽不如 M 系列，但凭借 128GB 统一内存 + 纯 iGPU 推理，仍是 Windows 生态最强移动 LLM 平台！

本地AI：Qwen3+Unsloth=2倍速+少70%显存

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道