Qwen3 现已在 Unsloth 中进行微调 - 速度提高 2 倍,VRAM 减少 70%
大家好!现在,您可以使用Unsloth 对 Qwen3进行适配器,设置上下文长度比所有使用FA2的设置(24GB GPU)的设置(17.5GB VRAM)最长延长8倍。Qwen3-30B-A3B可以轻松运行在17.5GB VRAM上!
你们中的一些人可能已经看到我们更新了Qwen3的GGUF。如果你使用的是3天前的版本,则重新下载。我们只是改进了矩阵的计算方式,因此准确度应该会进一步提升。
- 使用我们的 Colab 笔记本免费笔记本 Qwen3 (14B)
- 由于Qwen3同时支持推理和非推理,您可以使用非推理数据来进行推理,但为了保留推理能力(可选),请添加一些思路链示例。我们的对话笔记本使用的数据集融合了NVIDIA的开放式数学推理数据集和Maxime的FineTome数据集。
- 提醒一下,Unsloth 现在支持 所有内容训练。这包括完整的偏差、预以及对所有模型(如 Mixtral、MoEs、Cohere 等模型)的支持。
- 您可以在此处阅读我们的完整版 Qwen3 更新: unsloth.ai/blog/qwen3
- 我们上传了动态的4位安全张量,用于配置/配置。查看所有Qwen3上传,包括GGUF、4位等: 模型
17亿 4B 8B 14B 32B
信息技术开放系统互连第2部分:互连协议pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo
Colab Notebook 免费控制器 Qwen3 14B:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(14B)-Reasoning-Conversational.ipynb
关于 MoE,路由器路由器层可能不是一个好主意——我默认取消了它。
令人惊讶的是,30B MoE 需要 17.5GB 的显存。更多详情请参阅文档:https: //docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune
model, tokenizer = FastModel.from_pretrained( |
网友问:优化标准是如何工作的?它排除了思考吗?
笔记本中有 2 个数据集 - Open Math Reasoning,其中包含来自 DeepSeek R1 的推理痕迹以及普通聊天数据集(FineTome)
诀窍在于“混合”——我设置了25%的开放数学+75%的聊天。你可以调整比例。
这使得微调不会“崩溃”,只是一个思考或不思考的模型。
网友问:
- 假设模型能够不假思索地从 OpenMath(或任何推理数据集)获得一组查询的答案,那么应该如何评估呢?
- 如果我们将非思考型答案(尽管它们源自思考型数据集)用作正向监督,是否应该添加更多来自 OpenMath 的示例来平衡这些非思考型答案(尽管它们源自思考型数据集)?
网友:如果unsloth可以让QWEN 3 - 235 b模型在48 GB RAM上工作,那就太好了。使用Mac mini
网友:
Qwen3-235B-A22B 在 Windows 平板(AMD Ryzen AI Max 395 + 128GB RAM)上实现 ~11.1 tokens/s 推理速度,Radeon 8060S iGPU 占用 87.7GB/95.8GB VRAM
核心亮点:
✅ 完整 235B 参数模型 在 Windows 平板(AMD Ryzen AI Max 395 + 128GB RAM)上 纯 iGPU(Radeon 8060S)推理,无需 CPU 卸载!
✅ ~11.1 tokens/s 推理速度,占用 87.7GB/95.8GB VRAM,剩余 30GB RAM 可正常办公(VS Code、OBS、Chrome 多标签)!
✅ Vulkan 后端 + Q2_K_XL 动态量化(Unsloth 2.0),GPU 100% 负载,CPU 几乎零占用,真正实现 边推理边工作!
技术细节 & 优化方案
硬件对比:
- AMD Strix Halo(Ryzen AI Max 395):128GB 统一内存,但带宽仅 256Gb/s(对比 Apple M4 Max 546Gb/s)
- 性价比优势:128GB RAM 的 Windows 平板(如 ROG Flow Z13)约 $2800,远低于同规格 MacBook
- 量化策略:Q2_K_XL + Unsloth 动态 2.0 量化,平衡精度与显存占用
- llama.cpp 参数:
-m Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf -c 12288 --batch-size 320 -ngl 95 --temp 0.6 --top-k 20 --top-p .95 --min-p 0 --repeat-penalty 1.2 --no-mmap --jinja --chat-template-file ./qwen3-workaround.jinja
- --batch-size 320 是 Vulkan 后端的关键(超过 365 会导致崩溃,Issue #13164)
- -ngl 95 强制所有层跑在 GPU 上,避免 CPU 卸载
- ROCm 仅限 Linux:若需更高性能,可自行编译 llama.cpp 启用 ROCm(但 Vulkan 已足够实用)
- 内存带宽瓶颈:256Gb/s 远低于 Apple M4 Max(546Gb/s),但性价比仍碾压
实际体验:真正的移动端大模型工作站!
流畅多任务:后台跑 235B 模型,前台照常写代码、直播、浏览网页,CPU 完全空闲!
适用场景:本地开发、边缘计算、低成本大模型实验,无需昂贵服务器!
结论:AMD Strix Halo 虽内存带宽不如 M 系列,但凭借 128GB 统一内存 + 纯 iGPU 推理,仍是 Windows 生态最强移动 LLM 平台!