Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化(QAT)的int4版本Gemma 3,把显存需求从54GB暴降到14.1GB,但效果几乎没打折。
简单说,QAT就像给AI做特训:
- 普通量化像考试后才教压缩技巧
- QAT是边学习边训练压缩能力所以用4位存储(int4)时(相当于把图片颜色从千万种精简到16种),模型照样表现优秀。
现在你电脑都能跑大模型了:
️ 27B大模型:RTX3090显卡(24GB显存)就能带得动
12B中模型:游戏本(RTX4060笔记本显卡)流畅运行
小模型:手机甚至智能烤箱都能用(如果你家烤箱够高级)
怎么用?
- 官网提供4种压缩版模型下载
- 支持所有热门工具:
- 用Ollama输入一行命令:通过 一个 简单的 命令,获得 对 我们 所有 Gemma 3 QAT 模型 的 临时 支持。
- 用LM Studio点鼠标操作:通过 其 用户界面,在 您的 台式机上 轻松 下载 和 运行 Gemma 3 QAT 模型。
- 苹果电脑用MLX有加速:利用 高效、优化 的 推理 来 处理 Apple Silicon 上的 Gemma 3 QAT 模型。
- 老电脑用Gemma.cpp也能跑:使用 我们 专用的 C++ 实现,直接 在 CPU上 进行 高效的 推理。
- llama.cpp:由于 其 对 我们 GGUF 格式的 QAT 模型 有 原来的 管线 支持,可以 轻松 集成到 现有的 工作流程中。
效果对比:
- 显存占用减少74%(54GB→14GB)
- ✅ 性能仅损失1%(特训后恢复54%的准确度)
Gemma 3 的量化感知训练(QAT)既保证了性能,又让模型更好用
这就是量化的厉害之处。
在AI模型里,量化就是降低存储数据和计算时用的数字(模型参数)的精度:你可以把它想象成压缩图片时减少颜色数量。原本每个数字用16位(BFloat16)存储,现在可以用更少的位数,比如8位(int8)甚至4位(int4)。用int4的话,每个数字只占4位——和BF16相比,数据大小直接缩小了4倍!
一般来说,量化会让模型性能变差,但Gemma 3 QAT 模型不怕量化,它的表现依然很稳。
我们给每个Gemma 3模型都发布了几个量化版本,方便你用自己喜欢的工具(比如Ollama、llama.cpp、MLX)来运行,支持Q4_0(一种常见的量化格式)。
那怎么保证质量不下降呢?
靠的就是QAT(量化感知训练)。
QAT不是等模型训练完才做量化,而是在训练过程中就模拟量化效果。
它在训练时故意用低精度计算,这样模型能提前适应量化,既保持准确率,又让压缩后的模型更小、更快。
具体怎么做的?
我们拿未量化的模型作为目标,在训练的最后5000步加入QAT。当模拟Q4_0量化时,模型的困惑度(衡量预测准确度的指标)回升了54%(用llama.cpp测试的结果)。
效果对比:
- 显存(VRAM)占用大幅减少
- int4量化的效果太猛了!
要点:
- Gemma 3 QAT:4倍压缩,性能无损!
- 14GB跑27B大模型!革命性量化
- 显存暴降74%!Gemma 3黑科技
- 手机能跑AI了?Gemma 3量化逆天
- 3090显卡畅玩27B模型!QAT立功