本地显卡跑最新AI：谷歌Gemma 3 QAT

#本地小语言模型 #大语言模型LLM #DeepSeek时刻

2025-04-19 banq

Google新出的Gemma 3 QAT模型能让普通显卡用户也能用上顶级AI。这个经过特殊优化（QAT）的int4版本Gemma 3，把显存需求从54GB暴降到14.1GB，但效果几乎没打折。

简单说，QAT就像给AI做特训：

现在你电脑都能跑大模型了：
️ 27B大模型：RTX3090显卡（24GB显存）就能带得动
12B中模型：游戏本（RTX4060笔记本显卡）流畅运行
小模型：手机甚至智能烤箱都能用（如果你家烤箱够高级）

怎么用？

效果对比：

就像把蓝光电影压缩成MP4大小，但画质依然清晰！

Gemma 3 的量化感知训练（QAT）既保证了性能，又让模型更好用
这就是量化的厉害之处。

在AI模型里，量化就是降低存储数据和计算时用的数字（模型参数）的精度：你可以把它想象成压缩图片时减少颜色数量。原本每个数字用16位（BFloat16）存储，现在可以用更少的位数，比如8位（int8）甚至4位（int4）。用int4的话，每个数字只占4位——和BF16相比，数据大小直接缩小了4倍！

一般来说，量化会让模型性能变差，但Gemma 3 QAT 模型不怕量化，它的表现依然很稳。

我们给每个Gemma 3模型都发布了几个量化版本，方便你用自己喜欢的工具（比如Ollama、llama.cpp、MLX）来运行，支持Q4_0（一种常见的量化格式）。

那怎么保证质量不下降呢？
靠的就是QAT（量化感知训练）。
QAT不是等模型训练完才做量化，而是在训练过程中就模拟量化效果。
它在训练时故意用低精度计算，这样模型能提前适应量化，既保持准确率，又让压缩后的模型更小、更快。

具体怎么做的？
我们拿未量化的模型作为目标，在训练的最后5000步加入QAT。当模拟Q4_0量化时，模型的困惑度（衡量预测准确度的指标）回升了54%（用llama.cpp测试的结果）。

效果对比：

要点：