1️⃣ 量化王者:
Unsloth版(0.371分)最接近原版BF16模型(0.375分)
Bartowski Q4_0(0.352分)速度最快,性价比之选
2️⃣ 意外翻车:
官方QAT 4bit(0.333分)竟不如第三方量化版
困惑度(PPL)测试完全不可靠,出现过拟合乱象
3️⃣ 速度对比:
Bartowski GGUF比MLX版快1-2 token/秒(本地部署首选)
实测数据表
模型版本 GPQA分数 备注 |
血泪教训
- 不要迷信PPL:在PTB/wiki测试集上,量化模型分数反而比原版高,明显过拟合
- GPQA的偏见不影响结论:量化是全局精度损失,不像微调存在领域偏差
- 测试成本警告:每个模型跑分需2-3小时(M2 Max芯片实测)
实操建议
- 要精度 → 选Unsloth版(API调用)
- 要速度 → Bartowski Q4_0 GGUF(本地部署)
- 避坑 → 远离官方QAT 4bit(除非谷歌后续修复)
(测试环境:llama.cpp v1.27.1 / LM Studio MLX v0.13.2 / M2 Max)