Gemma 3微调提速1.6倍,VRAM节省60%


Gemma 3 现已在 Unsloth 中进行微调 - 速度提高 1.6 倍,VRAM 减少 60%

Gemma 3 现已在 Unsloth 中支持微调,显著提升了训练效率。Unsloth 通过优化算法和硬件适配,使微调速度提高了 1.6 倍,同时将 VRAM 使用量减少了 60%。这一改进使得在资源有限的设备上运行 Gemma 3 成为可能,尤其适合使用 Google Colab 的免费 GPU 资源进行微调12。

Unsloth 支持多种大模型微调,包括 Llama-3、Mistral 和 Phi-3 等。其核心优势在于通过 4 位量化技术减少内存占用,并通过 LoRA(低秩适配器)技术优化训练过程,确保在提升速度的同时保持模型精度35。

对于开发者而言,Unsloth 提供了简单易用的接口和详细的教程,支持从数据准备到模型训练的完整流程。无论是初学者还是资深开发者,都可以快速上手并定制属于自己的 AI 模型89。


详细:
现在,您可以使用 Unsloth 对 Gemma 3 (12B) 进行微调,使其上下文长度比 24GB GPU 上的 Hugging Face + FA2 长 6 倍。27B 也适合 24GB!

当将较旧的 GPU(Tesla T4s、RTX 2080)与 Gemma 3 的 float16 结合使用时,我们还看到了无限爆炸梯度。使用 float16 的较新的 GPU(如 A100)也存在同样的问题 - 我已在 Unsloth 中自动修复此问题!

  • 还有双 BOS 代币会破坏 Gemma 3 的微调 - Unsloth 也会自动纠正这个问题!
  • Unsloth 现在支持 一切。这包括完全微调、预训练和对所有模型(如Mixtral、MoEs、Cohere 等模型)和 DoRA 等算法的 支持
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/gemma-3-4B-it",
    load_in_4bit = True,  
    load_in_8bit = False,      # [NEW!] 8bit
    full_finetuning = False,   # [NEW!] We have full finetuning now!
)
  • Gemma 3 (27B) 配备 22GB VRAM。您可以阅读我们关于新变化的详细博客文章:unsloth.ai/blog/gemma3
  • 使用我们的Colab 笔记本免费微调 Gemma 3 (4B)
  • 我们上传了动态 4 位量化模型,由于 Gemma 3 的多模态性,它变得更加有效。查看所有 Gemma 3 上传模型,包括 GGUF、4 位等:模型
  • 我们制作了Gemma 3 正确运行指南,并修复了 GGUF 无法与视觉配合使用的问题 - 提醒一下,根据 Gemma 团队的说法,正确的参数是温度 = 1.0、top_p = 0.95、top_k = 64。根据 Ollama 团队的说法,由于一些后端差异,您目前应该在 Ollama 中使用 temp = 0.1。在 llama.cpp、Unsloth 和其他后端中使用 temp = 1.0!


Colab Notebook配备免费 GPU,可在 Gemma 3 上进行微调、推理和数据准备!

总结:
Unsloth 的 Gemma 3 微调方案为 AI 开发者提供了高效、低成本的训练工具,显著降低了硬件门槛,同时提升了模型性能。这一技术突破将进一步推动大模型在更多领域的应用


网友:
我在 LM Studio 这个软件里,用 Radeon XTX 显卡跑了一个叫 Gemma3 的模型,处理了 8k 长度的文本。它用了显卡 24GB 显存中的 23.8GB,速度大概是每秒处理 15.17 个词,第一个词出来花了 22.89 秒。

我对它的表现挺满意的。对我来说(我在准备管理层的面试),它跟Deepseek R1 差不多好用,但好处是我不会因为服务器太忙而经常卡住,而且我可以放心地把所有个人信息输进去,不用担心这些信息会被传到中国。