Gemma 3微调提速1.6倍，VRAM节省60%

2025-03-15 2K banq

Gemma 3 现已在 Unsloth 中进行微调 - 速度提高 1.6 倍，VRAM 减少 60%

Gemma 3 现已在 Unsloth 中支持微调，显著提升了训练效率。Unsloth 通过优化算法和硬件适配，使微调速度提高了 1.6 倍，同时将 VRAM 使用量减少了 60%。这一改进使得在资源有限的设备上运行 Gemma 3 成为可能，尤其适合使用 Google Colab 的免费 GPU 资源进行微调12。

Unsloth 支持多种大模型微调，包括 Llama-3、Mistral 和 Phi-3 等。其核心优势在于通过 4 位量化技术减少内存占用，并通过 LoRA（低秩适配器）技术优化训练过程，确保在提升速度的同时保持模型精度35。

对于开发者而言，Unsloth 提供了简单易用的接口和详细的教程，支持从数据准备到模型训练的完整流程。无论是初学者还是资深开发者，都可以快速上手并定制属于自己的 AI 模型89。

详细：
现在，您可以使用 Unsloth 对 Gemma 3 (12B) 进行微调，使其上下文长度比 24GB GPU 上的 Hugging Face + FA2 长 6 倍。27B 也适合 24GB！

当将较旧的 GPU（Tesla T4s、RTX 2080）与 Gemma 3 的 float16 结合使用时，我们还看到了无限爆炸梯度。使用 float16 的较新的 GPU（如 A100）也存在同样的问题 - 我已在 Unsloth 中自动修复此问题！

还有双 BOS 代币会破坏 Gemma 3 的微调 - Unsloth 也会自动纠正这个问题！
Unsloth 现在支持一切。这包括完全微调、预训练和对所有模型（如Mixtral、MoEs、Cohere 等模型）和 DoRA 等算法的支持

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/gemma-3-4B-it",
    load_in_4bit = True,  
    load_in_8bit = False,      # [NEW!] 8bit
    full_finetuning = False,   # [NEW!] We have full finetuning now!
)

Gemma 3 (27B) 配备 22GB VRAM。您可以阅读我们关于新变化的详细博客文章：unsloth.ai/blog/gemma3
使用我们的Colab 笔记本免费微调 Gemma 3 (4B)
我们上传了动态 4 位量化模型，由于 Gemma 3 的多模态性，它变得更加有效。查看所有 Gemma 3 上传模型，包括 GGUF、4 位等：模型

我们制作了Gemma 3 正确运行指南，并修复了 GGUF 无法与视觉配合使用的问题 - 提醒一下，根据 Gemma 团队的说法，正确的参数是温度 = 1.0、top_p = 0.95、top_k = 64。根据 Ollama 团队的说法，由于一些后端差异，您目前应该在 Ollama 中使用 temp = 0.1。在 llama.cpp、Unsloth 和其他后端中使用 temp = 1.0！

Colab Notebook配备免费 GPU，可在 Gemma 3 上进行微调、推理和数据准备！

总结：
Unsloth 的 Gemma 3 微调方案为 AI 开发者提供了高效、低成本的训练工具，显著降低了硬件门槛，同时提升了模型性能。这一技术突破将进一步推动大模型在更多领域的应用

网友：
我在 LM Studio 这个软件里，用 Radeon XTX 显卡跑了一个叫 Gemma3 的模型，处理了 8k 长度的文本。它用了显卡 24GB 显存中的 23.8GB，速度大概是每秒处理 15.17 个词，第一个词出来花了 22.89 秒。

我对它的表现挺满意的。对我来说（我在准备管理层的面试），它跟Deepseek R1 差不多好用，但好处是我不会因为服务器太忙而经常卡住，而且我可以放心地把所有个人信息输进去，不用担心这些信息会被传到中国。

Gemma 3微调提速1.6倍，VRAM节省60%

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道