谷歌本地运行小模型Gemma 3n正式版发布


首个 Gemma 模型于去年年初发布,自此发展成为一个蓬勃发展的Gemma 生态系统,累计下载量超过 1.6 亿次。这个生态系统涵盖了我们十多个专业模型系列,涵盖从安保到医疗应用等各个领域,最令人鼓舞的是来自社区的无数创新。从像Roboflow这样构建企业计算机视觉的创新者,到东京科学研究所开发高性能日本 Gemma 变体,你们的工作为我们指明了前进的道路。

秉承这一强劲势头,我们欣然宣布 Gemma 3n 正式发布。上个月的预览版仅提供了一些初步体验,而今天,我们将全面解锁这一移动优先架构的全部威力。Gemma 3n 专为助力 Gemma 发展的开发者社区而设计。它支持您常用的工具,包括 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX 等,让您能够轻松地针对特定的设备端应用进行微调和部署。本文将深入探讨开发者:我们将探索 Gemma 3n 背后的一些创新,分享新的基准测试结果,并向您展示如何立即开始构建。

Gemma 3n 有哪些新功能?
Gemma 3n 代表了设备上 AI 的重大进步,为边缘设备带来了强大的多模式功能,其性能此前仅在去年基于云的前沿模型中见过。

  • 多模式设计: Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。
  • 专为设备端优化: Gemma 3n 型号以效率为设计重点,提供两种基于有效参数的尺寸:E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B,但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当,仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。
  • 突破性的架构: Gemma 3n 的核心是新颖的组件,例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。
  • 质量提升: Gemma 3n 在多语言(支持 140 种文本语言和 35 种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。E4B 版本的 LMArena 得分超过 1300,使其成为首个达到此基准的 100 亿参数以下模型。


MatFormer:一种型号,多种尺寸
Gemma 3n 的核心是MatFormer(Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套 Transformer。可以将其想象成俄罗斯套娃:一个较大的模型包含其自身更小、功能齐全的版本。这种方法将俄罗斯套娃表征学习的概念从单纯的嵌入扩展到所有 Transformer 组件。

MatFormer 在训练 4B 有效参数 (E4B) 模型时,会同时优化 2B 有效参数 (E2B) 子模型,如上图所示。这为开发者提供了两项强大的功能和用例:

1:预提取模型:您可以直接下载并使用主 E4B 模型以获得最高功能,或者使用我们已经为您提取的独立 E2B 子模型,提供高达 2 倍更快的推理速度。

2:使用 Mix-n-Match 自定义尺寸:为了根据特定硬件限制进行更精细的控制,您可以使用我们称之为 Mix-n-Match 的方法,在 E2B 和 E4B 之间创建一系列自定义尺寸的模型。这项技术允许您精确地对 E4B 模型的参数进行切片,主要通过调整每层的前馈网络隐藏层维度(从 8192 到 16384)并选择性地跳过某些层来实现。我们即将发布MatFormer Lab,这是一款工具,用于展示如何检索这些最佳模型,这些模型是通过在 MMLU 等基准测试中评估各种设置而确定的。

每层嵌入(PLE):释放更多内存效率
Gemma 3n 模型采用了逐层嵌入 (PLE) 技术。这项创新专为设备部署而设计,可显著提高模型质量,且不会增加设备加速器 (GPU/TPU) 所需的高速内存占用。

虽然 Gemma 3n E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,但 PLE 允许很大一部分参数(与每层相关的嵌入)在 CPU 上加载并高效计算。这意味着只有核心变压器权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。

KV Cache 共享:更快的长上下文处理
处理长输入(例如来自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma 3n 引入了键值缓存共享 (KV Cache Sharing),旨在显著加快流式响应应用的首次令牌获取时间 (Time-to-first-token)。

键值缓存共享 (KV Cache Sharing) 优化了模型处理初始输入处理阶段(通常称为“预填充”阶段)的方式。来自局部和全局注意力机制的中间层的键和值将直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提升了 2 倍。这意味着模型能够比以往更快地提取和理解较长的提示序列。


音频理解:将语音引入文本并进行翻译
Gemma 3n 采用基于通用语音模型 (USM)的高级音频编码器。该编码器每 160 毫秒的音频生成一个标记(约每秒 6 个标记),然后将其作为语言模型的输入进行集成,从而提供声音上下文的精细表示。
这种集成音频功能为设备开发解锁了关键功能,包括:

  • 自动语音识别 (ASR):直接在设备上实现高质量的语音到文本的转录。
  • 自动语音翻译 (AST):将口语翻译成另一种语言的文本。
我们观察到,英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译 AST 效果尤为出色,这为以这些语言为目标的开发者提供了巨大的发展潜力。对于语音翻译等任务,利用“思路链”提示可以显著提升翻译效果。

MobileNet-V5:全新最先进的视觉编码器
除了集成的音频功能外,Gemma 3n 还配备了全新的高效视觉编码器MobileNet-V5-300M,为边缘设备上的多模式任务提供最先进的性能。

MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计,可为开发人员提供:

  • 多种输入分辨率:本机支持 256x256、512x512 和 768x768 像素的分辨率,让您能够平衡特定应用程序的性能和细节。
  • 广泛的视觉理解:在广泛的多模式数据集上进行联合训练,它在各种图像和视频理解任务中表现出色。
  • 高吞吐量:在 Google Pixel 上每秒处理高达 60 帧,实现实时设备视频分析和交互式体验。
这一性能水平是通过多种架构创新实现的,其中包括:
  • MobileNet-V4 模块的高级基础(包括 Universal Inverted Bottlenecks 和 Mobile MQA)。
  • 显著扩大的架构,采用混合深度金字塔模型,比最大的 MobileNet-V4 变体大 10 倍。
  • 一种新颖的多尺度融合 VLM 适配器,可提高令牌的质量,从而提高准确性和效率。

得益于新颖的架构设计和先进的蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的表现显著优于基线 SoViT(使用 SigLip 训练,未进行蒸馏)。在 Google Pixel Edge TPU 上,它在量化的情况下实现了 13 倍的加速(不使用量化的情况下为 6.5 倍),所需参数减少了 46%,内存占用减少了 4 倍,同时在视觉语言任务上实现了显著更高的准确率。

立即开始使用 Gemma 3n
准备好探索 Gemma 3n 的潜力了吗?方法如下:

网友热评:
1、Google已经在Android上的Edge Gallery上提供了这些功能,我认为这是使用它们的最佳方式,因为该应用程序支持GPU卸载。我不认为像PocketTable这样的应用程序支持这一点。不幸的是GPU推理是完全borked 8精英手机,它还没有得到修复。

2、刚刚下载了gemma-3 n-E4 B-it-text-GGUF Q4_K_M到我的PC上的LM Studio,并在我目前的GPU AMD RX 570 8 GB上运行它,它以5 tokens/s的速度运行,这比我的手机慢。
570没有任何AI加速功能,甚至没有像快速打包数学(在Vega中添加)或DP4a(在RDNA 2中添加)这样的附带功能。如果你能把它装进VRAM,我敢打赌Gemma 3的非量化fp16版本会和Q4一样快。

3、与已经推出的模型相比,这有多好?这是一个6 B型号,内存占用量在2- 4 B之间。他们网站上说是5B和8B

4、这不是已经在那个android gallary上发布了吗?
之前的是LiteRT格式,这些是基于transformers的,但我不清楚是否有任何其他差异,或者它们是否是不同格式的相同模型。
你只能在Google AI Studio和AI Edge之前运行推理。现在,它可以在一堆开源的东西,可以微调,等等。