最新消息!谷歌大叔刚刚在HuggingFace这个"程序员菜市场"挂出了Gemma 3的"试吃装"(预览版),看样子是专门给智能手表、智能家居这些"边缘设备"准备的。不过现在只能看宣传单(文件未发布),真正的"零食大礼包"还得再等等!
它有个独门绝技叫"选择性偷懒"(选择性参数激活),就像你们考试时只动有用的脑细胞一样。明明脑子里装着20亿或40亿个知识点(参数),但每次只用最关键的部分。这样既省电又跑得快,老旧手机也能带得动!
Gemma 3n使您能够在此基础上开始构建,这些基础将用于Android和Chrome等主要平台。在测试中,他们提到了三星Galaxy S25 Ultra,所以他们应该有一些适用于Android的推理框架。
它是基于matformer:https://arxiv.org/abs/2310.07707
该体系结构与普通的Transformer相同,但是在训练期间,它们随机采样前馈部分的不同大小的连续子集。有点像dropout,但不是每次以固定的速率随机选择不同的组合,而是总是以给定的随机采样速率对相同的连续块进行采样。
你可以混合和匹配,例如,在第一个Transformer块中只取20%的神经元,然后慢慢增加,直到最后一个。这样,您就可以为您的计算资源建立最佳模型!
形象生动解释:
这个模型(Gemma 3n)的核心架构还是那个老熟人——Transformer(就是ChatGPT、Gemini这些AI的“大脑结构”)。但它玩了个新花样,叫 “Matformer”!
它咋工作的呢?
“随机偷懒”训练法:
普通Transformer训练时,所有“脑细胞”(神经元)都得干活,累死累活;但Matformer不一样,它训练时会随机抽签,每次只让一小撮连续的脑细胞(比如20%、50%)干活,剩下的躺平!这招有点像Dropout(深度学习的“防过拟合”技巧),但Dropout是东一个西一个随机关神经元,而Matformer是整块整块地关,更省力!
“渐进式加码”策略:
比如第一层Transformer块只让20%的脑细胞干活(“小弟先上!”),然后越往后,激活的神经元越多(“老大压阵!”);这样就能根据你的手机/电脑性能,灵活调整计算量,不卡顿、不烫手!
举个栗子:
- 你手机性能一般?那就让AI“少用点脑细胞”,速度飞快!
- 你电脑性能炸裂?那就让AI“全力开火”,回答更精准!
网友热评:
1、从github下载edge gallery,从huggingface下载.task文件。在我的S25 Ultra上工作得很好
2、我在我那台用了两年的一加11手机上跑这个模型,速度大概每秒蹦出12个词(~12 tok/sec)——跟老式打字机‘咔嗒咔嗒’的速度差不多,但对我来说够用啦!更厉害的是,它的‘看图说话’能力超强,我随便丢张照片它都能唠得头头是道,简直像个迷你版‘福尔摩斯’️♂️。
3、Gemma 3,即使是小版本也非常一致地遵循指令,实际上是我用过的最好的型号,绝对击败了Qwen 3很多。即使是4B也相当可用,但27b甚至12b都是令人惊叹的指令跟随器,我一直在自动化系统中使用它们。
已经尝试过其他型号,更大的70b+型号仍然不能匹配它的使用,如HA在一致的指示以下和工具的使用是必要的。
所以我对这套新的Gemma模型感到非常兴奋。
4、展示安卓上AI效果:https://github.com/google-ai-edge/gallery
5、直接谷歌Gemma 3n的演示:https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
6、我在google ai studio中用这个模型做了一些翻译任务。目前,免费层的配额仅限于一条或两条消息,但根据GPT-o3的评估,一次性翻译尝试的得分在gemma 3 27 b和gpt-4 o之间,大致处于Deepseek V3的水平。它的尺寸非常令人印象深刻,唯一的缺点是它不像Gemma 3 12 b或Gemma 3 27 b那样遵循指令。