谷歌认为自家Gemma 3是“世界上最好的单加速器模型”,在单个 GPU 上比 Facebook 的 Llama、DeepSeek和 OpenAI 的模型都强,而且在 Nvidia 的 GPU 和专门的 AI 硬件上也跑得更好。
在发布了两款用和 Gemini AI 一样技术做的“开放式” Gemma AI 模型一年多后,谷歌又升级了Gemma 3。
根据他们的博客,这些模型是给开发人员用的,用来做能在各种地方跑的 AI 应用,比如手机、工作站,支持超过 35 种语言,还能分析文字、图片和短视频。
Gemma 3 的视觉部分也升级了,能处理高分辨率和不是正方形的图片,还有个新的 ShieldGemma 2 图像安全分类器,能过滤掉色情、危险或暴力的图片。
有个图表显示了聊天机器人的排名,Gemma 排第二,但只需要一个 Nvidia H100 GPU。
去年大家还不确定 Gemma 这样的模型会不会火,但 DeepSeek 和其他类似模型的流行说明,大家对硬件要求不高的 AI 技术挺感兴趣的。
虽然谷歌说 Gemma 3 功能很强,但他们也提到,“Gemma 3 在 STEM 方面的表现提升,让大家专门评估了它被滥用来制造有害物质的可能性,结果发现风险很低。”
到底什么是“开放”或“开源”的 AI 模型,大家还在争论。 对于谷歌的 Gemma,争议主要在于它的许可证限制了使用范围,这一点在新版本里也没变。
谷歌还会通过 Google Cloud 积分推广 Gemma,而 Gemma 3 Academic 计划会让学术研究人员申请价值 10,000 美元的积分,帮助他们加快研究。
网友1: 可能 Llama 3.3 70B 不能完全算是在“一个 GPU”上运行,但它在一台 Mac 上跑得挺顺的。而且我测试的时候发现,它在长对话中记住概念的能力比 Gemma 3 强多了,Gemma 3 大概在 4000 个令牌之后就开始有点乱了。
网友2: 我想知道,到底多小的模型才能达到“一般水平的智能”(就是像现在这些大语言模型那样的智能,不是那种超级人工智能)。感觉肯定有一个尺寸太小了,小到装不下“所有信息”。
我还好奇,什么时候我们能看到专门的小型模型。比如,如果我只需要帮忙写代码,就算这个模型不知道《大白鲨》是谁导演的,可能也没关系。我猜未来可能就是这样的:会有很多小型、专门用途的模型。
不过,也许随着训练计算能力的提升,我们最终能在电脑(甚至手机)上运行那种全功能的模型?
网友3: 如果你在本地运行 Mistral-Large-2411 和 Mistral-Small-2409,你会发现更大的模型能记住更多关于小说作品的细节。而 Deepseek-R1 知道的更多;如果你用同样问题去问阿里千问 Qwen2.5编码模型,它们甚至不会意识到这一点,因为它们的训练计算不允许它们做任何超出范围的事情。
如果你运行千问模型中的蒸馏型号如“R1 Distill”模型,你可以自己测试一下。比如,如果你运行 千问Qwen R1 Distill 并问它关于小众小说的问题,不管让它“思考”多久,它都没法告诉你原始 Qwen 不知道的事情。
网友4: 有人用 GoogleAI 吗?对于一家有 AI 当 CEO 还用 AI 做语言翻译的公司,我觉得他们实际的 GPT 产品挺烂的,名声也不咋地。谁会希望自己的私人对话被发回谷歌去监控啊?
我最近在 openrouter 上尝试了很多模型,我不得不说,我发现 Gemini 2.0 flash 非常有用。 在此之前,我从未使用过 Google 的专有模型,但它现在确实在质量与延迟空间中达到了最佳平衡点。
与 2 相比,Gemma 3 的写入能力肯定要好得多,但最大的改进是我实际上可以使用 32k+ 上下文窗口,而不会让它开始因随机垃圾而发狂。
网友5: 这种情况持续到一周后 Mistral 发布 3.1 Small。这就是人工智能的发展速度
Gemma 3 现在在 Ollama 上https://ollama.com/library/gemma3
我已经设法使用 MLX 在笔记本电脑上运行 Mistral 3.1,详情请见此处https://simonwillison.net/2025/Mar/17/mistral-small-31/
网友6: 从技术上讲,DeepSeek R1 的 1.58 位 Unsloth量化在单个 GPU+128GB 系统 RAM 上运行。它的性能非常出色
网友7: 这是 27B 型号,我对此非常怀疑! 这并不是说它是最强大的,而是说它是单卡上最强大的型号!
网友8:有哪些更好的模型可以在单个 GPU 上运行? 这取决于你想做什么:
- 编码 - Mistral-Small-2503 或 Qwen2.5-32b-Coder
- 推理 - QwQ-32b
- 写作 - Gemma-3-27b 擅长这个。
这个帖子是关于哪些型号比 Gemma-3-27B 更好: 我个人是 Mistral Small 3 的粉丝,但我没有花足够多的时间使用它、Gemma 和新款 Mistral Small 3.1,因此无法判断哪个是“最佳”型号。 目前我能找到的模型质量的最佳指标仍然是https://lmarena.ai/?leaderboard= Gemma 3 27B 目前占据着令人印象深刻的第 8 位,是继 DeekSeek R1(第 6 位)之后排名第二的非专有型号。 QwQ-32B 排在第 12 位。奇怪的是,我在那里找不到 Mistral Small 3 型号。