谷歌Gemma 3：单GPU性能超DeepSeek

谷歌认为自家Gemma 3是“世界上最好的单加速器模型”，在单个 GPU 上比 Facebook 的 Llama、DeepSeek和 OpenAI 的模型都强，而且在 Nvidia 的 GPU 和专门的 AI 硬件上也跑得更好。

在发布了两款用和 Gemini AI 一样技术做的“开放式” Gemma AI 模型一年多后，谷歌又升级了Gemma 3。

根据他们的博客，这些模型是给开发人员用的，用来做能在各种地方跑的 AI 应用，比如手机、工作站，支持超过 35 种语言，还能分析文字、图片和短视频。

Gemma 3 的视觉部分也升级了，能处理高分辨率和不是正方形的图片，还有个新的 ShieldGemma 2 图像安全分类器，能过滤掉色情、危险或暴力的图片。

有个图表显示了聊天机器人的排名，Gemma 排第二，但只需要一个 Nvidia H100 GPU。

去年大家还不确定 Gemma 这样的模型会不会火，但 DeepSeek 和其他类似模型的流行说明，大家对硬件要求不高的 AI 技术挺感兴趣的。

虽然谷歌说 Gemma 3 功能很强，但他们也提到，“Gemma 3 在 STEM 方面的表现提升，让大家专门评估了它被滥用来制造有害物质的可能性，结果发现风险很低。”

到底什么是“开放”或“开源”的 AI 模型，大家还在争论。
对于谷歌的 Gemma，争议主要在于它的许可证限制了使用范围，这一点在新版本里也没变。

谷歌还会通过 Google Cloud 积分推广 Gemma，而 Gemma 3 Academic 计划会让学术研究人员申请价值 10,000 美元的积分，帮助他们加快研究。

网友1：
可能 Llama 3.3 70B 不能完全算是在“一个 GPU”上运行，但它在一台 Mac 上跑得挺顺的。而且我测试的时候发现，它在长对话中记住概念的能力比 Gemma 3 强多了，Gemma 3 大概在 4000 个令牌之后就开始有点乱了。

网友2：
我想知道，到底多小的模型才能达到“一般水平的智能”（就是像现在这些大语言模型那样的智能，不是那种超级人工智能）。感觉肯定有一个尺寸太小了，小到装不下“所有信息”。

我还好奇，什么时候我们能看到专门的小型模型。比如，如果我只需要帮忙写代码，就算这个模型不知道《大白鲨》是谁导演的，可能也没关系。我猜未来可能就是这样的：会有很多小型、专门用途的模型。

不过，也许随着训练计算能力的提升，我们最终能在电脑（甚至手机）上运行那种全功能的模型？

网友3：
如果你在本地运行 Mistral-Large-2411 和 Mistral-Small-2409，你会发现更大的模型能记住更多关于小说作品的细节。而 Deepseek-R1 知道的更多；如果你用同样问题去问阿里千问 Qwen2.5编码模型，它们甚至不会意识到这一点，因为它们的训练计算不允许它们做任何超出范围的事情。

如果你运行千问模型中的蒸馏型号如“R1 Distill”模型，你可以自己测试一下。比如，如果你运行千问Qwen R1 Distill 并问它关于小众小说的问题，不管让它“思考”多久，它都没法告诉你原始 Qwen 不知道的事情。

网友4：
有人用 GoogleAI 吗？对于一家有 AI 当 CEO 还用 AI 做语言翻译的公司，我觉得他们实际的 GPT 产品挺烂的，名声也不咋地。谁会希望自己的私人对话被发回谷歌去监控啊？

我最近在 openrouter 上尝试了很多模型，我不得不说，我发现 Gemini 2.0 flash 非常有用。
在此之前，我从未使用过 Google 的专有模型，但它现在确实在质量与延迟空间中达到了最佳平衡点。

与 2 相比，Gemma 3 的写入能力肯定要好得多，但最大的改进是我实际上可以使用 32k+ 上下文窗口，而不会让它开始因随机垃圾而发狂。

网友5：
这种情况持续到一周后 Mistral 发布 3.1 Small。这就是人工智能的发展速度

Gemma 3 现在在 Ollama 上https://ollama.com/library/gemma3

我已经设法使用 MLX 在笔记本电脑上运行 Mistral 3.1，详情请见此处https://simonwillison.net/2025/Mar/17/mistral-small-31/

网友6：
从技术上讲，DeepSeek R1 的 1.58 位 Unsloth量化在单个 GPU+128GB 系统 RAM 上运行。它的性能非常出色

网友7：
这是 27B 型号，我对此非常怀疑！
这并不是说它是最强大的，而是说它是单卡上最强大的型号！

网友8：有哪些更好的模型可以在单个 GPU 上运行？
这取决于你想做什么：

编码 - Mistral-Small-2503 或 Qwen2.5-32b-Coder
推理 - QwQ-32b
写作 - Gemma-3-27b 擅长这个。

这个帖子是关于哪些型号比 Gemma-3-27B 更好：
我个人是 Mistral Small 3 的粉丝，但我没有花足够多的时间使用它、Gemma 和新款 Mistral Small 3.1，因此无法判断哪个是“最佳”型号。
目前我能找到的模型质量的最佳指标仍然是https://lmarena.ai/?leaderboard=
Gemma 3 27B 目前占据着令人印象深刻的第 8 位，是继 DeekSeek R1（第 6 位）之后排名第二的非专有型号。
QwQ-32B 排在第 12 位。奇怪的是，我在那里找不到 Mistral Small 3 型号。

谷歌Gemma 3：单GPU性能超DeepSeek

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道