Grok 3性能被低估,潜力巨大或超越o3!

人们严重低估了 Grok 3 的性能。我知道我们都不太喜欢马斯克,但我们能不能稍微客观一点,看看它的表现到底怎么样呢?

有些人会说:“嗯,它还是比o3差。” 但我们还没真正接触过它,它用了很多计算资源,而且预训练才停了一个月,还有很多潜力可以挖掘,未来可能会超越 o3。还有人会说:“它用了 10 到 15 倍的计算资源,但改进不大,所以其实没什么了不起的。” 这种说法也不对,原因有三点。

  • 首先,Grok 3 肯定比Grok 2进步了很多。
  • 其次,扩展计算规模一直都是很费资源的,智力从来都不是进化中最容易成功的特征,现在也一样,因为它代价很高。如果我们每次用 10 到 15 倍的计算资源都能带来这样的性能提升,那我们很快就能造出超级智能了,尤其是现在有三种扩展方式叠加在一起:预训练、后训练和推理时的计算。
  • 第三,如果你看看 LLaMA 的论文,他们在 54 天内用了 16000 个 H100 进行训练,期间有 419 个组件出故障。而 XAI 这个小团队在 10 万到 20 万个 H100上训练了更长时间,这其实是个很大的成就。

还有人会说:“GPT-4.5 随时都能轻松碾压它。” 也许吧,但我不太确定。

Grok 3 的基础性能确实很强,大家严重低估了它。当 Grok 3 和其他基础模型比较时,它明显领先。

别忘了,新旧 Claude 3.5 Sonnet 在 GPQA 上的差距只有 5 分,而 Grok 3 比新的 Claude 3.5 Sonnet 高了 10 分。而且 GPQA Diamond 的最高分大概是 80-85%,所以非思维模型已经接近极限了。再看看 Gemini-2 Pro,谷歌最近发布了它,他们正在努力提升基础模型的性能。然后 Grok 3 出现了,直接把性能提升了一大截。

 Grok 3 的惊人性能没得到更多认可,部分原因是思维模型的出现。
在思维模型出现之前,这样的性能提升绝对让人惊叹,但现在大家都觉得没什么了。

考虑到 Grok 3 思维模型的性能提升很大,而且还在早期开发阶段,我也不排除它未来超越 o3 的可能性。Grok 3 mini 的基础模型和其他领先的基础模型差不多,而且它的推理版本甚至比 Grok 3 还强,性能也接近 o3。o3 还要几个月才发布,在这期间,Grok 3 的推理性能可能会大幅提升,甚至可能超过 o3。

也许我高估了它的性能,但我记得当我试新的 Sonnet 3.5 时,虽然它的提升不大,但还是有影响的,感觉很不错。Grok 3 的提升比它还大,而且其他实验室都没做出这么强的基础模型,尤其是谷歌,他们现在很难再提升基础模型的性能了。说实话,我觉得这是个很大的成就。

埃隆是个讨厌的家伙,但我认为至少应该承认,XAI 团队里的人不全是坏人,虽然他们可能更适合去其他公司。不过,这至少会推动其他实验室发布更前沿的技术,所以接下来会很有意思!

Andrej Karpathy 对 Grok 3 的初步印象
Andrej 对昨晚发布的 xAI Grok 3 进行了迄今为止我见过的最详细的分析。他浏览了一系列有趣的测试提示,并得出结论:
就今天早上约 2 小时的快速氛围测试而言,Grok 3 + Thinking 感觉与 OpenAI 最强模型(o1-pro,200 美元/月)的最新水平相当,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到该团队大约 1 年前从零开始,达到最新水平的时间跨度是前所未有的,这真是令人难以置信。

Grok 3 目前位于 LLM聊天机器人领域的首位(在所有类别中),因此根据那里的投票者的感受,它表现非常好。

Andrej Karpathy曾在特斯拉担任人工智能与自动驾驶视觉部门的高级总监,负责开发自动驾驶技术。此前,他在 OpenAI 担任研究科学家,参与了多个重要项目。

网友:
Grok 3在自己公布的测试对比图故意忽略了OpenAi O3,网友补充以后如下图:

网友讨论:

  • grok:我们将计算能力提高了 10 倍,所以模型肯定会很棒,对吧? 
  • deepseek:为什么不直接将计算成本降低 10 倍
  • 为什么不将计算能力提高 10 倍并将计算成本降低 10 倍呢?
这是加法还是乘法的选择!

网友2:

  • 中国公司:我们搞出了一种全新的模型设计,还自己用汇编语言写了个代替CUDA的东西。这样我们就能用一些简单GPU,花只有美国公司十分之一的钱,训练出最顶尖的模型。
  • 美国公司:分布式推理太难搞了,咱们就不能等NVIDIA出个带1TB显存的服务器吗?

这是克雷效应,也就是为什么导致美国公司将硬件开发外包给中国。

早在 70 年代和 80 年代,摩尔定律就使大规模硬件开发项目不再具有成本效益。相反,美国公司发现开发软件并等待硬件改进更为经济。硬件会……迎头赶上。
美国失去了硬件开发专业知识,但软件却很发达。中国在实际制造硬件方面非常擅长,并成为世界计算机制造中心。

网友3:
使用 DeepSeek 的新“本机稀疏注意力”对 AIME(挑战性数学)基准进行推理,其性能比完整、密集的注意力 要好得多。

  • 预训练的稀疏注意力模式能够有效捕捉对复杂数学推导至关重要的长距离逻辑依赖关系
这是一篇令人印象深刻、易读的论文,描述了一项重大的架构创新。

网友4:
中国:算法比更多的 GPU 更好!
硅谷人无法理解这一点