评估Grok 4数学功能:小镇做题家难成科学家


它擅长复杂的计算,能够从低基础开始改进证明,并且有助于文献检索。它仍然偏向于低级的学习,并且依赖于背景Context知识。

xAI 委托 Epoch AI 评估 Grok 4 的数学能力。它的优势和劣势是什么?绝对优势和劣势以及相对于其他模型的优势和劣势是什么?本报告超越了总体数字,旨在描述 Grok 4 如何处理数学任务。这种定性调查有助于更广泛地理解进展:它有助于在新功能体现在总体数字中之前识别其迹象,并提出未来可能有用的其他基准。

摘要

  1. Grok 4 在解决中等难度高中数学竞赛问题方面处于领先地位。(链接
  2. Grok 4 在解决具有挑战性的高中数学竞赛中的基于证明的问题方面已经接近最先进的水平,尽管在一般的证明方面仍有很大的发展空间。(链接
  3. 专业数学家表示,Grok 4 可能是目前最好的数学文献检索模型。(链接
  4. Grok 4 表现出一种有趣的趋势,它可以捕获部分(但不是全部)自身的错误。(链接
  5. 与所有 LLM 一样,Grok 4 的推理方式并不像人类那样:它偏向低级计算,缺乏空间直觉,也没有表现出人类所谓的创造力。(链接

我还认为 Grok 4 发布博客文章中显示的一些性能图表具有误导性,尽管这些观点并不影响整体结论。

  • AIME 和 HMMT 这两项比赛不应该包含 Python 工具设置,因为这些比赛是“手动”进行的。(链接
  • xAI 内部对另一项比赛 USAMO 进行了评分,但透明度不高。虽然这种做法很常见,但却使得比较变得困难。(链接)


1. 基本盘:卷王之王,专治各种“计算题”
Grok 4 在中等难度的高中数学竞赛中“磨练”解决方案方面处于领先地位!

首先,Grok 4最牛的地方,就是“卷”!它特别特别能“刷题”!

想象一下,你面前有一堆奥数题,都是那种需要算啊算啊算,算到你头昏眼花的题。人类学霸可能会想:“有没有什么巧方法?” 但Grok 4不!它直接撸起袖子,说:“来吧!让我算个痛快!”

报告里说,它在AIME、HMMT这些“中学生数学高考”里,靠这种“死算”能力,考了88分,是目前所有AI里最高的!比之前的“卷王”Gemini和o4-mini还高那么一丢丢。这说明啥?说明它算得更快、更稳、更不容易算错,是新一代的“人形计算器”!

> 举个栗子: 有一道题,要算一个抛物线转了60度后,和原来的位置在哪里相交。人类聪明人可能想出一个“妙招”,几下就算出来了。但Grok 4呢?它直接套公式,搞出一个四次方程,然后吭哧吭哧解出来。虽然多走了几步路,但它保证能走到终点,不会因为“妙招”想不出来就卡住。这,就是“卷”的胜利!

解决这些问题需要适度的知识和高度的勤奋
这些比赛要求参赛者精通高中数学课程,并具备进行相当复杂计算的能力。对于人类来说,比赛时间的限制尤其重要:成功的关键在于能否快速识别正确的方法,并在第一次尝试时就正确执行。

得分最高的人类选手能够找到巧妙的捷径,从而解决问题,而无需花费大量时间苦苦思索方程式。这正是创造力、智慧和创新性在这些比赛中发挥的唯一作用。

迄今为止,LLM 一致倾向于采取“精益求精”的方法,Grok 4 也不例外。它在这些基准测试中比其他模型的改进反映了它能够以更高的可靠性进行更复杂的研磨。

Grok 4 处于“解决”问题的前沿:总体而言,Grok 4 在这一类别中的进步反映出其能够更可靠地解决更多问题。

2. 亮点:会自己找“小抄”,还是“文献搜索王”!

最让两位真正的数学教授(Greta和Bartosz)惊掉下巴的,不是它会算题,而是它会“百度”

这两位教授说,如果让他们在写论文、搞研究时,想找点数学资料,Grok 4可能是目前最好用的“搜索引擎”!它不像其他AI,搜出来的都是些乱七八糟的网页。它能精准地找到最相关的学术论文、定理,甚至能把不同领域的知识联系起来!

> 再举个栗子: 教授问它:“怎么算一个甜甜圈(环面)的上同调?” 这问题听着就头大。Grok 4二话不说,先上网搜了一堆专业资料,然后自己写了个小Python程序,一步步算,最后还真给算出来了!教授都看傻了,说这玩意儿简直是“新手研究员的超级外挂”!

所以,Grok 4的强项不是“解题”,而是“查资料+动手算”,组合起来,就显得特别厉害。

3. 槽点:脑子不太灵光,创意为零,还会自己打脸!

但是!别高兴太早!Grok 4的“脑子”和人类完全不一样,它有严重的“缺陷”:

*   没有空间想象力: 你问它:“把两个特殊的三角形粘在一起,会变成什么?” 人类可能会在脑子里想象,或者拿纸折一折,发现是个金字塔。但Grok 4?它只会把每个点的坐标算出来,然后用一个叫“鞋带公式”的东西去算面积。它根本“看不见”那个形状! 就像一个盲人摸象,只能靠摸(计算)来猜。

*   没有创造力: 遇到那种需要“灵机一动”、“脑洞大开”的难题,比如2024年IMO那道“蜗牛找路”的神题(答案是只需要3次尝试,超反直觉!),Grok 4直接懵圈,10次尝试全错。它只会套用已知的方法,想不出任何新点子

*   会“自己打脸”: 有意思的是,它有时候能发现自己算错了!比如一道小学题:“80块75斤的石头,每辆车最多拉2000斤,要几辆车?” 很多AI都算成3辆(6000÷2000=3),但Grok 4能意识到:每辆车最多装26块(1950斤),3辆车只能装78块,还剩2块,所以需要4辆车!它能自己发现这个“陷阱”,说明它比其他AI“细心”一点。但有时候它也会犯低级错误,比如刚说完“一打是12个”,下一句就当成10个来算,真是又聪明又糊涂!

*   爱“抄近道”: 它特别喜欢用“数学归纳法”,不管三七二十一,上来就想用,有时候根本用不对,纯属“强行套公式”。

4. 黑幕:成绩单可能“掺水”了!

报告最后还爆料了点“行业内幕”:

*   xAI公司自己说Grok 4在更难的USAMO(美国奥数决赛)考得特别好,但他们是自己给自己打分的,没请第三方。这就像自己当裁判,吹自己赢,可信度要打个问号
*   而且,他们在算AIME这种比赛时,偷偷给AI开了“Python编程外挂”!这就好比考试时允许你用计算器,那很多题不就秒解了?这成绩当然好看,但不公平啊!人家比赛本来就是要“手算”的!

总结陈词

所以,综合来看,这个Grok 4到底是个啥?

它就像是一个超级勤奋、记忆力超强、还会用“百度学术”的卷王学霸。你给它一堆计算题,它能稳稳当当地刷完,正确率极高。你让它查资料,它能给你整得明明白白。

但它绝对不是爱因斯坦!它没有灵光一闪的创意,没有深刻的洞察力,看不懂图形的美,也想不出“蜗牛只需要3次尝试”这种神操作。

简单说:它是个“做题家”的巅峰,但离“科学家”还差十万八千里。

Grok 4 已接近解决基于证明的问题的前沿,但仍有很大的发展空间,解决这些问题需要更深的数学技能。

  • Grok 4 在 2025 年 IMO奥数上表现不佳
  • 数学家表示,Grok 4 的证明能力时好时坏
  • Grok 4 擅长数学文献检索
  • Grok 4 表现出能够发现自己的错误
  • Grok 4 的数学推理不太像人类:Grok 4 依赖于笛卡尔坐标,而人类则使用空间直觉
  • Grok 4 不会用另辟蹊径的思维来解决问题:
Grok 4 已经达到了 AI 数学能力的前沿——对于一家成立不到两年的公司来说,这无疑是一项了不起的成就。我认为这证明了,除了资金之外,LLM 数学能力并没有强大的护城河。

下一步是什么?xAI报告称,他们使用比以往模型更多的强化学习 (RL) 来训练 Grok 4。就他们的努力而言,我认为他们取得了显著但渐进的进步。回报一直是递减的:输入的指数级增长只会导致输出的线性增长。但从定性角度来看,这让我明白,将当今的强化学习扩展到前沿计算水平并不能立即带来能够胜任数学家工作的人工智能系统。这要么需要进一步扩大规模(表面上看是相当大的规模),要么需要采用不同的方法。