GPT-5和Gemini 2.5 Pro双双拿下天文天体物理奥赛金牌


顶尖大模型在国际天文奥赛中碾压人类选手,但空间推理仍是致命短板。

最近,一篇震撼学术圈的论文横空出世——来自美国俄亥俄州立大学、巴西圣保罗大学等机构的研究团队,把五个最顶尖的大语言模型拉进了“国际天文与天体物理奥林匹克竞赛”(IOAA)的考场。结果你猜怎么着?GPT-5 和 Gemini 2.5 Pro 不仅双双拿下金牌,还在多届比赛中直接干翻了全球200多名人类天才高中生,稳居第一名和第二名!这可不是那种选择题问答题的水比赛,而是实打实要手推公式、画图分析、多步推理的硬核科学考试。

换句话说,AI现在不仅能背天文知识,还能像真正的天体物理学家一样思考问题了!

先来认识一下这支“AI考神”背后的科研天团。
第一作者卢卡斯·卡里特·德尔加多·皮涅罗(Lucas Carrit Delgado Pinheiro)可不是纸上谈兵的理论派——他本人就是2018年IOAA的参赛选手,后来连续三年担任巴西国家队领队,还进了2024年赛事学术委员会,堪称天文奥赛的“活字典”。

另一位一作陈子儒(Ziru Chen)来自俄亥俄州立大学计算机系,专攻大模型与科学推理。团队里还有天文学系的丁元森教授(Yuan-Sen Ting),他不仅是AstroMLab天文评测基准的创始人,更是推动AI在天文学落地的核心人物。

再加上通信大牛Ness Shroff、机器学习专家Huan Sun等人,这个跨学科阵容简直豪华到爆——既有懂AI的,也有懂天文的,还有亲自打过奥赛的,三重Buff叠加,评测结果自然权威到没话说。

那么,IOAA到底有多难?它可不是学校里那种“太阳系有几大行星”的常识题。比赛分为理论、数据分析和观测三部分(AI只考前两项)。理论题动辄50分一道,要求你用球面三角、天体力学、宇宙学模型,结合真实物理常数,一步步推导出答案。比如2024年有一道75分的大题,让你计算某次日食中心点的地理坐标——这需要你理解太阳、月亮、地球三者的三维空间关系,建立向量方程,还要考虑地球曲率。而数据分析题更狠,直接给你一堆真实的光变曲线、星表数据、引力波信号,让你从中提取关键信息、画图、拟合、下结论。这完全是研究生级别的科研任务,却被拿来考高中生,难怪全球每年只有不到10%的选手能拿金牌。

研究团队把2022到2025年四年的IOAA真题喂给了五个顶级大模型:GPT-5、OpenAI o3、Gemini 2.5 Pro、Claude 4.1 Opus 和 Claude 4 Sonnet。为了公平,他们连人类选手用的常数表都原样提供,还要求AI用LaTeX写出完整推导过程,画图必须用tikz代码生成——这操作,简直比人类手写还规范。更绝的是,所有AI答卷都由两位IOAA资深专家盲评,严格按照官方评分标准打分,连“思路对但算错”的部分都只扣一次分,绝不双重惩罚。

结果令人瞠目结舌。在理论考试中,GPT-5平均得分84.2%,Gemini 2.5 Pro更是高达85.6%!

什么概念?

IOAA的金牌线是人类选手中位数的160%,而这俩AI在四届比赛中全部远超金牌线,其中GPT-5在2022、2023、2025三年直接考了全场第一,比最强的人类选手还高。就连排名垫底的Claude Sonnet 4也拿了60.6分,稳稳超过人类中位数。

要知道,这些人类选手可是各国层层选拔出来的天才,而AI只是坐在服务器里“闭卷”答题,连互联网都不能搜!

但真正拉开差距的是数据分析考试。这里GPT-5再次展现王者风范,平均88.5分,甚至在2023年拿了满分!它能精准读图、正确拟合曲线、合理解释误差。而其他模型就惨不忍睹了——Claude系列直接掉到48%到55%,连及格线都悬。

为什么?因为数据分析极度依赖多模态能力:你得看懂坐标轴、识别图例、从像素里抠数据。论文里的错误分析图显示,除了GPT-5和Gemini,其他模型光“读图错误”就丢了快一半分。这说明什么?在天文这种高度依赖图像的学科里,多模态能力就是生死线。

不过,别急着喊“AI取代科学家”。论文最精彩的部分其实是“翻车现场”分析:
研究团队发现,所有大模型都有一个致命软肋:空间几何推理

比如2024年那道日食题,三个模型直接假设日月地三点共线——这在现实中根本不可能!还有更离谱的,一道基础角度题,四个模型算出来全是60度,正确答案明明是30度。为啥?因为它们无法在脑子里构建三维天球模型,更别说处理球面三角这种非欧几何了。此外,时间系统也是一大雷区:热带年、恒星年、历书年傻傻分不清,连闰年规则都能搞错。

这些错误不是算力问题,而是认知架构的硬伤——现在的语言模型,终究只是“文字Context处理器”,没有真正的空间想象力。

有意思的是,GPT-5和Gemini虽然都强,但强项不同。GPT-5胜在物理直觉和数据处理,遇到复杂公式推导和图表分析几乎无懈可击;Gemini则在几何题上略胜一筹,2024年那届几何题占比超高,它就反超GPT-5拿了第一。这说明不同模型的训练数据和架构,真的会塑造出不同的“科学思维风格”。

那么,这项研究到底意味着什么?作者们很清醒:AI现在可以当“科研副驾驶”,帮你验算公式、查文献、画初稿图,但绝不能当“主驾”。因为一旦涉及空间想象、物理直觉、近似判断这些人类科学家的本能,AI就容易翻车。比如有道题让估算戴森球温度,GPT-5直接说地球会冻成0K——完全忘了戴森球自己会发热!这种缺乏物理常识的错误,在科研中可是致命的。

未来怎么破局?论文给出了两个方向:
一是给AI配上“视觉草稿本”,让它能像人类一样边想边画示意图;
二是用海量天文图像-问题对训练多模态模型,专门攻克读图难关。

毕竟,天文学80%的信息都藏在图像里,看不懂图的AI,永远只是半吊子。

总而言之,这篇论文既展示了AI在科学推理上的惊人飞跃,也划清了当前技术的边界。它告诉我们:AI不是来取代科学家的,而是来放大人类智慧的。当顶尖模型都能在奥赛中摘金,真正的科研革命或许才刚刚开始。