这场赌局完美诠释了科技圈现状:懂技术的人瑟瑟发抖,搞传销的人疯狂画饼。
转眼来到2025年,AI用行动演绎了什么叫"昨天还叫人家人工智障,今天就得叫爸爸":
- 第一阶段(2023年):GPT-4o参加美国数学邀请赛,考出12分的感人成绩,相当于在试卷上写满"解:略"。
- 第二阶段(15个月后2025年的今天):同个AI突然在IMO摘金,解题速度比学霸抄作业还快。网友锐评:"这进步曲线,堪比学渣暑假偷偷报了衡水补习班!"
最讽刺的是,这AI解题时还会像人类一样"装模作样":先试错、再找规律、最后验算——完美复刻学霸考试时的表演型人格。
面对质疑,研发团队轻描淡写表示:"我们没用任何专业工具哦~纯靠'聊天'就教会了AI做奥数题呢~"
今天来自 Twitter(现 X 平台)用户 Sheryl Hsu 的三条连续推文,主要围绕人工智能在数学竞赛中的最新进展展开。
第一条推文
- 她提到:模型在没有任何 Lean、代码等工具辅助、仅靠自然语言、且只有 4.5 小时解题时间的情况下,就能完成高难度数学问题。模型展现了“非常高阶的推理”——会尝试不同策略、从示例中观察规律、验证假设。
- 她感慨:从 GPT-4o 在 AIME 只拿到 12% 的分数,到仅用约 15 个月就在 IMO 拿到金牌,进步速度惊人。她甚至预测,明年模型就可能开始“推导新定理、为原创数学研究做贡献”。
- 她表示:之所以特别投入这个项目,是因为这次胜利源于“通用研究进展”,不仅限于数学领域,未来几个月 ChatGPT 的其他能力也会持续提升,变得更实用。
极客辣评
好像deepmind也获得这次奥数金牌
以后中国队和AI对决
听说IMO(国际数学奥林匹克)组委会曾卑微请求各大AI公司:"求求了,等闭幕式结束一周再发成绩,给孩子们留点面子吧!" 然而OpenAI显然深谙"流量至上"原则——不仅提前官宣成绩,还精准卡在闭幕式前夜,生怕人类小朋友抢了自家AI的风头。这波操作,堪称"AI界的霸凌现场"。
有意思的是,OpenAI唯一没解出来的第六题协调员透露,IMO评委组一致认为:"这很粗鲁且不合时宜"。翻译成人话就是:"我们见过不要脸的,但没见过这么不要脸的。"
更绝的是,OpenAI压根不是IMO官方合作的AI测试机构,连个"正规考场"都没进。隔壁Google DeepMind好歹是"持证上岗",成绩单有监考老师签字;而OpenAI的"金牌"怕不是自己在家打印的——连成绩是真是假都存疑。(注:用"打印金牌"讽刺其成绩的可信度)
当IMO组织者低声下气请求"给孩子留点尊严"时,OpenAI用实际行动证明:在热搜和流量面前,人类的尊严算个屁。这些天才少年苦练十几年数学,结果风头全被AI抢光。建议IMO明年增设"最佳戏精奖",OpenAI必能蝉联冠军。
OpenAI这波操作,成功解开了数学界一大未解之谜——"如何用一行代码,同时激怒组委会、参赛者和围观群众?" 建议将此算法命名为"缺德优先·抢戏模型",收录进《AI伦理反面教材》第一章。
OpenAI那个拿数学奥赛金牌的模型有个特别显眼的特点:说话特别省,恨不得一个词就把意思全说完。经常连语法和拼写规则都不管了。都说"压缩能力强就是智商高",我们可能正在见识一种全新的信息压缩方式!
举几个例子:
"not divisible by3"
(为了省一个token,连空格都不加,正常该写"by 3")
"Let ω= circumcircle"
(这种写法能省token,因为"ω=circumcircle"算5个token,但如果只在一边加空格就变成4个)
"Need show also all terms multiple of 3"
(为了省token,连"multiple"的复数都不加)
它还用单个词来标记解题进度,比如:perfect(完美)、good(不错)、full(完整)、exactly(精确)这些词。
OpenAI的结果可以在Github上获得,整个世界都可以分析其合法性:https//github.com/aw31/openai-imo-2025-proofs