13款AI玩6款游戏大乱斗！o3-pro暴虐全场

#ChatGPT等OpenAI技术

2025-06-15 banq

【游戏AI巅峰对决】o3-pro横空出世！打游戏强到离谱的AI诞生了

这升级简直像开了挂！我们让o3 pro玩俄罗斯方块和推箱子，结果直接把其他AI虐成渣渣

俄罗斯方块篇
o3-pro：疯狂消除8+行（我们实在看不下去叫停了）
老版o3：堆到4行就GG
其他AI：撑死消掉2行就凉凉

知道最可怕的是什么吗？o3-pro不是在被动防守，它居然会预判走位！这种降维打击只有在我们的专属测试里才能看得这么清楚！

推箱子篇
o3-pro：6关全通！速通王者
老版o3：卡死在第6关
其他AI：第4关就集体扑街

三个月前还没有AI能玩转1989年的经典推箱子，现在o3-pro已经能连破三关！空间推理能力简直逆天！

是时候祭出1989年原版地狱难度关卡了，看o3-pro能不能继续封神！

《LMGame-Bench：大语言模型打游戏到底有多强？》
【作者天团】
来自UC圣地亚哥、MBZUAI、UC伯克利的一群学霸

【核心发现】
1️⃣ 游戏AI测试神器：
我们搞了个叫"LMGame-Bench"的游戏测评系统，用《俄罗斯方块》《推箱子》《超级马里奥》等6款经典游戏来考（折）验（磨）AI。发现直接让AI打游戏会翻车——因为：
瞎：看不懂游戏画面
呆：记不住操作步骤
抄：可能背过攻略作弊

2️⃣ 三大外挂装备：
给AI装上这些就能起飞：
透视镜：把游戏画面翻译成文字报告（比如"箱子在(2,3)"）
记忆面包：记录最近10步操作，避免重复犯错
策略大师：让AI像学霸做题那样写"解题步骤"

3️⃣ 谁是最强玩家？
测试了13个顶尖AI模型：
冠军：o3和o1（ OpenAI家的双胞胎学霸）
亚军：Gemini-2.5-pro和Claude-3.7（谷歌和Anthropic的尖子生）
垫底：纯语言模型（比如GPT-4.1）——光会嘴炮不会动手

【爆笑实验现场】
• 俄罗斯方块：
o3-pro 疯狂消除8+行（研究员被迫叫停："别卷了！")
其他AI 最多消2行就GG

• 推箱子：
o3-pro 连闯6关（其他AI第4关就卡死）
三个月前所有AI连1989年老版推箱子都玩不明白

• 超级马里奥：
多数AI像无头苍蝇乱撞，分数还不如随机按键

【神奇发现】
游戏训练能开挂：
让AI专门练《推箱子》后，它玩其他游戏和做数学题也变强了！就像你王者荣耀玩多了，玩吃鸡也能快速上手~

现在最强的AI打游戏水平≈人类5岁小孩，想虐AI的同学抓紧了！
（附：完整测评代码已开源，地址在论文最后）