13款AI玩6款游戏大乱斗!o3-pro暴虐全场


【游戏AI巅峰对决】o3-pro横空出世!打游戏强到离谱的AI诞生了

这升级简直像开了挂!我们让o3 pro玩俄罗斯方块和推箱子,结果直接把其他AI虐成渣渣

俄罗斯方块篇
o3-pro:疯狂消除8+行(我们实在看不下去叫停了)
老版o3:堆到4行就GG
其他AI:撑死消掉2行就凉凉

知道最可怕的是什么吗?o3-pro不是在被动防守,它居然会预判走位!这种降维打击只有在我们的专属测试里才能看得这么清楚!

推箱子篇
o3-pro:6关全通!速通王者
老版o3:卡死在第6关
其他AI:第4关就集体扑街

三个月前还没有AI能玩转1989年的经典推箱子,现在o3-pro已经能连破三关!空间推理能力简直逆天!

是时候祭出1989年原版地狱难度关卡了,看o3-pro能不能继续封神!

《LMGame-Bench:大语言模型打游戏到底有多强?》
【作者天团】
来自UC圣地亚哥、MBZUAI、UC伯克利的一群学霸

【核心发现】
1️⃣ 游戏AI测试神器:
我们搞了个叫"LMGame-Bench"的游戏测评系统,用《俄罗斯方块》《推箱子》《超级马里奥》等6款经典游戏来考(折)验(磨)AI。发现直接让AI打游戏会翻车——因为:
瞎:看不懂游戏画面
呆:记不住操作步骤
抄:可能背过攻略作弊

2️⃣ 三大外挂装备:
给AI装上这些就能起飞:
透视镜:把游戏画面翻译成文字报告(比如"箱子在(2,3)")
记忆面包:记录最近10步操作,避免重复犯错
策略大师:让AI像学霸做题那样写"解题步骤"

3️⃣ 谁是最强玩家?
测试了13个顶尖AI模型:
冠军:o3和o1( OpenAI家的双胞胎学霸)
亚军:Gemini-2.5-pro和Claude-3.7(谷歌和Anthropic的尖子生)
垫底:纯语言模型(比如GPT-4.1)——光会嘴炮不会动手

【爆笑实验现场】
• 俄罗斯方块:
o3-pro 疯狂消除8+行(研究员被迫叫停:"别卷了!")
其他AI 最多消2行就GG

• 推箱子:
o3-pro 连闯6关(其他AI第4关就卡死)
三个月前所有AI连1989年老版推箱子都玩不明白

• 超级马里奥:
多数AI像无头苍蝇乱撞,分数还不如随机按键

【神奇发现】
游戏训练能开挂:
让AI专门练《推箱子》后,它玩其他游戏和做数学题也变强了!就像你王者荣耀玩多了,玩吃鸡也能快速上手~

现在最强的AI打游戏水平≈人类5岁小孩,想虐AI的同学抓紧了!
(附:完整测评代码已开源,地址在论文最后)