受这个启发,我们决定用《逆转裁判》游戏来测试AI的推理能力。这个游戏简直是完美测试场:AI要扮演侦探收集线索、找出证词矛盾、最终揭开真相。
我们让当下最顶尖的AI模型——GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等——在《逆转裁判》里展开对决,看它们能不能拍案大喊"异议!"⚖️,逆转案情,揭穿谎言背后的真相。这个游戏以复杂剧情和法庭辩论闻名,就像侦探小说一样需要串联线索、用证据揭穿矛盾指认真凶。
测试重点放在最烧脑的法庭质询环节。AI必须发现证词矛盾,并出示正确证据进行反驳。每关给5条命,容错空间很小。
有意思的发现:
我们测试了四款顶级多模态AI:O1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。
1. O1和Gemini 2.5 Pro表现最好,都打到了第4关。虽然都没通关,但O1在破解高难度案件时略胜一筹。
2. GPT-4.1表现和Claude 3.5差不多。尽管官方说比GPT-4o有提升,但在这个任务里只和旧模型打平手。