AI法庭破案实测:四大模型谁更胜一筹?

banq

OpenAI首席科学家Ilya Sutskever曾经打过一个比方:为什么让AI预测下一个词就能练出智能?这就好比看侦探小说——如果你能根据前面的线索推理出最后一页的凶手是谁,那才叫真正读懂了故事。️‍♂️

受这个启发,我们决定用《逆转裁判》游戏来测试AI的推理能力。这个游戏简直是完美测试场:AI要扮演侦探收集线索、找出证词矛盾、最终揭开真相。

我们让当下最顶尖的AI模型——GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等——在《逆转裁判》里展开对决,看它们能不能拍案大喊"异议!"⚖️,逆转案情,揭穿谎言背后的真相。这个游戏以复杂剧情和法庭辩论闻名,就像侦探小说一样需要串联线索、用证据揭穿矛盾指认真凶。

测试重点放在最烧脑的法庭质询环节。AI必须发现证词矛盾,并出示正确证据进行反驳。每关给5条命,容错空间很小。

有意思的发现:
我们测试了四款顶级多模态AI:O1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

1. O1和Gemini 2.5 Pro表现最好,都打到了第4关。虽然都没通关,但O1在破解高难度案件时略胜一筹。

2. GPT-4.1表现和Claude 3.5差不多。尽管官方说比GPT-4o有提升,但在这个任务里只和旧模型打平手。