AI法庭破案实测：四大模型谁更胜一筹？

#大语言模型LLM

2025-04-16 banq

OpenAI首席科学家Ilya Sutskever曾经打过一个比方：为什么让AI预测下一个词就能练出智能？这就好比看侦探小说——如果你能根据前面的线索推理出最后一页的凶手是谁，那才叫真正读懂了故事。️‍♂️

受这个启发，我们决定用《逆转裁判》游戏来测试AI的推理能力。这个游戏简直是完美测试场：AI要扮演侦探收集线索、找出证词矛盾、最终揭开真相。

我们让当下最顶尖的AI模型——GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等——在《逆转裁判》里展开对决，看它们能不能拍案大喊"异议！"⚖️，逆转案情，揭穿谎言背后的真相。这个游戏以复杂剧情和法庭辩论闻名，就像侦探小说一样需要串联线索、用证据揭穿矛盾指认真凶。

测试重点放在最烧脑的法庭质询环节。AI必须发现证词矛盾，并出示正确证据进行反驳。每关给5条命，容错空间很小。

有意思的发现：
我们测试了四款顶级多模态AI：O1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

1. O1和Gemini 2.5 Pro表现最好，都打到了第4关。虽然都没通关，但O1在破解高难度案件时略胜一筹。

2. GPT-4.1表现和Claude 3.5差不多。尽管官方说比GPT-4o有提升，但在这个任务里只和旧模型打平手。