人类终极考试翻车:3000道题只蒙对1道!


最近,我削好一支2号铅笔,参加了"人类终极考试"的历史部分。这场考试有3000道超级难的题目,其实是专门为人工智能设计的,根本不是考人类的。出题人说,只要有一个聪明机器人能考到A,这场"人类最后考试"就能告诉我们AI什么时候会取代人类。

结果我考了个F。更惨的是——我只答对了一道题,而且必须承认那道题是多选题,纯属蒙对的。作为一个历史学博士,这实在太丢脸了。

怎么回事?让我用学术界标准的甩锅大法:怪出题人。这场考试里,3000多道题只有16道历史题,数学题却超过1200道。号称要测试"全人类知识",这个比例也太离谱了,说明考试设计很有问题。

历史题本身也出得奇怪。16道历史题里,居然有4道(占25%)是考海军战役的。我承认自己确实记不住各种军舰的吨位数据。其他题目则故意绕来绕去,像在玩文字迷宫——显然是想用生僻术语把AI绕晕,结果先把我给绕晕了。

这里不能具体复述题目,因为考试主办方禁止AI提前偷看。不过这就引出一个问题:真正的超级智能会作弊吗?我觉得会吧。如果你想亲自试试这个考试,可以去Hugging Face和GitHub找题库。另外我没考"古典文学"部分,因为我是现代史学者,不懂拉丁语希腊语——但这部分其实也多是历史题,大概因为古代人也老打海战吧。

虽然挂科了,但我明白了现在人们怎么评估AI:
这场考试认为"智能"就是能答对难题,类似的测试还有很多。

另一个历史知识测试用的是全球历史数据库,但本质上还是考问答,好给每个AI模型打分。每当发布新模型,AI公司就爱炫耀分数进步:"这个模型历史博士考试92分!去年才56分!"

他们确实有资格骄傲。六年前我测试谷歌和微软的图像识别API时(那时还没有GPT),识别我图书馆照片档案的准确率能有80%就很惊喜了。现在馆里技术团队给所有AI图像服务做了统一接口,测试结果比当年强多了(虽然还不完美)。

历史学者本杰明·布林的AI测试也显示进步神速。最新AI在某些方面堪比历史系一年级博士生,能分析需要专业背景的复杂文献图像。在翻译、转录方面甚至超过多数博士生。特别是破解手写古籍这个世纪难题——历史学家卡梅伦·布莱文斯发现,定制版GPT已经能让珍贵档案变得可搜索可阅读,这可能彻底改变历史研究方式。

这些进步说明,AI真正的突破未必是完美答题,而是帮我们完成收集证据、解读资料这些研究过程中的"脏活累活"。


现在大家没想明白的是:博士级工作不只是给正确答案,更要提出独特问题

我们当然需要答案,但首先要发现值得问的新问题

好的历史研究可能始于"为什么古典音乐会观众从吵闹变安静?"这种看似简单的问题(这个问题让我知道音乐厅的安静其实是近代才有的规矩),或是:

  • "为什么英国人突然把狗当宝贝?"
  • "为什么牛顿沉迷炼金术?"
  • "战争如何彻底改变士兵的心灵?"

AI能不能提出这种让人眼前一亮的问题?这个问题值得另写一篇来讨论。

作者:
丹·科恩(Dan Cohen),美国历史学者、数字人文领域专家,曾任美国数字公共图书馆(DPLA)首任执行主任,现任东北大学(Northeastern)图书馆馆长及历史系教授。

  • 著有《数字未来》(Digital Futures)等书,探讨技术对学术生态的影响。