OpenAI GPT-4o将替代GPT-4并发布BrowseComp

昨日OpenAI发了个更新通知,说要在4月30号把ChatGPT里用的GPT-4模型下架。他们准备用全新的GPT-4o模型完全代替原来的版本。

OpenAI说新的GPT-4o在写作文、编程序、还有数理化这些理科题目上,比老版本强多了。

虽然普通用户用不了GPT-4了,但是程序员们还能通过OpenAI的编程接口继续用它。

公司老板奥特曼透露,他们开发这个GPT-4o 2023版砸了超过1亿美金(差不多7亿多人民币),现在这个模型还摊上好几桩侵权官司,最出名的就是被《纽约时报》告上法庭了。

OpenAI发布“BrowseComp”
这是一个衡量AI网络搜索能力的高难度基准GPT,像-4o这样的浏览功能已经具有超出SimpleQA所能测量的范围的能力。

其实去年10月OpenAI就出过个叫SimpleQA的测试也能测这个,不过他们说像GPT-4o这些AI的上网能力已经超过SimpleQA能测的范围了。所以这次新做的BrowseComp(名字就是"上网比赛"的缩写),专门测AI找那些"又难找又复杂"的网络信息的能力。

这个测试里有1266道超难但答案很明确的题目,都是人工出的,必须满足三个条件:

  1. 确保GPT-4o、OpenAI o1这些AI目前都答不上来
  2. 出题人要先用搜索引擎试5种不同关键词,确认答案不会出现在搜索结果第一页
  3. 正常人10分钟内解不开,如果其他出题人有40%以上能答对就要修改题目

举个栗子:
题目:找2018-2023年EMNLP会议上发表的论文,要求第一作者是达特茅斯大学的,第四作者得是宾夕法尼亚大学本科毕业的。答案:《Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021》

这些题目分好多类:电视剧电影(16.2%)、科技(13.7%)、艺术(10%)、历史(9.9%)、体育(9.7%)、音乐(9.2%)、游戏(5.6%)、地理(5.5%)、政治(4.7%),其他(15.6%)。
让真人试做1255道题的结果:

  • 2小时内能答出来的只有367道(29.2%)
  • 其中答对的317道(86.4%)有的题几分钟就能搞定,有的要花好几小时。

各AI的成绩单:

  • GPT-4o:0.6%
  • GPT-4o上网版:1.9%
  • GPT-4.5:0.9%
  • OpenAI o1:9.9%
  • 专门上网的Deep research:51.5%

研究发现:

  1. 给AI更多计算资源,成绩会更好
  2. 让AI多试几次选最优答案(Best of N方法),正确率能从51%提到63%
  3. 有16%的题AI每次都能答对,14%的题完全不会
  4. 把标准答案告诉AI后,它基本都能在网上找到证据

最后说明:

  1. 这测试只有唯一标准答案,不测开放性问题
  2. 测试代码已开源(GitHub链接)
  3. 详细论文可以看PDF文件