OpenAI说新的GPT-4o在写作文、编程序、还有数理化这些理科题目上,比老版本强多了。
虽然普通用户用不了GPT-4了,但是程序员们还能通过OpenAI的编程接口继续用它。
公司老板奥特曼透露,他们开发这个GPT-4o 2023版砸了超过1亿美金(差不多7亿多人民币),现在这个模型还摊上好几桩侵权官司,最出名的就是被《纽约时报》告上法庭了。
OpenAI发布“BrowseComp”
这是一个衡量AI网络搜索能力的高难度基准GPT,像-4o这样的浏览功能已经具有超出SimpleQA所能测量的范围的能力。
其实去年10月OpenAI就出过个叫SimpleQA的测试也能测这个,不过他们说像GPT-4o这些AI的上网能力已经超过SimpleQA能测的范围了。所以这次新做的BrowseComp(名字就是"上网比赛"的缩写),专门测AI找那些"又难找又复杂"的网络信息的能力。
这个测试里有1266道超难但答案很明确的题目,都是人工出的,必须满足三个条件:
- 确保GPT-4o、OpenAI o1这些AI目前都答不上来
- 出题人要先用搜索引擎试5种不同关键词,确认答案不会出现在搜索结果第一页
- 正常人10分钟内解不开,如果其他出题人有40%以上能答对就要修改题目
举个栗子:
题目:找2018-2023年EMNLP会议上发表的论文,要求第一作者是达特茅斯大学的,第四作者得是宾夕法尼亚大学本科毕业的。答案:《Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021》
这些题目分好多类:电视剧电影(16.2%)、科技(13.7%)、艺术(10%)、历史(9.9%)、体育(9.7%)、音乐(9.2%)、游戏(5.6%)、地理(5.5%)、政治(4.7%),其他(15.6%)。
让真人试做1255道题的结果:
- 2小时内能答出来的只有367道(29.2%)
- 其中答对的317道(86.4%)有的题几分钟就能搞定,有的要花好几小时。
各AI的成绩单:
- GPT-4o:0.6%
- GPT-4o上网版:1.9%
- GPT-4.5:0.9%
- OpenAI o1:9.9%
- 专门上网的Deep research:51.5%
研究发现:
- 给AI更多计算资源,成绩会更好
- 让AI多试几次选最优答案(Best of N方法),正确率能从51%提到63%
- 有16%的题AI每次都能答对,14%的题完全不会
- 把标准答案告诉AI后,它基本都能在网上找到证据
最后说明:
- 这测试只有唯一标准答案,不测开放性问题
- 测试代码已开源(GitHub链接)
- 详细论文可以看PDF文件