OpenAI GPT-4o将替代GPT-4并发布BrowseComp

#ChatGPT等OpenAI技术

2025-04-12 banq

昨日OpenAI发了个更新通知，说要在4月30号把ChatGPT里用的GPT-4模型下架。他们准备用全新的GPT-4o模型完全代替原来的版本。

OpenAI说新的GPT-4o在写作文、编程序、还有数理化这些理科题目上，比老版本强多了。

虽然普通用户用不了GPT-4了，但是程序员们还能通过OpenAI的编程接口继续用它。

公司老板奥特曼透露，他们开发这个GPT-4o 2023版砸了超过1亿美金（差不多7亿多人民币），现在这个模型还摊上好几桩侵权官司，最出名的就是被《纽约时报》告上法庭了。

OpenAI发布“BrowseComp”
这是一个衡量AI网络搜索能力的高难度基准GPT，像-4o这样的浏览功能已经具有超出SimpleQA所能测量的范围的能力。

其实去年10月OpenAI就出过个叫SimpleQA的测试也能测这个，不过他们说像GPT-4o这些AI的上网能力已经超过SimpleQA能测的范围了。所以这次新做的BrowseComp（名字就是"上网比赛"的缩写），专门测AI找那些"又难找又复杂"的网络信息的能力。

这个测试里有1266道超难但答案很明确的题目，都是人工出的，必须满足三个条件：

举个栗子：
题目：找2018-2023年EMNLP会议上发表的论文，要求第一作者是达特茅斯大学的，第四作者得是宾夕法尼亚大学本科毕业的。答案：《Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021》

这些题目分好多类：电视剧电影（16.2%）、科技（13.7%）、艺术（10%）、历史（9.9%）、体育（9.7%）、音乐（9.2%）、游戏（5.6%）、地理（5.5%）、政治（4.7%），其他（15.6%）。
让真人试做1255道题的结果：

各AI的成绩单：

研究发现：

最后说明：