爆料:OpenAI o4可能接近4级自主创新

banq

OpenAI即将推出的推理模型。推文提到:

  • OpenAI的新安全博客表示,其模型即将能够创造新的科学。
  • 有报道称,OpenAI的新推理模型可以在不同领域的概念之间建立联系,以建议新的实验类型。
  • OpenAI的首席财务官(CFO)几天前表示,使用其模型的科学家可能已经能够产生新的发现(但这仍在通过人类研究/测试进行确认)。

推文最后总结说,强化学习(RL)似乎让我们迅速达到了第四级

推文提到的“第四级”自主科学发现的成熟度分级,类似以下框架(假设性分类):

  • Level 1: 基础数据分析(如统计建模)。
  • Level 2: 跨文献关联(如AlphaFold的蛋白质结构预测)。
  • Level 3: 提出有限的新假设(如IBM的AI生成化学合成路径)。
  • Level 4: 自主跨领域创新——模型独立连接看似无关的概念,提出全新研究范式(如将神经网络的训练方法应用于生态学中的物种互动模型)。

OpenAI的进展可能表明,强化学习(RL)正在推动AI从Level 3(辅助人类)跃升至Level 4(主导创新)。

原文:

Connecting the dots on OpenAI's upcoming suite of reasoning models:

  • @OpenAI new safety blog states that its models are on the cusp of being able to create new science.
  • @theinformation has reported that OpenAI's new reasoning models can "connect the dots between concepts in different fields to suggest new types of experiments".
  • OpenAI's CFO said a few days ago that scientists using its models have been able to possibly generate new discoveries (but this is still being confirmed by human research/testing).

网友:
1、任何比 Gemini 2.5 有巨大进步的东西都必须符合创新者(4 级)的资格

2、我们是否已经到了人工智能可以发明新科学但无法打败口袋妖怪的地步?
口袋妖怪需要空间推理能力以及类似“长期稳定性”或“情境学习”的能力,而人工智能在这方面仍然非常薄弱
另一方面,从多个领域的交叉领域提出新的科学理念将发挥 LLM 型人工智能的优势,这些人工智能拥有超人的知识广度和某些类型的模式识别能力,并且永远不会厌倦浏览数百万篇科学论文

3、“创造新科学”的标准是什么?
这很大程度上取决于内推与外推。当前的模型在将现有想法应用于类似问题方面越来越可靠(例如,我知道如何解积分,你给我一个积分)。但是,目前,当复杂性很高时(例如在科学的前沿) ,它们在基于现有想法创建新想法方面表现糟糕。

现在的大模型或许能很好地帮助你充实细节(比如,把你想测试的想法变成实验),但它们并不擅长提出新的研究思路。如果它们能做到这一点,我们就能开始实现科学自动化,这将是一件意义非凡的事情。

4、OpenAI每次放大招,都能把整个行业掀个底朝天。不信你看:

GPT-3.5:我敢打包票(虽然没证据),要是没有3.5版本,这个论坛80%的人根本不会在这儿混

GPT-4:到现在还有人死忠初代GPT-4,觉得它特别懂人话,能get到用户真正想要啥(虽然可能是马后炮,但这些人护着GPT-4就像护着莎士比亚十四行诗似的)

GPT-4o:这都不用多说。它是第一个能同时处理文字、图片、声音,还又快又准的顶级AI,现在全世界都追着学。

o1和o3迷你版:就像很多技术宅猜的那样(哪怕那个吹牛能自我修正的Reflection 70B模型),这些AI真的能检查修改自己写的东西。不管是先打草稿再改错,还是搞个专家团提意见,或者像考试刷题那样反复生成64次答案挑最好的——大家早就发现AI第一次给的答案可能不是最优解,但同一个AI其实能给自己改作业。o1、o3迷你版和DeepSeek的GRPO都证明这招确实管用。

GPT-4.5:虽然算力比不上专业推理模型,但这个基础模型吃得特别饱(训练数据多到吓人),连最懂行的老司机都惊掉下巴。等有人用它的输出训练出推理模型,绝对又是世界第一,吊打其他同级别选手。

现在整个行业都变天了:大模型的聪明劲儿能塞进小模型里;只要给对提示,AI能自己改作文;自从通用AI出现,OpenAI就一直在领跑,跑得比所有人预计的都快。

说人话就是:如果他们真搞出什么黑科技,我一点不奇怪。他们家每次发新品都能惊掉人下巴,逼得其他公司拼命抄作业。不管是画图修图,还是让AI学会自我推理,OpenAI总是第一个立flag,后面一堆人跟着冲。

虽然我讨厌这公司藏着掖着,讨厌他们高管吹牛皮,但他们确实靠实力带节奏,逼着整个行业进步。但愿这次爆料是真的——毕竟真要成了,对全人类都是好事。