​​​​​​​OpenAI可能已经'爆发'!进入自举


今天很多人讨论,猜测OpenAI已经越过了临界点(“奇点”),AI开始自我迭代。

OpenAI可能已经'爆发',并最终越过了起飞的最后一个临界点:智能到递归自我改进的程度,o 4或o 5将能够自动化AI研发并完成其余部分。

  • o1这样的模型的主要目的不是部署它,而是为下一个模型生成训练数据。
  • o1解决的每个问题现在都是o3的训练数据点。
例如,任何o1会话最终找到正确答案的过程都可以被提炼,去掉死胡同,生成一个干净的记录来训练更精细的直觉

像“o1”这样的模型不仅用于部署,还用于生成后续模型(如“o3”)的训练数据。这一过程涉及对数据进行提炼,以提高模型的直觉,从而实现持续改进。

这意味着这里的扩展范式可能最终看起来很像当前的训练范式:

  • 大量的大型数据中心努力训练一个最高智能的最终前沿模型,
  • 该模型通常将以低搜索的方式使用,
  • 并被转化为更小、更便宜的模型,
  • 用于那些低/无搜索仍然过于强大的用例。

在这些大型数据中心内部,工作负载可能几乎完全与搜索相关(因为实际的微调与推演相比是如此便宜和容易),但这对外界无关紧要;

和以前一样,你看到的基本上是高端GPU和大量电力投入,等待3-6个月,一个更智能的AI就诞生了。

有点惊讶OpenAI(OA)竟然部署了o1-pro,而不是将其保密并将计算资源投入到更多的o3训练引导中。(显然,Anthropic和Claude-3.6-opus就是这样做的——它并没有“失败”,他们只是选择将其保密,并将其提炼成一个更小、更便宜但异常聪明的Claude-3.6-sonnet。)

如果你想知道为什么OpenAI的员工突然在Twitter上表现得异常乐观,甚至有些兴奋,可能是因为他们看到了从最初的4o模型到o3(以及它现在的位置!)的改进。这就像观看AlphaGo的Elo曲线:它一直在上升……再上升……再上升……

可能会有一种感觉,他们已经“突破了”,并最终跨越了最后一个临界点,从仅仅是前沿的AI工作(其他人将在几年内复制)到起飞——破解了智能,使其能够递归自我改进,o4或o5将能够自动化AI研发并完成剩下的工作:

  • 奥特曼Altman在2024年11月说“我可以看到一条道路,我们所做的工作将继续复合,过去三年的进展速度将在未来三年、六年、九年或更长时间内持续下去”
  • 而在一周前,他说“我们现在有信心知道如何构建我们传统上理解的AGI……我们开始将目标超越这一点,转向真正意义上的超级智能。我们喜欢我们当前的产品,但我们在这里是为了辉煌的未来。有了超级智能,我们可以做任何其他事情。”
(让DeepSeek追赶他们的尾灯;一旦超级智能研究能够自给自足,他们无法获得竞争所需的大型计算资源,这几乎是字面意义上的。)

然后你还可以鱼与熊掌兼得:最终的AlphaGo/Zero模型不仅超强,而且运行成本也非常低。(只需进行少量搜索就能达到超强水平;即使是前向传递本身也接近职业人类水平!)