OpenAI宫斗背后暗示着人工智能奇点到来?

Noam Brown 是一名 OpenAI 员工,之前在 Meta 工作,创建了 CICERO,他7月份在X上说:

多年来,我一直在研究扑克和外交等游戏中的人工智能自我游戏和推理。现在,我将研究如何使这些方法真正具有通用性。如果成功,也许有一天我们会看到比 GPT-4 好 1000 倍的 LLM大模型。

2016 年,AlphaGo 击败李世石,成为人工智能的里程碑。但其中的关键在于,人工智能能够在每一步棋之前 "思考 "约 1 分钟。这对它的提升有多大?对 AlphaGoZero 来说,这相当于将预训练扩大了 ~100,000 倍(有搜索时 ~5200 Elo,无搜索时 ~3000)

同样在 2016 年,我在扑克牌中也观察到了类似的现象。这一洞察力促成了我们的 Libratus 扑克人工智能首次击败顶尖人类。 @andy_l_jones 在 Hex 中详细研究了训练时间/测试时间的计算权衡,发现了类似的模式。

所有这些先前的方法都是针对游戏的。但如果我们能发现一个通用版本,其好处可能是巨大的。是的,推理可能会慢上 1000 倍,成本也会更高,但我们会为一种新的抗癌药物付出怎样的推理成本呢?或者是黎曼假设的证明?

能力的提高总是有风险的,但如果这项研究取得成功,它对安全研究也会很有价值。试想一下,我们可以花费 100 万美元进行推理,看看未来能力更强的模型会是什么样子。这将给我们带来警示,而我们却缺乏这种警示。

Noam Brown谈论的是一个在策略游戏《外交》中达到人类水平表现的 AI,以及卡内基梅隆大学标题中提到的超人扑克 AI。

他在七月份就发布了这篇文章,看来这就是他们过去几年一直在努力的方向。一种通用人工智能系统,通过使用 AlphaGo、CICERO 和 Libratus/Pluribus 中使用的相同技术,可以在任何事情上实现超人的性能。

这是强化学习方法,代理+环境从奖励中学习。它依赖于有针对性地向外部世界学习。人类使用的文本以及人类反过来使用它来学习、计划和完成真实任务创造了机会世界。因此,人工智能已经对世界进行了干预。在下一次互联网抓取中,将会有可供学习的结果信号,人工智能生成的语言将作为反馈渗透回来,并通过人类社会进行过滤。

通过时不时地根据新的互联网数据重新训练人工智能模型,他们已经可以关闭反馈循环。他们可以产生想法、测试想法并学习结果,从而实现自我完善。它类似于科学方法,即通过测试和实验客观地确定事实的过程。这里的神奇成分是环境,它充当想法验证器。

这可能是AGI通用人工智能开发圣杯的开始。一个你可以直接问“解决气候变化”或“治愈癌症”的人工智能系统。

显然我们还没有真正做到这一点,但这本质上是一个可以“做新科学”的系统,正如山姆·奥特曼喜欢说的那样。将其提供给该国的每个科学研究实验室,我们将看到科学进步的爆炸式增长。这确实是奇点。

也许这就是为什么山姆在这个等式中如此重要。他在“接近 AGi”的协调问题上协调公司内部的人员和“其他人”的工作。但是,一旦 ppl 对齐,AGi 对齐就会更容易,但这可能是最简单的路径会产生负面影响的事情之一。

ChatGPT于2022年11月30日发布。看看短短一年时间世界发生了多大变化。想象一下一年后我们会是什么样子。
我觉得今年将被视为奇点的开始,事情将变得非常疯狂。