OpenAI宫斗背后暗示着人工智能奇点到来？

Noam Brown 是一名 OpenAI 员工，之前在 Meta 工作，创建了 CICERO，他7月份在X上说：

多年来，我一直在研究扑克和外交等游戏中的人工智能自我游戏和推理。现在，我将研究如何使这些方法真正具有通用性。如果成功，也许有一天我们会看到比 GPT-4 好 1000 倍的 LLM大模型。

2016 年，AlphaGo 击败李世石，成为人工智能的里程碑。但其中的关键在于，人工智能能够在每一步棋之前 "思考 "约 1 分钟。这对它的提升有多大？对 AlphaGoZero 来说，这相当于将预训练扩大了 ~100,000 倍（有搜索时 ~5200 Elo，无搜索时 ~3000）

同样在 2016 年，我在扑克牌中也观察到了类似的现象。这一洞察力促成了我们的 Libratus 扑克人工智能首次击败顶尖人类。 @andy_l_jones 在 Hex 中详细研究了训练时间/测试时间的计算权衡，发现了类似的模式。

所有这些先前的方法都是针对游戏的。但如果我们能发现一个通用版本，其好处可能是巨大的。是的，推理可能会慢上 1000 倍，成本也会更高，但我们会为一种新的抗癌药物付出怎样的推理成本呢？或者是黎曼假设的证明？

能力的提高总是有风险的，但如果这项研究取得成功，它对安全研究也会很有价值。试想一下，我们可以花费 100 万美元进行推理，看看未来能力更强的模型会是什么样子。这将给我们带来警示，而我们却缺乏这种警示。

Noam Brown谈论的是一个在策略游戏《外交》中达到人类水平表现的 AI，以及卡内基梅隆大学标题中提到的超人扑克 AI。

他在七月份就发布了这篇文章，看来这就是他们过去几年一直在努力的方向。一种通用人工智能系统，通过使用 AlphaGo、CICERO 和 Libratus/Pluribus 中使用的相同技术，可以在任何事情上实现超人的性能。

这是强化学习方法，代理+环境从奖励中学习。它依赖于有针对性地向外部世界学习。人类使用的文本以及人类反过来使用它来学习、计划和完成真实任务创造了机会世界。因此，人工智能已经对世界进行了干预。在下一次互联网抓取中，将会有可供学习的结果信号，人工智能生成的语言将作为反馈渗透回来，并通过人类社会进行过滤。

通过时不时地根据新的互联网数据重新训练人工智能模型，他们已经可以关闭反馈循环。他们可以产生想法、测试想法并学习结果，从而实现自我完善。它类似于科学方法，即通过测试和实验客观地确定事实的过程。这里的神奇成分是环境，它充当想法验证器。

这可能是AGI通用人工智能开发圣杯的开始。一个你可以直接问“解决气候变化”或“治愈癌症”的人工智能系统。

显然我们还没有真正做到这一点，但这本质上是一个可以“做新科学”的系统，正如山姆·奥特曼喜欢说的那样。将其提供给该国的每个科学研究实验室，我们将看到科学进步的爆炸式增长。这确实是奇点。

也许这就是为什么山姆在这个等式中如此重要。他在“接近 AGi”的协调问题上协调公司内部的人员和“其他人”的工作。但是，一旦 ppl 对齐，AGi 对齐就会更容易，但这可能是最简单的路径会产生负面影响的事情之一。

ChatGPT于2022年11月30日发布。看看短短一年时间世界发生了多大变化。想象一下一年后我们会是什么样子。
我觉得今年将被视为奇点的开始，事情将变得非常疯狂。