OpenAI最新涌现:Q*+Zero+ELBO+PPO

这四件事似乎是 OpenAI 的最新进展,如果这个猜测是正确的,那么这似乎是一个巨大的飞跃。

使用这四种技术的人工智能系统理论上可以做什么,或者它可以做什么当前系统无法做到的事情:

  1. Q*搜索:这是人工智能的一种智能决策方法,使其能够有效地对众多选项进行排序并识别出最有前途的选项。这种方法简化了流程,显着加快了人工智能做出复杂决策的速度。
  2. 证据下界(ELBO):这是一种用于提高人工智能做出预测或决策的准确性的技术,特别是在复杂的情况下。ELBO 帮助人工智能更加接近现实,确保其预测尽可能准确。
  3. AlphaZero 式的“零”学习:受 AlphaZero 的启发,这种方法允许人工智能从头开始学习和掌握任务,而不依赖于预先存在的数据。它通过自我游戏或自我实验来学习,不断改进和适应。这种方法对于在不存在先验知识的领域开发人工智能专业知识非常强大,使人工智能能够发现新颖的策略和解决方案。
  4. 近端策略优化(PPO):这将增强我制定策略或解决方案的方式。例如,如果您正在尝试优化业务流程,我当前的方法可能会建议标准最佳实践。借助 PPO,我可以迭代地完善这些建议,确保每一步都比上一步稳定改进,从而有可能带来更具创新性和更有效的解决方案。

集成 Q* 搜索、ELBO 和零学习的人工智能系统代表了人工智能的重大进步。它擅长在复杂情况下快速找到最有效的解决方案,类似于以闪电般的速度解决复杂的谜题。即使在不确定的情况下,它增强的预测准确性也将使其对于需要细致判断的任务具有无价的价值。此外,它的自学习能力,从零知识开始,在没有历史数据的情况下改进,使其能够创新并解决以前无法解决的问题。

近端策略优化PPO
另一位 OpenAI 员工提出了近端策略优化(Proximal Policy Optimization)或 PPO,所以这似乎是他们正在集成到下一个 AI 模型中的另一件事:

PPO 帮助 AI 找出实现其目标的最佳行动。它这样做的同时确保其决策策略的变化在训练步骤之间不会太剧烈。这种稳定性很重要,因为它可以防止人工智能以可能有害或无效的方式突然改变其策略。

将 PPO 视为指导 AI 稳定、安全地改进的教练,而不是对其游戏方式进行重大且冒险的改变。这种方法在各种应用的人工智能训练中很受欢迎,从玩超人水平的视频游戏到优化现实世界的物流。

将所有这些放在一起,感觉就像克服了很多障碍。数据稀缺的问题已经解决。人工智能可以更快地找到最佳解决方案,做出极其精确的预测,同时被引导稳步改进,并使用这种 AlphaZero“自我博弈”学习,假设成为任何领域的超人。鉴于一个月前OpenAI Sutskever 的采访,他说他无法详细说明,但数据不再是未来模型的限制,这是完全有道理的。