AI通过语言游戏进行无限制的苏格拉底式学习

banq


来自Google DeepMind London。这篇论文探讨了在封闭系统中通过语言游戏进行的“苏格拉底式学习”(Socratic learning),即一种纯粹的递归自我改进形式,其中代理的输入和输出空间相匹配(即语言),并且输出成为未来的输入。

谷歌 DeepMind 的研究人员推出了苏格拉底式学习(Socratic learning),这是人工智能递归自我改进的一种新方法。 这种方法能让系统自主提高能力,超越初始训练数据的限制。 通过利用结构化的 "语言游戏",这项技术可以为实现人工通用智能提供实用的路线图。

DeepMind 的框架围绕封闭、自足的环境展开,在这种环境中,人工智能系统的运行不需要外部数据。

要实现精通,代理必须满足三个关键条件:

  1. (a)与目标一致的反馈;
  2. (b)广泛的数据覆盖;以及
  3. (c)充足的计算资源。

这种设计促进了自主学习,为 AGI 的发展提供了一条可扩展的途径,同时解决了数据生成和反馈质量等难题。

这种方法的核心是语言游戏,即代理进行交流、解决问题并以分数形式接收反馈的结构化互动。 这些游戏允许人工智能进行自我游戏,在没有人类输入的情况下生成数据和完善技能。 递归结构使系统能够自主创建和玩新游戏,从而释放出更多抽象的问题解决能力并扩展其能力。

最终的创新在于自我修改,即代理不仅能从环境中学习,还能重新配置其内部系统。 这可以消除固定架构带来的限制,为无与伦比的性能提升创造条件。 DeepMind 的研究强调了苏格拉底式学习的潜力,它是朝着创造真正自主、自我完善的人工智能迈出的变革性一步。

论文的主要观点包括:

  1. 自我改进的条件:论文提出了三个条件,即信息反馈、数据覆盖范围和足够的容量与资源,以实现封闭系统中的自我改进。
  2. 苏格拉底式学习:这是一种特殊的自我改进过程,其中代理的输入和输出相容,输出成为未来的输入。论文以语言为例,讨论了这种学习方式如何大幅提高性能。
  3. 语言游戏:论文提出了基于语言游戏的框架来实现苏格拉底式学习。语言游戏被定义为一种交互协议,它规定了一个或多个有语言输入和输出的代理之间的交互,以及每个玩家在游戏结束时的标量得分函数。
  4. 自我改进的限制:论文讨论了苏格拉底式学习在理论上的限制,主要集中在反馈和覆盖范围上。
  5. 递归和自引用系统:论文还探讨了更高层次的递归,包括代理通过生成游戏来改进自己的能力,以及自我引用系统,即代理能够改变自己的内部结构。

论文的结论是,尽管存在挑战,但在原则上,苏格拉底式学习的潜力很高,通过语言游戏框架可以解决这些挑战,并为实际的研究议程提供了一个建设性的起点。