基础认知框架:强化学习+代理


本文介绍了TAME(Technological Approach to Mind Everywhere)框架和强化学习(RL)的概念,旨在将生物学和人工智能领域进行交叉研究。

这种将生物学和强化学习相结合的方法,可用于理解生物体和构建人工智能。这种框架能实现对智能系统的检测、理解和功能性交互。

  • TAME框架强调了目标导向行为作为所有智能系统的主要不变特征,关注生物学中多尺度学习的复杂智能行为,强调目标导向行为和观察者依赖的代理评估,并提倡通过实证实验来确定系统的认知能力。
  • 强化学习提供了一种量化多尺度生物学问题的工具,有助于理解生物学在各个层级上如何学习和适应环境。

这种交叉研究对机器学习算法、生物医学和合成生物工程的重要性。

文章还强调了多样化的认知复杂度连续性,并指出了生物体和机器之间的界限将逐渐模糊。


抽象:

  • 生物会玩耍、探索和模仿周围的人,这种行为有目的吗?
  • 生物只是在行动?还是在努力实现目标?

我们认为这是一种错误的二分法。

为此,为了理解生物体,我们试图将两种理解复杂代理的方法统一起来。我们认为,生物学中描述多尺度能力和目标导向性的形式主义(如TAME)与强化学习(RL)可以结合在一个共生框架中。

虽然强化学习在很大程度上是针对高级生物体和高复杂性机器人的,而TAME自然也能描述低级生物体和最小代理。

我我们希望本文中提出的研究计划能够影响未来理解生物有机体的努力,以及未来构建人工代理的努力。

摘要:
大自然为复杂的结构和功能提供了许多令人瞩目和鼓舞人心的例子。一个典型的例子是发育形态发生:单细胞(受精卵)可靠地产生出具有精致的多尺度解剖秩序的身体,包括树、蛇、大象等各种身体形态。

人们普遍认为,这可以通过涌现复杂性的概念来理解:当大量局部因子迭代执行分子通路和细胞行为的简单规则时,就会产生复杂的结果,如上述的树、蛇和大象。

这种行为很容易在细胞自动机和其他复杂性科学的主要概念工具中观察到。

但重要的是,这种方法在很大程度上无法填补两个关键空白。

  • 首先,推导出可实现预期系统级目标的低级干预措施,这一逆向问题严重限制了再生医学和生物工程的发展,涌现模型很难让人知道在亚单位层面上需要改变什么才能获得理想的解剖和行为结果。
  • 其次,这些形式主义并没有解决与灵活解决问题有关的生物调控方面的问题:稳健性、对环境敏感的可塑性以及通过解剖学平衡自上而下的控制,这些控制能够在组成和环境发生变化的情况下实现其适应性目标。

生物学中的许多现象并不是简单的前馈(开环)涌现的结果,而是表现出根据新情况调整大规模结果的非凡能力。
例如,哺乳动物的早期胚胎被切成两半后会产生正常的单卵双胞胎,因为每一半胚胎都会重建其缺失的部分。

这是一种更普遍的再生现象的特例,在这种现象中,一些物种的身体能够识别缺失的结构,并激活细胞快速增殖和重塑,直到正确的结构完整为止。

蝾螈可以再生出眼睛、下颌、四肢和尾巴(包括脊髓)(McCusker 和 Gardiner,2011 年),而扁虫则可以再生出身体的任何部分,即使是很小的碎片(Saló 等人,2009 年)。

最重要的是,能够识别缺失的部分,准确构建所需的结构,然后在完成正确的目标形态后停止,这是一种解剖学上的平衡。

尽管在存储解剖学设定点的机制方面取得了进展,但人们对这种高效的误差最小化循环仍不甚了解,不知道该系统是如何测量复杂状态并解决手段端问题以减少与正确目标形态的距离的。

另一个例子在蝌蚪身上体现得很清楚,蝌蚪要变成青蛙,必须对自己的脸部进行重大调整。研究发现,如果青蛙胚胎的脸部配置混乱(眼睛、下颌、嘴巴等的起始位置不正确),那么生出的青蛙可能基本正常(Vandenberg 等人,2012 年),因为器官会以新颖、不自然的路径运动,直到到达正确的位置后才会停止(Pinet 和 McLaughlin,2019 年)。因此,遗传学并没有规定将标准蝌蚪变成标准青蛙的硬连线运动--相反,它规定了细胞硬件,能够执行一种灵活的矫正方案,相对于解剖学设定点,实施一种手段终结过程(Harris,2018年;Levin等人,2019年)。

生物系统对新条件的反应能力甚至比减损损伤或异常起始状态更深层次。当蝾螈的细胞被人为地增大时,产生的动物是正常的,表现出器官的调整和重新缩放,使每个结构的细胞数量减少。

最令人惊叹的是肾小管,其横截面通常由 8 个细胞共同组成。在实验中,当细胞变大时,越来越少的细胞合作形成相同直径的肾小管,直到细胞变得非常巨大,这时只有一个细胞缠绕在自己周围,形成正确大小的管腔(Fankhauser,1945 年)。

这个例子表明,为了实现大规模解剖学目标,可以调用不同的分子机制(细胞-细胞交流与细胞骨架弯曲)。

合成生物科学
从合成生物学(通过新型分子电路对细胞进行重编程)向前迈进,我们必须进入合成形态学领域:对大规模形态和功能进行重编程(Davies 和 Levin,2023 年;Glykofrydis 等人,2021 年)。

由于生物工程师与进化论者一样,工作对象是具有能动性的物质(细胞 Davies 和 Levin,2023 年),而不是被动的物质,因此这一领域的路线图是开始了解细胞集体能够进行的学习类型,并制定策略,在解剖学和行为学空间中重新指定它们的目标。

随着下一阶段任务--实际提高活体组织的 RL 能力--的展开,这些策略将极大地促进任意所需的合成活体机器的构建:超越恢复标准形态(再生医学),完全控制生长和形态,以创造工程用途所需的任何新型结构。

TAME+RL
TAME 是一个用于理解和学习操纵多尺度代理(无论是进化的、设计的还是混合的)的强大功能能力的框架。RL 有望成为其数学实例。然而,目前的 RL 缺少 TAME 的一些特性,特别是它对生物学中常见的多代理设置的重视。因此,这些特性有望在强化学习中提出新的问题。

RL 似乎并不适合用于处理生物行为,因为目标定向似乎违反了因果关系,但这一观点已被驳斥,例如在参考文献中。Heylighen (2023)。

同样,物理规则中的决定论并不意味着缺乏代理,因为代理仍然可以是其行为的来源(见参考文献:Babcock and McShea (2023))。Babcock and McShea (2023))。

此外,在研究生物体时,RL 似乎是 TAME 的一个不那么有用的实例,因为它涉及如此多的学习模式。

然而,RL 更多关注的是目标,而不是如何实现目标,因此自然界中存在的大量学习模式完全符合用 RL 算法对生物体行为进行数学描述的可能性。

而且,即使我们只是偶尔获得奖励,比如生孩子或吃饭时,"稀疏奖励 "在 RL 框架内也是允许的。

我们还没有讨论过的一个有趣的未来方向是,设想存在多种奖励功能,例如,一个用于维持生计,一个用于庇护所,一个用于交配,等等,尽管生物体的行为最终可能归结为最大化可存活子女的数量,无论人们如何定义 "可存活"。

RL 也从生物学和心理学中汲取了许多灵感,因此 RL 的许多新研究方向和进展都来自于生物属性的融入。参考文献Wang等人(2018)的论文,其中元学习被认为是由前额叶皮层中的递归神经网络执行的。这篇论文正是我们希望通过这篇论文促进跨学科研究的一个例子。事实上,我们可以将进化视为我们一直关注的低级生物的元学习机制。

我们认为,TAME 框架提出的几个问题可以推动 RL 领域的发展:

  • 在考虑由强化学习者组成的人工代理时就会产生许多问题,虽然在这个方向(多代理强化学习)上已经做了一些工作,但我们认为还不够。
  • 此外,在量化具有一定规模的 RL 代理的认知能力方面,几乎还没有任何工作,而这将有助于量化生物有机体在多种规模和多种问题空间中展现智能程度的方式(Lyon,2006 年)。
  • 另一方面,RL 和 TAME 框架通过重设细胞、组织和器官调节的原动力目标,为生物有机体以及如何在再生医学背景下改变多个层面的功能提供了新的见解(Lagasse 和 Levin,2023 年)。

新的定量测量和干预实验使我们能够检验这些见解。