大模型不只是语言能力,还是对广阔世界的理解


这篇发人深省的文章基本上是在大声疾呼:机器人推理的通用智能AGI基础模型可能在今天就已经存在。 LLM 不仅仅关乎特定语言的能力,还关乎对广阔世界的理解。

这篇文章介绍了一种名为“Keypoint Action Tokens”(KAT)的框架,它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发,展示了如何利用现成的基于文本的Transformers模型,在没有额外训练的情况下,进行少量样本的视觉模仿学习。这些模型能够将视觉观察(输入)和动作轨迹(输出)转换成一系列令牌(tokens),这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器,通过视觉输入映射到动作输出。这种方法的一个关键优势是,尽管这些模型是在语言上训练的,但它们在将视觉关键点观察转换成动作轨迹方面表现出色,在数据量较少的情况下,性能与或优于现有的最先进技术。

KAT 并非在语言领域运行,而是利用基于文本的转换器(Transformers)在视觉和动作领域运行,从而实现高效的一般模仿学习,这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

此外,文章还展示了KAT如何解决一系列日常任务,并且即使在对象配置新颖的情况下也能解决任务。KAT还显示出对视觉干扰和背景变化具有鲁棒性。

网友讨论:
1、人类看不到 X 射线。但 X 射线会影响我们的身体。这些 "不可言说 "的概念可能无法用语言来描述,但如果它们的真实性质是长期存在的,那么它们仍会以同样的方式 "影响 "我们的行为.....,就像 X 射线一样。

这样说来,我们可能没有一个词来形容一种感觉......但如果这种感觉产生于一种特定的跳舞方式,或者在一天中的某个时间出现在某个城市,那么这种感觉就会影响其他词被使用的概率,或者增加两个不同的词相邻出现的可能性。

LLM的工作方式完全考虑到了这些不可言传的东西,我们只是....,不能用几个词就轻易地解释它们,我们的大脑会以不同的方式捕捉到同类的东西。

2、语言只涉及表象,因为它是符号交流。语言的大部分意义并不包含在词语本身,因为意义对上下文语境很敏感,而语境往往不是文字,而是情感或物理。

3、我认为所有这些都指向我们已经有强烈直觉的事情:语言是智能的基本组成部分,至少是人类智能的基本组成部分。我甚至会说它是主要组成部分。

4、这种逻辑跳跃太过分了。LLM 不是主动学习者。

  • 它们会在预训练时学习一次,然后重放最可能符合你的提示模式的算法来生成新文本。
  • 你可以从中获得很多有用的信息,但语言技巧并不是智能的全部。

语言只包含智慧的一部分,因为它是人类与生俱来就能理解的概念和质点的代表指针。

这既是它作为信息传递者的力量,也是它作为经验传递者的弱点。

  • 许多事情无法通过语言来传达,或者只能通过字里行间的含义或未说出口的话来传达。
  • 很多交流都是非语言的,与直接经验和物理或情感环境有关。

LLM 是模仿智能某些方面的绝佳工具,但正如莫拉维克悖论(Moravec's Paradox)所说,有许多在人类看来微不足道的自然现象,却超出了人类的能力范围。

未来我们可能会获得真正的人工智能,但由于数学方法存在难以解决的缺陷,目前的Transfer架构不太可能实现AGI通用人工智能。对于科幻迷来说,AGI 和 ASI 都是毫无意义的概念。我们还是先把人工智能这部分做好吧。

5、楼上4点中提出了很多很好的观点,但似乎只关注 "作为交流工具 "的语言,而智能的重点是: "作为思想工具 "的语言。

我们都同意人类语言本身存在缺陷这一事实。LLM 的内部语言在功能上是相同的:一系列相互关联的已学概念,然后可以用来预测未来。当然,从本质上讲,它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言",那么从技术上讲,将其描述为模型在训练过程中创造的语言是正确的。与人类语言打交道的部分只有输入层和输出层。