大模型不只是语言能力，还是对广阔世界的理解

这篇发人深省的文章基本上是在大声疾呼：机器人推理的通用智能AGI基础模型可能在今天就已经存在。 LLM 不仅仅关乎特定语言的能力，还关乎对广阔世界的理解。

这篇文章介绍了一种名为“Keypoint Action Tokens”（KAT）的框架，它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发，展示了如何利用现成的基于文本的Transformers模型，在没有额外训练的情况下，进行少量样本的视觉模仿学习。这些模型能够将视觉观察（输入）和动作轨迹（输出）转换成一系列令牌（tokens），这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器，通过视觉输入映射到动作输出。这种方法的一个关键优势是，尽管这些模型是在语言上训练的，但它们在将视觉关键点观察转换成动作轨迹方面表现出色，在数据量较少的情况下，性能与或优于现有的最先进技术。

KAT 并非在语言领域运行，而是利用基于文本的转换器（Transformers）在视觉和动作领域运行，从而实现高效的一般模仿学习，这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

此外，文章还展示了KAT如何解决一系列日常任务，并且即使在对象配置新颖的情况下也能解决任务。KAT还显示出对视觉干扰和背景变化具有鲁棒性。

网友讨论：
1、人类看不到 X 射线。但 X 射线会影响我们的身体。这些 "不可言说 "的概念可能无法用语言来描述，但如果它们的真实性质是长期存在的，那么它们仍会以同样的方式 "影响 "我们的行为.....，就像 X 射线一样。

这样说来，我们可能没有一个词来形容一种感觉......但如果这种感觉产生于一种特定的跳舞方式，或者在一天中的某个时间出现在某个城市，那么这种感觉就会影响其他词被使用的概率，或者增加两个不同的词相邻出现的可能性。

LLM的工作方式完全考虑到了这些不可言传的东西，我们只是....，不能用几个词就轻易地解释它们，我们的大脑会以不同的方式捕捉到同类的东西。

2、语言只涉及表象，因为它是符号交流。语言的大部分意义并不包含在词语本身，因为意义对上下文语境很敏感，而语境往往不是文字，而是情感或物理。

3、我认为所有这些都指向我们已经有强烈直觉的事情：语言是智能的基本组成部分，至少是人类智能的基本组成部分。我甚至会说它是主要组成部分。

4、这种逻辑跳跃太过分了。LLM 不是主动学习者。

它们会在预训练时学习一次，然后重放最可能符合你的提示模式的算法来生成新文本。
你可以从中获得很多有用的信息，但语言技巧并不是智能的全部。

语言只包含智慧的一部分，因为它是人类与生俱来就能理解的概念和质点的代表指针。

这既是它作为信息传递者的力量，也是它作为经验传递者的弱点。

许多事情无法通过语言来传达，或者只能通过字里行间的含义或未说出口的话来传达。
很多交流都是非语言的，与直接经验和物理或情感环境有关。

LLM 是模仿智能某些方面的绝佳工具，但正如莫拉维克悖论（Moravec's Paradox）所说，有许多在人类看来微不足道的自然现象，却超出了人类的能力范围。

未来我们可能会获得真正的人工智能，但由于数学方法存在难以解决的缺陷，目前的Transfer架构不太可能实现AGI通用人工智能。对于科幻迷来说，AGI 和 ASI 都是毫无意义的概念。我们还是先把人工智能这部分做好吧。

5、楼上4点中提出了很多很好的观点，但似乎只关注 "作为交流工具 "的语言，而智能的重点是： "作为思想工具 "的语言。

我们都同意人类语言本身存在缺陷这一事实。LLM 的内部语言在功能上是相同的：一系列相互关联的已学概念，然后可以用来预测未来。当然，从本质上讲，它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言"，那么从技术上讲，将其描述为模型在训练过程中创造的语言是正确的。与人类语言打交道的部分只有输入层和输出层。