大语言模型其实与语言几乎没有关系

banq

大型语言模型(LLMs)的核心能力在于处理和预测一系列离散的标记(tokens),而不仅限于自然语言中的单词或短语。这种能力使得LLMs可以被应用于多种领域,包括图像处理、音乐生成、药物发现等,只要这些领域的问题能够被转化为标记流的建模问题。

随着LLMs的发展,它们有潜力将许多不同领域的问题统一到一个共同的框架下,即“下一个标记预测”问题。这种统一性可能会简化许多任务的建模过程,因为我们可以利用LLMs的强大能力和灵活性来处理各种类型的数据。

然而,这种趋势并不意味着所有的深度学习问题都将归结为LLMs。深度学习领域仍然存在多样化的问题,需要不同的模型架构和算法来解决。

  • 例如,卷积神经网络(CNNs)在图像和视频处理方面非常有效,
  • 循环神经网络(RNNs)和长短期记忆网络(LSTMs)在处理时间序列数据时有其独特的优势。
  • 此外,还有一些问题可能需要特定于领域的知识,这些知识不容易被转化为标记流。

至于深度学习框架,如PyTorch和TensorFlow,它们提供了广泛的工具和操作,以支持研究和开发各种类型的深度学习模型。虽然LLMs可能在某些领域占据主导地位,但这些框架的通用性仍然对于推动深度学习领域的创新和发展至关重要。它们允许研究人员和开发人员探索新的模型架构,实现自定义操作,并解决那些LLMs可能不擅长或不适用的问题。

总的来说,LLMs的广泛应用确实表明了它们在处理标记流方面的通用性,但这并不意味着它们将完全取代其他类型的深度学习模型。深度学习领域将继续需要多样化的工具和框架来解决广泛的挑战。

LLM(“大型语言模型”)与语言几乎没有关系
"语言 "一词误导了人们,让人们以为 LLM 只限于文本应用。

一个更好的名字是自回归变压器(Autoregressive Transformer)或什么的。

  • 它们不关心标记是否恰好表示小文本块。
  • 它也可以是小的图像补丁,音频块,动作选择,分子,或任何东西。

如果您可以将问题简化为对令牌流进行建模(对于某些离散令牌集的任意词汇表),那么您可以“发布一个LLM”。

随着LLM堆栈变得越来越成熟,我们可能会看到大量问题收敛到这种建模范式中。

讨论:

  • 用自回归autoregressively方式表达的一切都是一种语言,一切都可以延伸成一串符号,所以一切都是语言!
  • 文本、DNA、蛋白质、乐谱等都是离散的或容易离散的:

大型语言模型 (LLM) 的优势在于其能够处理可排序的离散数据。以下是其如何应用于不同类型数据的细分:

  • 文本:自然离散,具有单词或子单词标记(如字节或字符),这些标记在序列中具有明确的顺序。LLM 擅长对一个标记接一个标记的概率进行建模,捕捉语言结构、语义和语法的细微差别。
  • DNA 序列:也是离散的,具有具有自然顺序的核苷酸序列(腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶)。LLM 可用于预测一个核苷酸跟随另一个核苷酸的可能性,这在基因组学中可用于序列比对或基因预测等任务。
  • 蛋白质:由氨基酸序列组成,氨基酸是离散符号。蛋白质序列中这些氨基酸的顺序决定了蛋白质的结构和功能。法学硕士可以帮助预测蛋白质序列和了解蛋白质-蛋白质相互作用。
  • 乐谱:可以分解为一系列音符、休止符和其他音乐符号。乐谱中的自然顺序遵循音乐的时间进程。LLM 可用于通过学习这些序列中的模式来生成或分析音乐作品。

对于图像等没有自然顺序或本质上不是离散的数据类型,LLM 并不直接适用。但是,可以通过以下过程将图像转换为顺序格式:
  • 逐像素处理:将图像展开为一系列像素。
  • 基于块的方法:受到视觉转换器 (ViT) 的启发,其中将图像分成块,然后对这些块进行排序并输入到模型中。
  • 空间层次:通过一系列可以捕捉局部和全局结构的转换来对图像中的局部模式进行建模。

尽管进行了这些转换,LLM 或转换器处理的图像数据仍然依赖于将输入空间离散化为一系列标记或向量。图像的挑战在于,在转换为序列时,像素之间的空间关系会丢失,这就是卷积神经网络 (CNN) 在图像任务上如此成功的原因——它们保留了空间层次结构

但是这一问题还是可以依靠LLM的原始核心Transformer解决:Transformer其实是一种集合Set处理器 

标记流的统计建模什么时候有效?
只有在不需要真正的推理、规划或世界模型,以及分布相对稳定的情况下,标记流的统计建模才会很有效。
如果异常值是一个严重的问题,或者推理、规划或世界模型是必不可少的,那么 LLM 并不是一个很好的解决方案。

这就是为什么我们仍然需要对替代方案进行更多探索,可能是神经符号方案,而不仅仅是利用 LLM。

讨论:

  • 计划和推理难道不也是语言中的一种语言吗?因果关系路径和特定的条件分支在流的令牌中。
  • 人们把“理性”当作一个“东西”,一种能力;但事实上,它更像是一个过程,一种谨慎的形式,这给人一种符号被以一种可靠的方式操纵的感觉。当人们说LLM不“推理”时,他们的意思是这种谨慎没有被他们感觉到而已。
  • LLM已经是神经象征了。这些符号具有模糊性,其解释和评价依赖于上下文,这给了它们很大的权力和灵活性。
  • 我们是否知道OpenAI实际上是否试图为o1模型提供一些神经符号功能?我在考虑LLM产生标记的某种能力,这些标记导致生成填充表示,然后对它们进行推理。
  • LLM从他们的训练中构建静态世界模型。他们不是实时感知世界的。他们的推理/规划限制源于有限的深度和一次通过架构,但OAI现在已经展示了一种超越这种限制的方法。对人类进行建模导致了纯神经+符号工具。