深度学习模块化和语言模型 - Carlos E. Perez

模块化对于任何颠覆性技术都是必不可少的。多年来，深度学习缺乏足够的混合功能来快速定制解决方案。一切都必须从头开始训练或微调。最新的创新正在取消这些限制。

模块化允许开发人员将现有模块与其他模块组合以生成定制解决方案。多年前，深度学习很难做到这一点。

Transformer 和扩散模型从根本上改变了这些方法。Transformers 是指定约束的基本构建块。扩散模型用作并行约束满足的模型。这导致了今天强大的生成人工智能。

也许这是由于我们的物质哲学偏见将命名行为置于基座之上。“亚当给所有的牲畜、天上所有的飞鸟和地上所有的动物都起了名字。” 达尔文打破了静态范畴的神话。

人类对事物进行分类是为了轻松地对它们进行推理。这是认知组块行为，其中刻板印象降低了我们思维过程的复杂性。当然，这通常会导致严重错误。我们可以通过类比和隐喻跳出这个框框思考。

所有的生物认知都是基于约束分类。所有的行动都是建立在平衡多种竞争力量的基础上，以得出一个好的但不完美的解决方案。所有生物生命都在不断努力维持体内平衡。

然而，在生物学中，控制的规范是隐含的，是数十亿年进化的结果。在人类需要控制的机器中，我们依赖于使用名称（如 Adam）来推理如何控制系统。

符号是控制所必需的，因为人类需要符号隐藏复杂特性。人类需要人工构造来推理。我们没有深度学习系统的认知，可以在没有任何符号的情况下“推理”。

深度学习模块化取决于我们人类指定约束的能力，而这可以通过语言模型实现。Few-shot LLM 使这成为可能，而无需对网络进行任何重新训练。

自然语言不是定义约束的唯一方法。对于图像，我们常常不知道如何描述我们的图像。这就是为什么像 ControlNet（和类似系统）这样的开发会带来巨大的机会。

存在一种非常微妙但功能强大的深度学习方法。这个简单的想法是使用神经网络从示例中提取“规范”。然后使用另一个神经网络从提取的示例中生成示例。这是一个普遍的想法。

“Hard Prompts made Easy (PEZ)”展示了这种方法的一个例子。这个想法是从样本图像中提取单词以用作新的相似图像的生成器。huggingface.co/spaces/tomg-gr…

不幸的是，许多项目事后才想到模块化。我的意思是，他们训练的模型是单一的，没有利用现有的网络生态。

使用扩散模型的 Instruct-pix2pix 可以指示的内容存在令人惊讶的差距。这些差距很可能是由训练集中的差距造成的。相比之下，img2img 扩散方法在图像和概念之间没有差距。人们可以将任何图像变形为另一个图像。

18/n ControlNet 比 Instruct-pix2pix 更强大，因为它的模块化架构和更具表现力的约束规范形式。因此，您可以将猫变成黄金、白瓷或柯基犬！

ControlNet 仍然可以通过使用类似于 LoRA 的方法变得更加模块化。这种方法的好处是您可以将许多微调模型堆叠在一起以生成更复杂的约束。

这允许多种引导方法同时演化扩散模型。但是，每种引导方法都采用不同类型的规范。不仅需要单一的文本或图像输入，还需要多种输入。

与 AI 交互的未来将不是普通的自然语言文本，而是可以明确表达多媒体关系的图形。深度学习模块化始于捕捉复杂关系的标准化表达语言（即 DSL）。