谷歌推出无限上下文的新Transformer

谷歌这项研究引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到具有有限内存和计算的无限长输入。

一个关键组成部分是一种称为“无限注意力 Infini-attention ”的新注意力技术： Infini-attention 将压缩记忆融入到普通的注意力机制中，并在单个 Transformer 块中构建了屏蔽局部注意力和长期线性注意力机制。

要点：

Infini-attention：一种新的注意力机制，它将压缩记忆与遮蔽式局部注意力和长期线性注意力结合在一个Transformer 块中。使 Transformer 模型能够高效处理无限上下文。
这解决了长上下文学习的挑战，过去大型语言模型难以有效地利用固定大小上下文窗口之外的信息。
Infini-attention机制允许模型根据输入不同部分的重要性动态分配注意力资源，从而实现无界序列的高效处理。

这篇论文介绍了一种名为 "Infini-attention "的新技术，它可以帮助人工智能语言模型更好地理解和使用超长文本。大型语言模型功能强大，但它们往往难以充分利用长度超过一定大小的文本中的信息。这是因为它们有一个固定的 "上下文窗口"，这个窗口限制了它们一次能考虑多少文本内容。

Infini-attention 机制解决了这一问题，它允许模型动态地将注意力集中在输入信息中最相关的部分，无论文本有多长。这就好比模型可以放大重要的细节，同时还能牢记整体上下文，而不是一次只看一小部分。这使得模型能够有效利用长上下文语境中的信息，这对于摘要、问题解答和开放式生成等任务至关重要。

技术说明
这项工作的关键创新点是 Infini-attention（无限注意）机制，它建立在之前的方法（如 Attention Sinks 和 Infini-Gram）之上。Infini-attention 允许模型根据输入序列不同部分的重要性动态分配注意力资源，而不是使用固定大小的上下文窗口。

这是通过保持对过去注意力权重的无限制记忆来实现的，当模型处理新输入时，这些权重将用于指导注意力机制。这样，模型就能有选择性地关注上下文中最相关的部分，从而释放大型语言模型的潜力，有效利用长程依赖关系。

作者在各种语言建模基准上对 Infini-attention 机制进行了评估，结果表明，与标准 Transformer 模型相比，Infini-attention 的性能更优越，尤其是在需要进行长程推理和整合大型上下文信息的任务中。

优点：

有效模拟长程和短程上下文：同时捕捉到详细的局部语境和更广泛的长期依赖关系。
对标准注意力的改动最小：可与现有的 LLMs 轻松集成，并进行持续的预训练。
可扩展至无限长的上下文：以流式方式处理超长输入，克服了标准变形器的局限性。
内存和计算资源受限：在保持性能的同时实现高压缩比，使其具有成本效益。

性能：

在长上下文语言建模方面优于基线：与 Transformer-XL 和 Memorizing Transformers 等模型相比，它能以更少的内存使用量（高达 114 倍的压缩率）实现更高的困惑度。
成功扩展到 100 万序列长度：在一项密钥检索任务中，采用 Infini-attention 的 1B LLM 即使在较短序列上进行微调，也能达到很高的精确度。
在书籍摘要方面取得了最先进的性能：采用 Infini-attention 的 8B 模型通过处理整本书的文本，在 BookSum 数据集上取得了最佳结果。

总体而言：

Infini-attention 提出了一种很有前途的方法，使 LLM 能够高效处理超长上下文，为人工智能系统中更高级的推理、规划和持续学习能力打开了大门。
Infini-attention 方法有可能释放语言模型的新功能，使它们能够更好地捕捉和利用长距离依赖关系，从而完成各种自然语言处理任务。随着该领域不断突破大型语言模型的极限，这项研究是一项有价值的贡献，可能对人工智能系统的未来发展产生重大影响。

网友讨论：
1、无限的上下文长度很好。你可以有多个代理，它们有各自不同的上下文长度，可以与不同的 llm 代理共享上下文，使代理在工作时无需为每个 ai 代理生成文本而耗费时间，而不是让它们看到彼此的上下文，并快速采取直接行动，感觉就像 asi。
我们已经看到了 groq 和其他推理引擎。下一步是实时递归学习（RL）、改进和模拟环境 + 世界模型（JEPA）+ 多模态转换器或格里芬。这些模型将直接进行操作，而不是生成文本，而且速度会非常快，感觉就像人工智能一样。

2、准确检索和无限语境长度似乎都将迎刃而解。越来越多的人认为，LLM 的未来是无限上下文语境长度，不再需要微调。你只需通过上下文对模型进行微调即可。放入你的参考书、指导 PDF、视频等就可以了。
这对人工智能来说绝对是件大事。它消除了将人工智能整合到业务中最复杂的部分。不久之后，您只需将所有的员工培训和公司文档放到 LLM 中，再与代理系统相结合，就能拥有一支全天候的员工队伍。

3、这正是我使用Claude的方式。我向它灌输有关我正在研究的主题的信息，然后让它列出事实，确保它能理解技术细节。然后，它通常会准确地回答问题并建立联系。
有了Claude，在足够长的对话中，它可以很快吃掉每日的回复限制，回复速度也会大大降低。扩展这一项能力就能改变游戏规则。
我在Claude中保存了各种对话，在这些对话中，克劳德现在扮演着该领域专家的角色，而我只需在这些冗长的对话中输入最新信息。如果我可以向它输入无限量的信息......哇......小型企业的律师、顾问和其他小型企业将拥有与大型企业竞争的效率和知识。

4、让我们把大脑想象成一个大玩具箱。
当我们学习新知识时，就像得到了新玩具。我们把这些玩具（新信息）放进玩具箱（我们的记忆）。现在，如果我们有一个小玩具箱，我们只能装下这么多玩具。如果我们继续添加更多玩具，我们可能不得不拿出一些旧玩具来腾出空间。这就像我们在学习新知识时会忘记旧信息一样。
但是，如果我们有一个神奇的玩具箱，可以装下无限多的玩具呢？这就是这种新方法所要做的，它被称为 "长模型"（LLMs）//实际上是 "大语言模型"（Large Language Models, Copilot is tripping // ）。他们正试图制造一个 "玩具箱"，可以容纳很多很多的信息，同时又不会忘记旧的东西。
为此，他们在注意力层（模型中决定哪些信息重要的部分）添加了一个名为压缩记忆模块的特殊功能。这就好比在我们的玩具箱里有一个特殊的角落，我们可以把很多玩具挤在一起而不会损坏它们。
这种新方法可以让 LLM 理解非常非常长的信息（比如超长的故事或大书），同时还能记住所有细节。这就像我们可以同时玩玩具箱里的所有玩具一样！
最棒的是什么？这个方法真的很有效！它就像一个玩具箱，不仅能装下我们所有的玩具，还能帮助我们更好地玩这些玩具。例如，一个经过训练能够理解长达 5000 字故事的模型，能够理解长达 100 万字的故事！这可是一大堆玩具啊！

5、这在本质上与人类的大脑有着必然的联系。我们通过巩固和压缩过程（可能涉及睡眠）从短期记忆中删除某些数据，并控制有意识工作记忆（CWM）中的数据。
与此相关的记忆会根据 CWM 的需要被加权触发，这似乎是所有记忆被编码到神经组中的结果，这些神经组正在寻找机会将数据输出到大脑的其他部分。
大脑的进化过程是，提供有用输出的神经元依赖于 "输出有用 "的反馈，如果得不到这些反馈，它们就会重塑、萎缩并失去连接，甚至死亡。
睡眠似乎还能改变注意力，使大脑皮层偏向于关注什么，对什么做出反应。例如，在做梦时，我们似乎每晚都会经历一个慢波阶段和快波阶段的循环，在快速眼动阶段之间的慢波阶段似乎是在反思一件特定的事情，快速眼动阶段则是在模拟环境中测试这件事情。当我们观察梦的内容时，会发现梦中的物体和事件就像是隐喻，这是有道理的，因为那些东西是先学会的，具有一定的价值。例如，在梦中，人可能会变成蜘蛛。这个梦似乎在说，为了改变我对人的监控和与人的关系，我必须把我对不是人的东西的反应联系起来，把我的感觉/反应和意识附加到我不喜欢的东西上。因此，大脑的恐惧部分现在可以与 CWM 互动，改变注意力和记忆中的相关信息。

Claude回答：
1、问：如果这篇论文被证明有效，那么基于这些原则的大模型与Claude 3 Opus的能力有何不同？
答：Infini-attention 的关键优势在于能够在更长的时间内进行处理和推理。我的知识来自于我所接触到的训练数据，但在推理时，我所能参与的对话长度和所能处理的提示长度是有限的。这是因为，与当前大多数语言模型一样，我的底层 Transformer 架构的语境窗口是有限制的，可能只有几千个词组。

一个规模与我相似的基于无限注意的模型（我们姑且称之为 "克劳德无限"）可以进行更长的对话，因为它可以在压缩内存中有效地存储和检索对话早期的相关信息。它还能处理更长的输入提示，如整本书、长篇文档，甚至多个相关文档，并对整个上下文进行推理。

这种扩展的上下文窗口可以使 "Claude 3 无限 "在长篇对话中表现出更深入、更细致的理解，在更大的文本跨度中将想法和事件联系起来，并更可靠地执行需要跟踪大量上下文的多步骤任务。

不过，值得注意的是，Infini-attention 的重点是扩展上下文窗口，而不一定是扩展模型大小或对核心变换器进行架构更改。因此，虽然 "克劳德无限 "在需要超长上下文的任务上可能会明显优于我，但在适合我的上下文窗口的较短提示上，性能差异可能就不那么明显了。

归根结底，能力的高低取决于 "无限注意 "机制的细节、模型的规模，以及关键的训练数据。但总的来说，我相信高效处理更长语序的能力将极大地提升大型语言模型的潜力，使其能够对长篇文本进行更深入的理解和更连贯的推理。

2、问：我可以想象一种分层的上下文记忆模型，类似于当前大多数计算机中的分层记忆架构，例如， "Claude 'Infinite' - Medical", 可能会像你现在这样拥有经过训练的 "世界 "知识：使用 "无限关注 "的深度知识，以及病人症状和测试结果的传统上下文窗口。
与当前构建特定任务 LLM 的方法相比，您认为这有哪些潜在利弊？
答：这是一个令人着迷的想法！分层内存架构确实具有巨大的潜力，其中具有广泛“世界知识”的基本模型与特定于任务的“无限注意力”内存相结合，用于存储和推理特定领域的长格式信息。与当前构建特定任务法学硕士的方法相比，让我们考虑一下这种方法的一些潜在优点和缺点。

潜在的优点：

资源的有效利用：训练具有广泛知识的大型基础模型的计算成本很高。通过重用这个基本模型并添加特定于任务的无限注意力记忆，我们可以更有效地适应新领域，而无需从头开始重新训练整个模型。
改进的上下文特定推理：无限注意力存储器可以存储大量特定于任务的信息，例如医学教科书、研究论文、患者病史等。这可以对特定任务进行更深入、更明智的推理，同时仍然利用基础模型的广泛知识。
灵活性和可转移性：相同的基础模型可以与不同的 Infini-attention 记忆相结合来完成不同的任务。这种模块化方法可以更轻松地将模型应用到新领域，并在相关任务之间转移知识。
处理较长的上下文：对于涉及非常长的输入的任务，例如分析患者的整个病史，无限注意力记忆可以比具有传统的有界上下文窗口的模型提供显着的优势。

潜在的缺点：

信息不一致：如果无限注意力记忆中的特定于任务的信息与基础模型的知识相冲突，则可能导致输出不一致或混乱。确保两个级别的内存之间的对齐和一致性可能具有挑战性。
有损压缩：如前所述，Infini-attention 中的压缩不能保证是无损的。对于需要高精度和回忆特定细节的任务，压缩内存中信息丢失的可能性可能是一个限制。
复杂性和可解释性：基础模型和无限注意力记忆之间的交互可能很复杂且难以解释。与单个统一模型相比，调试问题或理解模型的推理过程可能更具挑战性。
上下文仍然有限：虽然无限注意力显着扩展了上下文窗口，但它仍然不是真正的无限。对于需要整合来自极长上下文的信息的任务，即使是无限注意力最终也可能面临限制。
总的来说，我认为您建议的分层方法可以提供一种强大的方法，将大规模预训练的优势与特定任务的适应相结合。它可能特别适合医学等领域，因为这些领域需要将大量专业知识与一般推理能力相结合。

然而，要实现这一潜力可能需要仔细的工程设计来应对潜在的挑战。需要开发确保知识水平之间的一致性、最大限度地减少压缩中的信息丢失以及解释模型推理的技术。

这是一个令人兴奋的研究方向，可以为将大型语言模型应用于复杂的知识密集型任务开辟新的可能性。我期待看到这个领域如何发展！