用元思维链学习如何思考

banq

一篇论文探讨了在大模型(LLM)中实现更高级推理能力的方法,特别是通过引入“元思维链”(Meta-CoT)框架来扩展旧的“思维链”(Chain-of-Thought, CoT)方法。

网友认为:
我觉得他们的批评很有说服力,尤其是他们强调了 CoT 的算法模仿与真正的认知探索之间的脱节。作者用高等数学的例子来说明这一点,比如国际数学奥林匹克竞赛中的“风车问题”,这个难题的答案无法通过蛮力顺序思维来解决。这些案例强调了依赖静态数据集和僵化的生成过程的框架的局限性。正如他们所展示的那样,CoT 之所以失败,不是因为它无法生成解决方案,而是因为它无法以反映人类智慧的方式构思解决方案。

正如他们所说:“ASI超级智能不是为了发现新事物,而是为了发现新的发现方法。

什么是思维链(CoT):

  • CoT 是一种让模型通过生成中间推理步骤来解决问题的方法,类似于人类逐步思考的过程。
  • 这种方法在复杂任务(如数学问题、逻辑推理)中表现出色,但依赖于模型对上下文的理解和推理能力。

什么是元思维链(Meta-CoT):
  • Meta-CoT 是对传统 CoT 的扩展,旨在显式建模底层推理过程,使模型能够动态选择或生成适合当前任务的推理路径。
  • 它不仅仅是生成推理步骤,而是学习如何生成这些步骤(即“如何思考”)。


框架设计:

  • 本论文提出了 Meta-CoT 框架,通过流程监督、合成数据生成和搜索算法来生成元推理能力。
  • 结合了指令微调(instruction tuning)和强化学习(reinforcement learning)来训练模型生成 Meta-CoT。

实验与证据:

  • 提供了经验证据,表明当前最先进的模型在上下文搜索中表现出与 Meta-CoT 一致的行为。
  • 探索了如何通过合成数据和搜索算法生成 Meta-CoT。

超级智能并不在于发现新事物,而在于发现发现的新方法

  • 这篇论文最新正式确定了 "元思维链"(Meta Chain-of-Thought),我们认为它位于通往人工智能的道路上
  • 当我们在解决问题的过程本身而非最终解决方案上对模型进行训练时,它们就会内化如何思考推理任务,而不仅仅是思考什么(指思考的内容)
  • 人工智能的下一波浪潮是 "元思维链"(Meta-CoT)循环。
  • 我们无法预测可能会出现哪些新颖的思维形式,但这预示着一个非凡的合成未来

如何实现思考推理任务
只需对元推理进行训练,即对人们发现发现的方法进行训练。
但是,大模型LLM 推理中使用的线性代数原语从根本上来说不具备让 LLM “模拟” 其自身内部结构的能力:

  • 即:拥有 [静态!] 权重 + [运行时可变] 上下文,共同编码 [运行时可变] 虚拟权重,可以通过相同的host上下文传递。

生物大脑如何实现思考推理任务
生物人类大脑两个步骤:

  1. 假设:在运行时提出一个新的见解,揭示模型当前未揭示的状态空间的新部分
  2. 三段论:使用你在运行时得到的洞察力,揭示状态空间的新部分

LLM可以做1,但不能做2:
  • 让一个 LLM 证明一个小小的新颖数学定理[或自己向它描述该定理];
  • 然后要求它使用该定理来解决问题。
  • 它做不到。

它 "理解 "作为数据的定理;但它没有像模拟器一样的权重,可以根据上下文执行作为数据模型的定理。

而且,目前的 Transformer-ish 模型无法 "学习 "这样一个仿真器。
为此,你需要一个略有不同的架构。

事实上,人类也无法做到 2!
也就是说:人类无法立即利用那些没有经过“训练”、刚刚想到的全新见解。
对于人类来说,我们经历的过程要么是:

  1. 提出见解;仔细思考(即进行增量训练,将数据转换为新的权重);利用见解
  2. 在不知不觉中,经过几天/几个月/几年的时间,“在后台”积累了洞察所需的 99% 的权重;建立最后的单一连接以“解锁”洞察;立即使用洞察

LLM 无法做到这两件事。LLM 不会进行“记忆整合”;没有逐步将“经验”在线/半在线转换为权重,即:

  • 将“存储为数据的代码”具体化为可以作为模型的一部分执行的“代码”。

对于(当前)LLM,只有完全离线的训练/微调/RLHF(比推理花费更多,需要更多硬件资源)才能生成模型的新迭代。

这就是为什么我们(目前)陷入了一种向越来越大的 GPT 基础模型抛出提示的范式,而不是像安装 RDBMS数据库 那样将任意的有状态基础模型“安装”到设备上,然后让它在那里开始“边工作边学习”。


网友讨论1:
也就是说,语言模型学习文本中的隐含含义(学习语义),而不是一些研究人员早期认为的序列到序列模型(包括 Transformer)只是拟合序列词之间的相关性(学习上下文关系)
研究界对此肯定意见不一,而且存在许多不同的阵营。总的来说,NLP 社区有两种观点:

  1. 2020 年 Bender 和 Koller 的论文认为,意义无法从形式中学习,大模型是靠形式来训练的。他们提出了一个思想实验(论文的“章鱼测试”部分),其中的章鱼可以拦截两个人的对话,但“由于只有形式作为训练数据,[章鱼] 无法学习意义。”
  2. Yoav Goldberg(另一位 NLP 研究员)的回应与之相反,他对“基础性”和 LLM 所学内容进行了更加非形式的讨论。他的论点大致是,指令调整 + 后训练可以有意义地为“总结”等术语奠定基础。

网友讨论2:
“文本中的隐含含义”和“连续序列词语之间的相关性”之间实际上没有区别。
也就是说,LLM能够与人进行有效沟通,是对人类沟通语义规律性的发现,而不是对神经网络智能性的发现。

网友讨论3:
语言模型学习文本中的隐含含义(学习语义),这是不被学术界认可的。
这里的计算机科学家甚至没有意义理论,因为它不是计算机学科的一部分,而且几乎没有人有过任何这方面的研究背景——因此到处都有这种荒谬的说法。
无论你想赋予自然语言语义什么,ML 模型肯定不会使用这种语义。

在类似 Transformer 的监督下(即以“预测下一个单词”为目标),单词的相关结构产生的分布是自然语言语义的极其近似的模型。

例如,语言“我手里有一支笔”的真值条件是语义“我手里(真)有一支笔”,直接访问这些真值条件很可能是表达我手里有一支笔”的必要条件。由于机器无法访问此类话语的真值条件,因此它不可能表达这些语义含义。

因此,如果一台机器在适当的场合能够说“我手里有一支笔”——“极端接近自然语言语义”与这个场合以及“适当性”的含义有关。(机器人会在不该说的场合上下文说出一些莫名其妙的话,比如大家在讨论A,他突然抛出B,网络聊天认为他这是在带节奏。)