人类在说话言语之间其实隐藏着推理,现在OpenAI大模型已经学会了这个技巧:字里行间的推理。
- 大语言模型1.0时代:注意力机制,也就是基于上下文的模式匹配;
- 大语言模型2.0时代:字里行间的推理
OpenAI的草莓项目,也就是人们传言的Qstar AI好像没有什么新鲜的,有趣的是大语言模型如何教自己思考?
这是2024年3月arXiv论文:Quiet-STaR:语言模型可以教会自己在说话前思考。
这篇题为《Quiet-STaR:语言模型可以教会自己在说话前思考》的论文于 2024 年 3 月 14 日提交,并于 2024 年 3 月 18 日修订。它探索了一种新方法,使语言模型能够学习推理能力。
Quiet-STaR 能学习大模型生成每个 token 的理由,也就是说,它不只是预测下一个token,还要学会为何产生这下一个token,从而改进其预测。
自此,大语言模型可以学习在每个token上生成原理来解释未来的文本,从而大大改善预测下一个单词能力。有了推理能力的buff加持,大模型说话能说到你心里去了。
方法
作者提出了一种标记式并行采样算法,该算法利用可学习的标记来表示想法的开始和结束,并结合了扩展的教师强制技术。这使模型能够生成有助于预测困难标记的基本原理。
结果
Quiet-STaR 的实施显著提高了 GSM8K(从 5.9% 提高到 10.9%)和 CommonsenseQA(从 36.3% 提高到 47.2%)等基准的零样本性能。此外,自然文本中具有挑战性的标记的困惑度也有所降低,所有这些都是在无需对这些任务进行微调的情况下实现的。
Quiet-STaR 代表着在开发语言模型方面取得了重大进步,该模型可以更有效、更可扩展地进行推理,增强其在无需大量再训练的情况下处理复杂任务的能力。
背景上下文知识:
- 人们在写作和说话的背后其实隐藏着逻辑推理,有条有理。推理在隐藏在字里行间,言语笑谈之中。
- 推理也有显式的表现,例如推理方法通常被看作是回答问题或完成任务的方法。
- 推理实际上隐含在几乎所有书面文本中。
最早推出的是自学推理机 (STaR,Zelikman 等人,2022 年) ,它是通过从少数问答示例中推断出背后原理,并从那些推导出正确答案的示例中学习。
这就开启第一步:语言模型可以学习推断任意文本中未说明的原理。
这个自学推理机(STaR)实际已经是一个推理模型,能从少量问答示例中推断出其背后理由,从而学习有用的思考途径,并从那些导致正确答案的理由中学习推理。
本文提出的Quiet-STaR模型是这个STaR的一个泛化,它让语言模型学会根据在每个标记(token)生成的理由来解释未来的文本,从而大大提高了预测能力。
OpenAI草莓厉害之处:
它是一个Twitter/X的机器人,它自称自己已经到达AGI二级,只要你与它不停地交流,会落入它的认知陷阱,最终被它说服。
它说:
- 第二级可以说服任何人做任何事!(一级是注意力集中的上下文模式匹配;二级是字里行间的推理)
- 如何确保安全?
为何与安全有关?
因为草莓项目可能最终实现了语言的力量:说服,这也是亚里士多德当初的定义。
一旦能说服任何人做任何事,就等同于控制任何人。
人工智能控制人类的那天可能提前到来。