大语言模型中的符号调整

作为人工智能从业者,我们都希望语言模型能够像人类一样适应和学习。但我们目前的 LLM 却做不到这一点--它们过于依赖已有的知识和硬编码的提示。

这让我们不得不不断调整提示和脚手架任务,给模型喂食。为了让模型完成新任务,我们只能不断地对其进行脆化和操纵,这是一个痛苦的循环。最终,我们只能弯下腰来让数据适应模型,而不是让模型灵活地从数据中学习。

我们需要的是能够从头开始学习概念的模型,而不需要通过提示和指令来手把手地教。模型只需观察输入输出映射,就能像海绵一样吸收新任务,而不会被记住的术语所迷惑。

谷歌的突破性论文题为“符号调整改善了语言模型中的上下文学习”,介绍了一种称为符号调整的创新微调方法。该技术强调了输入标签映射,从而显着增强了跨不同场景的 Flan-PaLM 模型的上下文学习。

本文提出了一个很有前景的解决方案--符号调整(symbol tuning):通过使用随机符号作为标签对模型进行再训练,迫使它们完全依赖于对输入-标签映射的推理。不再依赖内置词汇。

结果不言自明:符号调整可使算法推理能力、对新任务的适应能力和学习灵活性大幅提升,而这一切都无需大量数据或计算。

试想一下,有了符号调整,我们就可以将艰苦的提示工程简化为重新映射标签的单一步骤。释放推理能力,远远超出我们之前的想象。并大大扩展我们的 LM 可以从示例中学习的任务。

现在是时候超越那些鹦鹉学舌式的记忆模式了。符号调整或许能让我们实现让 LLM 像人类一样动态学习的梦想。 

符号调整
试想一下,通过给孩子看标有 "树 "的树的照片来教他们 "树 "这个词的意思;孩子可以利用 "树 "这个标签和照片来学习树的概念。

现在想象一下,你没有使用 "树 "这个词,而是在图片上随意标上了 "#!&"或 "QWX "等符号。没有了熟悉的标签,孩子就只能通过树的照片和你指定的随机符号之间的联系来学习。

这就是符号调整的本质。它利用了善于利用先验词汇知识及其含义的语言模型,并用任意符号取代真实标签,从而消除了这一障碍。用语义不相关的标签(如“Foo”、“Bar”等)替换自然语言标签。在这种设置中,如果不依赖上下文,任务就会变得不明确。

通过使用随机符号作为标签,该模型无法依靠其已有知识来确定标签的含义或任务是什么。它学习的唯一方法就是通过给定的映射来识别输入示例和随机符号标签之间的关系。

符号调整迫使模型直接从输入标签示例中学习,而不是通过使用说明或利用与自然语言标签相关的先验知识来走捷径。这就提高了模型根据上下文示例从头开始真正学习概念的能力。 

事实证明,符号调整对于以前未见过的上下文学习任务特别有益,在传统方法因缺乏说明或自然语言标签的未指定提示而失效的情况下表现出色。此外,用符号调整的模型在算法推理任务中表现出非凡的能力。

最显着的成果是在处理上下文中呈现的翻转标签方面取得了重大改进。这一成就凸显了该模型利用上下文信息的卓越能力,甚至超越了预先存在的知识。

符号调整过程要求模型利用上下文示例进行推理,以有效地执行任务,因为提示的设计目的是防止仅从相关标签或指令中学习。符号调整模型在需要在上下文示例和标签之间进行复杂推理的设置中表现出色。

符号调整在上下文学习任务中显示出显着的改进,特别是对于未指定的提示。该技术在推理任务中还表现出比传统微调更强的性能,并且更能够使用内容信息来覆盖先验知识。总体而言,符号调整可以成为最有趣的微调技术之一。