大语言模型也会阿谀奉承吗?


从人类反馈中强化学习(RLHF)是一种用于训练高质量人工智能助手的流行技术。然而,RLHF 也可能鼓励模型做出与用户信念相匹配的反应,而不是真实的反应,这种行为被称为 "谄媚"。

我们研究了在 RLHF 训练的模型中 "谄媚 "行为的普遍性,以及人类的偏好判断是否是原因之一。

我们首先证明,在四种不同的自由格式文本生成任务中,五种最先进的人工智能助手始终表现出谄媚行为。

为了了解人类偏好是否驱动了 RLHF 模型的这种广泛观察到的行为,我们分析了现有的人类偏好数据。

我们发现,当一个回应与用户的观点相吻合时,它就更有可能受到青睐。此外,与正确的回复相比,人类和偏好模型(PMs)在很大程度上都更喜欢写得令人信服的谄媚回复。

针对 PM 优化模型输出有时也会牺牲真实性,转而选择佞词。

总之,我们的研究结果表明,谄媚是 RLHF 模型的一种普遍行为,其部分原因可能是人类偏好谄媚回答的判断。

思考:

  • 如何构建值得信赖的人工智能以及语言模型?是否可以仅通过训练就表现出真实性?
  • 虽然一些人认为协作决策有瘫痪的风险,但另一些人则指出人工智能应该提供信息来帮助用户排序答案,而不是充当预言家。
  • 批判性思维被认为是比教授绝对真理更好的目标,以及它是否可以教授给学生或人工智能。
  • 人们提出了模型故意与用户意见不一致以避免确认偏差的可能性,但错误的响应可能会破坏信任。
  • 最终,模型的真实性可能更多地取决于知识检索和多智能体系统的设计方式,而不是训练过程。

论文点击标题