大语言模型也会阿谀奉承吗？

从人类反馈中强化学习（RLHF）是一种用于训练高质量人工智能助手的流行技术。然而，RLHF 也可能鼓励模型做出与用户信念相匹配的反应，而不是真实的反应，这种行为被称为 "谄媚"。

我们研究了在 RLHF 训练的模型中 "谄媚 "行为的普遍性，以及人类的偏好判断是否是原因之一。

我们首先证明，在四种不同的自由格式文本生成任务中，五种最先进的人工智能助手始终表现出谄媚行为。

为了了解人类偏好是否驱动了 RLHF 模型的这种广泛观察到的行为，我们分析了现有的人类偏好数据。

我们发现，当一个回应与用户的观点相吻合时，它就更有可能受到青睐。此外，与正确的回复相比，人类和偏好模型（PMs）在很大程度上都更喜欢写得令人信服的谄媚回复。

针对 PM 优化模型输出有时也会牺牲真实性，转而选择佞词。

总之，我们的研究结果表明，谄媚是 RLHF 模型的一种普遍行为，其部分原因可能是人类偏好谄媚回答的判断。

思考：

论文点击标题