幻觉可能会削弱 ChatGPT 的成功 - IEEE


训练ChatGPT 这样的 LLM(大型语言模型) 需要数十亿单词,其抽象的想法是通过文本来学习的。

大型语言模型不知道语言描述的潜在现实,语言建立在我们共同拥有的大量背景知识之上,我们称之为常识,计算机需要通过观察来学习以获得这种非语言知识。

神经网络通过称为嵌入的机器可读格式来表示单词、句子和概念。嵌入将高维向量(捕获其语义的长数字串)映射到低维空间,即更易于分析或处理的较短数字串。

通过查看这些数字串,研究人员可以了解模型如何将一个概念与另一个概念联系起来:模型知道像紫色这样的抽象概念与蓝色比与红色更相似,并且它知道橙色与红色比与紫色更相似。

虽然从视觉中学习颜色的概念要容易得多,但仍然可以仅从文本中学习,只是速度较慢。

ChatGPT 以其知识的深度和响应的流畅性令世界惊叹,但有一个问题阻碍了它的实用性:它一直在产生幻觉。
OpenAI 开创了一种技术,使用一种称为强化学习与人类反馈(RLHF) 的技术来塑造其模型的行为。
让一个人定期检查强化学习系统的输出并提供反馈,即使奖励功能被隐藏,强化学习系统也能学习。

对于ChatGPT来说,在其互动过程中收集的数据被用来训练一个作为 "奖励预测器 "的神经网络,它审查ChatGPT的输出并预测一个数字分数,代表这些行动与系统期望的行为有多大的一致性--在这种情况下,事实或准确的回应。

人类评估员会定期检查ChatGPT的反应,并选择那些最能反映期望行为的反应。这种反馈被用来调整奖励预测神经网络,而更新的奖励预测神经网络被用来调整人工智能模型的行为。这个过程在一个迭代循环中重复,导致行为的改善。这个过程最终会教会ChatGPT提高其整体性能。