卡尔帕西爆料:你是在与大模型背后藏着的数据标注员聊天

banq


前 OpenAI 研究员、特斯拉人工智能主管 安德烈-卡尔帕西(Andrej Karpathy) 解释说,当人们“询问人工智能”时,他们实际上是在与人类数据标记者的平均回答进行交互,而不是与神奇的人工智能系统进行交互。

安德烈-卡尔帕西是OpenAI的创始成员之一,并在2015年至2017年担任研究科学家。2023年2月,他再次加入OpenAI,但后来在同年2月离职,开始个人创业项目

以下是他最新的观点:

人们对 "向人工智能询问 "的含义过于夸大。人工智能是通过模仿人类标注者的数据训练出来的语言模型。

 如果说 "向人工智能提问 "有点神秘,其实不如说是 "向互联网上的平均数据标注者提问"。

粗略地说,你并不是在询问某个神奇的人工智能,您在询问的是人类数据标注者。

他们的平均答案被有损地提炼成了 LLM 统计token翻滚器。当用户 "向人工智能提问 "时,他们实际上是在与人类数据标注者提供的平均答案互动。


当然,这仍然非常有用。有人建议我们询问人工智能如何管理政府等,我就写了这个观点。

总之,你不是在问人工智能,而是在问它的平均数据标签器的一些混合体。 

例如,当你问到 "阿姆斯特丹的十大景点 "之类的问题时,一些受雇的数据标注员可能在某个时候看到了类似的问题,然后用谷歌和 Trip Advisor 或其他工具研究了 20 分钟,得出了 10 个景点的清单,然后这些清单就成了正确答案,从而训练人工智能给出该问题的答案。如果微调训练集中没有确切的问题地点,神经网络就会根据预训练阶段获得的知识(互联网文档的语言建模),推导出一个统计上相似的氛围列表。 

例如:他们聘请专业医生来贴标签。你不需要标记每一个可能的查询。你贴上足够的标签,LLM学会以训练有素的医生的风格回答医学问题。对于新的问题,LLM可以在一定程度上依靠和转移从阅读所有互联网文件和论文等对医学的一般理解。

例如,著名的Terence Tao(顶级数学家)为LLM贡献了一些训练数据。这并不意味着LLM现在可以在他的水平上回答所有的数学问题,潜在的知识和推理能力可能只是不存在于潜在的模型中。

但这确实意味着你得到了比redditor或其他东西更好的东西。

所以基本上“普通贴标签者”可以是专业人士--程序员、医生等,各种专业知识。这不一定是互联网上的一个随机人。这取决于LLM公司如何招聘这些数据标签角色。他们越来越多地试图雇用更多的高技能工人。  然后你向那些人的一种模拟提出问题,尽LLM的最大能力。 

人工智能助手如何获得“个性”
大型语言模型要经过两个阶段的训练。首先,它们从大量互联网内容和其他数据中学习。然后,在微调过程中,它们会针对“人类”和“助手”角色之间的对话进行训练,其中人类注释者会定义助手的响应。

当人工智能模型用“这是一个有争议的问题”这样的短语来回应有争议的话题时,这是因为人类标记者被指示使用这样的语言来保持中立。

微调过程教会人工智能如何像一个乐于助人的助手一样工作,同时保留其基础知识,但调整其风格以匹配微调数据。许多人将两年前ChatGPT的爆炸性成功归功于这一微调过程——它让用户感觉他们是在与一个真实的、善解人意的人交谈,而不仅仅是一个先进的自动完成系统。

概括

  • 前 OpenAI 研究员 Andrej Karpathy 解释说,当用户“向人工智能”提问时,他们实际上是在与人类数据标记者提供的平均答案进行交互,而不是与具有自身知识和推理能力的“神奇人工智能”进行交互。
  • LLM 的训练分为两步:首先,它从大量的互联网文档中学习,然后对“人类”和“助手”角色之间的对话进行训练,其中助手的回答由人类注释者提供,从而让 LLM 学会模仿这个角色。
  • 对于专业学科领域,会聘请专家数据标注员,但这并不一定意味着 LLM 可以回答这些专家级别的所有问题,因为底层知识和推理技能可能无法在模型的训练数据中完全捕获。