ChatGPT大概工作原理 - by Alex Xu


由于OpenAI没有提供所有的细节,我们试图解释它是如何工作的。这个过程可以分成两部分:

1、训练:
要训练ChatGPT模型,有两个阶段:

- 预训练。在这个阶段,我们在一大块互联网数据上训练一个GPT模型(仅有解码器的转化器)。目的是训练一个模型,能够以类似于互联网数据的语法正确和语义的方式预测给定句子的未来单词。在预训练阶段之后,该模型可以完成给定的句子,但它不能够回答问题。

- 微调。这个阶段是一个3个步骤的过程,将预训练的模型变成一个回答问题的ChatGPT模型。

  • 1).收集训练数据(问题和答案),并在这些数据上微调预训练的模型。该模型将一个问题作为输入,并学习生成一个与训练数据相似的答案。
  • 2).收集更多的数据(问题,几个答案),并训练一个奖励模型,将这些答案从最相关排到最不相关。
  • 3).使用强化学习(PPO优化)来微调模型,使模型的答案更加准确。

2、回答问题
第1步:用户输入完整的问题,"解释分类算法如何工作"。

第2步:该问题被发送到一个内容审核组件。该组件确保该问题不违反安全准则,并过滤不适当的问题。

第3-4步:如果输入通过了内容审核,它将被发送到chatGPT模型。如果输入没有通过内容审核,它就直接进入模板响应生成。

第5-6步。一旦模型生成响应,它将再次被发送到内容审核组件。这确保生成的响应是安全的、无害的、无偏见的,等等。

第7步:如果输入通过了内容审核,它就会显示给用户。如果输入没有通过内容审核,则进入模板响应生成,并向用户显示一个模板答案。