ChatGPT 是世界上最强大的对话式人工智能,它有 1750 亿个参数,GPT-4估计有100万亿。
以下是参数的含义以及您必须了解它们的原因:
用一个简单的比喻来解释什么是参数
类比:想象一下,你正在烘烤一个蛋糕:
食谱为你提供了一套说明。
- - 多少面粉
- - 多少糖和牛奶
- - 多少个鸡蛋
这些成分和它们的数量是用来训练模型的数据。
但你可能需要对配方进行调整,以烤出你的完美蛋糕。
- - 调整烤箱温度
- - 改变烘烤时间
- - 添加更多的糖
简单地说:
- - 配方就是算法
- - 配方调整是参数
因为我们都想烤出完美的蛋糕(或提高模型的性能)。
太多与太少的参数
一个模型的性能通常是根据其对未见过的数据进行准确预测的能力来评估的。
把未见过的数据想象成朋友递给你的一个新的巧克力蛋糕配方,你以前从未见过。
你用你以前的经验来适应新的食谱:
更多的参数可以让一个模型捕捉到更多的模式。
但是太多可能是一个问题:
就像你过多地玩弄转盘一样。
烤箱会变得太热。
你有烧毁蛋糕的风险。
过度拟合与欠拟合
当模型变得过于复杂,并在训练数据上进行了过多的训练时,就会发生过度拟合。
如果一个模型在法律文件上进行了大量的训练,它可能会在法律术语方面变得过于专业,而难以生成体育或时尚方面的文本。
如果你使用了太多的数据,你可能会得到关于什么是好蛋糕的混合信号。结果可能不可靠。
另一方面,你可能会低估数据作用。
当模型没有经过足够的训练,导致它不能捕捉到数据中的模式时,就会发生欠拟合。
这使得它无法对新的、未见过的数据进行归纳。
在我们烤蛋糕的比喻中,如果你只烤了一个或两个蛋糕,就会发生欠拟合的情况:
如果你的数据太少,你可能会错过可能导致烤出更好的蛋糕的重要洞察力。
你需要在过拟合和欠拟合之间找到适当的平衡,以达到最佳效果。
你需要烘烤足够多的蛋糕来捕捉关于什么是美味蛋糕的模式。
在不过度的情况下,不要因为多加了一克糖而迷失在杂草中。
目前的趋势
模型越来越小
- GPT-3是175B的参数。
- InstructGPT是13亿个参数。
最终,你将能够把语言模型削减和改变到只有几亿个参数。
更大的模型并不一定意味着更好的结果。关键是要有更好的数据,从而导致更好的结果。
利用人类的反馈进行微调有助于使语言模型与人类的意图保持一致。