大模型缩放定律已修改

banq


人们已经完全改写了 "缩放定律 scaling laws"的本意:
最初的意思是:

  • 在更多的数据上预训更大的大语言模型LLM会带来更多的智能(这是将 "智能"与“记忆的知识/技能”混淆了,类似用背诵考试选拔学生智商一样,记忆力好不代表高智商,靠死记硬背受过教育的白痴大量存在)

现在的意思变成了:
  • 如果我们不断迭代我们的模型以完善其架构,使其变得越来越复杂,并利用越来越多的计算能力,我们就会得到更好的模型。

无论如何,很高兴看到 "让我们预训练一个更大的 LLM "的范式已经过时了。

模型规模已经停滞不前,甚至还在缩小,而研究人员现在正在关注正确的问题-:

  • 测试时间训练或神经符号方法,如测试时间搜索、程序、算法等。

这给我们的启示是:更大的模型并不是你所需要的全部。你需要更好的创意。现在,更好的想法终于开始发挥作用了。

缩放定律开始变得像对摩尔定律的诠释,例如,定义节点的可能是最小的纳米特征,但每家公司定义的纳米特征是什么,在不同公司之间可能会有很大差异。

推理时间计算给 LLM 公司当前的商业模式带来了挑战
最初的梦想是在预培训中耗费一切,而最终用户只需支付微薄的费用(类似于 Google 的模式--用户无需支付任何费用,而公司则通过广告赚钱)。

推理时间计算改变了这一状况:这是直接由最终用户承担的成本。