人们已经完全改写了 "缩放定律 scaling laws"的本意:
最初的意思是:
- 在更多的数据上预训更大的大语言模型LLM会带来更多的智能(这是将 "智能"与“记忆的知识/技能”混淆了,类似用背诵考试选拔学生智商一样,记忆力好不代表高智商,靠死记硬背受过教育的白痴大量存在)
现在的意思变成了:
- 如果我们不断迭代我们的模型以完善其架构,使其变得越来越复杂,并利用越来越多的计算能力,我们就会得到更好的模型。
无论如何,很高兴看到 "让我们预训练一个更大的 LLM "的范式已经过时了。
模型规模已经停滞不前,甚至还在缩小,而研究人员现在正在关注正确的问题-:
- 测试时间训练或神经符号方法,如测试时间搜索、程序、算法等。
这给我们的启示是:更大的模型并不是你所需要的全部。你需要更好的创意。现在,更好的想法终于开始发挥作用了。
缩放定律开始变得像对摩尔定律的诠释,例如,定义节点的可能是最小的纳米特征,但每家公司定义的纳米特征是什么,在不同公司之间可能会有很大差异。
推理时间计算给 LLM 公司当前的商业模式带来了挑战
最初的梦想是在预培训中耗费一切,而最终用户只需支付微薄的费用(类似于 Google 的模式--用户无需支付任何费用,而公司则通过广告赚钱)。
推理时间计算改变了这一状况:这是直接由最终用户承担的成本。