大模型缩放定律已修改

人们已经完全改写了 "缩放定律 scaling laws"的本意：
最初的意思是：

在更多的数据上预训更大的大语言模型LLM会带来更多的智能（这是将 "智能"与“记忆的知识/技能”混淆了，类似用背诵考试选拔学生智商一样，记忆力好不代表高智商，靠死记硬背受过教育的白痴大量存在）

现在的意思变成了：

无论如何，很高兴看到 "让我们预训练一个更大的 LLM "的范式已经过时了。

模型规模已经停滞不前，甚至还在缩小，而研究人员现在正在关注正确的问题-：

这给我们的启示是：更大的模型并不是你所需要的全部。你需要更好的创意。现在，更好的想法终于开始发挥作用了。

缩放定律开始变得像对摩尔定律的诠释，例如，定义节点的可能是最小的纳米特征，但每家公司定义的纳米特征是什么，在不同公司之间可能会有很大差异。

推理时间计算给 LLM 公司当前的商业模式带来了挑战
最初的梦想是在预培训中耗费一切，而最终用户只需支付微薄的费用（类似于 Google 的模式--用户无需支付任何费用，而公司则通过广告赚钱）。

推理时间计算改变了这一状况：这是直接由最终用户承担的成本。