Llama4参数虚高，推理依旧拉胯！

这张图片展示了一组不同模型的性能比较。表格中列出了各个模型的名称及其对应的几个关键指标： 1. Length（长度）：模型生成文本的最大长度。 2. Slop（斜率）：衡量模型生成文本的流畅度或连贯性。 3. Repetition（重复率）：模型生成文本中重复内容的比例。 4. Degradation（退化率）：模型在生成长文本时质量下降的程度。 5. Score（得分）：模型的综合评分，数值越高表示性能越好。

每个模型的得分用不同颜色的条形图表示，颜色从蓝色到绿色，表示从高到低的得分。

得分最高的是“gemini-2.5-pro-preview-03-25”，得分为80.2。

第二名是中国开源deepseek v3 0324版本

得分最低的是“Llama-4-Scout-17B-16E-Instruct”，得分为32.4。

如果今天令人失望的 Llama 4 发布告诉了我们什么，那就是即使 30 万亿个训练标记和 2 万亿个参数也无法使您的非推理模型比较小的推理模型更好。

模型和数据大小的扩展已结束。

奇怪的是，他们没有在这个新版本中加入推理机，应该可以很容易地 GRPO 其中一个基础模型并获得一些真正好的东西

他们号称的1000万上下文长度其实是虚的，因为压根没有模型真正训练过超过25.6万token的提示词。

意思就是你如果输入超过25.6万token，大部分情况下输出的都是垃圾。

就算你的问题长度没超过25.6万token，输出质量照样大概率很烂——毕竟想搞到大量这种超长的高质量训练数据，现实中基本不可能做到。

他们最大的"巨无霸"模型有2万亿参数，但推理能力连业内顶尖水平都达不到。谁稀罕一个2万亿参数的弱鸡？这话我就撂这儿了。这些模型也就这点能耐了。

排行榜分数都是可以针对性优化的——包括那些Elo评分——所以它们名次靠前根本不稀奇。

你要是拿自己的实际问题测试，它产生的幻觉跟2023年的老古董模型没啥两样。