Llama4参数虚高,推理依旧拉胯!

这张图片展示了一组不同模型的性能比较。表格中列出了各个模型的名称及其对应的几个关键指标: 1.  Length(长度):模型生成文本的最大长度。 2.  Slop(斜率):衡量模型生成文本的流畅度或连贯性。 3.  Repetition(重复率):模型生成文本中重复内容的比例。 4.  Degradation(退化率):模型在生成长文本时质量下降的程度。 5.  Score(得分):模型的综合评分,数值越高表示性能越好。

每个模型的得分用不同颜色的条形图表示,颜色从蓝色到绿色,表示从高到低的得分。

得分最高的是“gemini-2.5-pro-preview-03-25”,得分为80.2。

第二名是中国开源deepseek v3 0324版本

得分最低的是“Llama-4-Scout-17B-16E-Instruct”,得分为32.4。

如果今天令人失望的 Llama 4 发布告诉了我们什么,那就是即使 30 万亿个训练标记和 2 万亿个参数也无法使您的非推理模型比较小的推理模型更好。

模型和数据大小的扩展已结束。

奇怪的是,他们没有在这个新版本中加入推理机,应该可以很容易地 GRPO 其中一个基础模型并获得一些真正好的东西

他们号称的1000万上下文长度其实是虚的,因为压根没有模型真正训练过超过25.6万token的提示词。

意思就是你如果输入超过25.6万token,大部分情况下输出的都是垃圾。

就算你的问题长度没超过25.6万token,输出质量照样大概率很烂——毕竟想搞到大量这种超长的高质量训练数据,现实中基本不可能做到。

他们最大的"巨无霸"模型有2万亿参数,但推理能力连业内顶尖水平都达不到。谁稀罕一个2万亿参数的弱鸡?这话我就撂这儿了。这些模型也就这点能耐了。

排行榜分数都是可以针对性优化的——包括那些Elo评分——所以它们名次靠前根本不稀奇。

你要是拿自己的实际问题测试,它产生的幻觉跟2023年的老古董模型没啥两样。