内部人爆料:Llama4训练其实在刷题

尽管经过反复训练,内部模型的性能仍然低于开源 SOTA 基准,落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集(刷题),旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标,将导致严重后果。

在昨天发布 Llama 4 之后,X 和 Reddit 上的许多用户已经报告了极差的实际测试结果。

作为目前在学术界工作的人,我认为这种做法完全不可接受。因此,我已提交辞呈,并明确要求将我的名字从 Llama 4 的技术报告中排除。 值得注意的是,Meta 的 AI 副总裁也因类似原因辞职

什么是针对基准测试的训练刷题? 这就像你为了期末考试,偷偷把各种模拟考试的题目和答案都背下来了。等到真正考试的时候,发现试卷里有很多题目就是你背过的原题,于是你考了高分。但这其实是在作弊! 具体来说:

  1. "混合各种基准的测试集" - 就像把各种模拟考、月考的题目都混在一起复习
  2. "通过基准训练提高表现" - 你专门背诵这些可能会考的题目答案
  3. "是欺诈行为" - 这样考出来的高分不能反映真实水平,是骗人的
真正的学习应该是理解知识,而不是死记硬背可能出现的考题。同样,好的AI训练应该让模型真正学会解决问题,而不是靠记住测试题的答案来"装聪明"。

网友: 1、天哪,这是真的,AI Research Meta 的副总裁 Joelle Pineau 刚刚辞职了。

2、通过基准训练来人为地提高你在基准上的表现是欺诈行为

3、如果我们将之前的 meta llama 论文的作者名单与新的 llama 4 论文的作者名单进行比较,如果至少缺少一个中文名字,那么这个人就是