内部人爆料：Llama4训练其实在刷题

尽管经过反复训练，内部模型的性能仍然低于开源 SOTA 基准，落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集（刷题），旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标，将导致严重后果。

在昨天发布 Llama 4 之后，X 和 Reddit 上的许多用户已经报告了极差的实际测试结果。

作为目前在学术界工作的人，我认为这种做法完全不可接受。因此，我已提交辞呈，并明确要求将我的名字从 Llama 4 的技术报告中排除。值得注意的是，Meta 的 AI 副总裁也因类似原因辞职。

什么是针对基准测试的训练刷题？ 这就像你为了期末考试，偷偷把各种模拟考试的题目和答案都背下来了。等到真正考试的时候，发现试卷里有很多题目就是你背过的原题，于是你考了高分。但这其实是在作弊！具体来说：

真正的学习应该是理解知识，而不是死记硬背可能出现的考题。同样，好的AI训练应该让模型真正学会解决问题，而不是靠记住测试题的答案来"装聪明"。

网友： 1、天哪，这是真的，AI Research Meta 的副总裁 Joelle Pineau 刚刚辞职了。

2、通过基准训练来人为地提高你在基准上的表现是欺诈行为。

3、如果我们将之前的 meta llama 论文的作者名单与新的 llama 4 论文的作者名单进行比较，如果至少缺少一个中文名字，那么这个人就是