尽管经过反复训练,内部模型的性能仍然低于开源 SOTA 基准,落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集(刷题),旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标,将导致严重后果。
在昨天发布 Llama 4 之后,X 和 Reddit 上的许多用户已经报告了极差的实际测试结果。
作为目前在学术界工作的人,我认为这种做法完全不可接受。因此,我已提交辞呈,并明确要求将我的名字从 Llama 4 的技术报告中排除。 值得注意的是,Meta 的 AI 副总裁也因类似原因辞职。
什么是针对基准测试的训练刷题? 这就像你为了期末考试,偷偷把各种模拟考试的题目和答案都背下来了。等到真正考试的时候,发现试卷里有很多题目就是你背过的原题,于是你考了高分。但这其实是在作弊! 具体来说:
- "混合各种基准的测试集" - 就像把各种模拟考、月考的题目都混在一起复习
- "通过基准训练提高表现" - 你专门背诵这些可能会考的题目答案
- "是欺诈行为" - 这样考出来的高分不能反映真实水平,是骗人的
网友: 1、天哪,这是真的,AI Research Meta 的副总裁 Joelle Pineau 刚刚辞职了。
2、通过基准训练来人为地提高你在基准上的表现是欺诈行为。
3、如果我们将之前的 meta llama 论文的作者名单与新的 llama 4 论文的作者名单进行比较,如果至少缺少一个中文名字,那么这个人就是