Llama4特调版参加AI比赛,被判违规!


lmarena.ai搞了个AI模型大乱斗平台(叫Arena),现在新加了Llama-4这个模型来打架。

为了让所有人看得清清楚楚,公开了2000多场PK记录,包括:用户问了啥、两个AI怎么回答的、最后用户觉得谁答得更好。点击标题见PK记录。

现在发现,AI说话的风格特别重要(比如客气还是直接,就像“最会说话排行榜”显示的那样),我们还在研究其他细节——比如AI用表情符号会不会影响评分?

另外,我们又塞了个新选手进去(Llama-4-Maverick的HF版本),排名很快出来。

之前Meta公司没把话说清楚,他们那个名字很长(Llama-4-Maverick-03-26-Experimental)的Llama4模型其实是专门讨好人类喜好的“特调版”,这不符合我们的规矩。所以我们马上改规则,以后必须写明白,保证比赛公平!

关键点:

  1. 这是一个AI模型比赛: 公平比较AI模型强弱(比如Llama-4和GPT-4谁更聪明)
  2. 玩法是:➔ 用户提问→AI匿名对战→人类投票→数据全公开
  3. 为什么火: 这次抓包Meta没说实话,偷偷用"特调版"模型参赛

lmarena.ai是原lmsys.org