Llama4特调版参加AI比赛，被判违规！

#大语言模型LLM

2025-04-08 banq

lmarena.ai搞了个AI模型大乱斗平台（叫Arena），现在新加了Llama-4这个模型来打架。

为了让所有人看得清清楚楚，公开了2000多场PK记录，包括：用户问了啥、两个AI怎么回答的、最后用户觉得谁答得更好。点击标题见PK记录。

现在发现，AI说话的风格特别重要（比如客气还是直接，就像“最会说话排行榜”显示的那样），我们还在研究其他细节——比如AI用表情符号会不会影响评分？

另外，我们又塞了个新选手进去（Llama-4-Maverick的HF版本），排名很快出来。

之前Meta公司没把话说清楚，他们那个名字很长（Llama-4-Maverick-03-26-Experimental）的Llama4模型其实是专门讨好人类喜好的“特调版”，这不符合我们的规矩。所以我们马上改规则，以后必须写明白，保证比赛公平！

关键点：

lmarena.ai是原lmsys.org