lmarena.ai搞了个AI模型大乱斗平台(叫Arena),现在新加了Llama-4这个模型来打架。
为了让所有人看得清清楚楚,公开了2000多场PK记录,包括:用户问了啥、两个AI怎么回答的、最后用户觉得谁答得更好。点击标题见PK记录。
现在发现,AI说话的风格特别重要(比如客气还是直接,就像“最会说话排行榜”显示的那样),我们还在研究其他细节——比如AI用表情符号会不会影响评分?
另外,我们又塞了个新选手进去(Llama-4-Maverick的HF版本),排名很快出来。
之前Meta公司没把话说清楚,他们那个名字很长(Llama-4-Maverick-03-26-Experimental)的Llama4模型其实是专门讨好人类喜好的“特调版”,这不符合我们的规矩。所以我们马上改规则,以后必须写明白,保证比赛公平!
关键点:
- 这是一个AI模型比赛: 公平比较AI模型强弱(比如Llama-4和GPT-4谁更聪明)
- 玩法是:➔ 用户提问→AI匿名对战→人类投票→数据全公开
- 为什么火: 这次抓包Meta没说实话,偷偷用"特调版"模型参赛
lmarena.ai是原lmsys.org