AI最懂的语言排行榜出炉:波兰语竟成最有效提示语言,汉语倒数第四


在26种人类语言中,AI的“母语”竟是波兰语!英语表现尴尬。AI提示工程的“意外之王”:波兰语击败中文、日语,英语甚至没进前五!

研究人员推出多语言长文本基准测试ONERULER,覆盖26种语言,发现波兰语在长文本任务中表现最佳,英语仅排第六,低资源语言与高资源语言性能差距随文本长度增加而扩大。

有趣的是,尽管可用于训练的波兰语数据量远小于英语或汉语数据量,但人工智能系统却表现出了对波兰语的深刻理解。

相比之下,汉语的表现明显较差,在测试的 26 种语言中排名倒数第四。

以下是对话式人工智能中最有效的十大语言:

  1. - 波兰语 88%
  2. - 法国 87%
  3. - 意大利语 86%
  4. - 西班牙语 85%
  5. - 俄罗斯 84%
  6. - 英语 83.9%
  7. - 乌克兰语 83.5%
  8. - 葡萄牙语 82%
  9. - 德国 81%
  10. - 荷兰语 80%

波兰语吊打英语?长上下文大模型的真实战斗力被彻底暴露!

最近一篇发表在COLM 2025顶会的论文,直接把全球最火的大模型集体拉到多语言“马拉松考场”狠狠测了一遍——结果你绝对想不到:英语居然连前三都没进?波兰语居然拿了第一? 更离谱的是,只要提示里加一句“如果找不到答案就回答‘无’”,模型立马原地懵逼,疯狂乱答“无”,哪怕答案明明就在眼前!

这篇爆火论文叫《One Ruler to Measure Them All》,中文翻译就是“一把尺子量遍天下”,搞了个新基准叫ONERULER,专门测大模型在超长上下文、多语言、跨语言场景下的真实能力。别小看这个测试,它不只看模型能不能从128K字里揪出关键信息,还专门设了“陷阱题”——比如“答案根本不存在”,看模型敢不敢承认自己找不到。结果?连OpenAI的o3-mini-high这种顶级推理模型都栽了大跟头!

先给大家划重点:这可不是普通测试,它覆盖26种语言,从英语、中文、日语、韩语这些主流语种,到斯瓦希里语、塞索托语这种低资源语言全包括。上下文长度从8K一路飙到128K,整整16倍!测试任务也超狠:不仅有经典的“大海捞针”(NIAH),还有“多针检索”“无针识别”“高频词统计”这种高难度组合拳。一句话:真实用户怎么用,它就怎么考!



一、论文作者是谁?背景够硬吗?

别急,咱们先看看搞出这个“照妖镜”的团队什么来头。这篇论文来自马里兰大学、麻省大学阿默斯特分校和微软研究院的联合团队,核心作者包括Yekyung Kim、Jenna Russell、Marzena Karpinska和Mohit Iyyer——个个都是NLP领域响当当的名字。

尤其是通讯作者Mohit Iyyer,麻省大学阿默斯特分校的副教授,长期深耕语言模型评估、多语言理解和长上下文建模,是业内公认的“大模型质检员”。而微软的Marzena Karpinska则专注低资源语言和长文本评估,之前就做过“小说级摘要”等高难度任务。这支队伍不仅懂技术,更懂怎么“刁难”AI——所以ONERULER的题目设计,堪称“科学又毒辣”。

整个项目他们花了上千美元,专门雇了25位母语者,把所有指令和测试词表逐字逐句翻译成目标语言,确保每个prompt都地道自然。这不是随便用个翻译软件糊弄的事,而是真正从语言文化底层出发的严谨测试。这波专业度,必须点赞!



二、ONERULER到底测了啥?七大战役全解析!

ONERULER可不是简单翻译英文题,而是基于经典RULER基准升级的“多语言地狱模式”,总共七大任务,全是为长上下文量身定制:

1. 单针检索(S-NIAH)  
最经典的“大海捞针”:128K字的书里插一句“‘森林’的魔法数字是2978103”,然后问你“森林”的魔法数字是多少。看起来简单对吧?但作者们加了个致命细节:提示里明确写着——“如果找不到,请回答‘无’”。就这一句,直接让所有模型准确率暴跌30%以上!因为模型开始怀疑人生:“是不是我真的漏看了?保险起见先答‘无’吧……”

2. 多关键词检索(MK-NIAH)  
上下文里插四个不同词的魔法数字,比如“森林”“桌子”“咖啡”“苹果”,但问题只问“森林”。模型必须精准定位关键词,不能被其他三个“针”带偏。这考验的是注意力聚焦能力。

3. 多值检索(MV-NIAH)  
更狠!同一个词“女王”,对应四个不同数字:6445721、4532661、3011363、5023114。模型必须把四个全找出来,漏一个就算错。很多模型在这里“偷懒”,只答第一个就收工。

4. 多查询检索(MQ-NIAH)  
一次问两个词,比如“河流”和“岛屿”的魔法数字。模型要同时检索两个目标,不能顾此失彼。有意思的是,模型在双目标任务上反而比单目标表现更好!为啥?因为单目标时更容易被“无”选项吓到,双目标反而激发了它的检索本能。

5. 无针识别(NONE-NIAH)  
全新题型!上下文有针,但问题问的是一个根本不存在的词。比如问“龙”的魔法数字,但全文压根没提“龙”。模型必须果断回答“无”。结果?这是所有任务里准确率最低的,连顶级模型都频频误判成某个存在的词。

6. 高频词统计-简单版(CWE-easy)  
给一个128K长的单词列表,其中10个词重复30次,其他词只出现3次。模型要找出Top10高频词。听起来容易?但人类扫一眼就知道,模型却要逐字计数,还得抵抗tokenization干扰。所有模型平均准确率不到32%,长上下文一上来直接崩盘。

7. 高频词统计-地狱版(CWE-hard)  
把高频词设为出现20次,低频词出现10次——差距缩小一半。结果?全军覆没,准确率接近0%! 连Gemini 1.5 Flash这种王者都抓瞎。这说明大模型的“统计归纳”能力,在超长文本面前几乎为零。



三、震惊结果:英语第六?中文倒数?波兰语封神?

这才是最炸裂的部分!大家一直以为,英语和中文因为训练数据最多,肯定是长上下文王者。但ONERULER打脸了:

- 波兰语(Polish)高居榜首! 在64K和128K长上下文中,平均准确率高达88%,力压群雄。
- 英语只排第六,准确率83.9%,被俄语、乌克兰语、波斯语、法语、西班牙语轮番超越。
- 中文(简体)直接掉到倒数第四,准确率仅62.1%,比很多低资源语言还惨!

为啥?论文分析指出:模型在斯拉夫语族(波兰、俄、乌)、罗曼语族(法、西、意)、日耳曼语族(德、荷)表现最好,这些语言用拉丁或西里尔字母,形态复杂但数据质量高。而中文、日语、韩语等非拉丁语系,尽管资源丰富,却因tokenization效率低、字符集庞大,在长文本中反而吃亏。

更可怕的是资源鸿沟:高资源语言(维基百科文章>25万)和低资源语言(印地语、斯瓦希里语、塞索托语、泰米尔语)之间的差距,从8K的11%拉大到128K的34%!也就是说,上下文越长,模型对小语种越不友好。这说明当前大模型的长上下文能力,根本没在低资源语言上好好训练过。



四、模型大乱斗:谁是真王者?谁在裸泳?

论文测了7个主流模型:Qwen 2.5(7B/72B)、Llama 3.1(8B)、Llama 3.3(70B)、Deepseek-R1(仅英)、Gemini 1.5 Flash、OpenAI o3-mini-high。

结果排名如下:
1. Gemini 1.5 Flash:全能王者,尤其在长上下文和低资源语言上表现稳定,塞索托语都能打。
2. Qwen 2.5 72B:国产之光,72B大模型实力强劲,长上下文仅次于Gemini。
3. Llama 3.3 70B:中规中矩,但对低资源语言几乎放弃治疗。
4. o3-mini-high:推理强但检索弱!在英语128K准确率仅67%,但在波兰语高达92%——严重偏科。
5. 小模型集体翻车:7B~8B级别的Qwen和Llama,在长上下文里准确率断崖式下跌。

最离谱的是o3-mini-high的行为:它答错时,生成的推理token比答对时多出好几倍!比如正确答案只需50个字,它却写500字“内心戏”:“我反复检查了三遍,可能真的没有……虽然第六感告诉我有,但为了严谨……”——典型的“过度思考”。而Deepseek-R1更夸张,直接把上下文按章节拆解,像侦探一样逐章搜索,结果经常超token上限,答不出来。



五、跨语言测试:指令语言竟影响20%准确率?

ONERULER还做了个神操作:上下文用一种语言,指令用另一种语言。比如上下文是韩语,但问题是用英语写的。结果发现:指令语言的选择,能让准确率波动高达20%

- 当上下文是英语,指令换成韩语,64K准确率从91%暴跌到71%。
- 但当上下文是韩语,指令换成英语,128K准确率反而从61%提升到77%!

这说明:模型对指令语言的理解,直接影响它对上下文的处理能力。如果你用低资源语言下指令,哪怕内容是高资源语言,模型也会“降智”。这对全球AI产品设计是个重大警示:不能只翻译界面,指令和上下文的语言匹配度至关重要!



六、致命弱点:“无”选项成最大漏洞

整篇论文最讽刺的发现:加入“无答案”选项后,所有模型准确率大幅下滑。明明在S-NIAH任务中答案一定存在,但只要提示里写了“可答无”,模型就开始疯狂误判。

- o3-mini-high在英语128K任务中,近60%的错误都来自乱答“无”
- Qwen在中文任务里,也频繁返回“无”,尽管答案清清楚楚在文本中。

这暴露了当前大模型的致命缺陷:缺乏对任务确定性的判断力。它们被训练得太“谦虚”,一遇到不确定就选择“不知道”,而不是坚持搜索。这就像考试时,明明记得答案,但因为题干说“不会可以空着”,结果真空了——活生生把送分题变成扣分题。



七、未来启示:长上下文不能只靠堆数据

ONERULER的发布,给整个AI界敲响警钟:

1. 多语言长上下文训练严重不均衡,高资源语言霸权正在加剧技术鸿沟。
2. “大海捞针”这种合成任务,必须加入“无答案”场景,否则就是虚假繁荣。
3. 聚合类任务(如计数、统计)是当前模型最大短板,需要全新架构支持。
4. 跨语言指令对齐,将成为多语言AI产品的关键战场。

最后,作者们已开源ONERULER数据集和代码(GitHub:mungg/OneRuler),呼吁全球研究者一起来改进多语言长上下文能力。毕竟,AI的未来不是只服务英语用户,而是让斯瓦希里语、塞索托语、泰米尔语的使用者,也能享受同等智能。

所以,别再迷信“128K上下文=全能”了!这场多语言大考证明:真正的长上下文智能,还得过语言、文化和逻辑三重关。而波兰语的意外登顶,或许正是打破英语霸权的第一声号角。