5美分虐哭AI！开源测试让模型现原形

这个"SOLO Bench"测试有多变态！

这玩意儿是个专门折磨AI的"造句地狱"——让AI用大约4000个单词的词库，硬憋出250个句子！每个句子必须严格4个单词，还得符合特定语法格式。最狠的是：每个单词全篇只能用一次！（比如"apple"用过一次后，其他249个句子都不准再出现）

而且AI必须纯靠脑力完成，不准查资料、不准写代码作弊！这个测试一次性考察AI的： ✅ 超长记忆力（要记住4000个词里哪些用过） ✅ 死磕规则（4单词+语法格式+禁止重复词） ✅ 逻辑推理（怎么把词库里的词合理分配完） ✅ 抗幻觉能力（不准瞎编单词）

目前所有AI学霸在这个测试里都被虐到哭爹喊娘——就像让你用4000块不重复的乐高积木，拼250座造型不同的小房子，拼到第249座发现剩的积木根本搭不成最后一座...就问你崩不崩溃！

SOLO Bench：专治各种“作弊”的AI考试！ 这个测试和其他“放水”的评测不一样，它主打一个公平、严格、低成本，专门用来揭穿AI的“伪学霸”人设！来看看它有多硬核：

✅ 完全开源——谁都能用，不搞黑箱操作！ ✅ 没有标准答案——想靠背题作弊？门都没有！ ✅ 中等长度上下文测试（输入1万token，输出2-8k token）——不长不短，刚好卡在AI的“记忆临界点”！ ✅ 拒绝“评委AI”或人工打分（现在这些方法越来越偏心了）——纯靠代码规则判定，绝对客观！ ✅ 一键调整难度——改一行代码就能让AI从“简单模式”秒变“地狱难度”！ ✅ 模型区分度超高——是骡子是马，拉出来遛遛，高低立判！ ✅ 评测成本超低——测一次不到5美分（约3毛钱），比买瓶可乐还便宜！ ✅ 无需复杂环境——不用搭服务器、不用调API，直接开跑！

总结：这就像一场不能作弊、没有考官偏心、题目灵活多变的AI高考，专门揪出那些“表面学霸，实际学渣”的大模型！

如何使用 可以通过将 SOLO_Bench_Input.txt 的所有内容复制到任何 LLM 的提示符中来直接运行基准测试。将 LLM 输出粘贴到 eval.txt 中，然后运行 SOLO_Bench.py 来评估其性能。

或者，您可以使用 SOLO_Bench_OpenRouter.py 在 OpenRouter 上运行和评估任何模型。请注意，您需要一个非免费模型的 API 密钥。在命令行中使用 --model=modelname 指定模型。完成后，它将生成一个包含原始 LLM 输出的 .txt 文件和一个包含基准测试结果的 .JSON 文件。

截至 2025 年 5 月 1 日的大模型排名：

gemini2.5-pro 74.80%
o3 56.40%
claude-3.7-sonnet:thinking 34.00%
grok-3-beta 31.20%
deepseek-r1 28.40%
gpt4.5 26.80%
deepseek-chat-v3-0324 20.00%
gemini-2.5-flash-preview:thinking 16.80%
gpt-4.1 9.20%
qwen3-235b-a22b 8.40%
llama-3.1-nemotron-ultra-253b-v1:free 8.00%
qwen3-32b:free 5.20%
qwen2.5-vl-72b-instruct:free 5.20%
llama-3.1-405b-instruct 4.40%
llama-4-maverick:free 4.00%
gemma-3-27b-it:free 1.20%
llama-3.3-70b-instruct 0.40%
gemma-3-4b-it:free 0.00%
qwen3-8b:free 0.00%
o4-mini-high* 0.00%
llama-4-scout 0.00%

起来“超简单”？上手才知道多逆天！ 这测试乍一看像“小学生组词题”——“不就凑250个4字句嘛，谁不会？” 但真动手时你才会拍大腿：为啥早没人想到这招？！

它妙就妙在： ✨ 规则简单到离谱（4单词×250句+不重复用词），但效果炸裂——模型差距一目了然！ ✨ 死磕规则的评测脚本+白菜价成本，未来绝对能玩出更多花样（比如调整词库/语法规则，看AI如何崩溃） ✨ “戴着镣铐跳舞”的生成任务超有潜力——约束越狠，越能逼出AI的真实水平！

作者说： 我花了几周时间开发这个基准测试，尝试了各种不同的方案，最终将难度调整到恰到好处。我还没有测试困难版本，因为大多数大模型（LLM）在简单和中等难度下就已经很吃力了。

一些有趣的注释：

o4-mini 和 04-mini-high 干脆拒绝做基准测试。他们想了很久，然后干脆说：“抱歉，我帮不上忙。” 虽然 o3 拒绝一次性输出全部 250 个句子，但他们是唯一这样做的法学硕士。

对于中等难度（要求 500 个句子），许多模型没有输出完整的 500 个句子，但我仍然用星号标注这些结果（仍然在 500 个句子中进行评估）。

最后需要注意的是，每次运行的得分可能会有很大差异。理想情况下，基准测试应该以 AVG@5 来评估，但我目前还没有这样做。运行所有基准测试的总成本不到 2 美元。

网友说： 我唯一担心的是，使用真实的词汇来生成不相关但连贯的句子，可能会违背大模型（LLM）通常训练或优化的目标：理解句子的意义。

我想知道，如果使用那些明显不太注重意义建构的标记，或者设计一些更明确地倾向于谜题式的指令，是否能得到更有启发性的结果。

作者回复： 这个基准测试是为了利用 Transformer 和下一个 token 预测的弱点而设置的。

所以我倾向于把它看作一个基准测试，用来测试模型（通过原始智能或推理）是否能够突破其架构限制。

Gemini 似乎能够做到这一点。我很好奇谷歌究竟有什么秘诀，让它在这项任务上比其他任何模型都强得多。

网友说： 我认为你实际上是在孤立注意力的某个特定方面，而不是真正强调智力或推理。

因此，大海捞针的长上下文测试可以衡量注意力机制在长上下文中隐藏的正确答案的范围缩小到多大程度。

而这个测试衡量的是注意力机制能够同时对多少个词条进行连贯推理。推理在这里并不难，因为规则很简单：“使用这些”、“避免这些”以及“用动词+形容词+名词+名词造句”。不过，如果你想同时强调这两个词条，也可以任意增加复杂性。

我很高兴这些结果与我在使用这些模型处理大型代码库时的实际经验相符。Gemini 2.5 pro 在这方面确实表现出色。

简单说： 这测试更像是在“刁难”AI的注意力，而不是真的考智商！

“大海捞针”式长文本测试：测的是AI能不能在超长文本里精准锁定关键信息（比如藏得超深的那根“针”）。
SOLO Bench测试：测的则是AI的“多任务抗压能力”——要同时记住几千个单词的使用情况，还得边记边造句，相当于让AI“左手画圆，右手画方”！

规则简单？但执行超难！没错，它的逻辑不复杂（“用这些词，别重复，按格式造句”），但难就难在：

注意力要同时覆盖几千个词（就像让你背一屋子快递单号，还得保证每个只写一次）。
稍一分神就翻车（比如第249句突然发现词用重复了，直接GG）。

为啥Gemini 2.5 pro表现好？ 因为它就像个“超级工作记忆狂魔”——能同时盯住超多变量不乱套，这点在处理大型代码库（比如几万行代码里找bug）时也超有用！

未来可以怎么玩更嗨？

加难度：比如要求句子必须逻辑连贯（“猫追狗”✓，“披萨吃月亮”❌）。
变题型：改成写诗、编密码…让AI在约束下“花式翻车”！