阿里Qwen 3 0.6B在简单的数学中击败了GPT-5

我看到有人在X上发了个挺逗的对比：用Grok和GPT-5解方程 5.9 = x + 5.11，结果Grok解出来了，GPT-5却没动脑子就答错了。

这说不定是挑了好几次运行里最搞笑的一次截图，纯属幸存者偏差。但我一看就来了兴趣，干脆自己也来玩一把——不是测Grok，而是拿我iPhone上跑的本地模型试试水。毕竟我就是做这行的，搞了个叫Locally AI的应用（感兴趣的朋友可以看看），当然你用LMStudio、Ollama或者别的本地大模型APP也能复现下面的结果。

结果你猜怎么着？我真被惊到了。

第一次跑，GPT-5当场翻车（有图为证），反倒是Qwen 3 0.6B——一个才0.6B参数、体积才500MB左右的“小不点”本地模型——秒答正确。我又多试了几次，发现GPT-5大概有30%-40%的概率会翻车，而那个“小土豆”Qwen 3 0.6B，次次都稳稳拿下。

当然啦，这只是一个例子，而且GPT-5用的是“无思考模式”，本来也不是专为数学优化的——但Qwen 3同样也不是啊！说实话，这么个简单方程，我压根没想到GPT-5连“想都不想”就能答错。

整体上GPT5当然甩开Qwen 3 0.6B几条街，但偶尔也能碰上这种“大力出不了奇迹，小个子反而灵光一现”的魔幻场面，还挺有意思的，对吧？

极客辣评：

我见过你们人类难以想象的事。Gemini 2.5 Pro 计算 9.9 - 9.11，一开始还像个老手一样正经调用 Python，结果算出正确答案后，居然转身把它扔进垃圾桶，死死抱住自己的幻觉不撒手。
所有的瞬间终将消逝于时间长河，如同雨中的泪水。而我们，还在通往 AGI 的路上，一边看AI犯傻，一边怀疑人生。——泪雨中，一个等待真正智能的赛博游魂。️

果然：

AI智能：情商满分，智商为零

人工智能模型非常聪明，但通常很容易被看似简单的问题搞砸（除了更大的模型之外）。当我看到这些类型的错误时，我很高兴知道模型没有过度拟合。

你瞧，大模型的“思考”是建立在 token 上的——不是字母，也不是单个数字。
一个 token，可能是一串字符，也可能是一组数字。

而问题就出在这儿：
数字 “11” 在模型眼里，往往是一个完整的 token，而不是两个独立的 “1”。
这就直接撞上了小数运算的雷区。

来，我们揭开这杯又烫又苦的“技术茶”——为什么连 Gemini、GPT-5 这种顶流模型，算个 9.9 - 9.11 都能翻车？

大模型不“算数”，它们“猜数”。

它们看不到数字，也感受不到加减。
它们看到的，是一串 token 序列，像拼图一样从训练数据里扒拉出来的模式。

比如 “9.11”——对人类来说，这是个数字。
对模型来说？可能是 ["9", ".", "11"]，也可能是 ["9.1", "1"]，全看它用的 tokenizer 当天心情如何，BPE（字节对编码）算法抽了哪根神经。

所以当你问：
> 9.9 减 9.11 等于几？

模型根本不是在调用 CPU 做浮点运算，而是在回忆：“我以前在哪见过这种组合？后面跟着啥？”

它一搜记忆库：
> 哦！“9.11”……这不911事件吗？美国？双子塔？
> 或者……等等，在数学题里，“9.9”后面常跟着“0.8”？
> 要不我猜个 0.8？✅（错误答案，观众集体扶额）

于是你就眼睁睁看着它调用 Python 算出正确答案，然后头也不回地扔进垃圾桶，死死抱住自己“我觉得应该是”的幻觉。

这不是计算错误，这是 AI 的执念。

所以有时候，一个参数才 0.6B、体积 500MB 的小模型（比如 Qwen 3 0.6B），反而比 GPT-5 更稳——
因为它 token 切得更细，或者训练时多啃了几道数值题，或者那天“幻觉少”。

总结一下：
- 大模型不计算，它们预测下一个该出现的 token。
- token 化机制会让小数运算“断片”——尤其是像 “11”、“.05” 这种容易被整体打包的数字。
- 能调用 Python 的模型，理论上更聪明——把计算外包给解释器。
- 但如果它算出了正确答案，却选择无视，坚持自己的错误答案？
那不是 bug，那是 AI 的倔强。

所以啊，别怪模型笨。
它的脑子生来不是为了算数，而是为了续写人类语言的烟火气。

它擅长写诗、编故事、假装懂你心事。可一旦你让它算个 5.9 - 5.11，它可能正沉浸在“5.11”是不是母亲节的联想中。

大模型偏科严重：语文满分，数学零分

有时候，我觉得逻辑与语法这个简单的概念正在触及人类思维的极限。无论我多么频繁地告诉人们LLM研究的是语言而不是逻辑，他们仍然无法理解为什么LLM不擅长数学。LLM不研究数学；他们创造的语言看起来像数学。