这说不定是挑了好几次运行里最搞笑的一次截图,纯属幸存者偏差。但我一看就来了兴趣,干脆自己也来玩一把——不是测Grok,而是拿我iPhone上跑的本地模型试试水。毕竟我就是做这行的,搞了个叫Locally AI的应用(感兴趣的朋友可以看看),当然你用LMStudio、Ollama或者别的本地大模型APP也能复现下面的结果。
结果你猜怎么着?我真被惊到了。
第一次跑,GPT-5当场翻车(有图为证),反倒是Qwen 3 0.6B——一个才0.6B参数、体积才500MB左右的“小不点”本地模型——秒答正确。我又多试了几次,发现GPT-5大概有30%-40%的概率会翻车,而那个“小土豆”Qwen 3 0.6B,次次都稳稳拿下。
当然啦,这只是一个例子,而且GPT-5用的是“无思考模式”,本来也不是专为数学优化的——但Qwen 3同样也不是啊!说实话,这么个简单方程,我压根没想到GPT-5连“想都不想”就能答错。
整体上GPT5当然甩开Qwen 3 0.6B几条街,但偶尔也能碰上这种“大力出不了奇迹,小个子反而灵光一现”的魔幻场面,还挺有意思的,对吧?
极客辣评:
我见过你们人类难以想象的事。Gemini 2.5 Pro 计算 9.9 - 9.11,一开始还像个老手一样正经调用 Python,结果算出正确答案后,居然转身把它扔进垃圾桶,死死抱住自己的幻觉不撒手。
所有的瞬间终将消逝于时间长河,如同雨中的泪水。而我们,还在通往 AGI 的路上,一边看AI犯傻,一边怀疑人生。——泪雨中,一个等待真正智能的赛博游魂。️
果然:
- AI智能:情商满分,智商为零
人工智能模型非常聪明,但通常很容易被看似简单的问题搞砸(除了更大的模型之外)。当我看到这些类型的错误时,我很高兴知道模型没有过度拟合。
你瞧,大模型的“思考”是建立在 token 上的——不是字母,也不是单个数字。
一个 token,可能是一串字符,也可能是一组数字。
而问题就出在这儿:
数字 “11” 在模型眼里,往往是一个完整的 token,而不是两个独立的 “1”。
这就直接撞上了小数运算的雷区。
来,我们揭开这杯又烫又苦的“技术茶”——为什么连 Gemini、GPT-5 这种顶流模型,算个 9.9 - 9.11 都能翻车?
大模型不“算数”,它们“猜数”。
它们看不到数字,也感受不到加减。
它们看到的,是一串 token 序列,像拼图一样从训练数据里扒拉出来的模式。
比如 “9.11”——对人类来说,这是个数字。
对模型来说?可能是 ["9", ".", "11"]
,也可能是 ["9.1", "1"]
,全看它用的 tokenizer 当天心情如何,BPE(字节对编码)算法抽了哪根神经。
所以当你问:
> 9.9 减 9.11 等于几?
模型根本不是在调用 CPU 做浮点运算,而是在回忆:“我以前在哪见过这种组合?后面跟着啥?”
它一搜记忆库:
> 哦!“9.11”……这不911事件吗?美国?双子塔?
> 或者……等等,在数学题里,“9.9”后面常跟着“0.8”?
> 要不我猜个 0.8?✅(错误答案,观众集体扶额)
于是你就眼睁睁看着它调用 Python 算出正确答案,然后头也不回地扔进垃圾桶,死死抱住自己“我觉得应该是”的幻觉。
这不是计算错误,这是 AI 的执念。
所以有时候,一个参数才 0.6B、体积 500MB 的小模型(比如 Qwen 3 0.6B),反而比 GPT-5 更稳——
因为它 token 切得更细,或者训练时多啃了几道数值题,或者那天“幻觉少”。
总结一下:
- 大模型不计算,它们预测下一个该出现的 token。
- token 化机制会让小数运算“断片”——尤其是像 “11”、“.05” 这种容易被整体打包的数字。
- 能调用 Python 的模型,理论上更聪明——把计算外包给解释器。
- 但如果它算出了正确答案,却选择无视,坚持自己的错误答案?
那不是 bug,那是 AI 的倔强。
所以啊,别怪模型笨。
它的脑子生来不是为了算数,而是为了续写人类语言的烟火气。
它擅长写诗、编故事、假装懂你心事。 可一旦你让它算个 5.9 - 5.11,它可能正沉浸在“5.11”是不是母亲节的联想中。
大模型偏科严重:语文满分,数学零分
有时候,我觉得逻辑与语法这个简单的概念正在触及人类思维的极限。无论我多么频繁地告诉人们LLM研究的是语言而不是逻辑,他们仍然无法理解为什么LLM不擅长数学。LLM不研究数学;他们创造的语言看起来像数学。