苹果并不认为推理模型是标准LLM的重大突破--新研究原因如下:
在其最新的研究报告《思考的错觉》中,苹果质疑了一个普遍的假设,即大型语言模型已经能够进行真实的逻辑思考,即真实的“推理”。苹果公司的研究人员看到的不是认知上的突破,而是一种错觉:这些模型仅仅创造了思考的印象,而实际上没有稳定的、可理解的思维过程。
批评的核心是观察到LLM在更复杂的任务中会大幅降低性能-即使它们有足够的计算时间或令牌来解决任务。这意味着一旦复杂性增加,模型的性能就会迅速下降。
苹果在一个受控的环境中通过专门开发的任务系统地测试了这一点。即使是对任务进行很小的更改-例如更改措辞或插入不相关的信息-也会导致模型不再正确回答。
根据苹果公司的说法,这表明LLM并没有开发出一致的,可概括的思维策略,而是依赖于他们在培训期间学到的统计模式。
这意味着实际的“思考”并没有发生--相反,它是一种复杂的模式识别形式,在某些条件下工作得令人印象深刻,但在压力下变得脆弱。
此外,苹果还特别强调了另一个问题:今天的模型所测试的许多基准-例如GSM 8 K-已经包含在其训练数据中。这导致了对实际能力的扭曲认识。
为了解决这个问题,苹果开发了一个名为GSM-Symbolic的新基准,它揭示了推理能力的真正极限。
研究结果表明:当模型面临的任务略有不同,他们不能依靠,他们往往会失败。
对于苹果来说,很明显,目前围绕大型语言模型推理的炒作是基于表面结果和基准错觉。真正强大的、可推广的推理尚未实现--只要模型不能始终如一地处理新的、不熟悉的问题,最好不要谈论真实的突破。
苹果论文大概意思:
最近几年,科学家们搞出了一种新型"学霸AI"(就是那种特别会做题的人工智能),它们有个很酷的技能——在给出答案前会把解题步骤像写草稿一样详细列出来。这种"边想边写"的本领让它们在数学题和编程题考试中分数特别高,但科学家们却发现:其实我们根本不清楚这些AI学霸到底有多聪明?它们的能力天花板在哪?它们的"脑回路"到底是怎么运转的?
现在的考试方式其实有问题!就像我们平时考试只判最后答案对不对,根本不看你的解题过程。更糟糕的是,这些AI可能早就偷偷背过题库里的答案了(就像考前偷看了参考答案)。于是科学家们脑洞大开,专门设计了一套"密室逃脱"式的逻辑谜题来考验这些AI。这些谜题超级有意思:就像乐高积木一样可以随意调整难度,但核心逻辑永远不变——这样就能像X光机一样把AI的思考过程看得清清楚楚!
实验结果让人大跌眼镜!这些号称"最强大脑"的AI遇到超难题目时,居然会像死机一样完全崩溃。更搞笑的是,它们解题时会经历"摸鱼-努力-摆烂"的三部曲:题目简单时随便应付,中等难度时认真写步骤,遇到真正难题时——哪怕允许它写满整张草稿纸——反而开始偷懒乱写了!
我们把这种"写步骤的AI"和普通AI放在同一起跑线上对比,发现三种神奇现象:
1️⃣ 遇到幼儿园级别的题目,"写步骤AI"反而考不过普通AI(就像用微积分解1+1=2)
2️⃣ 中等难度时,"写步骤"的优势终于显现了(就像学霸的草稿纸确实能帮TA理清思路)
3️⃣ 遇到奥数级难题时,两种AI一起"交白卷"(说明它们本质上都没真正搞懂)
最让人意外的是,这些AI根本不会用计算器!当需要精确计算时,它们就像非要心算复杂数学题的小学生,明明有更聪明的办法却不用。而且它们的推理经常自相矛盾,就像考试时前面写着"因为A所以B",后面突然变成"所以C"——这哪是学霸,分明是学渣啊!
通过偷看AI的"草稿纸",我们发现它们其实根本不会真正推理。有时候像无头苍蝇乱试答案,有时候又像背课文一样生搬硬套。这些发现让我们不得不怀疑:这些所谓的"学霸AI",是真的在思考,还是只是装模作样地表演思考?就像某些同学考试时把草稿纸写得满满的,其实都是在画小猫啊!
网友热评1:
苹果公司现在就像站在悬崖边上,情况真的不太妙!他们最近的表现简直像是——
"睡过头错过末班车"
其他科技公司(比如搞AI的、玩元宇宙的)早就搭上新技术的高速列车了,苹果却还在慢悠悠地整理行李,结果眼睁睁看着车门关上。现在想追都来不及了!
"灵魂人物散伙饭"
乔纳森·艾维(设计大神)和山姆(可能指AI领域的奥特曼?)这些关键人物要么已经离职,要么在搞自己的事业。就像乐队主唱和吉他手都单飞了,剩下的人还在硬撑着开演唱会。
"创新变成回忆杀"
现在苹果发布会越来越像"怀旧金曲演唱会"——新手机?换个颜色!新电脑?加个芯片!当年那个用iPhone重新定义手机、用iPad开创平板时代的苹果,现在只会用"更薄0.1毫米"当卖点了。
"生态围墙变牢笼"
苹果最自豪的封闭生态系统,现在反而成了作茧自缚。当其他品牌都在玩跨界互联时,苹果还在坚持"我的配件必须买天价原装",结果把年轻用户都逼去了更开放的安卓阵营。
"库克船长遇冰山"
库克确实是个供应链天才,但他更像是个超级CFO而不是产品先知。现在苹果这艘巨轮正朝着AI时代的冰山撞过去,舵手却还在算账本上的利润数字。
说真的,如果苹果继续这样——
✔️ 靠涨价维持增长
✔️ 把"环保"当创新遮羞布
✔️ 对AI/AR/电动车这些未来赛道慢半拍
可能用不了几年,我们回忆苹果就会像回忆诺基亚一样:"他们曾经很伟大,但时代抛弃你的时候,连声再见都不会说。"
(不过也别太早唱衰,毕竟苹果账上还有千亿现金,说不定哪天就掏出个颠覆性产品打脸所有人呢?)
网友热评2:
这篇论文虽然说得没错,但根本是只见树木,不见森林,"盯着蚂蚁吵架却看不见大象要踩过来了"!完全没搞懂苹果公司真正的脑回路——人家压根不在乎现在这些AI模型是不是真学霸,只关心能不能拿来就用!
说白了就是:
❓别问AI是不是真会思考(就像别管魔术师是不是真有魔法)
❓就问现在AI能不能帮你写情书/做PPT/解数学题(当然能啊!)
可气的是苹果现在就像个酸葡萄精:
明明大家都在用ChatGPT爽飞了
它偏要跳出来说"这些都是垃圾"
然后画个大饼说"等我做出更高级的"
这不是纯纯的捣乱吗?!有这功夫不如先给Siri治治智障啊喂!
不过话说回来...苹果这波操作怎么那么眼熟?当年他们怼MP3、怼触控笔、怼折叠屏的时候也是这副德行,结果后来...(突然闭嘴)
网友热评3:
大型语言模型(LLMs)压根儿没啥思想、没啥意图,也没啥意识。它们就是一堆代码,靠着统计学的花招,猜下一个词儿或符号来模仿人类说话的方式,纯属“鹦鹉学舌”。
那些什么“人工智能”“推理模型”“幻觉”之类的高大上词儿,都是AI行业自己瞎编出来的,专门忽悠咱们这些老爱把啥都当成人来看的家伙。
其实吧,连“人工智能”这词儿都挺扯淡的,名不副实。大型语言模型(LLMs)压根儿不可能搞出半点像人类智慧那样的东西!
网友热评4:
这个“思考”啊,或者叫“草稿纸”啥的,带点自我检查的“思考链”(CoT)招数,早就好使了,哪怕是在那些天生不会思考的模型出来之前。这招的核心就是给模型留点“脑子空间”或者说“字数空间”来一步步推理,绝对是个好点子!
有时候这些所谓会“推理”的模型还真会“跑偏”,脑子跟短路了一样。对于老是让它们犯迷糊的问题,咱可以用非推理模型,逼着它一步一步老老实实想清楚,效果可能更好。尤其是那种带点“专业知识”的模型,比如专门搞医学或者法律的,懂得多了,就不容易胡言乱语了!
网友热评5:
这只适用于他们的 "苹果智能"......苹果现在甚至都不是人工智能领域的参与者。他们很快就会成为老年人使用的设备。他们现在就应该把自己卖给 OpenAI,拯救自己。