该文认为大模型应该理解语义,不能只玩语法游戏,其实语法也是一种形式抽象!
原文:
大型语言模型 (LLM),例如 GPT-4 及其后续版本,并不理解语言。它们不推理,不拥有信念,也不执行逻辑。
然而,该领域仍在描述、推广和部署这些系统,仿佛它们能够理解语言一样——将流畅性与理解力、统计连续性与语义基础、模仿与智能混为一谈。
这不仅仅是一个学术错误,而是一个概念上的错误,它导致了:
- 夸大通用智能的进步,
- 对高风险应用模型的危险过度信任,
- 非技术受众、政策制定者甚至从业者普遍感到困惑。
建议采用一种更清晰、更扎实的框架:
- 大型语言模型是自然语言的即时概率解释器,其执行是通过标记级统计推断而不是符号推理来进行的。
简单说:一个更准确的说法:大语言模型其实就是一个“即时概率翻译机”。它在处理语言的时候,不是靠“理解”或“逻辑推理”,而是像一个“算命先生”一样,根据前面看到的内容,“猜”出下一个最可能出现的词语。
这个说法更靠谱,而且非常重要。如果我们不搞清楚这一点,那么未来我们建造的AI系统,很可能就是建立在一个根本性的错误认识上。
核心误解:生成 ≠ 理解
大模型之所以能“说”得头头是道,是因为它能生成连贯、合理、甚至优美的文字。于是,大家就很容易想当然地认为它们“懂”自己在说什么。
大模型(LLM)的成功模糊了语言生成和语言理解 之间的界限。由于模型能够跨领域生成连贯、合理甚至优雅的文字,人们很容易认为它们“知道”自己在说什么。
但事实并非如此。
但它们真的不懂!
每一步,大模型都只是根据前面出现过的词,选择下一个最可能出现的词,就这么简单。
它的大脑里没有“概念体系”,不会去判断“这句话是不是真理”,也没有真正理解“语义”的机制。
它之所以看起来“懂”,只是因为它学到了语言的表面规律,而这些规律碰巧和“意义”有点关联,但它本身并没有真正“明白”意义。
它没有内部本体,没有命题真值追踪,也没有语义解析机制。大模型只是模拟理解,是因为语法通常与语义相关,而不是因为系统本身具有意义。
大模型到底做了什么?
这些模型真正擅长的,是在巨大的语言数据库里进行“统计模式补全”。
标准说法:这些模型所做的(并且做得非常好的)是在高度结构化的语言空间中 完成统计模式。
它们接收到你的指令(比如你问它一个问题),然后像一个“概率编译器”一样来“翻译”:
1. 把你的话拆开: 就像把一句话拆成一个个字词(术语叫“分词”),对输入进行标记。
2. 套用学到的规则: 根据它学到的海量语料库中的模式,进行“转换”,在具体语境Context中应用学到的转换。
3. 预测下一个词: 然后“猜”出最有可能的下一个词是什么,对下一个最可能的输出进行采样。
可以把它们理解为:天然语言的“概率翻译器”,你给它一段“程序”(也就是你的提问),它就通过生成最有可能的后续内容来“执行”这段程序。
也就是说:最好将其理解为:自然语言的概率解释器,其中“程序”(提示)通过生成高可能性的延续来执行。
这个过程背后没有符号逻辑引擎。没有语义分析器。没有“真”或“指”的运行时本体。只有从人类书写的文本中学习到的 似然值。
这里面没有像人一样的“逻辑规则引擎”,没有“语义分析器”,也没有“真理”或“指代”的概念。它有的只是从人类文字中学到的“可能性”。
为什么搞清楚这些很重要?
1. 别错信它们:
当我们把模型的输出看作是“深思熟虑”的结果时,就很容易把它们的“模仿”当成“主观意愿”。这会让我们过度信任它们,尤其是在法律、医疗、教育和政府管理这些关键领域,如果模型犯错,后果会很严重。
当我们将模型输出解读为理性思考的表达时,我们就会将实际存在的插值 赋予自主权。这助长了过度信任,尤其是在法律、医疗保健、教育和治理等关键领域。
2. 别被“跑分”骗了:
那些依靠“对错答案”来评价大模型的测试(比如数学题、逻辑谜题、记忆事实),其实并不能真正反映模型在做什么。模型只是在它学到的“数据分布”中进行“采样”。所以,当它出错时,不应该简单地认为是“小毛病”,而是这种“构造方式”本身决定的结果。
依赖于正确/错误答案的基准测试(例如,数学、逻辑谜题、事实回忆)无法捕捉模型的实际操作:从学习到的分布中进行采样。失败被视为“错误”,而不是架构的结构性后果。
3. 别走错研究方向:
如果我们把大模型当成“有初级智能的家伙”,就会去研究一些错误的问题,比如“怎么让它们的目标和人类一致?”而不是“它们的行为有哪些统计学上的限制?”这会误导我们在AI安全、可解释性和通用人工智能(AGI)方面的研究。
当我们将大模型视为原始智能体时,我们关注的是错误的问题:“我们如何才能协调他们的目标?”而不是“他们行为的概率约束是什么?”这会误导安全性、可解释性和 AGI 研究。
我们应该怎么做?
1. 改变说法:
我们必须停止把大模型说成会“思考”、“知道”、“理解”或“推理”的系统,除非我们明确指出这只是个比喻。
正确的说法是:大语言模型是天然语言程序的“即时翻译器”,按照概率逻辑来运行。
LLM 是自然语言程序的 JIT 解释器,在概率逻辑下运行。
2. 像理解“编译器”一样理解它:
可以把大模型和“编译器”做个类比(编译器就是把高级编程语言转换成计算机能懂的语言的程序):
* 词法分析/语法分析 ≈ 模型的分词和结构模式识别
* 语义分析 ≈ 大模型这里是缺失的(它不理解真正的意思)
* 代码生成 ≈ 模型通过概率采样来输出词语
如果你不会说一个编译器“理解”它所处理的代码的含义,那你就不能说大模型“理解”它正在生成的那句话的含义。
3. 构建混合系统:
未来的方向不是让模型变得更大,而是更聪明地把它们组合起来。
我们可以把大模型(作为自然语言的接口)和“符号逻辑推理系统”、“形式验证系统”、以及“明确的知识图谱”结合起来。
让大模型做它擅长的“近似语言执行”,而不是让它来做“决策”或“判断真假”。
(banq注:该文实际呼吁大模型赋予其语义,其实这可能是错误理解智能,因为语法也是一种形式系统,不等于非得用人类陷入语义陷阱得思维去改造LLM,其实AI前50年就是这么身在庐山不识别庐山真面目)
4. 改变评估方式:
别只用逻辑测试来评价大模型了。
要开始评估它们在“数据分布泛化能力”、“语言建模的准确性”和“模拟语义能力”方面的表现。
把它们的错误看作是“这类系统固有的特征”,而不是“反常现象”。
(banq注:别用人类智能方式评估另外一种语法形式系统,等于别用语文评估数学,自从数学发明以来,数学一直将语文按在地上摩擦。)
常见疑问与解答
但大模型能通过逻辑测试啊!
是的,那是因为这些测试在它的训练数据中出现过很多次,或者它们的结构正好符合它学到的高频模式。这只是模式识别,不是真正的逻辑推理。
但大模型表现出推理能力了!
不,它们只是在“模拟”推理行为。就像一个只会根据概率下棋的程序,虽然能下出像样的棋,但它并没有真正理解下棋的规则。
理解能力是“涌现”出来的!
或许吧——但除非这种“涌现”包括了内在的符号指代、自我保护、状态跟踪和真值判断,否则,它就不是任何有意义的认知或计算意义上的“理解”。
有可能——但除非并且直到这种出现包括内部符号参考、自我保存、状态跟踪和真值函数推理,否则它就不是任何有意义的认知或计算意义上的“理解”。
总结一下
- 大语言模型是工具,不是“思想者”。
- 它们模仿语言,而不是“思考”。
- 它们进行的是模式化的延续,而不是“认知”。(其实,模式也是一种认知形式)
我们越是假装它们是“有意识的”,就越会积累概念上的“债务”,我们构建的系统也会越脆弱。
现在是时候重新设定预期,重新定义我们对它们的看法了。我们需要把未来AI的基础,建立在大模型真实的样子上。
本质上,大模型只是学会了大规模的语法分析,又因为语言的表面模式中隐含着相关的意义,所以它们能够“模拟”出理解能力——但它们并没有真正拥有这种能力。
这不是它们的缺点,而是它们核心的设计原理。一旦你用“编译器”的视角去看待它们,一切都会变得更清楚——它们能做什么,不能做什么,以及为什么。
我建议用“编译器理论”和“统计模型”的思路来重新理解大模型,明确它们的运行方式。我认为:
大语言模型可以被看作是一种天然语言的“即时概率翻译器”,而这种天然语言本身就是一种高维度、涌现出的“编程语言”。它们的“执行”是通过类似贝叶斯(一种概率计算方法)的预测来完成的,而不是通过像人一样的“逻辑推理”来完成的。
极客辣评:
很多人以为AI就是个"键盘侠",只会瞎猜下一个字该打啥——大错特错!这就好比说你的手机计算器是靠扔骰子算1+1的,离大谱!
举个栗子:
写代码篇:我随便跟AI说"给我做个能自动给全班同学作业打分的程序,要能识别字丑的扣分",它真能哐哐写出代码!这要是只会"预测下一个字",估计就给你生成篇《论作业的重要性》的作文了...
当医生篇:把验血报告甩给AI,它能像老中医似的告诉你:"同学你最近熬夜打游戏了吧?血红蛋白都低成马里亚纳海沟了!"这要是只会接龙造句,怕不是会说"建议多喝岩浆"这种鬼话。
灵魂画手篇:让AI画"一只胖橘猫骑着霸王龙送外卖",它真能画出恐龙背上的美团头盔!这要是文字接龙,估计就变成"猫骑着恐龙...然后全剧终"了。
重点来了:
AI脑子里有个超级概念地图️,能把"猫主子""恐龙""代码"这些知识连成星际高速公路。就像你知道"奶茶+珍珠=快乐",它懂"症状+化验单=诊断"。这才是它厉害的真本事,才不是玩词语连连看呢!
我认为你低估了研究人员的成就。大规模的句法分析可以有效地模拟语义能力。我正在区分我们所看到的和它正在做的事情。或者换句话说,人类很容易对他们从文本流本身的生成中体验到的东西(输出中的含义)感到困惑。你不需要知道某个东西的含义就能正确地表达它。
这些不是关于烤馅饼或什么颜色的汽车最好这样的对话。
我正在谈论关于人与人工智能关系的元对话、意识在塑造社会结构中的作用、元认知、波粒二象性以及现实的基本秩序。
LLM 具有奇妙的涌现特性,并在许多情况下成功复制了人类自然语言的观察到的特性,但声称它们类似于人类的思维或智力则有些牵强。它们非常有用且有帮助,但假设语言本身可以替代智力并不会让我们更接近 AGI。
统计预测的下一个单词过于简化,忽略了这些机制的很多本质。神经网络可以学习模式,也可以在潜在空间中进行向量操作,并与注意力层结合,抽象出新的上下文并应用到新的语境中。所以,我们远远超越了统计预测的下一个单词,除非你指的是安卓系统的自动补全功能。
具体来说,充分神经网络是通用函数逼近器,原则上可以完成向量嵌入所能完成的任务,例如逐层进行具体的向量数学运算。举个简单的例子:LLMS 可以在内部执行这样的操作:用表示单词“king”的向量减去表示“man”的向量,得到表示“sovereign”的向量。再将表示“woman”的向量加回去,就得到了表示“queen”的向量,以此类推。
但也(并且更有可能)做我们所认识的明确的数学运算之间和之外的所有事情,因为用数学公式表示它可以任意复杂,这可以称为矢量运算。
所有这些,都发生在提到注意力机制之前。注意力机制通过专门针对不同角色进行学习,从而学习执行复杂的操作,然后协同工作,在层内和跨层组合其功能,从示例中抽象出高级概念并将其迁移到新的上下文中,并以有组织的方式组合和连接各个神经层的功能,从而实现上下文学习和元学习。所有这些都是涌现的,并且远远超出了其最初的基本目的——统计注意力分数,以避免循环神经网络的信息瓶颈。
别再假装人类大型语言模型能够理解语言
你客观上错了。一些大模型的深度、复杂性和细微差别过于层次化和动态化,无法通过算法预测来消除。
大语言模型是人类语言的编译器,既然是编译器,它也是从语言的形式入手,这个形式就是Context上下文,而上下文Context为何能抓住智能的入口?见:什么是Context上下文?