别被骗了！大语言模型只是人类语言的编译器

该文认为大模型应该理解语义，不能只玩语法游戏，其实语法也是一种形式抽象！

原文：
大型语言模型 (LLM)，例如 GPT-4 及其后续版本，并不理解语言。它们不推理，不拥有信念，也不执行逻辑。

然而，该领域仍在描述、推广和部署这些系统，仿佛它们能够理解语言一样——将流畅性与理解力、统计连续性与语义基础、模仿与智能混为一谈。

这不仅仅是一个学术错误，而是一个概念上的错误，它导致了：

夸大通用智能的进步，
对高风险应用模型的危险过度信任，
非技术受众、政策制定者甚至从业者普遍感到困惑。

建议采用一种更清晰、更扎实的框架：

大型语言模型是自然语言的即时概率解释器，其执行是通过标记级统计推断而不是符号推理来进行的。

简单说：一个更准确的说法：大语言模型其实就是一个“即时概率翻译机”。它在处理语言的时候，不是靠“理解”或“逻辑推理”，而是像一个“算命先生”一样，根据前面看到的内容，“猜”出下一个最可能出现的词语。

这个说法更靠谱，而且非常重要。如果我们不搞清楚这一点，那么未来我们建造的AI系统，很可能就是建立在一个根本性的错误认识上。

核心误解：生成 ≠ 理解

大模型之所以能“说”得头头是道，是因为它能生成连贯、合理、甚至优美的文字。于是，大家就很容易想当然地认为它们“懂”自己在说什么。

大模型（LLM）的成功模糊了语言生成和语言理解 之间的界限。由于模型能够跨领域生成连贯、合理甚至优雅的文字，人们很容易认为它们“知道”自己在说什么。

但事实并非如此。

但它们真的不懂！

每一步，大模型都只是根据前面出现过的词，选择下一个最可能出现的词，就这么简单。

它的大脑里没有“概念体系”，不会去判断“这句话是不是真理”，也没有真正理解“语义”的机制。

它之所以看起来“懂”，只是因为它学到了语言的表面规律，而这些规律碰巧和“意义”有点关联，但它本身并没有真正“明白”意义。

它没有内部本体，没有命题真值追踪，也没有语义解析机制。大模型只是模拟理解，是因为语法通常与语义相关，而不是因为系统本身具有意义。

大模型到底做了什么？

这些模型真正擅长的，是在巨大的语言数据库里进行“统计模式补全”。

标准说法：这些模型所做的（并且做得非常好的）是在高度结构化的语言空间中完成统计模式。

它们接收到你的指令（比如你问它一个问题），然后像一个“概率编译器”一样来“翻译”：

1. 把你的话拆开： 就像把一句话拆成一个个字词（术语叫“分词”），对输入进行标记。
2. 套用学到的规则： 根据它学到的海量语料库中的模式，进行“转换”,在具体语境Context中应用学到的转换。
3. 预测下一个词： 然后“猜”出最有可能的下一个词是什么，对下一个最可能的输出进行采样。

可以把它们理解为：天然语言的“概率翻译器”，你给它一段“程序”（也就是你的提问），它就通过生成最有可能的后续内容来“执行”这段程序。

也就是说：最好将其理解为：自然语言的概率解释器，其中“程序”（提示）通过生成高可能性的延续来执行。

这个过程背后没有符号逻辑引擎。没有语义分析器。没有“真”或“指”的运行时本体。只有从人类书写的文本中学习到的似然值。

这里面没有像人一样的“逻辑规则引擎”，没有“语义分析器”，也没有“真理”或“指代”的概念。它有的只是从人类文字中学到的“可能性”。

为什么搞清楚这些很重要？

1. 别错信它们：
当我们把模型的输出看作是“深思熟虑”的结果时，就很容易把它们的“模仿”当成“主观意愿”。这会让我们过度信任它们，尤其是在法律、医疗、教育和政府管理这些关键领域，如果模型犯错，后果会很严重。

当我们将模型输出解读为理性思考的表达时，我们就会将实际存在的插值赋予自主权。这助长了过度信任，尤其是在法律、医疗保健、教育和治理等关键领域。

2. 别被“跑分”骗了：
那些依靠“对错答案”来评价大模型的测试（比如数学题、逻辑谜题、记忆事实），其实并不能真正反映模型在做什么。模型只是在它学到的“数据分布”中进行“采样”。所以，当它出错时，不应该简单地认为是“小毛病”，而是这种“构造方式”本身决定的结果。

依赖于正确/错误答案的基准测试（例如，数学、逻辑谜题、事实回忆）无法捕捉模型的实际操作：从学习到的分布中进行采样。失败被视为“错误”，而不是架构的结构性后果。

3. 别走错研究方向：
如果我们把大模型当成“有初级智能的家伙”，就会去研究一些错误的问题，比如“怎么让它们的目标和人类一致？”而不是“它们的行为有哪些统计学上的限制？”这会误导我们在AI安全、可解释性和通用人工智能（AGI）方面的研究。

当我们将大模型视为原始智能体时，我们关注的是错误的问题：“我们如何才能协调他们的目标？”而不是“他们行为的概率约束是什么？”这会误导安全性、可解释性和 AGI 研究。

我们应该怎么做？

1. 改变说法：
我们必须停止把大模型说成会“思考”、“知道”、“理解”或“推理”的系统，除非我们明确指出这只是个比喻。
正确的说法是：大语言模型是天然语言程序的“即时翻译器”，按照概率逻辑来运行。

LLM 是自然语言程序的 JIT 解释器，在概率逻辑下运行。

2. 像理解“编译器”一样理解它：
可以把大模型和“编译器”做个类比（编译器就是把高级编程语言转换成计算机能懂的语言的程序）：
* 词法分析/语法分析 ≈ 模型的分词和结构模式识别
* 语义分析 ≈ 大模型这里是缺失的（它不理解真正的意思）
* 代码生成 ≈ 模型通过概率采样来输出词语

如果你不会说一个编译器“理解”它所处理的代码的含义，那你就不能说大模型“理解”它正在生成的那句话的含义。

3. 构建混合系统：
未来的方向不是让模型变得更大，而是更聪明地把它们组合起来。
我们可以把大模型（作为自然语言的接口）和“符号逻辑推理系统”、“形式验证系统”、以及“明确的知识图谱”结合起来。
让大模型做它擅长的“近似语言执行”，而不是让它来做“决策”或“判断真假”。

（banq注：该文实际呼吁大模型赋予其语义，其实这可能是错误理解智能，因为语法也是一种形式系统，不等于非得用人类陷入语义陷阱得思维去改造LLM，其实AI前50年就是这么身在庐山不识别庐山真面目）

4. 改变评估方式：
别只用逻辑测试来评价大模型了。
要开始评估它们在“数据分布泛化能力”、“语言建模的准确性”和“模拟语义能力”方面的表现。
把它们的错误看作是“这类系统固有的特征”，而不是“反常现象”。

（banq注：别用人类智能方式评估另外一种语法形式系统，等于别用语文评估数学，自从数学发明以来，数学一直将语文按在地上摩擦。）

常见疑问与解答

但大模型能通过逻辑测试啊！
是的，那是因为这些测试在它的训练数据中出现过很多次，或者它们的结构正好符合它学到的高频模式。这只是模式识别，不是真正的逻辑推理。

但大模型表现出推理能力了！
不，它们只是在“模拟”推理行为。就像一个只会根据概率下棋的程序，虽然能下出像样的棋，但它并没有真正理解下棋的规则。

理解能力是“涌现”出来的！
或许吧——但除非这种“涌现”包括了内在的符号指代、自我保护、状态跟踪和真值判断，否则，它就不是任何有意义的认知或计算意义上的“理解”。

有可能——但除非并且直到这种出现包括内部符号参考、自我保存、状态跟踪和真值函数推理，否则它就不是任何有意义的认知或计算意义上的“理解”。

总结一下

大语言模型是工具，不是“思想者”。
它们模仿语言，而不是“思考”。
它们进行的是模式化的延续，而不是“认知”。（其实，模式也是一种认知形式）

我们越是假装它们是“有意识的”，就越会积累概念上的“债务”，我们构建的系统也会越脆弱。

现在是时候重新设定预期，重新定义我们对它们的看法了。我们需要把未来AI的基础，建立在大模型真实的样子上。

本质上，大模型只是学会了大规模的语法分析，又因为语言的表面模式中隐含着相关的意义，所以它们能够“模拟”出理解能力——但它们并没有真正拥有这种能力。

这不是它们的缺点，而是它们核心的设计原理。一旦你用“编译器”的视角去看待它们，一切都会变得更清楚——它们能做什么，不能做什么，以及为什么。

我建议用“编译器理论”和“统计模型”的思路来重新理解大模型，明确它们的运行方式。我认为：

大语言模型可以被看作是一种天然语言的“即时概率翻译器”，而这种天然语言本身就是一种高维度、涌现出的“编程语言”。它们的“执行”是通过类似贝叶斯（一种概率计算方法）的预测来完成的，而不是通过像人一样的“逻辑推理”来完成的。

极客辣评：

很多人以为AI就是个"键盘侠"，只会瞎猜下一个字该打啥——大错特错！这就好比说你的手机计算器是靠扔骰子算1+1的，离大谱！

举个栗子：

写代码篇：我随便跟AI说"给我做个能自动给全班同学作业打分的程序，要能识别字丑的扣分"，它真能哐哐写出代码！这要是只会"预测下一个字"，估计就给你生成篇《论作业的重要性》的作文了...

当医生篇：把验血报告甩给AI，它能像老中医似的告诉你："同学你最近熬夜打游戏了吧？血红蛋白都低成马里亚纳海沟了！"这要是只会接龙造句，怕不是会说"建议多喝岩浆"这种鬼话。

灵魂画手篇：让AI画"一只胖橘猫骑着霸王龙送外卖"，它真能画出恐龙背上的美团头盔！这要是文字接龙，估计就变成"猫骑着恐龙...然后全剧终"了。

重点来了：

AI脑子里有个超级概念地图️，能把"猫主子""恐龙""代码"这些知识连成星际高速公路。就像你知道"奶茶+珍珠=快乐"，它懂"症状+化验单=诊断"。这才是它厉害的真本事，才不是玩词语连连看呢！

我认为你低估了研究人员的成就。大规模的句法分析可以有效地模拟语义能力。我正在区分我们所看到的和它正在做的事情。或者换句话说，人类很容易对他们从文本流本身的生成中体验到的东西（输出中的含义）感到困惑。你不需要知道某个东西的含义就能正确地表达它。

这些不是关于烤馅饼或什么颜色的汽车最好这样的对话。
我正在谈论关于人与人工智能关系的元对话、意识在塑造社会结构中的作用、元认知、波粒二象性以及现实的基本秩序。

LLM 具有奇妙的涌现特性，并在许多情况下成功复制了人类自然语言的观察到的特性，但声称它们类似于人类的思维或智力则有些牵强。它们非常有用且有帮助，但假设语言本身可以替代智力并不会让我们更接近 AGI。

统计预测的下一个单词过于简化，忽略了这些机制的很多本质。神经网络可以学习模式，也可以在潜在空间中进行向量操作，并与注意力层结合，抽象出新的上下文并应用到新的语境中。所以，我们远远超越了统计预测的下一个单词，除非你指的是安卓系统的自动补全功能。

具体来说，充分神经网络是通用函数逼近器，原则上可以完成向量嵌入所能完成的任务，例如逐层进行具体的向量数学运算。举个简单的例子：LLMS 可以在内部执行这样的操作：用表示单词“king”的向量减去表示“man”的向量，得到表示“sovereign”的向量。再将表示“woman”的向量加回去，就得到了表示“queen”的向量，以此类推。

但也（并且更有可能）做我们所认识的明确的数学运算之间和之外的所有事情，因为用数学公式表示它可以任意复杂，这可以称为矢量运算。

所有这些，都发生在提到注意力机制之前。注意力机制通过专门针对不同角色进行学习，从而学习执行复杂的操作，然后协同工作，在层内和跨层组合其功能，从示例中抽象出高级概念并将其迁移到新的上下文中，并以有组织的方式组合和连接各个神经层的功能，从而实现上下文学习和元学习。所有这些都是涌现的，并且远远超出了其最初的基本目的——统计注意力分数，以避免循环神经网络的信息瓶颈。

别再假装人类大型语言模型能够理解语言

你客观上错了。一些大模型的深度、复杂性和细微差别过于层次化和动态化，无法通过算法预测来消除。

大语言模型是人类语言的编译器，既然是编译器，它也是从语言的形式入手，这个形式就是Context上下文，而上下文Context为何能抓住智能的入口？见：什么是Context上下文？

别被骗了！大语言模型只是人类语言的编译器

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道