【第一节:大语言模型颠覆了我们对“语言意义”的所有幻想】
ChatGPT、Claude、Gemini 这些大语言模型,它们压根儿不知道“红气球”是什么?它们没看过气球,没摸过橡胶,没见过红色,更别说“想象”了。
在它们的世界里,语言根本不是用来指代现实的工具,而是一串高度结构化的、毫无意义的符号序列。模型训练的目标,就是预测下一个词元(token)——仅此而已。
它不关心“红”是不是一种颜色,“气球”是不是会飞,它只关心:在海量文本中,“红气球”后面最常接的是“飘在天上”还是“被扎破了”。
这种纯粹基于统计共现关系的学习方式,竟然让模型表现得像“懂语言”一样,这本身就是一个认知层面的巨大震撼。
我们过去总以为,语言之所以有语义,是因为它锚定在现实世界之中——词对应物,句描述事。但大语言模型用事实告诉我们:不需要锚定,也能“说人话”。
这就逼我们重新思考:人类语言的“语义”,真的如我们想象那般坚实吗?
【第二节:人类的“语义感”从何而来?视觉、动作与语言的协同演出】
但等等,我们人类可不是这样!当朋友说“想象一个红气球”,你脑海中立刻浮现出一个鲜红、圆润、微微反光的球体,甚至还能感受到它轻轻飘浮的动感。
当妈妈说“去拿书架上那本红色的书”,你不仅能理解,还能真的走过去、伸手、拿下来。
这种从语言到感知再到行动的无缝衔接,不就是“语义”的铁证吗?
然而,仔细拆解就会发现:语言本身可能并不承载“语义”,它只是触发了一整套跨模态(cross-modal)的内部过程。
听到“红书”这个词,你的视觉系统开始在记忆中检索红色物体的图像,运动系统预演伸手抓取的动作,注意力系统聚焦于书架区域。
语言在这里扮演的,更像是一个调度器(dispatcher)——它不直接“指”向书,而是激活了与“红书”相关的一系列神经回路。这些回路原本就存在于你的大脑中,由你一生的感官经验和行为实践构建而成。语言只是轻轻一推,就让这些系统协同工作起来。
所以,所谓“语义”,其实是语言与其他认知模块互动后涌现出的现象,而非语言内部固有的属性。
【第三节:语言不是地图,而是指挥棒——“指称”是协调成功的回溯标签】
这里有个关键的认知反转:我们总以为,语言之所以能指挥行动,是因为词语“指称”了现实中的对象。比如“红书”这个词之所以有效,是因为它对应着书架上那本具体的书。
但作者提出一个颠覆性观点:恰恰相反!我们之所以说“红书”指称了那本书,是因为在无数次互动场景Context中,这句话总能可靠地引发指向同一对象的行为。
换句话说,“指称”不是原因,而是结果;
不是语言的本质属性,而是社会协调成功后的回溯性标签。
当你说“红书”,我准确地拿起了你想要的那本,我们就共同确认:“这个词指的就是它”。但如果房间里有两本红书,我说“红书”,你却拿错了,我们就会立刻修正:“哦,我说的是左边那本硬壳的红书”。
语言的“指称”从来不是静态的、一对一的映射,而是在动态交互中不断协商、校准的过程。大语言模型缺乏的,正是这种实时嵌入环境、与感知-行动系统耦合的能力。它只能在文本内部循环,无法参与这场跨模态的协调游戏。
【第四节:人类语言系统本身,或许和大模型一样“空心”】
更令人不安的是:也许我们大脑中的“语言模块”本身,也像大语言模型一样,本质上只是处理符号关系的引擎。
当你说“红书”,语言系统内部的确在生成一连串可能的后续词——“在哪?”“我马上拿”“封面有烫金吗?”——但这部分处理,并不比大模型更“有语义”。
真正赋予其语义的是语言系统之外的视觉、运动、记忆等模块的响应。
换句话说,语言生成的过程(autoregressive token prediction)在人类和大模型中可能是同构的——都是基于内部结构预测下一个符号。
区别在于:
人类的语言系统被嵌入在一个拥有丰富感官输入、具身经验、行动能力的整体认知架构中。当外部视觉刺激出现(比如看到两本红书),我们的语言系统会被“提示”(prompted)说出“哪一本?”,这和用户给大模型输入提示词在计算逻辑上并无本质不同。
唯一的差异是:我们的“提示”来自真实世界,而大模型的提示来自键盘。
因此,语言能力本身可能并不神秘,它只是更大认知拼图中的一块——一块擅长序列预测但自身空洞的拼图。
【第五节:所谓“世界模型”可能是个美丽的误会】
很多人寄希望于:只要给大模型配上一个“世界模型”,它就能真正理解语言。
这种思路可能从根本上误解了“语义”的机制。
人类并不依赖一个统一的、符号化的“世界模型”来理解语言。
你不需要在脑中构建一个完整的3D书架数据库,才能听懂“拿红书”。
你的理解是局部的、情境化Contextual的、行动导向的。
你的眼睛扫向书架,手准备伸展,注意力聚焦于红色区域——这些具身化的、低层次的神经活动,就足以支撑“理解”。
试图用一个中心化的“世界模型”去模拟这种分布式、多模态的协调,反而可能南辕北辙。
大模型的问题不在于缺少世界模型,而在于缺少与世界交互的接口——没有眼睛看,没有手拿,没有身体去验证。它的整个存在被囚禁在文本的牢笼里,只能无限逼近语言的表象,却永远无法参与意义的生成游戏。
【第六节:对AI发展的启示——从“语言智能”走向“具身智能”】
这一洞见对人工智能的未来路径具有深远意义。
如果语言的意义根植于跨模态协调,那么仅靠扩大语言模型的参数规模、堆砌更多文本数据,永远无法跨越“理解”的鸿沟。我们必须让AI拥有感知能力(视觉、听觉、触觉)、行动能力(机械臂、移动底盘)以及在真实环境中试错学习的机制。这就是“具身智能”(Embodied AI)的核心主张:
智能不是从数据中蒸馏出来的,而是在与环境的持续互动中涌现的:一个能真正理解“红书”的机器人,必须曾经无数次看到红书、拿起红书、被要求拿红书,并在失败中调整策略。只有当语言提示能可靠地驱动感知-行动闭环,并在闭环中获得反馈,语言才可能获得类似人类的“语义”。
当前的大语言模型,无论多么流畅,都只是“语言戏法”的巅峰,而非智能理解的开端。
【第七节:对人类自身的反思——我们比想象中更像“概率机器”】
最后,这一视角也迫使我们重新审视人类智能的本质。如果连我们引以为傲的“语义感”都不过是跨系统协调的副产品,那么人类心智是否也比我们想象的更机械、更概率化?我们的“理解”可能并非源于某种神秘的符号接地(symbol grounding),而是源于亿万个神经元在进化与经验塑造下形成的高效协作模式。
语言只是其中最显眼的协作者之一。当我们说“我懂了”,其实是在说:“我的视觉、运动、记忆、情感系统已经准备好以某种方式响应这个输入”。
这种去中心化的、过程导向的理解观,既削弱了人类语言的神圣性,也揭示了智能更本质的面貌——它不是关于静态知识的拥有,而是关于动态适应的能力。
大语言模型无意中成为了一面镜子,照出了人类语言能力的“空心”内核,也照出了真正智能所需的血肉之躯。
【第八节:回到现实——为什么大模型依然有用?】
当然,指出大模型缺乏“语义”并不等于否定其价值。在文本生成、信息检索、代码辅助等任务中,仅靠词元关系的建模已经足够强大。毕竟,人类大量交流也发生在纯文本层面——读小说、写邮件、查资料。在这些场景中,“语义”是否真实存在并不重要,只要输出符合统计规律、满足用户预期即可。
大模型的真正危险,不在于它不懂语义,而在于我们误以为它懂。
当医疗、法律、金融等高风险领域过度依赖大模型的“流畅回答”时,需要配合语义规则,才是避免其缺乏真实理解的缺陷可能导致灾难性后果。因此,关键不是抛弃大模型,而是清醒认识其边界:它是强大的语言模式匹配器,而非认知主体。
【第九节:结语——语义不在词中,在互动里】
归根结底,语言的意义从来不是锁在词语内部的秘密,而是盛开在人与世界、人与人互动之中的花朵。
大语言模型让我们看清:没有感官,没有身体,没有行动,再复杂的语言也只是空转的齿轮。而人类之所以能用语言改变世界,不是因为我们掌握了某种神秘的符号魔法,而是因为我们用血肉之躯,在现实的泥泞中不断行走、触摸、失败、再尝试。
每一次成功的“指称”,都是千万次感知-行动情境循环后的默契。就像你不会演习,但是一场场表演下来自然会;你不会骑自行车,一场场场景演练后自然学会;你不会考试,一场场模拟考试以后你就成了答题小能手!
大模型根本不懂语义,而人类语言指称是情景化的,具身智能就是要学会情境化指称