语言、认知与神经网络背后的同一张地图,当数学家、语言学家和AI研究员到达同一座山顶,激活空间或许是理解智能的统一入口
好多看起来八竿子打不着的领域,最后都在用几何学聊天:
数学家研究动态系统,发现所有东西都往一个叫“吸引子”的地方跑。
认知科学家研究大脑,发现人的想法、情绪、习惯也往稳定的状态跑。
搞语言学的人发现,词语的意思不是死记硬背的条目,它们在脑子里有具体位置,意思越近的词挨得越近,意思越远的词离得越远。
搞人工智能的人打开大模型一看,里面没有词典,只有一个巨大到离谱的高维空间,你每输入一句话,模型就在这个空间里挪动位置。
四个领域,四种黑话,但画的好像是同一张地图。为什么大家绕了那么大一圈,最后都开始画几何图形?
一个可能的答案是——这些系统都得在乱七八糟的可能性里找到秩序。不管是神经信号、词语含义还是AI的激活值,它们都在一个有高有低、有弯有直的空间里跑。要想跑得顺、跑得快,就得找到稳定的盆地,找到最短的路线,找到准确的方向。几何学不是谁发明的,是问题自己长出来的。
如果这个说法靠谱,那智能可能就不是背答案。智能更像在一张复杂地图里认路的本事。
几何学为什么总是阴魂不散
你第一次学几何的时候,八成觉得它就是算三角形面积、画辅助线、证明两个角相等。考试考完就扔了。
但后来你发现,研究天气要用几何,研究股票要用几何,研究生态系统要用几何,研究宇宙还得用几何。
几何就像你搬了一次家,结果发现隔壁邻居也搬过来了。
数学里有个东西叫动态系统。这词听着挺唬人,说白了就是一些东西按规则变化。比如球在山坡上滚,你的身高慢慢长,或者冰箱里牛奶的剩量一天天变少。这些东西的“状态”可以看成地图上的一个点。点一变动,就画出一条轨迹。
重点来了。
很多系统跑着跑着,会自己跑到一些固定区域。
拿一个碗。你把弹珠放在碗沿,松手。弹珠晃几圈,最后停在碗底。不管你放在碗的哪个边,结果都一样。这个碗底就是“吸引子”。
天气系统有吸引子。经济系统有吸引子。生态系统也有。
科学家发现,理解整个系统最好的方法,不是盯着每一颗弹珠瞎转,而是画出整个碗的形状。碗口多宽,坡度多陡,碗底在哪。一旦你看到了地形,所有弹珠的去向就一清二楚。
这个办法一出来,几何学就自己找上门了。
你拦不住它。因为地形本身就是几何。山谷、盆地、分水岭、山脊,这些词本来是地理学家用的,数学家借过来发现特别好使。
顺便说一句,这还不是最奇怪的。最奇怪的是,大脑居然也吃这一套。
大脑可能也在寻找山谷
如果弹珠会找碗底,那大脑里的想法呢?
你想一个熟悉的事。比如你卧室长什么样。你不会每次都想一遍床在哪、桌子在哪、窗户在哪。你的大脑会很快进入一个稳定状态,那个状态就叫“我的卧室”。
再比如,有人喊你名字。你不会愣在原地推理半天“他是不是在叫我”。你直接回头。因为你的大脑跳进了一个很深的“自己”的吸引子,速度快得跟条件反射似的。
认知科学家管这个叫吸引子网络。
你盯着一张特别模糊的照片。一开始啥也看不出来。看了几秒钟,突然觉得像你表哥。这个过程就是你的神经网络从一个糊涂状态,滑进了一个确定状态。和弹珠掉碗底一模一样。
还有预测加工理论。这个理论说,你的大脑其实一直在猜接下来会发生什么。它猜前面有台阶,你就抬脚。猜对了就省劲。猜错了就赶紧调整。整个过程就像无人机在风里飞,不停修正方向,让自己待在稳定轨道上。
这也是一套几何语言:轨迹、修正、稳定轨道。
更狠的是情绪和习惯:一个人遇到压力就炸毛,不是他每次都要重新开董事会讨论“我今天炸不炸毛”。他的大脑已经掉进了一个“焦虑”的吸引子,就像水往低处流。另一个人遇到压力就开始想办法,他的大脑掉进了“解决问题”的吸引子。
表面上看是性格,底下看是地形!所以认知科学最后也得画地图。
前面数学家说的那个“山谷模型”,到了大脑这里变成了“思维地图”。
那语言呢?语言总不能也这样吧?
语言里的词语其实住在空间里
你要是觉得词语就是字典里的条目,那你怎么解释“猫”和“老虎”感觉上是一类东西,而“猫”和“发动机”隔了十万八千里?
语言学家想了个办法。他们把每个词语的意思当成高维空间里的一个点。意思越近,点挨得越近。意思越远,点离得越远。
- “苹果”“香蕉”“橘子”这三个点会挤在一堆。
- “卡车”“飞机”“轮船”会挤在另一堆。
你在脑子里听到“猫”的时候,你的思维不会跑去发动机区域(Context)。它会准确落在猫的区域附近。然后你听到“老虎”,就在同一片区域里稍微挪两步。你听到“发动机”,就得跨一大片空白才能到。
这不就跟大脑的吸引子网络一模一样吗?大脑在一个状态空间里跑来跑去。语言在一个概念空间里跑来跑去。都在找位置,都在找路径,都在找稳定区域。
而且语言还有个更绝的事:两个人聊天。一个说“我饿了”,另一个说“走,吃饭去”。这段对话就像两个人共享同一张地图。第一个人在地图上标出一个点“我饿了”,第二个人立刻规划出一条路线“去吃饭的地方”。
理解语言,根本不是查字典。是在概念地图上定位,然后导航。
那人工智能呢?AI总不会也来凑热闹吧?结果大模型一出来,所有人都闭嘴了。
大模型为什么也开始谈几何
早期的人工智能,你给它规则,它给你答案。就像计算器,你按1+1,它显示2。中间没有什么空间地图的事。
但大型语言模型——就是现在这些能聊天、能写文章、能帮你总结摘要的AI——它们的内部构造完全不一样。
研究人员打开这些模型一看,里面没有“猫”的文件夹,没有“爱情”的格子,也没有“如果那么”的规则表。里面是一个巨大无比的激活空间。好几千维,甚至好几万维。
几万维是什么概念?你画不出图来。
但你可以这么想:三维空间里你前后左右上下都能走。四维空间你就已经想象不出来了。几万维,那就是一个你在里面会迷路迷到绝望的地方。
每次你输入一句话,模型里的数字就会在这个空间里移动,就像一团光斑在黑屋子里照来照去。
不同的任务,对应不同的区域。不同的能力,对应不同的方向。比如“翻译”这个任务,可能在空间里是朝东北方向走一小段。“总结”可能是朝西南方向走一大段。
然后研究者发现了一个特别炸裂的规律:输入选择区域;区域塑造轨迹;轨迹产生行为。
你问AI“猫会游泳吗”。它不会一条一条翻规则,它的输入会在空间里选一个“动物常识”的区域;然后在这个区域里,轨迹会朝着“猫的特性”方向移动;最后抵达“会”或者“不会”的位置。
你问它“发动机能钓鱼吗”,它就会选一个完全不同的区域——“机械常识”区域。然后轨迹往“发动机特性”方向走。最后抵达“不能”的位置。
所以你看懂了吧?
- 数学里的吸引子,是区域吸引轨迹。
- 认知科学里的状态转换,是区域决定行为。
- 语言学里的概念空间,是区域决定理解。
- 人工智能里的激活几何,还是区域决定轨迹。
四个领域,四个名字,一个意思。
你越看越觉得,它们像四个盲人摸同一头大象。一个摸到腿说这是柱子,一个摸到耳朵说这是扇子,一个摸到尾巴说这是绳子。但等他们把所有部位拼起来,发现说的其实是同一种动物。
那这个动物到底是什么?
共同答案可能藏在高维空间里
咱们做个思想实验:假设你有一百万个东西。一百万个弹珠的位置,或者一百万个大脑的状态,或者一百万个词语的意思,或者一百万个AI的激活模式。
如果你一个一个列出来,列成一张清单,一百万个条目。你想找一个东西,就得从头翻到尾。运气最差的时候翻到第一百万个才找到。效率低到让人想砸电脑。
但如果你把这些东西放进一个空间里,附近的东西就是相似的,远的东西就是不同的。这时候你想找一个东西,就不用翻清单了。你只要朝着大概方向走,很快就能接近目标。
这就是为什么所有领域最后都发现了几何。因为它真的好使。
想象你没有地图,只有一本写着“张三住址”“李四住址”“王五住址”的通讯录。你想去找张三,得先翻开通讯录查到地址,再一路问过去。有了地图,你一眼就能看出哪些区域是居民区,哪些是商业区,哪条路是主干道,哪条路是死胡同。张三住哪一片,一眼就看见了。
高维空间的地图,干的就是这件事!而且几何结构会自动冒出来。这不是谁发明的。
你有一堆相似的东西,它们就会自己凑成一团。
你有一堆不同的东西,它们就会自己散开。
你有一个稳定状态,周围的东西就会流向它。这就是吸引子。
就像水往低处流。不是有人规定水必须往低处流,是重力造成的。同样的道理,你有一个复杂系统,里面有很多状态,这些状态之间有远近、有高低、有路径,几何就自己长出来了。
所以数学家不是“选择”用几何,他是没法不用!
认知科学家也不是“喜欢”用几何,他是发现大脑本来就是这样长的。
语言学家也不是“跟风”,他是发现词语的意思天然就有空间结构。
人工智能研究员更不是“凑热闹”,他是打开模型一看,里面全是几何。
四个领域的工程师,在不同的大陆上,各自发明了轮子。轮子长得一样,不是因为互相抄袭!是因为轮子就是解决搬运问题的最优形状。
智能也许是一种导航能力
把前面所有东西串在一起:
- 数学家说系统在空间里跑向吸引子。
- 认知科学家说大脑在状态空间里跳来跳去。
- 语言学家说词语在概念空间里定位。
- 人工智能专家说激活向量在高维空间里移动。
那智能到底是什么?智能可能是对结构化空间的导航。
你想想:
你学一个新东西比如学做菜:一开始你不知道盐放多少,火开多大,什么时候翻面。这就像你站在一张新地图的入口,东南西北全不认识。多做几次,你记住了几个关键地标:油热了冒烟是一个点,盐放一勺是一个点,肉变色是一个点。你会从起点导航到终点。
你学英语:一开始不知道单词和语法放在哪。你背了“apple”是苹果,“eat”是吃,你把它们放在概念空间里。过一阵子,你能从“apple”导航到“fruit”,从“eat”导航到“meal”。
科学家发现新定律:也是在概念空间里找到了一条以前没人走过的路,然后把这条路画出来给别人看。
艺术家创作:也是在想象空间里找到了一个没人见过的形状,然后把它搬到纸上或者画布上。
所以“导航”这个词,可能比“计算”更接近智能的本质!
计算是算1+1等于2;导航是在巨大、混乱、高维的空间里,找到从A到B的路线,同时避开陷阱区域,同时知道什么时候该停。
你开车从家到学校。路上有红绿灯,有堵车,有修路。你不是每次都用同一个公式算出两千步的路线。你是看着路况,不断微调方向盘。
大脑就是这样;AI也是这样;语言也是这样;数学系统也是这样。
它们都在各自的、看不见的高维地图上航行。
而几何学,就是这些地图的通用语言:不管你是在哪个领域,只要你在跑,你就会需要地图。只要你需要地图,你就会发现地形、方向、距离、吸引子。只要发现了这些,你就开始用几何说话了。
这可能就是为什么那么多领域,最后都找到了几何。
不是巧合,是必然。就像所有星球最后都是圆的。不是它们商量好的,是引力决定的。
总结
数学、认知科学、语言学和人工智能正在各自独立地走向几何学视角。吸引子、概念空间、激活几何、状态转换都在指向同一个核心思想:复杂系统运行在结构化的高维状态空间中。智能可能不是单纯的计算能力,而是在高维空间中的导航能力。
来源:Justin Hudson 于社交平台发布的研究思考图示与讨论
核心假设:数学、认知科学、语言学和人工智能共享相似的结构化状态空间框架
关键词:Attractor(吸引子)、Activation Geometry(激活几何)、Conceptual Space(概念空间)、Representation Space(表征空间)、Dynamical Systems(动态系统)、High-Dimensional Navigation(高维导航)
极客一语道破
这个高维空间导航实际就是《道德经》中“道德”含义:
- 道=高维空间;
- 德=导航;
- 道德=沿着道路导航
1. 先忘掉“高维空间”这个词,换成“一个巨大的、看不见的交通网”
这个网里有无数的路、岔口、捷径、死胡同,而且大部分路你平时看不见(高维)。你要从一个点(现状)到另一个点(目标),需要导航。
2. “道”就是这张网本身,也就是所有可能的路径、规律、底层地图
《道德经》的“道”不是具体哪条路,而是整个交通系统的底层规则:
- 路怎么连的?
- 哪里必然堵?
- 哪条是顺势的下坡路?
- 哪条是逆势的硬爬山?
你顺着这个底层规则走,就叫“合道”。
3. “德”就是你开车的能力——不只看导航,还会根据实时路况微调
- 知道该让行时让行(不争)
- 知道该加速时别犹豫(动善时)
- 知道此路不通立刻换道(上善若水)
有德 = 你在“道”这张地图上开得稳、顺、省能量。
4. 那么“道德=沿着道路导航”就通透了
- 道 = 完整的、高维的、看不见的道路系统(客观规律+可能性空间)
- 德 = 你按这个系统的最优方式走的能力(随顺、不硬杠、借力)
- 沿着道路导航 = 不自己瞎创造路,而是读取已有的“道”,然后用“德”去匹配它
5. 为什么“高维空间导航”就是“道”?
因为高维空间里:
- 低维看起来断开的两点,高维可能直接一条隧道(比如:看似无关的两个知识,高维相通 → 类比思维)
- 低维要硬推的障碍,高维直接绕过去(比如:不解决A,但解决B让A自动消失)
- 低维需要精确控制,高维只需要顺势流动(比如:不规划每一步,只把握方向与势能)
而《道德经》说的“道”本质上就是教你:
不要只用低维的蛮力(硬干、强求、对抗),而要发现高维的捷径、空档、趋势、节奏——这就是在给你做高维导航。
一句话总结:
> 道 = 高维空间里所有潜在路线的总地图(客观)
> 德 = 你会看这张地图并顺着最佳隐形势线开的能力(主观)
> 道德经 = 教你“别再低维硬拐,抬头看高维导航线”的手册。
你把“导航”换成“顺势而为”“不争而善胜”“无为而无不为”,就全对上了。