OpenClaw装到宇树机器人：能看懂物理世界了

#AI智能体Agent #OpenClaw #机器人 #RAG检索增强生成

2026-03-03 2 11K banq

OpenClaw通过Spatial Agent Memory与SpatialRAG，将时间与空间编码进多维向量空间，让机器人真正理解现实世界的因果、物体与场景。

OpenClaw搞出了空间智能体记忆系统，让机器人能真正理解物理世界的时间和空间，不再像传统语言智能体那样只有静态记忆。这套系统整合了LiDAR、立体相机和RGB相机，用多维度向量空间编码时间和物理上下文，支持geoRAG查询和因果推理，而且完全开源。

现在它已经在Unitree G1人形机器人上跑起来了，也能适配大多数无人机和四足机器人。简单说，这就是让家用机器人从"人工智障"进化到"真·智能管家"的关键一步。

OpenClaw现在可以理解物理空间和时间顺序，直接对接lidar、stereo camera、RGB camera等传感器，而且完全开源。听起来像功能列表，实际意义是：智能体开始拥有“世界感”。

以前的Language Agent活在token世界里。它擅长处理文字、语义、问答、摘要，靠RAG去检索相关文本。现在的OpenClaw开始处理视频流、深度图、点云数据、里程计数据。它开始理解“这个东西在厨房”，“那个人是上周一来过”，“垃圾每周二晚上被拿走”。这一步，本质是把记忆结构从一维文本，升级为多维空间时间向量系统。

OpenClaw现在能理解物理空间，能搞懂时间顺序，而且最狠的是，它能直接接上那些硬核传感器，像lidar，就是激光雷达，那种能打出激光点阵，把周围环境扫描成精密点云的玩意儿；
还有stereo camera，也就是双目摄像头，跟人的两只眼睛一样，靠两个镜头的视差来算出深度信息；
再加上普通的RGB camera，就是咱们平时拍照用的那种彩色摄像头。把这些传感器全接上，而且完全开源，谁都能拿来用。

这意味着语言智能体正式走出那个虚拟的屏幕，一脚踏进我们每天摸爬滚打的现实物理世界。

X上一段视频里展示的是OpenClaw跑在Unitree G1 humanoid身上。它也能接入drones和quadrupeds。

视频里展示的就是OpenClaw跑在Unitree G1这个人形机器人身上，也就是咱们熟悉的宇树机器人，那个能在后空翻的钢铁小伙。它也能轻松接入drones，也就是无人机，还有quadrupeds，四足机器人，就是那种机器狗。

这件事的信号非常明确：语言智能体走出屏幕，开始进入物理世界。

以前机器人看世界，就像你盯着监控屏幕，看到的只是一堆像素点在动。现在不一样了，它开始理解“这个东西在厨房”，“那个人上周一两点十五分来过”，“垃圾车每周二晚上八点准时开走”。这一步的本质，是把记忆结构从一维的文本链条，硬生生拔高到了多维的空间时间向量系统。太炸了。

老方法RAG在现实世界为啥直接歇菜，因为它是个没方向感的路痴

想象一下，你请了个保姆，这个保姆有个特异功能：她只能看懂文字，而且看完就忘，除非你把家里所有事情写成小抄贴她脑门上。更离谱的是，她分不清客厅和厨房，不知道现在是早上还是晚上，更不知道你三天前把钥匙扔沙发缝里了。这就是现在大多数语言智能体的真实写照。它们活在静态记忆里，没有时间概念，没有空间感知，对象语义更是想都别想。

RAG查询在这些智能体手里就是一维操作，像在一条笔直的高速公路上开车，只能前进或后退。

这在语言符号空间里勉强能混，毕竟CLIP或者标准的OpenAI嵌入向量足够帮你检索点文本上下文。
你问"昨天晚饭吃了啥"，它去翻聊天记录，凑合能答。但问题是，现实世界不是推特帖子堆出来的，现实世界是几百小时的视频流、深度图、点云数据砸在你脸上的。
你让这种一维脑子去处理三维物理世界，就像让Excel表格去谈恋爱——工具本身没问题，场景完全错位。

传统方案的问题在于，它们把物理世界也当成语言来处理。你家猫从茶几上跳下来打翻水杯，这个过程包含时间序列、空间轨迹、物体关系、因果关系，但传统智能体只能看到一堆像素，或者最多识别出"猫""水杯""桌子"这些标签。它不知道猫是从哪来的，不知道水杯为什么会倒，更不知道明天同一时间点猫可能还会再来一次。这种认知水平，基本等同于金鱼——不是贬义，金鱼至少还能记住三秒前的事，有些智能体连这个都做不到。

RAG这个技术，你们可能听过，就是检索增强生成。在语言处理这个圈子里，RAG绝对是神兵利器。原理特别简单，你抛出一个问题，系统把你的问题转成一种叫向量的东西，你可以理解成给问题生成一串独一无二的DNA编码，然后拿着这个编码去一个巨大的向量数据库里，找那些跟它DNA最像的文本片段。

用的模型，比如CLIP，这是OpenAI出品的连接图像和文本的模型，或者是OpenAI embeddings，就是专门把文字转成向量的工具。这套组合拳，覆盖文本和图像的语义空间，那是绰绰有余。你问合同里关于违约的条款有哪些，它能迅速定位到对应段落；你问某款手机的摄像头参数，它能把产品说明书里相关的描述给你摘出来，拼在一起，然后让语言模型组织成通顺的答案。

但问题来了，现实世界这个老六，它根本不按文本的逻辑出牌。你家里发生的事儿，不是一本厚厚的说明书，而是一部长达几十个小时，甚至几百个小时的连续剧，里面是海量的视频流、深度图、还有记录你走来走去的空间位置数据。你家那个带摄像头的扫地机器人，哪怕只工作一天，产生的数据量也比一本《红楼梦》复杂得多。

RAG在语言的token空间里检索，就像在一条一维的线上找东西。而现实世界呢？是三维空间，加上时间这个第四维，还要再叠加上物体的语义信息，比如这是沙发，那是冰箱，还有物体之间的层级关系，比如冰箱在厨房里，厨房在房子东北角。

你试试问传统的语言RAG：“我的车钥匙到底丢在哪个鬼地方了？”它当场就得懵逼。因为这个问题背后，需要的信息太复杂了。

首先要知道钥匙的空间位置，是在客厅沙发上还是卧室床头柜；

其次要理解时间顺序，是刚才进门时掉的，还是昨天出门揣兜里带出去丢了；然后还得做物体检测，从画面里认出那个小小的钥匙；接着要分析轨迹变化，是谁从哪个兜里把它带出来的；

最后还要串起因果链条，因为你开门放东西这个动作，导致了钥匙滑落。

单一的语言维度索引，就像用目录去查一本没有页码的书，根本找不到。这不是说模型不够聪明，而是它工作的数据结构和现实世界的数据结构，压根就不是一个次元的东西。你硬塞给它语言维度的索引，却指望它能理解几何空间和时间逻辑，这不就是让一个只能听懂人话的瞎子，去描述一幅画长什么样吗？结构层级天生就错配了。

物理世界需要什么样的脑子

现在换个场景。你回家发现钥匙不见了，问机器人："我钥匙呢？"传统智能体要么懵逼，要么给你背一遍你上周发的待办清单。但有了空间记忆的机器人会告诉你："三天前下午三点十七分，你坐在客厅沙发左侧，从口袋里掏手机时带出来的，现在卡在靠垫和扶手之间的缝隙里，深度约4.5厘米。"这不是科幻，这是OpenClaw正在做的事。

物理世界的数据密度是语言世界的上千倍。你家客厅一天产生的视频数据，如果全部转成文字描述，能写一本《战争与和平》。这里有时间的流动——物体怎么移动，人怎么走动；有几何关系——沙发和茶几的距离，钥匙相对于地面的高度；有语义层次——这是厨房不是厕所，那是你室友不是你前女友。传统嵌入向量搞不定这个，因为它们是为一维文本设计的，而物理世界是多维的。

所以必须重新设计记忆结构。不是简单的"关键词匹配"，而是把时间、空间、物体、几何全部编码进一个多维向量空间。

智能体需要理解因果关系：因为猫跳上了桌子，所以水杯倒了；因为每周三早上垃圾车会来，所以周二晚上需要把垃圾拎出去。

这种推理能力，靠一维RAG是永远实现不了的。你需要的是空间智能体记忆，是能让机器人像人类一样建立"心智地图"的底层架构。

现实世界这个副本有多难刷，时间和空间就是两大终极BOSS

咱们得深刻理解一下，为啥物理世界对智能体来说，是个地狱难度的副本。因为在现实世界里，时间和空间是所有因果关系的地基。没有时间和空间，就谈不上“因为”，也谈不上“所以”。

你想让机器人真正在家里帮你干活，而不是像个没头苍蝇一样乱转，它必须得能回答出下面这一连串灵魂拷问：

钥匙这个磨人的小妖精，最后一次出现在哪个房间的哪个具体角落？是茶几下面，还是沙发缝里？
上周一下午三点，到底是谁鬼鬼祟祟地进了我家大门？是小王来还书，还是快递员送包裹？
家里这几口人，谁在厨房这个是非之地停留的时间最长？是天天做饭的老妈，还是偶尔煮个泡面的你？
门口的垃圾袋，通常是在什么时间段被人提溜出门的？是早上上班顺手，还是晚上遛弯的时候？

这些问题背后，没有一个是一维的。它们全是多维度的复合查询。需要同时处理人物识别，也就是从视频里认出这是张三还是李四；需要物体检测，在画面里框出垃圾袋、钥匙、水杯这些目标；需要房间语义分割，知道画面里哪些像素属于厨房，哪些属于卧室；需要轨迹重建，把人物在空间里的移动路径画出来；需要时间戳排序，搞清楚先开门后放东西还是先放东西后开门；还需要行为统计，算一算每个人在某个区域总共待了多少分钟。

传统的语言RAG拿什么去承载这种复杂度？它就像一个只有一根弦的琴，却想弹奏交响乐。根本不可能。因为它缺少对空间结构的编码，不知道物体之间的几何关系；也缺少对时间顺序的编码，不知道事件发生的先后逻辑。

所以，stash这帮人提出了一个关键的判断，可以说是整个技术的定海神针：必须把时间和物理上下文，也就是空间信息，强行编码进一个多维的向量空间里。

只有这样，智能体那颗聪明的脑袋，才能真正理解因果关系，记住不同的对象身份，搞懂物体的几何位置。从这儿开始，真正的硬核技术就登场了。

空间RAG到底在检索什么

把世界切成带身份证的乐高积木块

给OpenClaw配上了两大杀器：
一个是Spatial Agent Memory，空间智能体记忆；
另一个是SpatialRAG，空间检索增强生成。

这俩名字听着挺唬人，但核心思想其实特别直白，就是给现实世界建模，不是建那种花里胡哨的三维动画模型，而是建一个能被计算机理解和检索的世界模型。

具体怎么做呢？就是把智能体所处的环境，咔嚓咔嚓，切成无数个微小的三维小方块，这个在技术领域叫体素，也就是voxel，你可以把它想象成三维空间里的像素。每一个体素，就像一块小小的乐高积木，但它不是空心的，每一块积木里都塞满了信息，携带了自己的向量embedding，也就是数字身份证，还有一堆详细的语义元数据，也就是关于数据的数据。

咱们来拆解一下，这一块小小的体素里，都记录了些啥惊天秘密：

首先，是它的空间位置，也就是它在整个房间坐标系的哪个犄角旮旯，是靠近天花板，还是紧贴地板。
其次，它记住了自己是从哪一帧图像里被提取出来的，关联着具体的视频画面。
然后，如果这块体素刚好属于一个物体，比如一个杯子的把手，它就会记录下检测到的物体ID，也就是“我是杯子的一部分”。
接着，它还有语义标签，比如“桌面”、“椅背”、“墙面”，方便进行语义层面的搜索。
更重要的是，它带着时间戳，记录下这一块空间状态是什么时候被观测到的，是今天早上八点，还是昨天晚上十点。
还有几何信息，描述这一小块空间是平整的表面，还是尖锐的棱角。
最后，如果机器人有里程计数据，也就是记录自己行走路径的数据，也会被整合进来，知道机器人当时在什么位置看到了这块体素。

你看，整个房间，经过这么一处理，就不再是一个空洞的空间，而是一个由无数个携带信息的体素，构成的巨大空间向量数据库。你可以像查数据库一样，按对象维度去查，比如“所有属于蓝色马克杯的体素”；也可以按时间维度去查，比如“下午两点到三点之间更新的所有体素”；还可以按几何结构去查，比如“所有垂直于地面的平面体素”。

这跟普通的“视频监控存档”完全不是一个概念。视频存档只是把画面存起来，想找人还得用肉眼看，用脑子回忆。而这个空间向量数据库，构建的是一个可计算、可查询的世界模型。智能体不再去查询文字，而是直接在这个空间索引结构里进行高速运算。

你再问“钥匙丢哪儿了”，系统不再傻乎乎地去搜包含“钥匙”二字的文本。它会调取视觉识别结果，追踪钥匙这个物体在时间序列里的检测轨迹，然后结合人物在空间中的动作数据，比如谁的手在那个时间点经过那个区域，最后精准定位到钥匙最后一次稳定出现在哪个体素的坐标里。这个查询过程，跨越了object向量、room向量、time向量和geometry向量，是多维度的联合检索。

这一步的实现，意味着智能体的记忆结构，完成了从纯文本数据库，到空间向量存储的历史性升级。它不再是背书，而是真的在回忆。

SpatialRAG启动，从在书里找答案到在空间里破案
说完了记忆的存储结构，咱们再来看看检索方式，也就是SpatialRAG。这玩意儿本质上就是把RAG那一套成功的经验，从文本领域直接平移到了空间语境里，但复杂度提升了不止一个量级。

咱们回顾一下传统的RAG是个啥流程。第一步，你提出问题；第二步，系统把你的问题转成向量；第三步，拿着这个向量去数据库里做最近邻检索，也就是找跟它最像的文本片段；第四步，把找到的这些相关片段拼接起来，作为背景信息；第五步，把这些背景信息连同你的原始问题，一起扔给语言模型，让它生成最终的回答。

整个过程，就像你写论文的时候，先去图书馆按关键词搜一堆书，然后把相关段落抄下来，最后根据这些材料自己写出一篇综述。

那SpatialRAG是咋玩的呢？它的流程进化成了这样：

第一步，你提出问题，比如“上周一谁来我家了？”。
第二步，系统对这个query进行多维向量解析。它不会简单地只抽取出“谁”和“上周一”这两个关键词。它会把这问题分解成需要人物识别向量、需要时间范围向量、需要空间位置向量的复杂指令。
第三步，拿着这些多维度的查询指令，一头扎进那个由无数体素构成的空间向量库里进行高速检索。
第四步，把检索到的、符合条件的所有相关体素聚合起来。比如，把所有时间戳在上周一、且人物识别向量为“非家庭成员”的体素，全部调出来。
第五步，对这些聚合起来的体素进行时序重建。按照时间顺序，把这些代表着某个人在不同时间、不同位置的体素点串联起来，形成一条完整的行动轨迹。
第六步，输出最终的因果解释。“报告主人，上周一下午两点十五分，一个识别为‘快递员’的个体，携带包裹进入玄关区域，三分钟后离开。”

你看，整个查询的维度，已经完全超越了文字。它包括：

object，也就是对象维度，比如“猫”、“手机”、“书包”。
room，也就是房间维度，比如“卧室”、“阳台”。
semantic，也就是语义维度，比如“易碎品”、“电子产品”。
geometric，也就是几何维度，比如“水平的桌面”、“垂直的墙面”。
time，也就是时间维度，比如“五分钟内”、“上周”。
image，也就是图像维度，可以直接关联到原始的视频帧。
pointcloud，也就是点云维度，可以进行精确的三维几何匹配。

这一整套检索和重建的流程，等于给智能体安装了一个可计算的物理记忆骨架。它不再仅仅知道“厨房”这个单词的字典定义，而是真真切切地知道，在我这个家里，厨房这个空间的具体坐标范围是什么，它的边界在哪里，里面通常分布着哪些固定物体，以及家庭成员在这个区域的活动呈现出什么样的时间规律。

当你问“谁在厨房待得最久”，系统不再需要去翻聊天记录或者文字日志。它会直接统计在代表厨房空间的那一堆体素集合中，出现的所有人物向量，然后根据每个向量关联的时间戳，计算出总时长，最后告诉你结果。
当你问“垃圾什么时候被带出去的”，系统会去查找垃圾这个对象的向量，在哪个时间点之后，在厨房体素集合里消失了，然后结合门口区域的体素轨迹，比如有个人向量携带着垃圾对象向量一起移动到了门外，从而形成“垃圾被人在晚上八点十分带出门”的因果推断。

有了这套结构，智能体才算是真正拥有了执行真实世界任务的能力，而不是永远停留在跟你唠嗑的阶段。

多传感器大集结，给机器人装上眼睛耳朵和皮肤

光有内存里的空间记忆还不够，还得有实时更新的数据来源。OpenClaw这次张开双臂，热烈拥抱各种主流传感器。现在它能直接接入lidar，也就是激光雷达，这玩意儿像一个快速旋转的激光发射器，能把周围环境的精确三维轮廓，以点云的形式扫描出来，精度能达到厘米级，给机器人提供最硬核的几何结构信息。

它还能接入stereo camera，也就是双目摄像头。这玩意儿模仿的就是人的眼睛，通过两个镜头看到的微小视差，用算法计算出每个像素点的深度，也就是离我有多远。它的好处是信息量大，而且能获取颜色纹理，但精度受光线影响。

当然，最基础的RGB camera，也就是咱们平时手机拍照用的那种彩色摄像头，也是标配。它负责提供最丰富的视觉语义，一眼就能认出这是苹果，那是香蕉，这是你妈，那是你爸。

这三种数据源一结合，那就厉害了。RGB告诉你“这是什么”，stereo camera告诉你“它大概离我多远”，lidar告诉你“它精确的长宽高和形状是什么”。

再结合odometry数据，也就是里程计，这是通过机器人自身的轮子编码器或者视觉惯性导航系统算出来的，能精确知道机器人自己在空间中移动了多远、转了多少角度。这样一来，就可以把机器人感知到的一切，都精准地拼接到同一个世界坐标系里。

这一整套系统，现在已经实实在在地跑在了Unitree G1这个人形机器人身上。你们可以想象一下那个画面，一个钢铁身躯的机器人，在屋里走来走去，它的脑子里，一个由无数体素构成的、带时间戳和语义标签的虚拟世界，正在随着它的脚步，一层一层地被构建、被更新。而且这套系统也能对接无人机，让飞在天上的视角加入进来，还有四足机器人，让机器狗也能拥有同样的空间智能。

当智能体拥有了这样一个持续更新的空间记忆骨架，再加上传感器源源不断的实时输入，一个完美的闭环就形成了。传感器输入实时更新世界模型，世界模型里的信息驱动智能体做出决策，比如“厨房地面有个物体没识别出来，我走近一点看看”，而这个决策的执行结果，又会通过新的传感器输入，反馈回记忆结构，让世界模型变得更精确、更完善。

机器人开始“记得”你的生活

聊了这么多技术细节，咱们得回归到人话。最让我激动，甚至有点头皮发麻的，不是那些高大上的技术名词，而是这些技术堆叠在一起之后，能实现的那些以前想都不敢想的场景。

你们设想一下，家里的摄像头，或者机器人自带的传感器，日积月累，攒下了几百个小时的视频和空间数据。然后，你某天躺在沙发上突发奇想，随口一问：

“嘿，上周一除了我，还有谁来过咱家？”
“上周二我扔垃圾的时候，垃圾袋里有没有混进去重要的文件？”
“我那个灰色的降噪耳机，最后一次出现是在书桌上，还是被谁拿到客厅去了？”
“咱家猫每天下午三点到五点，到底喜欢躲在沙发底下，还是阳台上那个纸箱子里？”
“我老婆上周平均每天在化妆镜前待多久？”

这些问题，以前你需要去翻监控录像，用肉眼一帧一帧地找，累得眼瞎。现在，你的机器人，你的智能家居系统，可以在几秒钟之内，直接给出答案，甚至直接给你调出当时的画面片段。

这不再是简单的检索文本，这是在检索你真实的生活。当时间和空间这两条坐标轴，被完美地编码进了计算机可以理解的多维向量空间，那么发生在这个坐标轴内的任何事件，就都变成了可查询、可计算、可推理的数据点。因果关系不再是一句模糊的“大概也许”，而是基于时间和空间轨迹的精确重建。

机器人可以基于你过去几个月的行为模式，开始预测你未来的行动。比如，它知道你每天早上七点半会去厨房做咖啡，于是提前把咖啡机预热；它发现你每周三晚上有扔厨余垃圾的习惯，于是会在周三晚上提醒你“垃圾该扔了，需要我帮你把垃圾袋提到门口吗？”。

当空间和时间真正进入向量的世界，因果链条就变得可计算、可追溯、可预测。空间记忆，不再是冷冰冰的数据存档，而是智能体在物理世界采取一切行动的前提和基础。这一刻，智能体的能力边界，不再是缓慢的线性提升，而是发生了结构性的跃迁和爆炸。它从一个被动的应答者，变成了一个主动的、懂你生活的观察者和协作者。

技术推理的终极落点，记忆的结构决定了智能的天花板

聊到最后，咱们得做一个深度的技术推理，把这一切落在一个根本性的结论上。这个结论就是：一个智能体的能力上限，不取决于它有多少亿参数，也不取决于它的推理能力有多强，而是从根本上，取决于它的记忆结构。

语言智能体，它的记忆结构是一维的，是线性的。不管是多长的上下文窗口，本质上还是在一条时间线上处理文本流。它的世界，就是由token组成的文字世界。所以它的能力上限，就卡在文本这个圈子里，永远无法真正触达物理世界。

而空间智能体，它的记忆结构是多维的，是立体的。它的世界模型，是由无数携带空间位置、时间戳、语义标签的体素构成的。这个结构本身，就蕴涵了几何关系、时序关系和因果关系。

引入OpenClaw的Spatial Agent Memory和SpatialRAG，所做的核心工作，就是把智能体的记忆，从静态的、扁平的文本片段，彻底升级到了动态的、立体的空间时间表示。

每一个体素都带着自己的embedding，就像每一块乐高积木都刻着自己的身份码。
每一段时间序列都被打上了语义标记，知道这段时间发生了什么事件。
整个你生活的房间，都被转换成了一个高速可检索的多维数据库。

记忆结构一旦升级，那么基于记忆的决策能力，自然就跟着升级了。
对因果的理解，依赖于对连续时间序列的分析。
对空间的理解，依赖于对几何模型的精确重建。
对对象的理解，依赖于准确的语义检测和追踪。

当这三者在一个统一的记忆框架里合而为一，智能体才算真正拥有了在物理世界展开行动的基础。它不再是一个只会动嘴皮子的聊天机器人，而是一个能理解、能记忆、能推理，最终能行动的物理实体。

从屏幕里的陪聊，到家里的管家

传统的语言RAG，在纯文本的空间里，确实是神器，高效且精准。
但是，一旦智能体的工作场景切换到物理世界，文本RAG就彻底抓瞎，因为现实世界的信息是多维的。
物理世界需要的是一个能够编码空间位置和时间顺序的多维向量空间。
OpenClaw配上Spatial Agent Memory，就是为了构建这样一个真实世界的可计算模型。

而SpatialRAG，则是为了在这个多维的世界模型里，实现高效的、符合人类直觉的空间检索。
有了模型和检索方法，还得有实时数据，多传感器的输入，比如lidar、双目摄像头、RGB摄像头，让这个记忆模型可以持续不断地被更新和校正。
当这一切整合在一起，机器人就开始真正理解了时间和空间这两个最基本也最核心的维度。

OpenClaw机器人正在做的，是一件极具野心的、从语言智能体到空间智能体的史诗级跃迁。