什么是“上下文图谱”?
所有人追问“上下文图是什么”这一刻,问题本身已经跑偏。上下文图更像一张当前截图,真正值钱的是背后那套会不断旋转、不断积累、不断自我强化的上下文飞轮。数据被吸进来,结构被整理,冲突被解决,信息被筛选送给智能体,智能体行动后留下决策轨迹,轨迹再回流为新数据。每转一圈,智能体对现实的理解更清晰一层,这套循环才是万亿级机会的核心。
当一个人读了15篇文章、扫了12个推文串、还看了4期播客,却依然答不出“上下文图谱(Context Graph)到底是什么”,这说明问题本身可能不是知识不够,而是定义太乱。
其实,所有讨论都围绕同一个“大象”——只是有人摸到了鼻子,有人碰到了尾巴,有人踩到了脚。把它们拼起来,才能看清全貌。
核心真相是:上下文图谱不是一个静态的数据结构,而是一个动态循环系统,一个能让AI代理越用越聪明的“上下文飞轮”。这个飞轮从现实世界中摄取信息,经过处理、存储、推理、服务,再由AI做出行动,然后把行动背后的逻辑重新喂回系统,形成自我增强的闭环。
没有这个闭环循环,所谓的“智能体”就只是披着AI外衣的数据库查询器。
其实为何需要循环,就是将大模型的不确定性转为确定性代码,这样减少Bug,否则大模型的幻觉体现在生产环节的Bug上。
系统记录与数据仓库
传统企业依赖“系统记录(System of Record)”作为唯一真相源。客户关系管理系统(CRM)存客户数据,企业资源计划系统(ERP)管财务,人力资源信息系统(HRIS)记员工档案。
这些系统是“写入层”——人类在其中录入和修改数据。
随着数据量爆炸,企业又建了“数据仓库”和“湖仓一体(Lakehouse)”作为“读取层”:
“数据仓库”像整齐分类的文件柜,结构清晰;“湖仓一体”则融合了原始数据湖(无结构)和结构化仓库,让企业能统一查看所有数据。
但这些系统都是为人类设计的,操作界面、权限模型、数据格式都假定使用者是人。
当AI智能体要从中读取信息时,会发现接口不友好、上下文缺失、历史状态不可追溯。比如Salesforce只记录当前客户状态,无法还原“三个月前做决策时客户处于什么状态”。这就导致代理哪怕逻辑再强,一旦输入错误,输出必然崩坏。
系统记录从来没消失只是换了形态:企业里一直存在“系统记录”这种东西,含义简单直白:某一类数据的最终真相就躺在这里。客户数据躺在CRM,财务数据躺在ERP,员工数据躺在人力系统,情绪垃圾可能躺在社交平台。
随着数据规模膨胀,这些系统逐渐从“人每天泡着用的地方”演化成“稳定写入的权威源头”。与此同时,数据仓库与湖仓出现,承担起统一读取、分析、汇总的角色。一个负责写,一个负责读,配合得相当默契。
这一套逻辑对人类非常友好,却对智能体不够贴心,因为所有设计前提都围绕“人如何理解”。
决策痕迹:被遗忘的“为什么”
现有系统只记录“是什么”,不记录“为什么”。
比如某个API超时从5秒改成30秒,系统里只有新值,没人知道改因是性能优化还是临时妥协。这种“决策痕迹(Decision Trace)”从未被当作数据保存。
而现实中,DevOps、RevOps、SecOps等岗位之所以存在,正是因为不同系统之间缺乏上下文连接,需要“人肉胶水”来传递隐性知识。
这些人的大脑里装着组织运作的真实逻辑——“上次改配置是因为客户投诉”“这个字段其实没人用但不能删”。
智能体接入之后,问题立刻显形。只要一次读取的数据发生偏差,后续所有动作都会连锁跑偏,于是“真相源头”从产品分类升级为“智能体质量的兜底”。
如果能把这些“人脑上下文”转化为可查询的数据,AI代理就能真正理解业务脉络,而不是机械执行规则。
这就是上下文图谱的第一个核心:把决策过程变成可追踪、可检索、可复用的数据流。
系统记录继续承担写入与状态机角色,仓库与湖仓成为读取层,中间通过API暴露给智能体。系统不再期待人长期停留,而是等待智能体来调用、驱动、推进流程。人类逐步从操作界面退到编排与监督层。
事件时钟 vs 状态时钟:时间维度的缺失
绝大多数系统擅长回答“现在怎样”,却无法解释“为何变成这样”。状态时间线极其完善,事件时间线却几乎空白。
每个系统都有两个“时钟”:状态时钟(State Clock)记录“此刻是什么”,事件时钟(Event Clock)记录“事情如何一步步变成这样”。
人类过去充当了事件时钟的角色——靠记忆和文档补全逻辑链。但数字系统几乎只建了状态时钟,事件时钟近乎空白。没有事件时钟,就无法回答“为什么现在是这样”。
上下文图谱必须补上这一环,让每个事实都带有效期和变更原因。比如“Sarah Chen在2023年Q2属于销售部,2023年Q3调至市场部”,而不是只存“Sarah Chen属于市场部”。这种带时间戳的事实集合,才是代理做准确判断的基础。
每家公司拥有自己的语义与实体;系统持续变化无法静止建模。要在这样的环境中构建事件时间线,本身就像在流沙上画地图。
智能体行走痕迹反向生成世界模型
一种思路开始浮现:让智能体在真实业务中行动,把行动路径本身当作事件时间线。其操作路径会自然形成一张“世界模型(World Model)”。
智能体在组织内部“行走”,每一次调用、判断、选择都会留下痕迹,比如表模型编码了实体关系(谁和谁有关)、动态规则(改A会影响B)、预测能力(如果做X,Y很可能发生)。
当痕迹足够多,上下文逐渐凝结成一种世界模型:知道环境里有什么,彼此如何关联,采取某种动作会引发怎样的连锁反应。这样一来,模拟与预测成为可能。
这种世界模型它不是预先画好的地图,而是代理边走边画的草图。每一次成功或失败的决策,都会修正这张图。依靠不断迭代技能SKills或持续学习CL的记忆
久而久之,图谱就从“数据集合”进化成“组织运作的模拟器”。有了它,甚至能预演政策变更的影响:“如果把审批阈值从1万降到5千,预计采购流程会增加多少工单?”
但这里有个陷阱:代理智能体不是全知观察者,它的“行走”受限于上下文窗口。一旦早期理解有误,后续整个模型都会偏航。所以世界模型必须建立在可靠基础上,而非纯靠代理“猜”。
经典图算法依赖已知完整图graph结构,而组织现实恰恰相反,图是在行动中逐步浮现。没有基础就完全依赖学习,成本高、速度慢、风险集中。
实体本体:别重复造轮子
另一条路径提供了稳定地基:大量实体本体早已在行业中成熟使用。比如网页世界通过schema定义人、组织、地点;微软通用数据模型整合了多年企业建模经验;这些内容早已在大规模生产环境运行。
但是关键价值并非重新定义“什么是人”,而是处理时间有效性、事实冲突、决策轨迹。学习应该用在发现组织运作的独特模式,而非重复基础建模。
争论常陷入“预设本体(Prescribed Ontology)”vs“学习本体(Learned Ontology)”的二元对立。
前者指提前定义好所有实体类型和关系(如“客户-订单-产品”),后者指望代理从零开始摸索。
但现实是,大量基础本体早已存在。比如Schema.org定义了Person、Organization、Place等通用实体,被数十亿网页采用;微软的Common Data Model授权自WAND公司,后者深耕企业分类法数十年。完全从头构建,等于无视二十年积累。
正确做法是:采用现有标准作地基,再用学习机制补充组织特有逻辑。比如先承认“Sarah是Person,在ACME公司工作”是已知事实,再让代理发现“在这个团队里,Sarah实际负责客户成功而非销售”。这样既省算力,又避免常识性错误。
实体建模可以继承标准;时间维度需要精细刻画;决策轨迹需要持续捕获;事实解析需要模型判断权威与过期;组织层面的规律才是真正值得学习的部分。
在坚实地基之上,学习才能成为增益而非负担。
上下文图谱的本质:方法论,非规格
有人坚持上下文图谱必须用RDF三元组或属性图存储,但实践证明,格式没那么重要。
TrustGraph用户用Apache Cassandra存了十亿节点,代理照样跑得欢。关键不是底层用什么数据库,而是数据是否“对LLM友好”。LLM能轻松解析JSON、Cypher、RDF甚至表格,所以选择应基于工程便利性,而非教条。
上下文图谱更像一种方法论:如何组织数据,使其能高效支持AI检索与推理。就像建网站,重点不是HTML语法多标准,而是能否快速响应用户请求。语义网当年失败,部分因为RDF/SPARQL学习曲线太陡;如今LLM天然具备多格式理解力,反而绕开了历史包袱。
名词与动词的错位争论
如果你想展示一段数据,反而可能永远无法完整呈现上下文图,因为上下文图并非单一文件,而是一整套系统协同结果。如同展示网页只给出HTML文件,缺失服务器、数据库与接口的配合。
真正困难之处在于协调:从分散系统中选取此刻最相关的一小片现实,并保证来源、时效、权限与成本可控。
其实,也没有那么玄乎,做过用户会话的人比如HttpSession 或有状态服务时,包括一段事务会话操作,过去,我们只是用会话Session作为一个Context或Scope管理,只注重这段会话的结果,比如写入了数据库什么结果,谁写入的。上下文图就是要将这段Session中所有动作决策作为领域事件保存下来。不同的是这段Session不是真实人类用户和系统之间的对话,而是智能体与系统之间的对话,智能体在背后大模型和系统之间对话过程中,作为第三方代理人,自然需要记录自己的一切代理行为,就像执法者是人民的代理,需要执法记录一样。在编程智能体中,这套记录是用Git完成,这里上下文图需要事件溯源之类日志数据仓库。
协调层:最难的是“不看什么”
真正的挑战不在存储,而在“协调(Coordination)”。
组织数据散落在CRM、工单系统、Slack、日历、计费平台等数十个SaaS工具中,每个都有独立认证、速率限制和数据怪癖。上下文图谱必须决定:此刻该拉哪些数据?不该拉哪些?因为LLM上下文窗口有限,塞太多无关信息反而降低性能。
上下文窗口有限,信息越多并不等于效果越好。实时API、缓存快照、派生摘要三层结构共同参与;延迟、费用、限流、溯源同时约束。当智能体出现异常,首要问题变成“当时看到什么”,而非“模型为何出错”。
理想方案是分层策略:第一层实时API调用(如当前客户状态),第二层缓存快照(如昨日销售报表),第三层衍生上下文(如周报摘要或嵌入向量)。
同时每条数据需附带“血缘信息”:来源、获取时间、是否经转换。出错时,首要排查“代理看到了什么”,而非“模型为何犯错”。
所以,图谱的骨架容易搭,难的是那套动态筛选与组合逻辑——这才是产品护城河。
上下文飞轮:闭环才是价值所在
把前述要素串起来,就形成“上下文飞轮”:
摄取(Ingest):从邮件、Slack、文档等非结构源提取信息。
存储(Store):用已有本体(如Schema.org)存实体与关系。
解析(Resolve):合并身份(Sarah Chen = @sarah = S. Chen),解决事实冲突。
时效(Temporal):标注事实有效期,支持历史状态查询。
检索(Retrieve):混合语义搜索与图遍历找相关片段。
服务(Serve):按权限、令牌预算打包上下文送入LLM。
协调(Coordinate):动态决定拉哪些数据,跳过哪些。
捕获(Capture):将代理决策逻辑反哺回存储,形成新痕迹。
这个飞轮每转一圈,代理的“上下文清晰度”就提升一分。但任一环节断裂,都会导致垃圾进、垃圾出。比如没捕获决策痕迹,飞轮就断了;没时效层,代理会用过期数据;没协调层,上下文窗口会被噪音淹没。飞轮不必由单一公司打造——Graphlit专注存储+时效,TrustGraph主打灵活方法论,另有团队专攻决策痕迹捕获或协调逻辑。生态协作比大包大揽更可行。
把所有视角拼合,会发现它们恰好落在同一循环的不同位置。信息被吸收整理,冲突被解决,时间被标注,相关内容被挑选,智能体行动留下轨迹,轨迹回流为新上下文。每一圈转动都会提升清晰度,同时放大错误风险。这种可复利结构才是核心资产。
单一公司覆盖所有层面并非必然选择。有人专注基础存储与时间层,有人提供灵活方法论,有人深耕决策捕获,有人解决协调与筛选,有人研究世界模型积累。飞轮无需集中在一处,只需接口连通。
未来,每个部门可能拥有自己的代理与专属飞轮:销售飞轮聚焦客户互动痕迹,研发飞轮追踪代码变更逻辑。而数据仓库本身也会配备“元代理”,负责协调各飞轮间的数据交换。
这时,整个企业就变成“飞轮的飞轮”——一个多层次、自适应的智能网络。对外,若需跨组织协作(如供应链协同),可能重启语义网理念,用RDF和共享本体实现互操作。但对内,定制化飞轮才是竞争力所在。标准化或许适用于公共互联网,但企业私有场景需要的是“刚好够用”的灵活架构。当LLM能自主维护这个飞轮时,人类或许真能退场——不过在那之前,还得先教会它们别把超时参数改错。
极客辣评
本文首次将分散的“上下文图谱”论述整合为统一飞轮模型,明确区分实体本体(已解决)与组织智能(待探索)的边界,并指出协调层与决策痕迹捕获为当前技术瓶颈。内容深度结合工程实践(如Cassandra存储十亿节点案例)与理论框架(世界模型、事件时钟),远超同类泛泛而谈的行业分析。
虽有多篇讨论(如Jaya、Kirk、Gil的原文),但缺乏系统性整合。
知识点涉及:“context graph”“decision trace”“agent world model”等。