AI上下文层本体论竞赛：企业知识图谱含义定义权之争

#AI提示上下文工程 #DDD泛在语言UL #架构师资料教程 #产品需求与商业分析BA方法

2026-07-01 6K banq

你的AI为何总在装懂？真相是它根本没搞懂“意思”二字

AI公司都在抢建“上下文层”和“本体论”，但最大的讽刺是没人说清它们到底指啥。搞懂AI到底在折腾什么，得先分清楚它缺的是知识、经验还是规矩。真正的挑战不是建图，而是决定谁有权力定义数据的真实含义。

现在只要跟AI沾边的公司，张嘴闭嘴就是“上下文层”（context layer）和“本体论”（ontology）。好像谁不提这俩词，谁就不好意思跟人打招呼。
亚马逊云（AWS）在提，数据砖（Databricks）在提，谷歌微软雪花（Snowflake）全在提，连做项目管理软件的Atlassian都跟着凑热闹。

一场关于“上下文”的军备竞赛，眼看就要变成新一波万亿美金的大买卖。

但这里头有个特别拧巴的事儿。这帮人喊的“上下文层”和“本体论”，各家公司心里想的东西压根儿不一样。这本身就是一个巨大的讽刺，因为你搞这些东西，本来就是为了解决“含义”这个问题的。结果连“上下文层”本身是啥意思都没统一，这不就跟一群人在黑灯瞎火里互相喊话，谁都以为自己喊的是同一个方向一样吗？

咱们得把这事儿掰扯明白。AI现在缺的“上下文”，说白了就是它在干活儿的时候脑子不够用的那部分信息。但“脑子不够用”分三种情况，分别是缺知识、缺经验和缺规矩。搞清楚这三种缺法，你才能看懂这帮人在瞎忙活什么。

上下文到底分几层

第一层叫“内部上下文”。这就像是AI这个临时工自己带的小本本，记着今天要干啥、之前聊到哪儿了、自己身上装了什么工具。它属于AI自己的短期记忆和操作说明书，用完就扔的那种。

第二层叫“机构知识”。这就是你们公司内部散落的各种文档、聊天记录、工单系统。什么飞书群聊、Jira任务、Confluence页面，全算。这层东西多到爆炸，但基本是一团乱麻，谁也不知道哪个角落里藏着关键信息。

第三层叫“记录系统”。这是最硬核的业务数据，分两种：人写的业务记录，比如销售订单、客户合同；机器生成的遥测数据，比如服务器日志、传感器读数。这些是公司真正的家底，也是AI最想碰又最难碰的东西。

有意思的是，这三个桶表面看着都是“上下文”，但解决它们需要的招数完全不同。内部上下文靠的是把对话历史塞进提示词（prompt）。机构知识靠的是搜索和索引，也就是现在特火的检索增强生成（RAG）。记录系统靠的是打通数据库和API接口。这三件事儿的底层逻辑和技术栈差着十万八千里，结果现在全被塞进“上下文层”这一个筐里，不打架才怪。

更麻烦的是，AI干活儿的时候这三层都得用上。就好比你要让一个新人去谈客户，他得知道公司产品是啥（知识），得知道怎么跟客户套近乎（经验），还得知道报价不能低于某个数（规矩）。这三样东西来源不同、格式不同、更新频率也不同。把一个乱七八糟的文件夹扔给他，告诉他“这就是上下文”，他能不出错吗？

上下文图不是新发明，是老问题换了个马甲

风险投资公司Foundation Capital去年放了个大炮，说上下文图是AI下一波万亿美金的机会。这话一出，整个行业跟打了鸡血一样。但你仔细一看，他们说的“上下文图”，说白了就是把公司里乱七八糟的信息串成一张网，让你能顺着关系找到答案。

这事儿新鲜吗？一点都不新鲜。Forrester研究公司的分析师Charles Betz直接开怼，说上下文图根本不是新发明，而是大杂烩。他扒了扒家底，说这事儿40年前就有了，当时叫企业架构（Enterprise Architecture）。就是画公司里各个系统之间怎么连、数据怎么流的图。后来搞配置管理数据库（CMDB），搞应用性能监控（APM），搞流程挖掘（process mining），全是在干类似的事儿，只不过各自画各自的局部图，从来没有拼到一起过。

也就是说，各位科技大佬现在争着抢着要建的“上下文图”，其实是很多老行当早就偷偷摸摸在干的事儿。只不过以前这些图都躺在那没人看，现在AI来了，突然变成香饽饽了。

这就好比你家阁楼上堆了几十年的旧照片，本来都发霉了。突然有一天AI公司跑来说，这些照片里的关系网价值万亿。你心想：这不就是我一辈子攒下来的亲戚关系吗？

所以所谓的上下文层竞赛，其实是一场知识管理问题的集中爆发。这个事儿搞了几十年都没搞好，现在因为AI能主动去翻这些旧账了，大家才急眼了。

本体论到底是个什么鬼东西

除了上下文层，“本体论”也是现在被喊得最响的词之一。数据砖的老大Ali Ghodsi在年度大会上拍胸脯说，他们的本体论是“秘密武器”，是一个活的公司知识全息图。

这话听着特别唬人。但你要真问“本体论”到底是啥，不同的人能给你完全不同的答案。这事儿本身就特别好玩——大家抢着说自己有本体论，但没几个人说的是一回事儿。

在搞了十几年知识图谱的老法师眼里，本体论是个特别严格的东西。它得用形式逻辑（formal logic）写明白，什么类（class）属于什么属性（property），什么个体（individual）跟什么个体有关系，还得能推理出隐含的信息来。比如你定义了“所有猫都是动物”，又定义了“Tom是猫”，系统就能自动推出“Tom是动物”。这才叫本体论。

但现在科技公司卖的本体论，基本就是一个带标签的图。把数据库里的表连起来，加几个关系名字，比如“客户买了产品”、“产品属于品类”，然后就管这叫本体论了。这充其量就是个加了约束的表格，跟真正的本体论差了十万八千里。

一个搞语义技术的专家Nicolas Figay直接在领英上开炮，说“现在人人都有本体论了”，但绝大多数都是营销噱头。真正的本体论是给机器做推理用的，你得让AI能沿着逻辑链条自己推出新结论。而现在市面上那些“本体论”，基本就是一个漂亮的关系图，AI根本没法在上面做深层的逻辑运算。

这就好比你管一张地铁线路图叫“城市规划全案”。图是能看明白怎么换乘，但它不可能告诉你为什么要在那个地方建站，更不可能规划下一站修在哪儿。

你家的本体论你到底能不能带走

这里头还有一个更要命的问题：你在这家公司建的本体论，到底归谁？能不能搬到别家去用？

搞本体论的老法师Frédéric Verhelst提了三个扎心的问题：
第一，你能把含义搬到另一个平台上去吗，还是只能锁在他们家？
第二，系统能在AI动手之前就证明一个操作是被允许的，还是只能等它干完了再记个账？
第三，是你自己编的本体论，还是平台通过学习自己攒出来的？

按照这三个问题一卡，数据砖的Genie本体论就露出了原形。它确实用了本体论这个词，但它的本体论是学出来的，不是人写出来的。而且它确实能在数据砖的平台里用，但你要是想把这套含义搬到雪花上去，根本搬不动。它开放的是表格格式，不是含义格式。

这就意味着，你在一家云平台上费了老鼻子劲儿建好的业务含义地图，换到另一家全得重来。这事儿在AI时代尤其要命，因为未来的AI系统肯定不止跑在一朵云上。你总不能每个系统都重新教一遍“什么是客户”吧？

图数据库不够用，还得有人说了算

现在搞上下文层的这帮人，基本都在用图数据库（graph database）当底座。因为图数据库擅长存关系，比传统表格强得多。但问题在于，光有图还不够。

图数据库解决的是“数据怎么连”的问题，它不管“数据是什么意思”。就好比你拿到了一张家谱图，知道谁是谁的爹、谁是谁的娃。但你要问“这个家族里谁是说了算的？”图数据库答不上来。那个说了算的含义，需要有人在图外面定义。

这就是为什么行业里现在开始喊“图数据是入场券，含义才是真正的护城河”。你建个图数据库不稀奇，谁都能买。但你能不能定义清楚客户、订单、产品、员工这些概念在你们公司到底指什么，能不能让AI按这个定义去干活儿，这才是真本事。

而且这个定义权必须掌握在业务手里，不能交给技术团队，更不能完全交给AI自己学。AI学出来的“含义”是统计出来的规律，不是业务规则。它可能学出来“大部分客户买了A产品也会买B产品”，但这不代表“客户必须买了A才能买B”。这两件事差了老鼻子了，前者是建议，后者是规定。AI要是分不清这个，就敢给你瞎推荐，甚至瞎做决定。

记忆不是检索，是写进去再读出来

很多人把AI的记忆跟检索搞混了。以为给AI接个搜索引擎，它就能记住东西。这是个大误会。

检索是从一堆固定文档里往外扒拉信息。你问它一个问题，它去文档里找相关的段落，拼一个答案给你。下次你再问，它又去扒拉一遍。它从来不会把上次扒拉到的信息记下来，下次直接用。

但AI要真的干活儿，它得能写东西进去。你跟它说“我叫张三”，它得把这个事实存下来。下次你再问“我叫啥”，它得能从存的地方读出来，而不是重新去翻聊天记录。这叫双向记忆（bidirectional memory），是智能体（agent）跟搜索引擎的本质区别。

搞AI记忆的人把这事儿分成四种：短期（当前对话窗口里）、长期（永久存下来）、语义（事实类，比如“张三的生日是今天”）、情景（发生过的事件，比如“张三昨天问了生日提醒”）。这四种记忆混在一起，需要不同的存法，也需要不同的读法。

最要命的是，AI记下来的东西跟人记东西不一样。人是会忘、会改、会添油加醋的。AI的记忆必须是精确的、带版本的、前后一致的。不能今天记了“张三生日是7月1号”，明天又记一条“张三生日是7月2号”，然后两条都存着不管了。它得知道哪条是对的，哪条是后来修正的，谁改的，为什么改。

这帮搞AI记忆的人发现，折腾了一圈各种向量数据库（vector database）、键值存储之后，最后能管住这摊事儿的还是图。因为只有图能把事实和事实之间的关系讲清楚，还能把谁说的、什么时候说的、基于什么前提说的这些元数据也一起存下来。

不是你记性差，是你家图不够硬

现在搞AI上下文层的各家厂商，正在从两个方向往中间挤。一边是图数据库厂商往上走，从存数据变成管记忆。一边是云计算平台往下扎，从管表格变成管含义。

图数据库厂商像Neo4j、Memgraph，以前就是卖数据库的，让你存节点和关系。现在它们纷纷推出“图引擎”，说数据可以不用搬家，直接在原来的地方查。Memgraph搞了个MemGQL，能把SQL、MongoDB、甚至CSV文件都当成图来查。Neo4j搞了个虚拟图，能直接查雪花和数据砖里的表，不用先导进来。

云计算平台像谷歌、微软、数据砖，以前是卖数据仓库和数据湖的，让你存表格。现在它们纷纷加上了“本体论”和“知识图谱”功能，说能在表格上面建一层含义层。谷歌在BigQuery里加了图查询，还搞了个知识目录，号称能给你公司建一个统一的动态上下文图。

这两拨人嘴上说的都是“上下文层”，脚下走的路却完全相反。一个是从数据往上建含义，一个是从含义往下连数据。碰头的地方，就是那个让AI真正理解业务的点。

但不管怎么挤，最后都绕不开那个终极问题：谁来决定你的数据到底是什么意思。你可以画一张漂亮的图，把客户、订单、产品都连起来。但“活跃客户”到底指啥？是三个月内下过单的，还是一年内登录过的，还是合同还在有效期内的？这个定义必须业务说了算，而且这个定义会变。今年是三个月，明年可能改成六个月。你的图得跟着变，而且变了之后，所有依赖这个定义的AI都得同步知道。

这个同步的过程，才是最考验功力的地方。你可以在一个系统里把这事儿办好，但一个公司有几十上百个系统，它们之间怎么同步定义？一个系统改了“活跃客户”的定义，其他系统怎么知道？AI怎么知道自己用的是旧定义还是新定义？

这事儿到现在也没人能彻底搞定。所以你看到各家公司都在抢着定义自己的“上下文层”，其实就是在抢一个话语权——谁定义了含义，谁就在未来的AI生态里坐庄。这根本不是什么技术问题，这是权力问题。

总结：

这场轰轰烈烈的上下文层大跃进，说白了就是全世界突然意识到AI没脑子是个大问题，然后全冲回去补课。但补课的方式五花八门，从挖祖坟（企业架构）到换马甲（图数据库变图引擎）再到造新词（本体论变营销术语），能用的招全用上了。最后的赢家不是建图最快的那个，而是能把“客户到底啥意思”这种蠢问题真正说清楚的。

作者单位背景：George Anadiotis，Linked Data Orchestration创始人，Year of the Graph通讯作者，专注图技术、数据、AI与媒体交叉领域