AI公司都在抢建“上下文层”和“本体论”,但最大的讽刺是没人说清它们到底指啥。搞懂AI到底在折腾什么,得先分清楚它缺的是知识、经验还是规矩。真正的挑战不是建图,而是决定谁有权力定义数据的真实含义。
现在只要跟AI沾边的公司,张嘴闭嘴就是“上下文层”(context layer)和“本体论”(ontology)。好像谁不提这俩词,谁就不好意思跟人打招呼。
亚马逊云(AWS)在提,数据砖(Databricks)在提,谷歌微软雪花(Snowflake)全在提,连做项目管理软件的Atlassian都跟着凑热闹。
一场关于“上下文”的军备竞赛,眼看就要变成新一波万亿美金的大买卖。
但这里头有个特别拧巴的事儿。这帮人喊的“上下文层”和“本体论”,各家公司心里想的东西压根儿不一样。这本身就是一个巨大的讽刺,因为你搞这些东西,本来就是为了解决“含义”这个问题的。结果连“上下文层”本身是啥意思都没统一,这不就跟一群人在黑灯瞎火里互相喊话,谁都以为自己喊的是同一个方向一样吗?
咱们得把这事儿掰扯明白。AI现在缺的“上下文”,说白了就是它在干活儿的时候脑子不够用的那部分信息。但“脑子不够用”分三种情况,分别是缺知识、缺经验和缺规矩。搞清楚这三种缺法,你才能看懂这帮人在瞎忙活什么。
上下文到底分几层
第一层叫“内部上下文”。这就像是AI这个临时工自己带的小本本,记着今天要干啥、之前聊到哪儿了、自己身上装了什么工具。它属于AI自己的短期记忆和操作说明书,用完就扔的那种。
第二层叫“机构知识”。这就是你们公司内部散落的各种文档、聊天记录、工单系统。什么飞书群聊、Jira任务、Confluence页面,全算。这层东西多到爆炸,但基本是一团乱麻,谁也不知道哪个角落里藏着关键信息。
第三层叫“记录系统”。这是最硬核的业务数据,分两种:人写的业务记录,比如销售订单、客户合同;机器生成的遥测数据,比如服务器日志、传感器读数。这些是公司真正的家底,也是AI最想碰又最难碰的东西。
有意思的是,这三个桶表面看着都是“上下文”,但解决它们需要的招数完全不同。内部上下文靠的是把对话历史塞进提示词(prompt)。机构知识靠的是搜索和索引,也就是现在特火的检索增强生成(RAG)。记录系统靠的是打通数据库和API接口。这三件事儿的底层逻辑和技术栈差着十万八千里,结果现在全被塞进“上下文层”这一个筐里,不打架才怪。
更麻烦的是,AI干活儿的时候这三层都得用上。就好比你要让一个新人去谈客户,他得知道公司产品是啥(知识),得知道怎么跟客户套近乎(经验),还得知道报价不能低于某个数(规矩)。这三样东西来源不同、格式不同、更新频率也不同。把一个乱七八糟的文件夹扔给他,告诉他“这就是上下文”,他能不出错吗?
上下文图不是新发明,是老问题换了个马甲
风险投资公司Foundation Capital去年放了个大炮,说上下文图是AI下一波万亿美金的机会。这话一出,整个行业跟打了鸡血一样。但你仔细一看,他们说的“上下文图”,说白了就是把公司里乱七八糟的信息串成一张网,让你能顺着关系找到答案。
这事儿新鲜吗?一点都不新鲜。Forrester研究公司的分析师Charles Betz直接开怼,说上下文图根本不是新发明,而是大杂烩。他扒了扒家底,说这事儿40年前就有了,当时叫企业架构(Enterprise Architecture)。就是画公司里各个系统之间怎么连、数据怎么流的图。后来搞配置管理数据库(CMDB),搞应用性能监控(APM),搞流程挖掘(process mining),全是在干类似的事儿,只不过各自画各自的局部图,从来没有拼到一起过。
也就是说,各位科技大佬现在争着抢着要建的“上下文图”,其实是很多老行当早就偷偷摸摸在干的事儿。只不过以前这些图都躺在那没人看,现在AI来了,突然变成香饽饽了。
这就好比你家阁楼上堆了几十年的旧照片,本来都发霉了。突然有一天AI公司跑来说,这些照片里的关系网价值万亿。你心想:这不就是我一辈子攒下来的亲戚关系吗?
所以所谓的上下文层竞赛,其实是一场知识管理问题的集中爆发。这个事儿搞了几十年都没搞好,现在因为AI能主动去翻这些旧账了,大家才急眼了。
本体论到底是个什么鬼东西
除了上下文层,“本体论”也是现在被喊得最响的词之一。数据砖的老大Ali Ghodsi在年度大会上拍胸脯说,他们的本体论是“秘密武器”,是一个活的公司知识全息图。
这话听着特别唬人。但你要真问“本体论”到底是啥,不同的人能给你完全不同的答案。这事儿本身就特别好玩——大家抢着说自己有本体论,但没几个人说的是一回事儿。
在搞了十几年知识图谱的老法师眼里,本体论是个特别严格的东西。它得用形式逻辑(formal logic)写明白,什么类(class)属于什么属性(property),什么个体(individual)跟什么个体有关系,还得能推理出隐含的信息来。比如你定义了“所有猫都是动物”,又定义了“Tom是猫”,系统就能自动推出“Tom是动物”。这才叫本体论。
但现在科技公司卖的本体论,基本就是一个带标签的图。把数据库里的表连起来,加几个关系名字,比如“客户买了产品”、“产品属于品类”,然后就管这叫本体论了。这充其量就是个加了约束的表格,跟真正的本体论差了十万八千里。
一个搞语义技术的专家Nicolas Figay直接在领英上开炮,说“现在人人都有本体论了”,但绝大多数都是营销噱头。真正的本体论是给机器做推理用的,你得让AI能沿着逻辑链条自己推出新结论。而现在市面上那些“本体论”,基本就是一个漂亮的关系图,AI根本没法在上面做深层的逻辑运算。
这就好比你管一张地铁线路图叫“城市规划全案”。图是能看明白怎么换乘,但它不可能告诉你为什么要在那个地方建站,更不可能规划下一站修在哪儿。
你家的本体论你到底能不能带走
这里头还有一个更要命的问题:你在这家公司建的本体论,到底归谁?能不能搬到别家去用?
搞本体论的老法师Frédéric Verhelst提了三个扎心的问题:
第一,你能把含义搬到另一个平台上去吗,还是只能锁在他们家?
第二,系统能在AI动手之前就证明一个操作是被允许的,还是只能等它干完了再记个账?
第三,是你自己编的本体论,还是平台通过学习自己攒出来的?
按照这三个问题一卡,数据砖的Genie本体论就露出了原形。它确实用了本体论这个词,但它的本体论是学出来的,不是人写出来的。而且它确实能在数据砖的平台里用,但你要是想把这套含义搬到雪花上去,根本搬不动。它开放的是表格格式,不是含义格式。
这就意味着,你在一家云平台上费了老鼻子劲儿建好的业务含义地图,换到另一家全得重来。这事儿在AI时代尤其要命,因为未来的AI系统肯定不止跑在一朵云上。你总不能每个系统都重新教一遍“什么是客户”吧?
图数据库不够用,还得有人说了算
现在搞上下文层的这帮人,基本都在用图数据库(graph database)当底座。因为图数据库擅长存关系,比传统表格强得多。但问题在于,光有图还不够。
图数据库解决的是“数据怎么连”的问题,它不管“数据是什么意思”。就好比你拿到了一张家谱图,知道谁是谁的爹、谁是谁的娃。但你要问“这个家族里谁是说了算的?”图数据库答不上来。那个说了算的含义,需要有人在图外面定义。
这就是为什么行业里现在开始喊“图数据是入场券,含义才是真正的护城河”。你建个图数据库不稀奇,谁都能买。但你能不能定义清楚客户、订单、产品、员工这些概念在你们公司到底指什么,能不能让AI按这个定义去干活儿,这才是真本事。
而且这个定义权必须掌握在业务手里,不能交给技术团队,更不能完全交给AI自己学。AI学出来的“含义”是统计出来的规律,不是业务规则。它可能学出来“大部分客户买了A产品也会买B产品”,但这不代表“客户必须买了A才能买B”。这两件事差了老鼻子了,前者是建议,后者是规定。AI要是分不清这个,就敢给你瞎推荐,甚至瞎做决定。
记忆不是检索,是写进去再读出来
很多人把AI的记忆跟检索搞混了。以为给AI接个搜索引擎,它就能记住东西。这是个大误会。
检索是从一堆固定文档里往外扒拉信息。你问它一个问题,它去文档里找相关的段落,拼一个答案给你。下次你再问,它又去扒拉一遍。它从来不会把上次扒拉到的信息记下来,下次直接用。
但AI要真的干活儿,它得能写东西进去。你跟它说“我叫张三”,它得把这个事实存下来。下次你再问“我叫啥”,它得能从存的地方读出来,而不是重新去翻聊天记录。这叫双向记忆(bidirectional memory),是智能体(agent)跟搜索引擎的本质区别。
搞AI记忆的人把这事儿分成四种:短期(当前对话窗口里)、长期(永久存下来)、语义(事实类,比如“张三的生日是今天”)、情景(发生过的事件,比如“张三昨天问了生日提醒”)。这四种记忆混在一起,需要不同的存法,也需要不同的读法。
最要命的是,AI记下来的东西跟人记东西不一样。人是会忘、会改、会添油加醋的。AI的记忆必须是精确的、带版本的、前后一致的。不能今天记了“张三生日是7月1号”,明天又记一条“张三生日是7月2号”,然后两条都存着不管了。它得知道哪条是对的,哪条是后来修正的,谁改的,为什么改。
这帮搞AI记忆的人发现,折腾了一圈各种向量数据库(vector database)、键值存储之后,最后能管住这摊事儿的还是图。因为只有图能把事实和事实之间的关系讲清楚,还能把谁说的、什么时候说的、基于什么前提说的这些元数据也一起存下来。
不是你记性差,是你家图不够硬
现在搞AI上下文层的各家厂商,正在从两个方向往中间挤。一边是图数据库厂商往上走,从存数据变成管记忆。一边是云计算平台往下扎,从管表格变成管含义。
图数据库厂商像Neo4j、Memgraph,以前就是卖数据库的,让你存节点和关系。现在它们纷纷推出“图引擎”,说数据可以不用搬家,直接在原来的地方查。Memgraph搞了个MemGQL,能把SQL、MongoDB、甚至CSV文件都当成图来查。Neo4j搞了个虚拟图,能直接查雪花和数据砖里的表,不用先导进来。
云计算平台像谷歌、微软、数据砖,以前是卖数据仓库和数据湖的,让你存表格。现在它们纷纷加上了“本体论”和“知识图谱”功能,说能在表格上面建一层含义层。谷歌在BigQuery里加了图查询,还搞了个知识目录,号称能给你公司建一个统一的动态上下文图。
这两拨人嘴上说的都是“上下文层”,脚下走的路却完全相反。一个是从数据往上建含义,一个是从含义往下连数据。碰头的地方,就是那个让AI真正理解业务的点。
但不管怎么挤,最后都绕不开那个终极问题:谁来决定你的数据到底是什么意思。你可以画一张漂亮的图,把客户、订单、产品都连起来。但“活跃客户”到底指啥?是三个月内下过单的,还是一年内登录过的,还是合同还在有效期内的?这个定义必须业务说了算,而且这个定义会变。今年是三个月,明年可能改成六个月。你的图得跟着变,而且变了之后,所有依赖这个定义的AI都得同步知道。
这个同步的过程,才是最考验功力的地方。你可以在一个系统里把这事儿办好,但一个公司有几十上百个系统,它们之间怎么同步定义?一个系统改了“活跃客户”的定义,其他系统怎么知道?AI怎么知道自己用的是旧定义还是新定义?
这事儿到现在也没人能彻底搞定。所以你看到各家公司都在抢着定义自己的“上下文层”,其实就是在抢一个话语权——谁定义了含义,谁就在未来的AI生态里坐庄。这根本不是什么技术问题,这是权力问题。
总结:
这场轰轰烈烈的上下文层大跃进,说白了就是全世界突然意识到AI没脑子是个大问题,然后全冲回去补课。但补课的方式五花八门,从挖祖坟(企业架构)到换马甲(图数据库变图引擎)再到造新词(本体论变营销术语),能用的招全用上了。最后的赢家不是建图最快的那个,而是能把“客户到底啥意思”这种蠢问题真正说清楚的。
作者单位背景:George Anadiotis,Linked Data Orchestration创始人,Year of the Graph通讯作者,专注图技术、数据、AI与媒体交叉领域