谷歌OKF开放知识格式：卡帕西LLM Wiki有了标准！

#DDD泛在语言UL #DDD领域驱动设计 #AI提示上下文工程 #架构师资料教程

2026-06-14 2 6K banq

卡帕西Karpathy 预测了“LLM Wiki”的威力。谷歌刚刚将其正式化。
认识一下开放知识格式（OKF）：一个供应商中立的规范，用于为基础模型提供它们所需的精选上下文。
我真心觉得这能取代 Notion、Obsidian 或传统 wiki，用于开发者团队，而原因归结于记账工作。

传统 wiki 失败是因为人类不可避免地会放弃更新它们的繁琐工作，但是正如 Andrej Karpathy 最近指出的，LLM 不会感到无聊。它们不会忘记更新交叉引用，而且它们可以在一次通过中触及 15 个文件。

OKF 标准化了互操作层，这样代理就能真正自主地完成那些繁重工作。

因为该格式的观点最小化，它不规定你写什么，它只规定如何结构化。你会得到：
→ 可读性强的文档，直接与你的代码一起存放在版本控制中
→ 交叉链接，能够映射出复杂实体关系，而无需图数据库
→ 一个能在不同工具和组织之间迁移时存活下来的系统

没有复杂的压缩方案。
没有中央注册表。
如果你能 cat 一个文件，你就能读取它。
如果你能 git clone 一个仓库，你就能部署它。

这就是我们如何停止每次新模型发布时从头重建上下文管道的方式。

信息之所以没用，是因为它散得像你口袋里的钢镚，想用的时候永远凑不齐

你早上出门买早餐，口袋里揣了十个钢镚。但它们不在一个地方。一个在牛仔裤屁股兜里，两个在昨天穿的外套里，三个掉在书包夹层，还有四个，你记得是放在鞋柜上了，但出门太急，忘了拿。最后你到了包子铺，发现自己只从裤兜里摸出了一个钢镚，买了个馒头。那些剩下的钱，它们存在，但它们没用。

这就是现在所有公司里信息的状态。

一个AI想知道某个业务指标怎么算，它得自己去翻好几个地方。

它得去一个叫“元数据目录”的系统里查，这个系统有自己的规矩和入口。然后它得去公司的内部维基百科翻帖子，那个网站可能还得单独登录。接着它要去读代码库里的注释，那些注释可能是一年前写的，早就不准了。最后，它可能还得去问那个唯一懂行的工程师，但那个人正在写周报，没空理它。

每一个做AI助手的人，都在重复解决同一个问题：怎么把散落在各个角落的信息碎片，给拼到一块儿去。每个卖数据管理软件的厂商，都在重新发明轮子，搞自己那一套存储信息的方式。结果就是，信息被锁死在了它最初被创建的那个工具里。你用A工具写的文档，想拿到B工具里去让AI用，门儿都没有。

这就好比你用微信记的账，想导到支付宝里自动算你的花呗额度。或者你在网易云音乐建的歌单，想拿到QQ音乐里去让AI帮你推荐相似歌曲。能行吗？不行。每个App都是一个孤岛，信息就只能在那一个岛上待着。谷歌这个OKF格式想做的，就是给你造一艘船，或者至少，给你一个所有岛都承认的通用货币。

你可能已经见过最好的解决办法，但每次都得重新搭台子

AI大神安德烈·卡帕西Andrej Karpathy，他提过一个想法：既然AI干那些重复的、需要细心整理的活特别在行，那我们干脆把所有知识整理成一个维基百科那样的东西，让AI自己去维护它。你想啊，AI不会觉得更新一个链接烦，也不会忘了在十五个文件里同时修改同一个术语的定义。让它干这个，比让人类干可省心多了。

这个想法就跟病毒一样传开了。很多团队都开始这么干。他们用笔记软件（比如Obsidian）记东西，然后让写代码的AI助手能读这些笔记。他们在项目文件夹里放一个叫AGENTS.md或者CLAUDE.md的文件，里面写清楚这个项目的各种规矩，AI干活之前得先读这个文件。数据团队会在代码仓库里放一堆markdown文件，专门记录哪个指标是什么意思，哪个表和哪个表怎么关联。

每个这么干的团队，都觉得自己的办法很聪明。确实聪明。但问题来了，每一个团队的聪明办法都是自成一派，互相不认。卡帕西的维基和你团队的维基，表面上看起来都是markdown文件，都有个文件头，都有超链接。但两者没有一个通用的规矩。没有规定说每个文档必须标明自己是“一张表”还是“一个业务指标”，也没有规定文件名里带什么字符代表什么含义。

这就导致了，你们辛辛苦苦记下来的知识，依然只对你们自己团队有用。隔壁团队想用，或者你换了个AI工具，没法直接读。一切又得从头适配。等于每个团队都自己造了个轮子，但轮子的形状、大小、螺丝孔位置都不一样。你想把A团队的轮子装到B团队的车上去？不行，你得重造一个。

所以，缺的不是一个新软件、新服务，不是让你再去注册一个“万能知识管理平台”。缺的是一个格式，一个所有人和所有AI都认的格式。这个格式得像TXT文本文件一样，谁都能打开，谁都能写。换电脑、换系统、发邮件给朋友、传给另一个AI，它都不会坏。

这个格式简单到离谱：就是个装满文件的文件夹，每个文件前面带个说明书

一个OKF的知识包，就是一个普普通通的文件夹。文件夹里面，全是.markdown结尾的文件。每一个文件，代表一个知识点。这个知识点可以是一张数据表格、一个业务指标（比如“月活跃用户”）、一份事故处理手册、一个API接口说明，什么都行。

一个文件，就是一个知识点。这个文件在文件夹里的路径，就是它的身份证。比如，一个叫做“财务”的文件夹里，有个叫“营收”的文件，它的身份就是“财务/营收”。

每个文件分成两部分。第一部分是文件最开头的“说明书”，用YAML格式写的，就是几行键值对。第二部分是正文，随便你写什么，用markdown语法就行。

说明书长这样：

type: metric
title: 每周活跃用户数
description: 在过去7天内，至少登录过一次且进行了任意操作的不重复用户数
resource: 用户登录日志表
tags: 用户增长, 核心指标
timestamp: 2026-06-14

看到了吗？type字段是唯一强制要写的，说明这个文件是个“指标”。其他都是建议，你想写啥就写啥。这就像你给每个文件贴了个标签，AI一眼就能看出这个文件是干什么用的，不需要把整篇文章读完。

正文部分，你就可以用人话写详细解释了。比如“这个指标为什么重要？”“计算的时候要排除哪些测试用户？”“如果遇到数据缺失怎么办？”等等。而且最关键的是，文件之间可以用标准的markdown链接互相指来指去。比如在“每周活跃用户”的正文里，你可以写“用户登录日志表”，这样就形成了一个知识网络。

整个文件夹里，还可以有一些约定俗成的特殊文件，比如每个子文件夹里可以放一个index.md，当目录用，告诉AI这个文件夹里主要有什么。还可以放log.md，像航海日志一样，记录下每次重要修改。

没有复杂的压缩算法，不需要装什么运行环境，不用申请什么开发工具包。任何一个能显示文本的编辑器都能打开。上传到GitHub上，它能直接渲染。任何搜索引擎都能索引它。你可以把它打包成tar文件发邮件，也可以放在任何Git仓库里，还可以挂载到任何文件系统上。

为什么这个土办法，比那些花里胡哨的系统都管用

你可能会说，这不就是个文件夹吗？我们公司共享硬盘上有一百万个这样的文件夹。关键不在于“文件夹”本身，而在于它背后的三条原则。

第一，规矩极少。你不需要学习一套庞大的数据模型，也不需要遵守几十条规则。OKF只规定了一件事：每个文件必须有一个type字段。至于type里能写什么值，别的字段叫什么，正文分几个小节，随便你。这就像是交通规则只规定了“靠右行驶”，至于你开什么车、穿什么衣服、车里放什么音乐，随便你。这样带来的好处是，任何一个人，不管他用什么工具，都可以立刻开始生产OKF格式的知识。因为门槛太低了。

第二，生产和消费完全分开。写知识的人和读知识的人，互相不需要知道对方是谁。一个人类手写的笔记，可以被AI直接读。一个数据库自动导出的元数据文件，可以被一个网页可视化工具直接展示。一个大模型自己总结出来的知识包，可以被另一个大模型直接拿来查询。大家只认这个格式，而不在乎对方是用什么工具、什么流程造出来的。这就好比你和一位只说法语的朋友通信，你们约定好用英文写信。你不需要学法语，他不需要学中文，只要你们都用英文，就行了。OKF就是那个“英文”。

第三，它是个格式，不是个平台。这句话是灵魂。你不需要注册任何账号，不需要登录任何云服务，不需要购买任何许可证，不需要每年续费。它不会跟你说“请下载我们的专用阅读器”。它永远不会被某个公司收购然后关闭服务器。它就是一个死板的、公开的规矩。你把它打印出来贴在墙上都行。之所以要把它做成开放的、与供应商无关的标准，就是因为一个知识格式的价值，完全在于有多少人在用它，而不在于它归谁所有。

谷歌不光动嘴，他们还给你送了几个能直接用的玩具

光说理论你可能还是觉得虚。谷歌这次很实在，跟这个格式一起，他们还放出了几个参考实现。就是你不用自己从头琢磨怎么用，可以直接拿来玩。

第一个是一个“知识补充机器人”。你给它一个谷歌BigQuery数据集的地址，它就会自动走进去，为里面的每一张表和视图，草稿一份OKF格式的文档。然后它会跑第二遍，去爬取官方的文档，把这些文档里的引用、表的详细结构、表与表之间的关联路径，全都自动补充到刚才的草稿里。你啥都不用干，它就帮你把一个数据库里的死信息，变成了一个活的知识包。

第二个是一个“静态网页展示器”。你给它任何一个OKF的知识包文件夹，它会吐出一个单独的HTML文件。你用浏览器打开这个文件，就能看到一个交互式的知识图谱。里面所有知识点都变成了一个个小圆圈，互相之间的链接就是连线。你点一个圆圈，就能看到它的说明书和正文。最重要的是，这个网页没有任何后端，不需要安装任何软件，所有数据都在这个页面里，你的数据不会上传到任何地方。

他们还提供了三个可以直接拿去玩的示例知识包。分别是关于谷歌分析GA4电商数据、Stack Overflow技术问答数据，还有比特币公开数据集的。这些都是用上面那个机器人自动生成的，你可以直接下载下来，用那个网页展示器打开看看效果。

这些东西都是“概念验证”，意思就是告诉你“看，能这么玩”。这个格式本身不规定你必须用什么AI框架，也不规定你必须用网页展示器。你可以自己写一个机器人，从你自己的数据库、你公司的文档网站、你团队的笔记里，抽取知识，生成OKF包。你也可以自己写一个消费端，比如一个搜索引擎，专门索引这些OKF包，或者一个AI代理，直接在这些文件夹里推理。谷歌希望，围绕这个格式生长的工具生态，能远远超过他们自己送的这几个小玩具。

从今天起，你可以让AI当你的档案管理员

你现在就可以开始动手了。这个格式目前是0.1版本，还是个孩子。但它一出生就是开源的，因为谷歌知道，一个知识格式要配得上它的名字，必须从一开始就在阳光下成长。

你可以做这么几件事：

第一，去读那个格式说明书。真的很短，比你读完这篇文章要短得多。

第二，为你自己的数据源写一个“生产者”。比如你公司有个MySQL数据库，你能不能写个小脚本，把每个表的结构都转成一个OKF的markdown文件？或者你们有个内部文档网站，你能不能写个爬虫，把每个页面存成一个OKF文件？你不需要一次搞定所有数据，从一个最小的点开始就行。

第三，为你自己的需求写一个“消费者”。比如你需要一个工具，能在一堆OKF文件里快速搜索某个关键词。或者你需要让你的AI助手，在回答一个问题之前，先去读当前文件夹下的index.md文件，而不是自己去瞎猜。或者你干脆就写一个命令行工具，能列出某个OKF包里有几个type是“metric”的文件。

第四，去试试谷歌提供的那个参考机器人，把它指向你自己的数据，看看它生成的OKF包怎么样。你会发现，很多你以前觉得整理起来要花三天的工作，现在AI几分钟就给你干完了。

第五，如果你发现了问题，或者你有更好的想法，去给他们的GitHub仓库提Issue，或者直接提交代码修改。因为这个格式是版本化的，并且被故意设计成可以向后兼容地成长，你的贡献很可能被全世界采纳。

最后，谷歌还做了一件事，他们把自己家的“知识目录”产品给改了，让它能直接吃掉OKF格式的文件夹，并且把这些知识喂给谷歌自己的AI代理。这意味着，如果你用OKF整理知识，你不仅可以用那些开源的小工具，你甚至可以直接跟谷歌家的商业产品对接。当然，这不是必须的。正如反复强调的，格式是自由的。

你的知识不需要被困在一个个死掉的文档和系统里。给它一个简单、开放、人类和AI都认识的形状，它就能活过来。而OKF这个格式，就是那个形状的草图。

总结

本文解释了谷歌发布的开放知识格式。该格式通过一个基于Markdown文件和YAML文件头的文件夹结构，解决信息碎片化问题。核心原则包括极少的强制规定、生产与消费分离、以及供应商中立。文章介绍了参考实现工具，并鼓励读者尝试用这种格式让AI成为知识的主动维护者。

一个比维基百科更简单的办法：用记事本和文件夹让AI懂你的业务！

别再手动整理公司文档了，谷歌这个新格式让AI替你收拾烂摊子

信息散落各处找不到？谷歌OKF格式把文件夹变成AI能读的知识网