本文敢于挑战过去十年SaaS和浏览器应用的霸权,提出"文件系统回归"的逆向思维。
文件系统才是AI时代的真命天子
想象一下,你正在用Openclaw(一款AI代理工具)帮你干活,这玩意儿牛就牛在它把整个上下文都塞进了你电脑里的文件系统里。Openclaw在你的电脑上运行,通过Telegram或者iMessage这种聊天软件跟你对话。当你让它执行任务时,它会调用克劳德API,然后从你电脑上的文件里抓取上下文信息。你跟Openclaw的对话记录本身就是电脑上的一个文件,它执行任务时就在那个文件里写写画画。文件系统就是它的状态存储器。
你往这些文件里塞的数据越多,Openclaw就越强大、越有用。
你把Gmail连上,Openclaw就把邮件当成文件存在你电脑上;你把Eight Sleep智能床垫连上,Openclaw就把你的睡眠数据写成文件存起来。Openclaw想要接管你的世界,但前提是这些数据得乖乖躺在文件系统里。
那么问题来了,既然Openclaw对个人生活这么好用,如果整个公司都能被表示成一个文件系统让AI代理在里面折腾,那这玩意儿得有多强大?咱们拿一家律师事务所来举例说明。
律师事务所变身文件夹集合
在这个世界里,一家律师事务所被简化成了电脑上一堆文件夹。
新案子来了,咱们就往/cases文件夹里写东西;案子分配给某个律师了,就把这个案子加到他的/cases文件夹里;律师记录工时了,就把条目加到/billing/time-sheet文件夹里。整个后台运营就是一个状态机。
文件系统还有一个有趣的特性:权限设置天然就能映射到公司的职级体系。比如,一年级助理律师只能读写自己的案子文件,而合伙人可以访问所有人的案子。公司治理结构就是Unix文件权限。
在企业里推广AI代理之所以复杂,一个原因是数据被分散在很多不同的系统里。发票在Quickbooks里,邮件在Outlook里,提案存在Sharepoint里,合同躺在Netsuite里,等等等等。整个业务没有一个统一的命名空间来访问所有这些数据。通过把公司建模成文件系统,AI代理就能访问几乎所有需要的数据来获取正确的上下文并做出决策。
当然,每家公司都有细微差别,很多工作流程都装在人的脑子里,而不是存在JSON文件里。但Openclaw的力量和底层架构指向了一个未来:文件系统将成为最有用的AI代理的真相来源。
过去一年AI代理发展得爆炸式迅猛。但当你剥开噪音看本质,AI代理的架构可以简化为两个组件:作为状态的文件系统,以及作为编排器的克劳德。通过把公司建模成文件系统,AI代理就能通过简单地读写文件来解决业务问题。
文件系统的复仇记
安维莎·派(Anvisha Pai)在2014年入职Dropbox,那时候公司还没上市。她的工作就是让你的文件变得更适合协作。
他们没法用自己的产品来办公,因为整个公司都在用Google Docs。
当时的内部叙事是:桌面软件完蛋了,文件也完蛋了,未来在浏览器里。Dropbox收购了Hackpad,全力开发Dropbox Paper。
那个叙事在十年里都是对的。Google Docs、Figma、Notion,所有东西都搬到了浏览器里,浏览器赢了。
但今天,AI代理正在逆转这个趋势:
代码和协作工具在AI代理面前"就是能跑",因为你可以直接指向电脑上的一个文件夹。
文件系统强势回归了。
但现状是,光有文件还不够。AI代理需要更多,它们要求更多。在我们即将进入的世界里,我们需要一种全新的软件类型。
公司就是文件系统:这个论点有多野
如果你经营一家律师事务所:把你的公司建模成一套文件夹。案子放在/cases里,工时表放在/billing里,等等。
然后让你的AI代理指向那个文件夹,你就开张营业了。
这效果好得惊人,而且能扩展到基于文本的工作流程,比如代码、法律、运营等等。
现在对比一下AI代理试图操作网页应用的情况。
即使有MCP(模型上下文协议),AI代理在编辑Figma文件或Notion文档时也会挣扎。速度慢、消耗大量token,还老是崩溃。
短期来看,能被Unix工具和命令行访问的东西似乎要赢了。
哪里会掉链子
很多工作没法被建模成Markdown指令。
想想:设计图、视频、3D模型、电路板等等。物理世界。海量的零售产品和快消品。
AI代理没法在真空中操作Photoshop、Figma或CAD文件。它需要"渲染"并看到自己操作的输出结果。
这些文件用的是老旧的专有格式。它们对token不友好,难以理解。
那计算机视觉呢?AI代理能不能像我们一样看屏幕,然后用键盘鼠标点击操作这些程序?
也许可以,但这种方式永远比直接操作原生文件更慢、更脆弱、更低效。AI代理在有良好"马具"(harness,指与文件系统对接的接口)时最成功。计算机视觉在我看来还没达到那个水平。
SaaS过去十年确实有点东西
网页应用之所以赢了,是因为浏览器解决了人与人之间的协作问题:实时编辑、评论、团队账户等等。
今天的文件系统和AI代理抽象层适用于"1个人类配1个AI代理"的模式。
它们对"多个人类配多个AI代理"的模式支持得不好。
想象一下人类操作员和AI代理一起管理一座发电厂。你觉得聊天是他们协作的最佳方式吗?你可能想要某种UI界面,让他们能够绘制现场地图、识别需要注意的事项等等。
AI代理能实时生成这个界面吗?你可能希望提前建好这个界面,这样系统就有一个固定的"契约"来规定如何工作,不会每次都变。
在很多情况下,你可能需要一个预构建的界面。
未来的工具会是什么样
在勇敢的AI代理新世界里,什么工具会赢?
那些结合两者优点的工具:
第一,开放且对AI代理友好的文件格式
AI代理能把它读进上下文窗口、推理、然后写回去的东西。
第二,同时适用于AI代理和人类的UI界面
AI代理需要可视化输出的方式,以及在不经过为鼠标键盘设计的UI的情况下执行多模态操作。
人类需要审查、引导和实时与AI代理协作的方式。
我的预测是,未来的这些工具不会由微软、Salesforce和Adobe来建造。要赢的话,它们得扔掉自己几十年间固化的文件格式。
文件回来了。但文件格式之战才刚刚开始。