代码即记忆:给AI一个终端和硬盘,它比人类更会持续学习


核心观点摘要:持续学习是AI领域最硬核的挑战之一,传统思路想着怎么更新模型权重,但这篇内容提出了一个更简单粗暴的方案——让AI像人类程序员一样用代码和文件系统来实现持续学习。
给AI一个终端、一个文件系统,让它自己写代码、存技能、建文件夹,用grep搜索记忆,用文件夹做层次化存储,这就是"Code is all you need"的哲学。

Claude Code这类编码代理正在证明,报税、做财报、预测销售这些看似不是编程的任务,用代码+文件系统的方式解决起来反而更顺手。


AI也有健忘症,而且病得不轻

咱们先聊一个让AI圈大佬们睡不着觉的问题——持续学习。

这玩意儿听着高大上,说白了就是AI能不能像人一样越学越聪明、越用越顺手,而不是每次重启就失忆成金鱼。

想象一下你有个超级聪明的助手,昨天刚教会它你爱喝三分糖去冰的奶茶,今天它就问你"先生您要几分糖",这种体验简直想摔手机对吧。现在的AI大模型就是这么个德行,权重固定得像块石头,不管你怎么跟它聊天,它的脑子结构纹丝不动,聊完就忘,下次见面又是陌生人。这就好比你跟一个人聊了十年天,结果对方每次见面都自我介绍"你好我是某某",你能不崩溃吗。

RL训练像炼丹,又慢又烧钱

于是科学家们开始疯狂研究怎么用强化学习(RL)来解决这个问题。RL这玩意儿听着很酷,就是让AI通过试错来学习,做对了给糖吃做错了打屁股。

但问题是这过程慢得像蜗牛爬,烧钱像烧纸,而且效果还不稳定。你让AI学个新技能,得喂它海量数据,调参数调到秃头,最后可能还学了个寂寞。

这就好比你为了让孩子学会骑自行车,不是直接教他,而是让他从单细胞生物开始重新进化一遍,等进化出腿了再学骑车,这效率能高才怪。

所以RL这条路虽然大家都在走,但走得都很痛苦,每一步都像在泥坑里挣扎。

代码才是终极答案,文件系统就是外接大脑

这时候有个思路突然冒出来,简直像黑暗里的一道闪电——既然更新模型权重这么费劲,那干脆别更新了呗!给AI一个终端、一个文件系统,让它像人类程序员一样写代码、存文件、建文件夹,用这种方式来实现持续学习。

这招的核心哲学可以叫"代码即一切"或者"命令行即一切"。

想象一下,AI不需要改变自己的神经网络结构,只需要在硬盘上新建个文件夹叫"用户偏好",里面存个文件写上"这哥们喜欢三分糖去冰",下次需要的时候就打开看看。这不就是持续学习吗?而且比改模型权重简单一万倍。

文件夹是记忆宫殿,grep是搜索引擎

文件系统在这里扮演了什么角色?它就是AI的外接大脑、长期记忆库。文件夹的层级结构让信息井井有条,就像你书桌上分类摆放的文件夹一样。grep这个命令行工具更是神器,让AI能在海量文件里秒速找到需要的信息。

想象一下,AI接了一个任务,它不需要把所有文件都塞进脑子里(上下文窗口也塞不下),而是像人类一样,先扫一眼文件名,用grep搜关键词,找到相关文件再打开细看。这种"按需加载"的方式太聪明了,完美解决了AI记性差的问题。人类用电脑不就是这么工作的吗?谁会把整个硬盘的内容都记在脑子里啊。

Claude Code已经这么干了,而且干得漂亮

说到这儿就得提Claude Code这个狠角色。这玩意儿就是个编码代理,但它证明了这条路走得通。你给Claude Code一个任务,它会自己创建文件、写脚本、存技能,把学到的东西都落地成代码和文档。

比如你跟它说"以后处理这种数据都用这个方法",它就会写个脚本存起来,下次遇到类似任务直接调用。这就像是AI给自己写了个"武功秘籍",每次打架前先翻书复习一下招式。而且因为是代码形式,逻辑清晰、可复用、可修改,比那些黑盒子的神经网络权重透明多了。

报税做账不是编程?代码照样搞定

更骚的是,这招不光能用在传统编程任务上。你想想报税这事儿,看着跟编程八竿子打不着对吧?但实际上完全可以交给编码代理来做。你给AI一个文件夹,里面塞满W-2表、1099表、各种收据,然后丢给它一句话:"把这些税报了"。

AI会怎么做?它会写脚本来解析这些表格,提取数字,计算税额,甚至根据往年记录来优化抵扣方案。去年的税单、你的抵扣偏好、各种复杂规则,都可以存在不同的文件夹里,AI用的时候再翻出来看。这效率比人类会计师还高,而且不会算错小数点。

财报预测也能写代码解决

同样的道理,做财务报告、预测销售这些活儿,咱们通常不认为是编程任务,但用代码+文件系统的方式来解决简直不要太爽。AI可以写脚本自动抓取销售数据,存到CSV文件里,再写分析代码生成图表和预测模型。

所有的历史数据、分析方法、业务规则都以文件形式存在硬盘上,想查哪年哪月的数据就grep一下,想换个分析维度就改几行代码。

这种方式比让AI硬记所有数据和逻辑靠谱多了,毕竟硬盘比神经网络便宜多了,而且不会丢数据。

Terminal Bench才是未来基准测试的王者

所以作者大胆预测,Terminal Bench这个测试平台会继续领跑agentic任务的评价标准,而且不只是针对传统编程任务。

Terminal Bench测的是什么?测的是AI在真实终端环境里的表现,包括文件操作、命令执行、代码编写、信息检索。这些能力恰恰是实现持续学习的基础。

未来的AI代理评测,不会再只看AI能不能解数学题或写诗歌,而是看它在复杂真实环境里能不能像人类一样工作——创建文件、管理项目、调用工具、积累经验。这才是衡量AI实用价值的核心标准。

给AI一把键盘,它就能自己进化

说到底,这个思路的牛逼之处在于它把AI从"记忆者"变成了"工具使用者"。

人类之所以聪明,不是因为脑容量无限,而是因为我们会用工具、会写笔记、会建档案。AI也应该走这条路。

给它一个终端,它就能用Linux命令探索世界;
给它一个文件系统,它就能建立知识库;
给它代码能力,它就能创造工具和自动化流程。

持续学习不再是更新几个数字权重那么玄乎的事儿,而是变成了看得见摸得着的文件创建和管理。每个新技能都是一段代码,每个用户偏好都是一个配置文件,每次任务完成都是一次知识沉淀。