Claude Diary让大模型真正越用越聪明:它已经学会写日记反思了


大模型也能“吃一堑长一智”!前谷歌工程师用日记+反思机制,让Claude Code实现持续学习与自我进化,代码已开源。

一位前谷歌工程师用AI日记本,让大模型学会“自我进化”:这才是真正的智能Agent!

你有没有想过,AI其实也可以像人类一样,从每一次对话、每一次任务中“吃一堑,长一智”?不是简单地记住你说了什么,而是真正提炼出规律、修正错误、优化行为,甚至主动升级自己的“操作手册”!

最近,一位名叫兰斯·马丁(Lance Martin)的前谷歌工程师兼AI系统构建者,发布了一个超酷的插件——克劳德日记(Claude Diary),它能让克劳德代码助手(Claude Code)像人一样持续学习、反思、进化。

这可不是什么噱头,而是基于最新科研成果、经过一个月实战验证的“AI记忆系统”。今天我们就来深度拆解这个项目,看看它如何把冰冷的AI对话日志变成炙热的“经验资产”,彻底改变我们与AI协作的方式。

人类靠经验成长,AI却总在“重开”?传统Agent的致命短板曝光

我们知道,人类之所以能越来越优秀,是因为我们有记忆、有反思、有偏好积累。你第一次炒菜可能糊了,但第二次就会调小火,第三次甚至能做出米其林风味。然而,大多数AI智能体(Agent)却像得了“金鱼记忆”——每次启动都是全新状态,上次犯的错误下次照犯,上次成功的技巧也得重说一遍。

这种“一次性AI”的模式,在复杂开发、长期项目协作中简直是灾难。兰斯·马丁正是被这个问题折磨已久,他发现即便是Anthropic自家的Claude Code,虽然能保存会话日志(session logs)到~/.claude/projects/,但这些原始数据根本没法直接指导未来行为。

于是他问自己:能不能让AI像《西部世界》里的Host一样,拥有“过去”?

灵感来自三篇顶会论文:AI记忆不是玄学,而是有科学框架的!

别以为这只是工程师的突发奇想,Claude Diary的设计其实根植于三篇重量级AI研究。

首先是2023年Sumers等人提出的CoALA框架,把Agent记忆分成“程序性记忆”(比如系统指令)和“情景性记忆”(比如过往行为)。
接着是斯坦福团队在2023年《生成式智能体》(Generative Agents)论文中展示的“反思机制”——Agent能回顾自己过去的行为,提炼出通用规则。
最新的是2025年张等人提出的“生长-精炼”(grow and refine)模型:一个生成器产出推理轨迹,一个反思器从成败中提取教训,一个策展人把洞察整合进结构化更新。

更巧的是,Anthropic的产品负责人Cat Wu在一次访谈中透露,公司内部工程师早已在用类似方法:把Claude会话整理成“日记”,再人工反思找出模式。兰斯直接把这种模式自动化、产品化了!

克劳德日记怎么工作?三步走:记录→反思→更新,闭环形成AI“肌肉记忆”

Claude Diary的核心逻辑极其清晰:先在关键会话中生成“日记条目”,再定期运行“反思”命令,最后把提炼出的规则自动写入全局指令文件CLAUDE.md。

这个文件会在每次Claude Code启动时加载,相当于给AI装上了“经验驱动的操作系统”。

具体来说,兰斯设计了两个核心命令:/diary 和 /reflect。
前者让你在任意会话中一键捕捉本次的关键信息——完成了什么、做了哪些设计决策、遇到了什么坑、用户偏好是什么、PR(Pull Request)反馈有哪些;
后者则会扫描所有未处理的日记,分析其中模式,生成可直接合并进CLAUDE.md的简洁规则。

整个流程既保留了人工干预的灵活性(比如你可以决定哪些会话值得记录),又通过自动化钩子(PreCompact hook)确保长时间会话不会漏记。

日记写什么?不是流水账,而是高价值“经验快照”!

很多人会问:AI的会话日志不是已经存在了吗?为什么还要单独写日记?关键在于“信息密度”和“结构化”。

原始日志是JSONL格式,杂乱无章,包含大量无关上下文。而/diary命令会引导Claude主动总结本次会话的精华,比如:“本次成功实现了原子化提交,但分支命名未遵循feat/前缀;用户偏好使用pytest而非unittest;PR评论指出应避免在测试中硬编码路径”。这些条目被保存在~/.claude/memory/diary/YYYY-MM-DD-session-N.md,每一条都是未来反思的“燃料”。兰斯甚至放弃了最初用bash解析日志的方案,直接利用Claude当前上下文生成日记——既高效又精准。

反思如何做?AI当自己的“复盘教练”,揪出行为偏差和隐藏模式!

最惊艳的部分来了——/reflect命令。它不是简单汇总日记,而是扮演“AI复盘教练”的角色。它会先读取当前的CLAUDE.md,然后逐条对照日记中的实际行为,找出“言行不一”的地方:比如指令要求“提交信息必须包含JIRA编号”,但日记里三次都没写;或者多次在重构后遗留空目录。

更厉害的是,它还能跨日记发现深层模式:“过去五次测试任务中,用户总是先跑单元测试再跑集成测试”“在Agent设计中,用户明显倾向单代理而非多线程”。这些洞察会被压缩成一行行bullet point,直接追加到CLAUDE.md末尾。

为防重复处理,系统还会维护一个processed.log文件,记录哪些日记已分析过。

实战案例炸裂:从Git规范到代码洁癖,AI真的学会了“察言观色”!

兰斯用了一个月Claude Diary,效果让他自己都惊讶。比如在PR评审(Pull Request Review)场景中,他把评审意见通过pr-comments命令喂给Claude,日记立刻记录下“用户认为日志级别应默认为INFO而非DEBUG”;反思后,这条直接写进全局规则,下次写日志就自动合规了。

在Git工作流方面,AI学会了他偏爱“feat/login-button”这样的分支命名、72字符限制的提交说明、以及每次只改一个逻辑点的原子提交。测试方面,AI掌握了“先快后全”的策略:先跑目标测试文件,再跑全流程。代码质量上,它开始主动规避文件名与包名冲突、清理废弃目录、删减冗余注释。

甚至在AI Agent开发中,它也学到了要“节省token”、“优先单Agent调度”、“用文件系统暂存上下文”等高阶技巧。

最神奇的是自我纠偏——当Claude某次没遵守“函数不超过30行”的规则时,反思机制立刻捕获并强化了该条款。

为什么只更新用户级CLAUDE.md?兰斯的克制哲学:通用经验才值得沉淀

你可能会想:为什么不给每个项目建独立记忆?兰斯的回答很清醒——大多数提炼出的经验(比如提交风格、测试偏好、代码洁癖)其实是跨项目的通用规则。

如果每个项目都维护一套,反而会造成碎片化和冲突。所以他只让Claude更新全局的~/.claude/CLAUDE.md。

这背后是一种产品思维:AI记忆不是无差别记录,而是要像人类一样,把高频、高价值、可迁移的经验沉淀为“本能”。低频或项目特定的信息,仍然保留在会话日志或项目文档中即可。这种克制,恰恰是避免AI“记太多反而变笨”的关键。

代码开源!插件仅几百行,却可能引爆下一代AI协作范式

最让人兴奋的是,Claude Diary的代码完全开源,作为一个Claude Code插件,核心逻辑不过几百行。它没有复杂架构,全是基于现有命令系统的prompt工程——这也意味着你可以轻松魔改、扩展。比如把/diary改成自动触发、把/reflect改成每日凌晨运行、甚至接入Slack通知让你审核更新。

兰斯自己也说:“这只是一个简单尝试”,但正是这种简洁、可组合、可演进的设计,才最符合AI原生应用(AI Native App)的未来。GitHub仓库已经放出,地址是rlancemartin.github.io/2025/12/01/claude_diary/,感兴趣的开发者完全可以立刻上手。

当每个AI都有自己的“成长日记”,我们离通用智能还有多远?

Claude Diary看似只是一个开发工具插件,但它指向的未来无比广阔。

想象一下,如果你的写作助手能记住你每次被退稿的原因并优化结构;你的客服AI能从百万次对话中提炼出最佳安抚话术;你的教育Agent能根据学生错题自动调整教学策略——这不就是我们梦寐以求的“个性化智能”吗?

兰斯的方案证明,不需要等待AGI(通用人工智能)降临,现在就可以通过“记忆+反思”的架构,让现有大模型实现局部进化。

更重要的是,这种模式是模块化、可共享的。未来或许会出现“记忆市场”,你可以下载其他高手的CLAUDE.md,瞬间获得他们的工程直觉或写作风格。这不就是“知识乐高”吗?