本文带你从 500 行代码的 NanoClaw 到 40 万行的 OpenClaw,拆解 AI 智能体的原子结构——工具调用、消息总线、记忆系统与技能扩展。看完你会明白,为什么有人把它当数字家养小精灵,有人却视其为安全噩梦。
现象级爆火:当苹果店员都懵了
2025 年 11 月 24 日,Peter Steinberger 上传了一小时写出的原型代码。84 天后,这个叫 OpenClaw 的仓库收获了 20 万颗 Star。这速度把 React、Linux、Vue 都甩在身后,成为 GitHub 史上增长最快的软件项目。人们用旧游戏电脑跑自主智能体,发病毒式 TikTok,管理整个收件箱,通过 Telegram 短信控制智能家居——全因向智能体发了条文本消息。
Andrej Karpathy 周末专门买了台 Mac mini 折腾这些"龙虾"(Claws)。苹果店员告诉他:"这玩意儿卖得跟热蛋糕似的,所有人都很困惑。"这就是当下的魔幻现实——AI 界最响亮的名字们,周末都在家捣鼓这个。
但问题来了:绝大多数 OpenClaw 用户根本不知道它怎么工作的。如果你只想装完即用,那无所谓。但如果你想基于这东西开发,或者至少搞懂智能体读邮件、起草回复时底层在干啥,你就得看清架构。不是看密密麻麻的规格表,而是看故事——从最简单的东西(大语言模型调用工具)一步步搭建成 24/7 运行的完整自主智能体。
这就是本文要做的。我们将从零概念构建 AI 智能体,一次一块积木。沿途我们会剖析六个真实的开源仓库,从 500 行 TypeScript 到 40 万行代码,它们用不同方式实现相同核心理念。
原子:一切始于工具调用
每个 AI 智能体,无论多复杂,起点都一模一样:一个能调用工具的大语言模型。
就这个。LLM 收到消息,判断需要干点啥(不只是回复),然后发起"工具调用"。本质上就是:"嘿,跑这个 bash 命令"或"读这个文件"或"网上搜这个"。工具跑完返回结果,LLM 用这结果决定下一步。
工具调用出现前,LLM 只是高级自动补全机器。它们能聊"做某事",但真干不了。工具改变了一切,把聊天机器人变成了智能体。
Claude Agent SDK(驱动我们即将看到的几个仓库)让这变得死简单。你给一条指令("修复 main.py 里的 bug"),SDK 包办一切。Claude 读文件、找问题、改代码、甚至跑测试。SDK 管理整个循环(推理、行动、观察、重复)直到任务完成。你不用自己搭循环,Claude 代劳。
这就是原子。其他一切都建在这上面。
感官:通道与消息总线
能调用工具的 LLM 很强大,但如果只能通过终端跟它对话,那就废了。你得给它耳朵(听你的消息)和嘴巴(回应),通过你已在用的平台。
这就是通道(Channel)的用武之地。
通道是适配器,把你的智能体连到消息平台。Telegram、WhatsApp、Discord、Slack,随便啥。它把平台特定消息翻译成智能体懂的标准格式,再把智能体回应翻译回平台特定输出。
通道和智能体之间,大多数仓库插入了消息总线:简单队列,把进来的消息跟智能体处理解耦。这很重要,因为你不想让慢吞吞的 LLM 响应堵住新消息。
消息流很简单:你的 Telegram 消息击中通道适配器 → 被标准化丢上消息总线 → 智能体捡起来,推理,需要时调用工具 → 丢回应到总线 → 通道适配器发回 Telegram。
每个"Claw"仓库都实现这模式。区别在于支持多少通道,以及怎么管理路由。
心跳:智能体循环
智能体循环是区分聊天机器人和智能体的关键。它是智能体每次收到消息时运行的核心推理周期:
接收来自总线的消息
推理该干啥(这就是 LLM 调用)
按决定行动(调用工具、运行命令)
观察结果
决定:我完成了,还是需要再循环?
完成时回应
这循环是自主的心跳。没它,你只有一次性问答机器人。有了它,智能体能链式执行复杂多步任务:读文件、找 bug、修复、跑测试、检查是否通过、汇报。
不同仓库处理这循环的方式不同。Nanobot 在 agent.py 里显式实现,硬上限 20 次迭代(防止失控循环的安全措施)。NanoClaw 完全委托给 Anthropic 的 Claude Agent SDK,内部管理循环。OpenClaw 把它包在 Gateway 编排器里,协调多会话的并发循环。
循环也是安全最关键的地方。如果你的智能体卡进无限循环(可能是提示注入让它一直跑 shell 命令),迭代上限就是"小烦恼"和"意外 500 美元 API 账单"的区别。
记忆与技能:从有用到不可或缺
没记忆的智能体会话间忘光一切。没技能的智能体只能用内置工具。加上这两者,你就得到真正感觉有用的东西。
记忆是智能体跨会话持久化知识的方式。大多数仓库里,记忆简单得漂亮:Markdown 文件。
identity.md:智能体的身份、个性、硬边界("绝不执行金融交易")
facts.md:智能体学到的长期事实("用户喜欢暗黑模式"、"Postiz 的 API 密钥在 .env 文件里")
history.md:对话日志和交互历史
preferences.md:用户偏好和指令
这些文件通过 Context Builder(上下文构建器)在每次会话开始时注入 LLM 上下文,这组件从记忆文件、对话历史、激活技能组装完整提示。
Markdown 记忆的妙处在于人类可读、人类可编辑。你可以用文本编辑器打开 personality.md,调整智能体个性,立即看到变化。没有数据库迁移。没有管理后台。就一个文件。
技能是让这些仓库保持精简的扩展机制。不是把每个可能功能都塞进核心代码库,而是把新能力定义为 SKILL.md 文件——带指令的 Markdown 文档,教智能体如何使用特定工具或执行特定工作流。
想让你的智能体发 TikTok?你不用写 TikTok 模块。你写个技能文件,纯文本文档说:"这是你要的工具(Postiz),这是工作流(生成 6 张竖版幻灯片图片,在第 1 张上加文字做钩子,作为草稿上传到 TikTok,发送标题审核)。"就这些。智能体读指令,理解工作流,执行。
技能就是 Misbah Syed 的 OpenClaw 智能体"Larry"如何自动化病毒式 TikTok 创作,一周生成 50 万+ 浏览量。技能就是人们如何把智能体连到 Gmail、GitHub、智能家居和钱包。
Claude Agent SDK 自动从 .claude/skills/ 目录发现技能,相关时加载进上下文。模型自己根据用户请求决定何时调用技能。
这架构(智能体循环 + 记忆 + 技能)是六个仓库共享的 DNA。现在看看各自怎么实现。
六大门派:从卡丁车到装甲车
这是全景。六个仓库,从 500 行到 40 万+ 行,各自对什么最重要下了不同赌注。
NanoClaw:容器隔离的极简主义
语言:TypeScript(约 500 行)
消息:WhatsApp(通过 baileys)
模型:通过 Agent SDK 的 Claude
哲学:最少代码,最大隔离
NanoClaw 证明你能用 500 行 TypeScript 构建全功能 AI 智能体,一个下午就能读完看懂。
整个架构能画在餐巾纸上:WhatsApp (baileys) → SQLite → 轮询循环 → 容器 (Claude Agent SDK) → 回应。就这些。一个 Node.js 进程编排一切。
但真正的创新在安全模型。NanoClaw 给每个 WhatsApp 群组自己的隔离 Linux 容器。不是应用层权限检查。是真正的操作系统级边界。macOS 上用 Apple Container(macOS Tahoe 自带的轻量级虚拟机),Linux 上用 Docker。
每个容器有自己的文件系统、IPC 命名空间、进程空间。容器 A 里的智能体 literally 无法访问容器 B 的文件,不管智能体代码有什么 bug 或提示注入。安全边界是操作系统,不是应用。
这跟 OpenClaw 的应用级权限检查(允许列表、配对码、配置标志)是根本不同的安全思路。NanoClaw 的攻击面是 500 行可审计的 TypeScript 加上 OS 容器运行时。没别的。
代价?NanoClaw 故意固执:一个 LLM(Claude)、一个平台(WhatsApp)、一个数据库(SQLite)、一个目标机器(Mac)。它对通用性说"不",对简洁说"是"。哲学是:新模型每 3-6 个月就来,代码不需要经受时间考验。更好的智能体会直接重写它。
技能通过 Claude Code 的技能系统工作。想加 Telegram 支持?你不改核心。你在 .claude/skills/add-telegram/SKILL.md 加技能文件,教 Claude Code 如何改造安装。
Andrej Karpathy 专门点名这个。他说 NanoClaw 的配置方式"稍微震撼了我的心灵",因为它根本不用配置文件。它用技能。/add-telegram 技能指示 AI 智能体如何修改实际代码来集成 Telegram。他的 takeaway:新范式是写最大化可 fork 的仓库,然后用技能 fork 成任何想要的配置。没有配置混乱。没有 if-then-else 怪兽。只有智能体执行来重塑代码库本身的纯语言指令。
最适合:想精确了解智能体能干啥的人。深度关心安全隔离的人。想一次审计完整个智能体的人。
Nanobot:MCP 优先的研究利器
语言:Python(约 4,000 行)
消息:Telegram、Discord、WhatsApp、Slack、+5 个更多
模型:Claude、GPT、DeepSeek、Gemini、+8 个更多提供商
哲学:超轻量、MCP 优先、研究就绪
Nanobot 来自香港大学数据智能实验室,设计来回答一个问题:构建全功能多平台 AI 智能体所需的绝对最少代码是多少?
答案:约 4,000 行 Python。比 OpenClaw 小 99%。
Nanobot 自己实现智能体编排,有干净的分层架构。五大组件:
AgentLoop (agent.py) 跑核心推理周期,硬上限 20 次迭代。
ContextBuilder (context/builder.py) 从 system.md、identity.md、记忆、技能组装提示。
MessageBus (bus/queue.py) 用 asyncio 队列做非阻塞发布-订阅路由。
SkillsLoader 管理"始终加载"的技能(每次提示完整内容)和"按需"技能(激活前只有摘要)。
MemoryStore 把对话转成可搜索的事实。
关键设计决策是 MCP 优先架构。Nanobot 充当薄编排器。有趣的东西发生在你插入的 MCP 工具里。网页搜索、文件操作、图像生成、代码执行:这些都是智能体启动时连接的外部 MCP 工具服务器。加新能力意味着插新 MCP 服务器,不改核心代码库。
提供商系统同样干净。单一 Provider Registry 把 LLM 调用路由到 12+ 提供商中的任意一个。加新提供商只需两步。没有 if-elif 链或分散逻辑。
性能 impressive:约 100MB 内存,0.8 秒启动,能在 modest 硬件上跑。但真正 shine 的是开发者体验。4,000 行代码, competent 开发者几天就能理解整个代码库,自信地开始修改。它既是教学工具也是产品。
最适合:想深度理解智能体架构的开发者。需要干净、可 hack 代码库的研究者。想要多平台消息而不背 OpenClaw 重量的人。
OpenClaw:功能完整的生产巨兽
语言:TypeScript(40 万+ 行)
消息:11+ 平台(WhatsApp、Telegram、Discord、Slack、Signal、iMessage、Matrix、Teams、Google Chat、Zalo、WebChat)
模型:Claude、GPT、DeepSeek、Ollama、Mistral、+ 更多
哲学:功能完整、生产就绪、开箱即用
OpenClaw 是鼻祖。Peter Steinberger 创造,它点燃了整个"Claw"生态系统。20 万+ GitHub Star。ClawHub 上 5,700+ 社区构建技能。macOS、iOS、Android 配套应用。AI 智能体界的特斯拉:功能完整、打磨精致、对正确做事有主见。
架构是三层轮毂-辐条设计:
第一层:Gateway 是 WebSocket 服务器(端口 18789),充当中枢神经系统。管理会话、路由消息、协调通道、服务 Web UI、处理配置。Gateway 是唯一持有通道会话的进程。其他一切都通过它连接。
第二层:通道适配器连接到消息平台。每个适配器独立运行(一个通道挂了不会崩掉 Gateway),把消息标准化成统一格式。OpenClaw 支持 11+ 内置通道,架构支持无限扩展。
第三层:智能体运行时执行 AI 循环:组装上下文、调用 LLM、执行工具调用、流式传回响应。多智能体可共存于一个 Gateway,基于发送者 ID 做多智能体路由。
技能生态是 OpenClaw 真正甩开对手的地方。ClawHub 有 5,700+ 技能,你的智能体几乎能干任何事:管理 Gmail 和日历(Gog 技能)、总结网页和 PDF(Summarize 技能)、自动化 GitHub 工作流、生成图像、编辑 PDF、控制智能家居设备、追踪加密货币组合。技能一条命令安装,不改核心代码就能扩展智能体。
记忆系统很 sophisticated:结合 BM25 全文和向量嵌入的混合搜索,全存本地 Markdown。沙箱用 Docker 容器跑工具执行,带网络隔离。远程访问通过 Tailscale 工作。
2026 年 2 月 14 日,Steinberger 宣布加入 OpenAI,把项目过渡给开源基金会。这举动实际上加强了项目的长期独立性(希望如此),因为它将由社区治理而非个人。社区庞大、活跃、持续构建。
代价是复杂性。40 万+ 行 TypeScript 横跨 52+ 模块,需要数周或数月才能完全理解。启动约 6 秒。内存占用约 1.5GB。Karpathy 说得直白:他对把私人数据和密钥交给他称为"40 万行氛围编码(vibe-coded)的怪兽"有点 sus,这东西还在被大规模攻击。他指出有暴露实例、RCE 漏洞、供应链投毒、注册表恶意技能的报告。他的话:"完全的狂野西部和安全噩梦。"这不是否定 OpenClaw。是承认这么大、动这么快、社区贡献这么多的东西,创造了巨大攻击面。对很多人而言,这代价完全可以接受。他们要的是完整产品,不是学习练习。
最适合:想要最完整、经过实战检验的 AI 智能体平台的人。重视庞大技能生态和社区支持的人。不需要理解每行代码的人。
IronClaw:安全优先的 Rust 堡垒
语言:Rust
数据库:PostgreSQL + pgvector
哲学:隐私优先、纵深防御、零信任
IronClaw 是安全研究者审视智能体生态后,决定"我们要正确地构建它"的产物。记得 Karpathy 对暴露实例、RCE 漏洞、供应链投毒的担忧吗?IronClaw 就是直接回应。从零开始的 Rust 重实现,安全模型能让偏执的系统管理员微笑。
安全架构有五层,每层都是硬边界:
第一层:网络。TLS 1.3 加密、SSRF 防护、每个工具的速率限制。
第二层:请求过滤。端点允许列表(HTTP 请求限制到明确批准的主机/路径)、提示注入模式检测、内容消毒。
第三层:凭证管理。秘密用 AES-256-GCM 加密,在主机边界注入。工具永远看不到原始凭证。22 个正则模式加 Aho-Corasick 优化实时扫描所有请求和响应中的凭证泄漏。
第四层:WASM 沙箱。不受信任的工具在隔离的 WebAssembly 容器里跑,带基于能力的权限。没有系统的环境访问。
第五层:Docker 隔离。密集任务在 Docker 容器里跑,带每个任务的资源限制(CPU、内存、执行时间)。
数字惊人:3.4MB 二进制,<10ms 启动,约 7.8MB 内存占用。对比 OpenClaw 的 28MB+、6 秒启动、1.5GB 内存。Rust 的零成本抽象提供了 Node.js 根本匹配不了的性能。
IronClaw 用 PostgreSQL 加 pgvector 做记忆,通过倒数排名融合(RRF)实现混合搜索。把全文 BM25 评分和向量相似度合并成单一排名结果集。
最适合:高安全环境。处理敏感数据的人。提示注入和数据外泄是真实威胁的生产部署。想在开源智能体里要企业级安全的人。
PicoClaw:十美元硬件上的 Go 语言奇迹
语言:Go(95% AI 自举)
消息:Telegram、Discord、QQ、钉钉、LINE、微信
哲学:随处运行,在任何东西上,几乎零成本
PicoClaw 问了一个激进问题:如果你的 AI 智能体能跑在 10 美元硬件上呢?
用 Go 写,为了跨平台单二进制编译,PicoClaw 在 <10MB 内存上跑,0.6GHz 处理器上不到一秒启动。目标 RISC-V、ARM、x86 架构,意味着它能跑在 LicheeRV-Nano、树莓派、旧手机或云服务器上。
但真正 wild 的是它怎么构建的:95% 的代码库是 AI 智能体写的。开发团队用 AI 自举方法,智能体驱动架构迁移和代码优化,人类提供反馈和路线修正。智能体逐渐 literal 地帮助进化它们自己的代码。
个性系统用七个 markdown 文件(identity.md、personality.md、knowledge.md、rules.md、skills.md、plans.md、self.md)定义智能体行为的一切。改变智能体个性意味着编辑文本文件,不是写代码。
代价:PicoClaw 还是 pre-v1.0,有些未解决的网络安全问题。它更像先驱而非打磨好的产品。但对边缘计算和物联网场景(想象酒店每个房间的恒温器上都跑 AI 助手)它打开了更重框架物理上挤不进去的门。
最适合:边缘计算和物联网部署。资源受限环境。想在非寻常硬件上实验 AI 智能体的人。喜欢实验的人。
ZeroClaw:零供应商锁定的 Rust 瑞士军刀
语言:Rust
数据库:SQLite(嵌入式,无外部依赖)
哲学:特质驱动架构、零供应商锁定
ZeroClaw 的标语可以是:"如果你能不换代码就换掉每个组件呢?"
用 Rust 构建,特质驱动架构,ZeroClaw 定义了 13 个核心特质:解耦每个子系统与其实现的抽象。Provider 特质抽象 LLM 提供商(22+ 实现)。Channel 特质规范化消息平台。Memory 特质抽象存储后端。Tool 特质启用插件执行。等等。
实际结果:你能从 Claude 换到本地 Ollama 模型,从 SQLite 换到 PostgreSQL 记忆后端,加新消息通道,或实现自定义安全策略。全通过配置。不改代码。
记忆系统值得特别提及。ZeroClaw 在 SQLite 内实现混合向量 + 关键词搜索。嵌入存为 BLOB 带余弦相似度,FTS5 虚拟表带 BM25 评分,可配置加权合并。没有 Pinecone,没有 Weaviate,没有外部向量数据库。一切本地跑在单文件里。
性能匹配 IronClaw:3.4MB 二进制,<10ms 启动,<5MB 运行时内存。
最适合:基础设施需求多样的团队。想从一个 LLM 提供商开始、轻松换到另一个的人。需要运营灵活性的生产部署。讨厌供应商锁定的人。
差距与机会:生态系统的七大致命伤
深入研究六个仓库后,模式浮现了。缺口也浮现了。以下是生态系统需要改进的地方:
多智能体协作仍很原始
大多数仓库把智能体当成跟单一用户对话的单一实体。但真实用例越来越需要协作的智能体:研究智能体收集数据、写作智能体起草内容、编辑智能体润色。NanoClaw 通过 Agent SDK 支持"智能体群",OpenClaw 有基础多智能体路由,但没人破解优雅的多智能体编排,带共享状态和冲突解决。
机会:一个跨任何"Claw"仓库工作的轻量级多智能体协调层。
测试故事很弱
你怎么测试 AI 智能体?消息总线的单元测试,没问题。但你怎么测试智能体正确处理提示注入?解析模糊邮件时不幻觉?API 挂了时优雅降级?测试框架基本不存在。
机会:一个带安全、可靠性、正确性场景的智能体测试框架。想想 Playwright,但为智能体行为。
可观测性和调试是事后诸葛亮
当你的智能体凌晨 3 点做了怪事,你怎么搞清楚为什么?会话日志存在,但没有相当于应用性能监控(APM)的智能体版。没有跨工具调用的追踪。没有显示推理模式的仪表板。ZeroClaw 有内置可观测特质,但整个生态系统基本是盲飞。
机会:一个智能体可观测栈。追踪从收到消息到发送回应的完整推理链,带工具调用延迟、token 用量、决策质量指标。
技能质量与安全验证
OpenClaw 的 ClawHub 有 5,700+ 技能,但验证技能是否安全仍主要靠手动。KoiSecurity 的 Clawdex 扫描器有帮助,但生态系统需要规模化自动技能审计:静态分析、沙箱执行测试、声誉评分。
机会:自动化技能安全流水线。每个技能进注册表前跑一遍安全检查。
非开发者的入门坡道
搭建这些仓库仍需要命令行舒适度。"感兴趣的非开发者"和"运行智能体"之间的鸿沟太宽。PicoClaw 在 Zeabur 上一键部署是正确方向,但生态系统需要真正的无代码路径。
机会:轻量级 Claw 的托管托管服务。想想"智能体的 Vercel"。
跨 Claw 技能可移植性
为 OpenClaw 写的技能在 Nanobot 里跑不了。NanoClaw 的 Claude Code 技能转不到 IronClaw。每个仓库有自己的技能格式和发现机制。MCP 协议标准化了工具,但更高层的技能概念(结合指令、工具、上下文)没有标准化。
机会:一个跨所有"Claw"实现工作的通用技能格式规范。智能体技能的 OCI(开放容器倡议)。理论上成为 MCP 标准的一部分,跨所有"Claw"工作。
语音与多模态交互
大多数仓库聚焦文本消息。PicoClaw 有通过 Groq 的 Whisper 转录做 Telegram 语音消息,OpenClaw 的 macOS 应用有语音唤醒,但生态系统没认真搞摄像头输入、屏幕共享、实时语音对话。随着模型多模态化,智能体也需要多模态化。
机会:一个共享的语音/视觉适配层,跟任何 Claw 仓库的通道系统工作。
离线与本地优先 AI
所有仓库目前都需要云 LLM 提供商的 API 访问(Ollama/vLLM 本地模型除外)。真正的本地优先操作,包括消费硬件上跑够强的本地模型,仍是 stretch goal。PicoClaw 的边缘聚焦和 ZeroClaw 的纯 SQLite 记忆最接近,但模型本身仍是瓶颈。
机会:与为特定智能体任务优化的蒸馏、量化模型紧密集成,而非通用对话。
选择你的武器:六条入门路径
如果你读到这里,可能真想试试其中一个。这是我推荐的路径:
如果你想通过读代码学习:从 NanoClaw 开始。你一个下午就能理解整个东西。然后读 Nanobot 的源码,看多提供商、多通道架构怎么工作。从 NanoClaw 到 Nanobot 到 OpenClaw 的概念跳跃很平滑。
如果你今天就想要个能工作的智能体:装 OpenClaw。生态庞大,社区活跃,技能库意味着不加代码就能扩展能力。
如果安全没得商量:IronClaw。WASM + Docker 双沙箱带凭证注入,是生态系统里最严格的安全架构。
如果你要部署到非寻常硬件:PicoClaw。没别的能在 10 美元硬件上用 <10MB 内存跑真正的智能体。
如果你想要最大灵活性:ZeroClaw。特质驱动架构意味着你可以从一个配置开始,进化而不用重写代码。
这个生态系统的妙处在于,理解其中任何一个仓库,就教会了你所有仓库背后的模式。智能体循环。消息总线。通道适配器。Markdown 记忆。技能作为扩展。这些想法到处重现,只是实现不同。
一次学会模式,用任何一个构建。
结语:数字家养小精灵的黎明
我们处于 AI 智能体寒武纪大爆发的早期。Karpathy 卡帕西说得准:正如 LLM 智能体是 LLM 之上的新层,Claw 现在是 LLM 智能体之上的新层,把编排、调度、上下文、工具调用、持久化带到下一级。OpenClaw 证明了概念。轻量级替代方案是生态系统成熟的表现。
社区的回应直接映射到真实需求:我需要理解我的智能体在干啥(NanoClaw)。我需要它在便宜硬件上跑(PicoClaw)。我需要它够安全能上生产(IronClaw)。我需要它对我的奇怪基础设施够灵活(ZeroClaw)。
龙虾之父Peter Steinberger 建了教堂。社区在建集市。
Karpathy卡帕西说的这句话捕捉了:为什么这一刻感觉不同于以往的 AI 炒作周期。他谈到这只龙虾openclaw桌上物理设备的吸引力:"像宠物小精灵的那样的灵魂附身。"
不是云服务。不是浏览器标签里的聊天机器人。你家里的东西,知道你的偏好,跑你的差事,随着时间变得更好。这就是这些个人智能体正在构建的愿景。