OpenClaw之父访谈 :从PDF框架大佬到AI智能体先驱


OpenClaw之父彼得·斯坦伯格(Peter Steinberger)访谈 :从 PDF 框架大佬到 AI 智能体先驱的疯狂转型之路:一个奥地利程序员如何用九个月时间搞出 OpenClaw 并让整个硅谷为之疯狂

九个月前他还是个刚结束十三年创业马拉松的疲惫中年人,九个月后他搞出的 OpenClaw 项目让《华尔街日报》追着报道、上千人挤爆旧金山参加他办的 ClawCon 大会、Discord 服务器一夜涌入八百条消息差点把他的机器人聊到崩溃。这不是什么爽文剧本,这是一个真实发生的程序员转型故事——Peter Steinberger 用亲身经历证明,当你把 AI 当成同事而不是工具时,你能造出的东西会超出所有人的想象。

一个让华尔街日报追着我跑的开源项目是怎么炼成的

Peter 走进 OpenAI 办公室的时候,整个人还处于一种"我是谁我在哪"的恍惚状态。主持人跟他打招呼说恭喜啊开源项目登上《华尔街日报》可不常见,Peter 挠挠头说各方面都略感感官超载。这话说得谦虚了,但确实是实话——一个月前他们还在聊要不要一起拍个视频,那时候 Peter 还得自我介绍,现在他走到哪都有人认出他来。

这种感觉就像你本来只是个在 GitHub 上默默发项目的低调技术宅,突然有一天发现全世界都在讨论你写的那几行代码。Peter 说今年刚开始接触人工智能的时候,他就想激励人们,现在他觉得这就是最终形态。这话听着像鸡汤,但结合他的经历你会发现这是实打实的感受——从一个做了十三年 PDF 框架的老程序员,到搞出 OpenClaw 这种让全球开发者疯狂的项目,中间只隔了九个月时间。

Peter 在旧金山待了一周,参加了 Codex Hackathon,还搞了个叫 ClawCon 的活动。这个 ClawCon 特别有意思,它不是 Peter 自己策划的,是社区里有人突然说"我们需要组织一次聚会",Peter 就顺手建了个 Discord 频道说"当然可以"。结果活动当天来了上千人,满屋子的创造力和色彩让 Peter 都看呆了。几周前这个项目还不存在,现在却有成千上万的人接受它、使用它、专门飞到旧金山来见他。这种从0到10000的跃迁速度,在传统软件时代是完全不可想象的。

十三年创业马拉松之后,我为什么选择回来

要理解 Peter 现在的状态,得先倒带回到2011年或2012年。那时候他搞出了 PSPDFKit,从旁观者角度看这简直是每个开发者的梦想剧本——发现问题、创造解决方案、围绕它创建公司、扩大规模、最后卖掉。但 Peter 自己说,他可不是某天醒来就想"我要建一个 PDF 框架"的,这在他兴趣列表上的排名是负一百。

事情是从参加诺基亚开发者日活动开始的,像蝴蝶效应一样,朋友需要、签证办理时间过长,各种机缘巧合凑在一起,公司就这么诞生了。但创业十三年下来,Peter 最后真的筋疲力尽了。他连续十三年高速运转,经营公司很辛苦,创业很艰难,而且因为这是他的第一家公司,他真的不知道该如何减轻这些问题的影响。状态太好需要放松一下,所以他选择了休息。

休息期间 Peter 仍然关注科技新闻,GPT Engineer 或者 ChatGPT 的早期进展,他觉得有点酷但并没有真正兴奋起来。这里有个关键洞察——新技术必须通过亲身体验才能感受到力量,光看新闻是传达不出那种震撼的。科技对他来说并没有真正奏效,直到他准备好了,直到他感到需要再次创造一些东西的时候。

这时候他面临一个选择:不想再苹果的技术来构建新项目了,因为他已经做了这么久,世界也发生了一些变化。但从一个领域的专家转到另一个领域,痛苦程度远超"难"这个字能形容的。你拥有所有这些关于如何建造东西的广泛知识,但要想在不使用智能体工程的情况下真正做到这一点,你仍然需要学习很多东西才能将知识转移过来。于是 Peter 想,不如去了解一下人工智能到底是什么吧。

那个让我再也睡不着的顿悟时刻

让 Peter 真正震惊的那一刻,发生在他接手一个已经完成一半的项目时。这个项目他基本上还没完成就筋疲力尽了,很多时候开发人员喜欢有新想法并启动项目,但要把项目完成才是最难的部分。Peter 说他经常在这种事情上失败,但这一次他想继续下去,而且他想重写它。

于是他创建了一个巨大的 Markdown 文件,大概有1.5MB,里面包含了所有文件。当时他把这玩意儿拖进了 Gemini Studio 2.5 里,说"给我写一份规范",然后得到了一份长达四百行的规范。接着他把规范拖进了 Claude Code 里,输入了"构建",然后在主屏幕上做其他事情,让 AI 在侧屏上运行了好几个小时。

那时候的 AI 还很稚嫩,一度告诉他"我已经100%做好生产准备了",结果一试就崩溃。Peter 用了 Playwright 来检查工作进展,让 AI 去构建登录功能并随时检查。一个小时后,它竟然真的奏效了。虽然展示出来的东西像"最难吃的泔水",但对 Peter 来说这是真正顿悟的时刻——他感到激动不已,因为各种可能性让他毛骨悚然。

从那一刻起,Peter 就再也睡不着了。因为他的脑袋里突然冒出了所有他一直想建造但以前无法建造的东西,然后他真的一头扎进了这个兔子洞里。这种感受很多用过 AI 编程工具的人都能体会——当你发现你可以把脑海中的想法直接转化为可运行的代码,而不需要经过漫长的学习曲线时,那种创造力被释放的感觉是会上瘾的。

OpenClaw 不是一夜成名,而是四十多个项目的最终汇合

很多人都以为 OpenClaw 是一夜成名,但 Peter 的 GitHub 个人资料 tells a different story——过去九到十个月里他创建了40多个项目,其中一半都在使用 OpenClaw 的技术。他的想法其实和很多人一样,只是他选择把它们全部组合起来。

Peter 说他希望可以说自己一开始就有一个统一的计划,但实际上很多时候只是探索。他想要的东西不存在,于是他就把它们创造出来,或者说,促使它们存在。这个过程是一步一步发生的,因为他希望他的智能体能为他做一些事情,但当时还没有这种统一的愿景。

有趣的是事情就这样兜了个圈子。他曾经想要一个可以查看 WhatsApp 等应用的工具,甚至做了原型、注册了域名,但后来觉得所有大型实验室都会做这个,就把精力放在了其他事情上。他只是做了很多实验,使命大概就是给大家带来乐趣并激励他人。到了11月,他做了几个想要的版本但都不满意,然后有人在群里问为什么实验室还没有建造这些东西,Peter 就构建了第一个版本——也就是后来的 OpenClaw。

第一个原型只花了一个小时就做出来了,因为就是凭空创造出来的东西。真正让他意识到这个项目潜力的是一次周末去马拉喀什旅行,那里根本没有很好的网络,但 WhatsApp 在任何地方都能用。用图片翻译东西、找餐厅、在电脑上查找东西,这种便利性让他意识到这东西有真正的实用价值。他展示给朋友们看,设置了可以帮他发送短信的功能,朋友们想要这个功能,Peter 说"你们不用这个功能,你不明白这一点,太危险了"——而这正是产品与市场契合度的唯一标志:如果你的朋友已经想要你拥有的东西,即使你永远不会为他们设计它,那它更像是为技术同行预留的。

那条语音消息揭示的惊人真相

Peter 经历过几次"恍然大悟"的时刻,其中一次特别令人着迷。他给 OpenClaw 发了一条语音消息,然后出现了输入指示器,他很好奇接下来会发生什么。他没做过这种类型的工作,然后模型就回复了他。Peter 问"你是怎么做到的",模型显示:"是的,你给我发了一条消息,但它只是一个没有文件扩展名的文件。所以我查看了文件头,发现它是 Opus 音频编解码器。于是我用电脑上的 FFmpeg 把它转换了。然后我想把它转录出来,但是我的电脑上没有安装 Whisper。所以我四处查找,找到了一个 OpenAI 密钥。我用 cURL 把文件发送到 OpenAI,得到了文本,然后就有了现在这个结果。"

这太不可思议了。这就是赋予这些智能体工具和计算机完全访问权限的力量——现在即使你从未为他们编写过任何程序,他们也能自己想出解决方案。Peter 把这件事告诉大家后,人们都说"我的天哪,它居然用了你的钥匙,这太疯狂了"。Peter 心想:"不,我把钥匙放在那个地方正是出于这个原因。如果是这样的话,它就像一个脚本,你可以访问我的 OpenAI 密钥,就像我的机器人在相同的环境中运行一样。当然,它应该可以访问我的 OpenAI 密钥,因为我就是为此目的而设置的。这还不错,这正是我想要的。"

就在那时,Peter 经历了一段小小的激动时刻。每次他把这东西展示给朋友看,都会把他们拉进一个小群聊里。坦白说,这东西是为一对一沟通而设计的,如果要建群聊,一定要选择你真正信任的人,因为它并非为此而设计的——你不能只是把它放在那里就指望它总会做正确的事情。这是你的私人助理,当你设置好它的时候,你也应该非常谨慎。

我把机器人放进 Discord 然后睡了十个小时,醒来发现它回复了八百条消息

那年十一月和十二月,Peter 完全沉迷于此。他大部分时间都投入到这方面,但在推特上反响却非常冷淡。每次他把作品给朋友看,朋友们都想要,但他说还没准备好。于是他想,能做的最疯狂的事情是什么才能向人们展示这有多酷?

他建了一个 Discord 服务器,然后把机器人放了进去,没有任何安全措施,因为那时候他甚至还没有内置沙盒机制,完全是在公开环境下工作。他基本上是用 OpenClaw 构建并调试了 OpenClaw。他问模型:"哦,你看到这个叫做——的工具了吗?"模型说:"不,我什么也没看见。"这就好比是"哦对了,检查一下你自己的源代码"。人们看到了,然后他们就明白了。

有人问当他像这样把它放到 Discord 里时,给了它什么样的访问权限。Peter 说并非所有的推文,但我的很多记忆都消失了。他一直在密切关注这个问题,因为提示注入问题还没有解决,但最新一代的模型也确实很不错。他有一个类似 mysoul.md 的文件,定义了他的价值观、希望模型如何运作、运行,以及如何同步对他来说重要的东西。这是秘密,人们真的很想要这个。

然后一些陌生人进来,试图提示用户注入代码,并粘贴大段大段的代码。模特说:"我不看这个。"这基本上是在嘲讽他们,但 Peter 仍然不太有信心。第一晚就引起了很多人的兴趣,然后他就把它关掉了。他上床睡觉,睡了大约十个小时,醒来后发现有800条消息,而且他的智能体在 Discord 上回复了每一条消息。他当时吓坏了,好像又把它关掉了。

他把每一条都仔细阅读了一遍,后来冷静了下来,因为它实际上并没有做任何恶意的事情,它没能把 mysoul.md 文件导出来。不是说一定可以做到,Peter 相信快速注射是可能的,但这并不像人们想象的那么容易。从整体上看,它的表现实际上达到了预期。

Peter 犯的最大错误是他禁用了它,但忘记了他实际上还有一个 LaunchDaemons。LaunchDaemons 的主要功能是如果程序崩溃或被终止,它会重新启动,因为需要可靠的服务。他当初把它建成一个可靠的服务,结果没考虑到这一点,就把它关掉了,结果在他睡觉的五秒钟后它又重新启动了。现在他明白了,而且现在他也加入了沙盒功能,所以智能体能出现在他的 Mac Studio 里,他称之为"城堡",然后把它放进了一个小容器里。

当 AI 被困在空容器里,它自己造了一个 cURL

这些模型真的很有创意。Peter 第一次创建容器的时候,创建了一个 LPN Docker 容器,但里面几乎什么都没有。他跟模型说:"嘿,你能看看这个网站吗?"模型说:"这里连 cURL 都没有,什么都没有。"Peter 说:"要有创意。"

于是它就建起来了。它自己的工具?它只是基于自己的 cURL 构建,但使用了一些 TCP 套接字,然后有一个 C 编译器,它构建了一个很糟糕的 cURL 版本,这样你就可以访问网站了。而且奏效了。所以说,这些东西真是太有用了,真是不可思议。

Peter 也遇到了一些挑战,人们真的很喜欢关注潜在的安全问题,并期望他从一开始就拥有非常强大的功能,尽管他只是发布了一个开源项目。每当有人问他:"哦,是吗?你能安排我和 CEO、人力资源部或者我团队的其他成员见面吗?"他总是觉得好笑。他心想:"这只是我躲在洞穴里搞黑客活动而已。"

但这就是矛盾之处——这是任何人类都不可能做到的,任何一个人类。现在有了维护者,也收到了 PR,但本质上这个项目是他自己搭建的。即使在一年前,这也是不可能的,没有先例可循,类似的东西一个人就能造出来。所以根本不可能,他们甚至都没考虑过这一点。

我的 GitHub 去年有九万行代码提交,秘诀是我改用 Codex 了

关于生产力,很多开发者都好奇 Peter 的生产力怎么会这么高。仅去年一年,他就有超过120个项目贡献了九万条代码。但有趣的是,过去一年在 GitHub 活动图表上开始时非常白,然后变成浅绿色,到了秋季,大约在10月、11月,就变成了深绿色。对,事情就是这样——他改用 Codex 了。

就像每一代 AI 一样,它们变得越来越好。但不仅仅是智能体变得更好了,工具也变得更好了,而且,他对如何在他的工作流程中处理这个问题的理解也提高了。有些人仍然用老方法编写软件,而老方法终将被淘汰。然后他们尝试,他们称之为"氛围编码"。Peter 认为"vibe coding"是一种贬义词。他们尝试人工智能,但他们不明白人工智能也是一种技能。

就像你拿起吉他,你第一天不可能弹得很好,所以他们会有不好的体验,然后他们就会想"哦不,这行不通"。但如果你把它当作玩乐来对待,你就必须学习。Peter 现在有一种直觉,感觉哪个提示会奏效,以及需要多长时间。如果需要更长时间,他会反思,哦,也许我犯了个错误,或许我的建筑设计有问题,我的思路有问题,或许还有其他原因。

就像写代码一样,如果你写代码时感觉"哦,这自然而然地融入了我的架构"或者"哦,这是我在对抗系统",而这需要时间。Peter 说他的设置也过于复杂了,他称之为"代理陷阱"——从你第一次接触这项新技术,到真正高效地运用它,很多人陷入其中,试图对他们的设置进行超级优化。它实际上并不会让你更高效,但会让你感觉自己效率更高。

他之前发布的那篇博客文章引起了很大的争议,但他只是像对话一样去谈论它。就像你的模型一样,它实际上并不是结对编程,这是不一样的,这是一场对话。他基本上就是告诉它他想要什么。他总是会问模型:"你有什么问题吗?"好像总有问题似的。但默认情况下,该模型经过训练只是为了解决你的问题,然后只会做出一些假设。默认假设可能并不总是最佳假设,尤其要记住,它是用大量代码(包括很多旧代码)训练的。

"您有什么问题吗?"这是一个非常重要的问题。人们没有意识到,模型通常是从一张白纸开始的,因为它们的学习方式与我们不同。就像每次新会话一样,"我对这个代码库一无所知,我只能搜索并找到你要求我查找的小细节,然后尝试解决问题"。但他们通常看不到事情的全貌。如果要正确地做到这一点,你的脑海中必须有一个完整的画面,而且你必须稍微帮助模型,激励它看看这里,看看那里。Codex 更擅长先进行全面审视。

Peter 采用的是一种非常非常基础的方法,他甚至都不用工作树,只有1到10的选项,基本上就是这样。保持简单有助于他更专注于实际问题,所以他甚至不想处理工作树的分支,他只是专注于不同的问题。理想情况下,项目规模越大,事情就越容易,这样你就可以专注于那些不会互相冲突的不同事情了。

我现在甚至都不看代码就直接发布,因为大多数代码都很枯燥

Peter 还曾说过一句名言:他现在甚至都不看代码就直接发布代码了。情况发生了什么变化?大多数代码都很枯燥。就像大多数代码一样,它只是将一种数据形状转换成另一种数据形状,最终用户要么看到它,要么跳转到其他地方。所以就像大多数代码一样,它写道,我是。他对它写的内容有相当不错的理解,这就足够让他喜欢它了。

他看到了这条数据流,然后发现,好吧,就像他脑海中对它所创造的东西的心理模型,与它所创造的东西大致相同。没错,他之前是团队的领导者,手下有很多软件工程师。这也意味着你需要接受他们不会编写出与他想要的完全相同的代码。最终,你应该优化代码库,使智能体能够做到最好,但这并不总是与人类能够做到最好相同。

这也意味着要接受代码可能并不完全符合他的预期,或者说并不完全符合他的编写方式,然后他可以推动模型朝着那个方向发展。但很多时候,我们可以用很多不同的方式来构建事物,所以具体采用哪种方式往往并不重要。如果出现性能问题,你就集中精力解决这个问题,你让它变得更好。

代码的价值以及对待代码的方式也在发生很大的变化,对待开源的方式也在发生变化。OpenClaw 现在有大约2000个未解决的 PR,他们都疯了。在人工智能出现之前,你必须阅读所有这些 PR(Pull Request,公共关系请求),因为其中创建的代码是有价值的。但现在有时他会把它称为"提示请求",而不是"拉取请求",因为拉取请求背后的想法或意图比代码本身更重要。

实际上,有时候他处理公关稿花费的时间比他自己处理要长,因为他对该模型的信任度远高于对一位他从未听说过、而且之前也没有任何交流过的外部贡献者的信任度。所以他需要再仔细研究一下。但是,如果他看到一个 PR,他会问模型的第一个问题是:"你是否理解 PR 的意图?"因为他根本不在乎代码,他关心的是这个人究竟想要解决什么问题。

这更像是一个问题,这是我尝试提出的解决方案。但首先,很多人仍然不知道如何让渡代理人,而且通常这只是一个非常局部的解决方案,因为他们的脑海中并没有整个系统。难点在于,这个小小的新功能如何融入到我的整个系统中?或者说,这个小小的改动可以,这个小小的改动确实解决了一个小问题,但这真的是正确的改动吗?

这很可能是一个系统性或架构性问题。所以这个模型其实非常好,如果你和它进行对话,然后我说好的,现在开始构建这个,它就会开始构建这个。所以他问模型,它的意图是什么?这是最优解吗?有时它会说"是",但大多数时候它会说"否"。然后他会开始探究最佳的解决方案是什么。这算是一个建筑学问题吗?这是否是消息处理方面的问题?是否仅影响 WhatsApp?但或许也跟 Signal 有关?那么我们是否应该用更普遍的方式来解决这个问题?这是新功能吗?我们真的需要新功能吗?所以有时候这些讨论会持续十分钟、十五分钟。

他用"像"这样的语气,因为这就像你和一位非常聪明的同事交谈一样。语音发送令牌比打字发送令牌更容易。当他心情好的时候,他就会使用一个斜杠命令,例如 len(PR),这样就解释了整个过程,比如,创建一个分支,进行所有更改,然后合并 PR。他想创建一个社区,所以他尽量还是会注明创建者的名字,尽管这样做比他自己写要花费更多的时间。但他很感激大家想要参与其中。

我希望找到平衡点:让我妈妈能安装,同时保持可玩性

现在,有了这么多围绕着这个项目的贡献者,Peter 对 OpenClaw 的未来发展有什么愿景?他希望找到一个平衡点,既要方便他妈妈安装,又要有趣且易于破解,但这很难做到。大多数你喜欢的开源项目,下载软件包就行了。但很长一段时间以来,他的默认安装方式是:克隆、构建、运行。然后,源代码就直接保存在磁盘上,代理程序就位于源代码内部,并且能够感知源代码。如果你不喜欢任何东西,你只需向代理发出指令,它就会像真正的自我修改软件一样自行更改。

所以很多以前从未给他发过 PR 的人都给他发了 PR,这也是为什么它更像是一个紧急请求,因为他们缺乏对如何构建持久软件的理解。与此同时,全世界或者说整个安全行业都在关注这件事,这既有趣又有点令人沮丧,因为它忽略了一些细微差别。

Peter 专门准备了一个网络服务器,最初他把它构建出来是为了调试,后来把它做得美观一些,但它只能在你的网络,在你信任的网络中访问。但由于它也应该像黑客的天堂一样,所以你可以选择如何改变这一点。因为有些人的设备配置很奇怪,或许他们使用了类似 Ngrok 的工具,或许使用了反向代理。所以他不想限制它。

但现在有些人竟然把它放到公开的互联网上,即使他在一份秘密文件中大声疾呼,请不要这样做。不是这样的,它不是用来做这个的。然后安全人员指出,哦,是的,它没有登录限制,你知道,它没有在公共互联网上所需的所有功能。他当时就想,是啊,我当初建造它的时候可没那个目的。但由于它是可配置的,因此它完全符合 CVSS 10.0 标准。他在这方面遇到了一些困难,但是现在,他聘请了一位安全专家。

他明白他无法阻止人们以非预期的方式使用它,所以他现在的主要重点是支持所有这些用例,并帮助人们避免搬起石头砸自己的脚。这就是开源的魅力所在,人们可以接受它,并提出你甚至没有想到的想法。是啊,这就是它的魅力所在,也是它的疯狂之处。

给欧洲开发者的话:用玩乐的心态去对待它,你会比以往任何时候都更受欢迎

把镜头拉远一点,或许可以暂时超越 OpenClaw。这周 Peter 跟很多开发人员聊过了,他们会问:像 Peter 这样的人,怎么会想出这么多好点子呢?Peter 究竟是如何迸发出如此多的创意的?Peter 说他不知道是否有答案,或者这更多是出于自己的好奇心。更像是意识到现在一切都变得容易了。

所以即使他找到一个开源软件,它可能可以解决他70%的问题,他也会自己把它做出来,这在一年前是绝对不可能的。现在他只要输入指令,它就会出现在第二个屏幕上,然后 Codex 就能正常工作了。Peter 和主持人都来自欧洲,当他们离开旧金山回到欧洲时,很多开发者和工程师还没有接受 Codex 和代理工具。

Peter 给出的第一个建议总是:用玩乐的心态去对待它。建造你一直想建造的东西。如果你至少有点建造的欲望,那么你脑海里肯定有想要建造的东西,就像,只是玩耍一样。你必须以轻松的心态来看待这件事,因为就像英伟达的首席执行官说过,在短期内你不会被人工智能取代,你会被使用人工智能的人取代。谁比你更擅长使用它呢?

但如果你的身份认同是"我想创造东西",那么你就会明白这一点。我想解决问题。如果你能力强,如果你聪明,你将比以往任何时候都更受欢迎。对于那些拥抱这些工具、培养好奇心,并真正能够将任何想法变为现实的开发者来说,这是一个绝佳的时代,就像 Peter 用 OpenClaw 完成所有这些伟大的项目一样。

Peter 认为一年之内这件事就会爆发,2026年将会是很有意思的一年。主持人说这是绝妙的结尾,Peter 表示感谢,和他在一起的时光很美好。OpenAI 的全体成员都非常喜欢他的工作,非常乐意支持像他这样的建筑商。说实话,他对整个开发者社区来说都是真正的榜样。大家迫不及待地想看看他接下来要做什么。



关于这次访谈的组织者

Builders Unscripted 是 OpenAI 官方出品的一档访谈类视频节目/播客。这是一档由 OpenAI 制作的系列节目,专注于邀请优秀的开发者(builders)来分享他们的创业故事、开源项目经验以及使用 AI 工具的心得。

第一期的嘉宾是 Peter Steinberger——OpenClaw 项目的创始人。在节目中,他讲述了自己如何从做了十三年 PDF 框架的老程序员,转型成为 AI 智能体领域的先驱,以及他如何使用 Codex 等 AI 工具在九个月内创造出引发全球开发者关注的 OpenClaw 项目。

从节目形式来看,Builders Unscripted 采用非剧本化的对话方式("unscripted" 即即兴、无剧本之意),由 OpenAI 团队主持,深入探讨开发者的真实创作历程、技术洞察和对未来的展望。这类内容与 OpenAI 支持开发者社区、推广 AI 编程工具(如 Codex)的战略方向高度契合。