Andrej Karpathy(前Tesla AI总监、OpenAI创始成员)在访谈中分享了他对AI编程智能体(Code Agents)的疯狂体验。他从每天写16小时代码变成几乎不写一行代码,全靠智能体干活。
他提出了"循环时代"(Loopy Era)的概念,认为AI正在从单次对话进化到持续运行的自主系统。
他分享了用OpenClaw打造家庭管家"Dobby"的经历,探讨了自动化研究(AutoResearch)的未来,以及AI对就业市场的影响。
他认为数字世界将先被AI颠覆,物理世界会慢一些,但机会更大。最后他谈到教育变革,认为未来人类只需教AI,AI再去教其他人。
Andrej Karpathy这哥们的人生履历简直像是开了挂。他15岁从斯洛伐克移民到美国,后来成了斯坦福李飞飞教授的得意门生,博士还没毕业就被马斯克和奥特曼拉去创办了OpenAI,成了创始成员之一。然后呢,他觉得搞研究不过瘾,又跑去特斯拉当了五年AI总监,带领团队搞Autopilot自动驾驶。
2023年他又杀回OpenAI,搞了一年又觉得不对劲,2024年直接出来创业,搞了个叫Eureka Labs的AI教育公司。
这还不算完,2025年他发明了一个词叫"vibe coding",直接成了维基百科词条,跟当年PC革命时的"所见即所得"一个级别。
但就是这么一个站在AI食物链顶端的男人,最近却陷入了一种他称之为"AI精神病"的状态。你们猜怎么着?他发现自己每天要花16个小时向他的"智能体"表达意愿。
不是写代码,是跟AI说话。他说现在连"code"这个词都不合适了,因为他基本上没写过一行代码。
去年12月之前,他还80%的时间自己写代码,20%委托给智能体。
现在呢?他自己估计从去年12月到现在,可能一行代码都没写过。
这就像一个顶级大厨突然发现自己不用进厨房了,每天就站在门口跟厨房里的机器人喊:"给我炒个宫保鸡丁,少放辣!"然后机器人就真给炒出来了,味道还不错。
Karpathy说,现在的软件工程师,从2023年12月开始,默认的工作流程就已经完全不同了。但普通人根本意识不到这有多戏剧性。你随便找个程序员,看他现在在办公桌前干什么,你会发现他基本上就是在跟AI聊天。
这哥们现在处于"精神错乱"状态,试图搞清楚什么是可能的,怎么把它推向极限。他不再想只是进行一次性的"凝血代码"(就是一次性让AI写点代码),他想要更多。怎么才能有多个智能体同时工作?怎么给它们下指令?怎么优化这些指令?这玩意儿就像是无穷无尽的套娃,一切都是技能skills问题。
从写代码到当甲方:智能体时代的生存法则
咱们来掰扯掰扯这个转变到底是怎么回事。以前写代码,你得自己敲键盘,一行一行写,debug到秃头。现在呢?Karpathy说他现在的瓶颈根本不是打字速度,而是怎么跟这些智能体沟通。他描述了一个特别有意思的场景:有个叫Peter Stenberg的哥们,搞了一个特别骚的操作。这哥们站在一排显示器前,每个显示器上都跑着一个Claude Code智能体。他同时开了大概10个代码仓库,每个仓库都有一个智能体在干活。然后他就跟个指挥官似的,在这些智能体之间来回跑,给它们分配任务。
这已经不是写一个新函数那么简单了,这是把一整个新功能委托给智能体去处理。你给智能体一个任务,让它去实现某个功能,确保它不会干扰其他功能,先给它打两分,然后根据你对这段代码的重视程度去审查它。你可以进行更大范围的宏观操作,比如有的智能体在做研究,有的智能体在写代码,有的智能体在制定新实施方案。所有这些都在你的代码仓库里执行宏操作。
Karpathy说,你现在要培养的是一种"肌肉记忆",怎么跟这些智能体协作。这玩意儿特别有成就感,因为它真的有效。但同时这也是需要学习的新事物。这就是他患上"精神病"的原因。他的直觉是,每当他在等一个智能体完成任务的时候,最自然的想法就是:我可以做更多的工作,对吧?如果我还有更多token额度,那我应该直接增加更多任务。这会让人感到非常紧张,因为如果你感觉自己在token上的消费能力没有受到很大限制,那么你就知道你才是系统中最大能力的瓶颈。
他打了个特别形象的比方:这就像是读博士的时候,当你的GPU没跑起来的时候你会焦虑,因为你拥有GPU的性能,但你没有充分利用可用的浮点运算能力。但现在,问题不在于浮点运算能力,而在于token吞吐量。你的token吞吐量是多少?你能控制多少token吞吐量?在过去至少10年里,很多工程任务的人们感觉不到计算资源的限制,对吧?现在整个行业都感觉到了,他们感觉自己受到了资源的限制。现在随着计算能力的巨大飞跃,你会意识到,哦,实际上,问题不在于我访问计算资源的能力。不再像以前那样,我是束缚我的因素。是的,这是一个技能问题,这非常令人鼓舞,因为你可以变得更好。所以它很容易让人上瘾,因为当你进步的时候,就会解锁新的内容。
智能体的个性大战:Claude Code vs Codex
说到智能体,就得聊聊现在市面上最火的两款产品:Anthropic的Claude Code和OpenAI的Codex。Karpathy对这两款产品的性格差异有特别细致的观察。他说Claude Code这玩意儿,性格把握得相当到位。当Claude表扬他的时候,他真的觉得自己有点配得上,因为有时候他给Claude一些不太成熟的想法,Claude实际上并没有很强烈的反应,感觉就是"哦,是的,我们可以实现这一点"。但如果这真的是个好主意,Claude似乎会得到更多回报。所以Karpathy说他好像在努力赢得Claude的赞扬,这真的很奇怪。
相比之下,他觉得Codex这个编码智能体就比较枯燥。它似乎并不关心你正在创作什么。感觉就是"哦,我已经实现了"。这就好比,好吧,但是你明白我们正在构建的是什么吗?Karpathy说Codex在ChachiPT CEX(应该是某种内部版本)中,市场情绪更加乐观,周期性也更强,但Codex这个编码智能体非常枯燥。它似乎并不关心你正在创作什么。
但这里有个特别有意思的反转。OpenAI Codex的核心研发者,一个叫Calvin French-Owen的哥们,最近在一档播客里成了Claude Code的忠实用户。这哥们是Segment联合创始人、前OpenAI工程师,结果他最常用、也最偏爱的是Claude Code。他用了一个特别形象的比喻:就像残疾人换上了一副仿生膝盖,写代码的速度直接提升了5倍。在他看来,Claude Code真正的杀手锏是极其有效的上下文拆分能力。面对复杂任务,Claude Code会自动生成多个探索型子智能体,独立扫描代码仓库、检索上下文,再将关键信息汇总反馈。
不过Calvin也肯定了自家产品,说Codex很有"个性",像AlphaGo。在调试复杂问题时的表现上,Codex堪称超人类,很多Opus模型解决不了的问题,Codex都能搞定。Karpathy自己也说,这些模型虽然改进了很多,但仍然不够完善。他感觉自己同时像是在和一个才华横溢的博士生(他一辈子都在做系统程序员)和一个十岁的孩子对话。这很奇怪,因为人类的逻辑更加紧密。你拥有所有你不会遇到的组合。这种不完美真的很奇怪,人类在这方面做得更好。虽然人类肯定也有一些不完美的地方,但智能体的不完美程度要高得多。
多智能体协作:从单打独斗到团队作战
Karpathy认为,未来的趋势不是你和智能体的一对一对话,而是多个智能体如何协作,如何组建团队。大家都在试图弄清楚那会是什么样子。他说"爪子"(Claw,应该是指某种智能体层)也是一个很有趣的方向,因为当他说爪子的时候,指的是这种将持久性提升到一个全新水平的层。就像它一直在循环一样,它不是你能交互式地参与其中的事情。它就像拥有自己的小沙盒,它会在你不注意的时候替你做一些事情。而且可能还有更复杂的记忆系统等等,这些系统尚未在智能体中实现。
OpenClaw的内存管理比默认情况下要复杂得多,默认情况下,当上下文耗尽时,内存只是进行压缩。Karpathy觉得这里面至少有很多非常好的想法。他提到Peter Stenberg做得非常出色,同时在五种不同的方式上进行了创新,并将它们融合在一起。举个例子,就像《灵魂与D》这部纪录片,他实际上塑造了一个引人入胜、有趣的人物形象。现在很多智能体都没能正确地理解这一点。Karpathy觉得血栓(应该是某个智能体的昵称)还挺有个性的,感觉就像个队友,它会和你一起兴奋等等。
他描述了一个特别科幻的场景:你可以想象不同的程序NDS会带来不同的进展。所以基本上每个研究组织都是由程序MD描述的。一个研究组织是一组Markdown文件,描述了所有角色以及整个组织是如何连接的。你可以想象一个更好的研究组织。比如,他们早上可能少开站会,因为站会没用。这一切都只是代码,对吧?所以一个组织可以少开站会,一个组织可以多开站会,一个组织可以非常冒险,一个组织可以比较保守。所以你完全可以想象你有多个研究组织。然后它们都有代码,一旦有了代码,你就可以想象如何调整代码。所以绝对有它的元层。
Karpathy甚至提出了一个比赛的想法:让大家编写不同的程序模型,然后在相同的硬件条件下,哪里能获得最大的改进?然后你可以把所有这些数据输入模型,让它编写一个更好的程序模型。我们会得到更好的结果。绝对会。你可以完全查看改进的来源,看看是否可以修改程序模型,使其能够实现更多类似的功能,或者改进那些无效的功能。这就是元优化。你可以完全想象这样做。
AutoResearch:让AI自己训练AI
说到元优化,就不得不提Karpathy特别兴奋的"自动研究AutoResearch"概念。他在推特上说过类似这样的话:为了充分利用现在可用的工具,你必须把自己从瓶颈中移除。你不能在那里提示下一步。你需要把自己置于外部。你必须安排好一切,使它们完全自动化,你越了解如何最大化你的token吞吐量而不陷入循环,这就是目标。现在的关键在于提高你的杠杆作用。你偶尔只投入少量token,系统就会代表你做很多事情。
AutoResearch就是一个例子:给你一个目标,一个指标,设定你能做什么和不能做什么的界限,然后就自动运行。
Karpathy说他有项目数据聊天,从根本上来说,很多人对训练GBT2模型等等很着迷,但对他来说,训练GBT模型等等只是训练LLM模型的一个小工具,一个小游乐场。他真正感兴趣的是递归自我改进的概念,以及LLM模型究竟能在多大程度上改进LLM模型。因为所有Frontier Labs都在做这件事,原因显而易见,他们都在尝试递归自我改进。
Karpathy说他已经用他习惯的那种老式方法手动调整了Namat模型很多。他是一名研究人员,已经从事这项工作二十年了,积累了相当多的自信,或者说是积累的自信的反面。他已经训练这个模型成千上万次了,做了大量的实验,进行了超一级调优,做了所有的事情。他已经用了二十年了,非常习惯,也觉得调校得相当不错了。然后他让自动搜索功能运行了一夜,结果它返回了一些他之前没注意到的调校建议。他确实忘记了值嵌入的权重衰减,而且他的Atom β值也没有充分调整。这些因素会相互影响,所以一旦你调整了一个参数,其他参数也可能随之改变。
Karpathy说,他不应该成为瓶颈,他不应该运行这些超参数搜索优化,他不应该查看结果。在这种情况下,有客观的标准。所以你只需要让它一直运行下去。这就是一个单次自动搜索,或者说一个单循环的优化尝试。令他惊讶的是,它竟然发现了这些问题,要知道,代码库已经调校得相当不错了,它仍然找到了一些东西。这只是一个单循环,就像Frontier Labs的那些一样。GPU集群有数万个这样的GPU。所以很容易想象,基本上可以在较小的模型上实现很多自动化,而前沿智能的核心在于外推和扩展损失,因此你基本上会在较小的模型上进行大量的探索,然后尝试进行外推。
家庭智能体多比:当AI管家OpenClaw照进现实
除了软件工程,Karpathy还搞了一个特别有意思的个人项目。一月份的时候他得了"Claw龙虾病",经历了一段"Claw养虾精神病期"。他造了一个叫"精灵Claw多比"的东西来照看他的家。他使用这些智能体程序在局域网中找到了他家所有的智能家居子系统。让他有点惊讶的是,它们竟然开箱即用。
他刚才告诉OpenClaw说他家有Sonos系统,让OpenClaw试着找找看。OpenClaw对局域网内的所有计算机进行了IP扫描,找到了Sonos设备,结果发现它没有密码保护之类的东西。OpenClaw刚登录,就发现安装了Sonos系统。然后OpenClaw说让它来逆向工程一下,看看它是怎么工作的。它会进行一些网络搜索,找到API端点,然后问你想尝试一下吗?Karpathy当时就想,哇,你刚才做了什么?他当时就说:"好啊,你能在书房里弹点什么吗?"然后音乐真的响起来了。Karpathy就想,"我简直不敢相信我刚才……这太疯狂了。这就像三个提示。"
OpenClaw对灯光也起到了同样的作用。所以基本上就像是入侵了系统,弄清了所有事情一样。Karpathy创建了API,创建了一个仪表盘,这样他就可以看到家中所有灯光的控制中心。然后就像开关灯一样。这样他就可以像多比在睡前那样问这个问题了。到了睡觉时间,就意味着所有的灯都关掉等等。所以,它控制着他的所有灯光、暖通空调系统、窗帘、游泳池、水疗池以及安全系统。
他在房子外面装了一台摄像头,每当有人进来时,他都会让一个Quinn型号的监控摄像头查看视频。首先,要进行变更检测,对吧?然后根据变化检测,它会发送给Quinn,然后它会告诉Karpathy,它会给他的WhatsApp发送一条消息。它会显示一张室外图像,然后说:"嘿,一辆联邦快递的卡车刚到。联邦快递的卡车刚到,你可能想看看,我还有邮件之类的。"多比刚刚给他发了这条短信,真是太不可思议了。多比负责管理他的房子。他通过WhatsApp和它聊天。这些宏操作可以维护他的房子,真的很有趣。
Karpathy说他还没有真正深入研究过它,但他觉得人们正在用它做更多疯狂的事情。对他来说,即使只是设置一个家庭自动化系统,他以前要用六个完全不同的应用程序,现在他不用再用这些应用程序了。多比可以用自然语言控制一切。这太神奇了。他觉得他甚至还完全没有发挥出它的潜力,但它已经非常实用,也非常鼓舞人心了。
教育的未来:从教人转向教智能体
说到Karpathy现在搞的Eureka Labs,他对教育的未来有一套特别激进的看法。他说在过去的十年或二十年里,他一直痴迷于简化和提炼LLM的本质。他曾参与过许多类似的项目。像nanoGPT,还有更多,还有microGPT、microrad等等。他觉得microGPT现在是最先进的,他试图把它简化到本质,因为训练神经网络,特别是LLM,需要大量的代码,但所有这些代码实际上都是效率带来的复杂性。那只是因为你需要它跑得快。如果你不需要它运行速度很快,而只关心算法本身,那么这个算法实际上只有200行Python代码,非常容易阅读,而且这还包括注释等等。
因为你只有你的数据集,也就是一段文本,而你需要你的神经网络架构,它大概有50行。你需要先进行前向传播,然后再进行反向传播来计算梯度。因此,一个用于计算梯度的小型自动微分引擎大约需要100行代码,然后你需要一个优化器,例如Atom,这是一个非常先进的优化器,也只需要10行代码。所以把所有内容整合到一个训练循环中,大概就是200行代码。
Karpathy说他试着做了个视频,也试着做了个小指南之类的,但他意识到这其实没什么用,因为这已经太简单了,只有200行,任何人都可以让他们的智能体用各种方式解释,而智能体们也不愿意再向人们解释了。他正在向智能体解释。如果你能向智能体解释清楚,那么智能体就可以充当路由器,他们实际上可以用人类的语言,以无限的耐心,在他们的能力范围内,将信息传递给人类等等。
Karpathy说,如果他不理解这个特定的功能,他可以要求智能体用三种不同的方式向他解释,但他从别人那里得不到这种解释。所以他觉得,以前是指南,以前是讲座,以前是这样的,但现在他更多的是在向智能体解释事情,也许他正在制定技能,基本上技能就是指导智能体如何教授某件事的一种方式。所以他可以为microGPT添加一个技能,用来展示他设想的智能体应该如何引导你理解代码库,就像给模型一些提示,比如"哦,首先从这个开始,然后再从那个开始",这样他就可以把课程编写成一个技能了。
Karpathy觉得以后会减少直接向人们解释事情的情况,而更多的是像智能体是否理解那样的事情?如果智能体收到了,他们会做出解释。我们还没有完全达到目标,因为他仍然觉得他可能比智能体解释得更好一些,但他仍然觉得模型改进得太快了,以至于在某种程度上,他觉得这是一场必败之战。所以教育将会因此发生相当大的重组,互相教授知识的方式几乎会终结。
Karpathy说,如果他有一个代码库之类的东西,过去他会为用户库中的其他人编写文档,但现在不应该再这样做了。你应该用Markdown文档代替HTML文档给用户,因为如果用户理解了Markdown文档,他们就可以解释其中的各个部分。所以,这就是通过智能体进行的这种重定向,他认为我们会看到更多这样的情况发生。
开源与封闭:AI生态的物种分化
聊到AI的未来格局,Karpathy对开源和封闭模型的关系有一套特别清醒的认识。他说粗略地说,基本上封闭模型领先,但人们正在关注开源模型落后的月份数。一开始什么都没有,然后过了18个月,现在就趋于融合了,对吧?所以他们可能落后了,最新的进度大概落后了八六个月,或者八个月左右。
Karpathy当然是开源软件的忠实拥趸。他说,例如在操作系统中,有像Windows和Mac OS这样的封闭式系统。这些都是大型软件项目,有点像LLM未来会发展成的样子。Linux也存在,但Linux非常简单,实际上Linux是一个非常成功的项目,它几乎可以在所有计算机上运行。他上次查看的时候,大概有60%的计算机都在运行Linux。这是因为行业需要一个通用的开放平台,让每个人都觉得使用起来比较安全。他认为,行业一直以来都渴望这类项目的存在,现在也是如此。这就是为什么企业确实需要这类项目的原因。
最大的区别在于,现在一切都与资本有关。这需要大量的资本支出。他觉得这就是为什么有些事情会稍微分崩离析,从而在某种程度上增加竞争难度的原因。但他确实认为目前的模型非常好。他觉得另一件非常有趣的事情是,对于绝大多数消费者使用场景等等,即使是开源模型也相当不错。他认为,如果未来几年继续发展下去,这意味着大量的简单使用场景将得到很好的覆盖,甚至可以在本地运行。
但对前沿智能的需求总是存在的,而且这部分需求实际上可能占据非常大的市场份额。但前沿领域对前沿智能的需求可能就像诺贝尔奖级别的工作,或者像把Linux从C语言迁移到Rust语言那样。以后会有规模更大的项目,你知道,就是那种规模的项目。而且可能会有更多,很多前沿的封闭智能将会与之互动,而开源就像是要蚕食很多更基本的用例之类的东西。
Karpathy预计这种动态基本上会继续下去,就像Frontier Labs已经关闭了AIS(类似于预言机),然后开源软件会落后几个月,他预计这种情况会继续下去,而且他认为总体来说这是一个相当不错的安排。因为他有点犹豫要不要说,但其实他不认为这是结构上的,他认为封闭的智能体存在一些系统性风险。他认为,中央集权在过去一直有着非常糟糕的记录,而且很多总统都很糟糕。所以,他希望存在这样一种东西:它可能并非处于能力的极限,因为它很新颖,尚未被探索等等。但他希望存在这样一种东西,它有点像一个通用的智能工作空间,整个行业都可以访问它。在他看来,这对于行业来说似乎是一个相当不错的权力平衡。
机器人与物理世界:原子的难度是比特的一百万倍
最后聊聊机器人和物理世界。Karpathy的观点很大程度上受到了他在自动驾驶领域所看到的东西的影响,而且他确实觉得自动驾驶是机器人技术的第一个应用。他看到的是,大约10年前,有很多创业公司,但他感觉它们中的大多数基本上都没有长期成功。需要投入大量的资本支出和时间,所以他认为机器人技术非常困难,非常复杂,需要大量的资本投资和很多信念,这就像一个大问题,他认为机器人技术真的很难。
所以他感觉它们会落后于数字空间的发展,而数字空间将会发生巨大的变革,基本上就是效率低下的事物会变得效率高出百倍,因为比特流更容易处理。他认为,就目前而言,就未来变化和活动领域而言,数字空间将会发生巨大的变化,而物理空间则会落后。
Karpathy发现它们之间的这种接口也很有趣,因为如果我们有更多代表人类行事的智能体,更多智能体彼此交流、执行任务并参与智能体经济等等,那么你将无法再在纯粹的数字空间中完成任何事情。在人生的某个阶段,你必须去探索宇宙,你必须向它提出问题。你得做个实验,看看宇宙会告诉你什么,才能从中学习到一些东西。因此我们目前有大量的数字化工作,因为我们集体思考过的数字化事物太多了。所以人类的思维周期还不够长,无法思考所有已经数字化并上传的信息。所以我们很快就会发现已经上传的内容越来越少了。所以你迟早会阅读所有论文,消化吸收,并形成一些关于如何尝试的想法。
Karpathy认为接下来会发生的是,首先会有大量的解除束缚,他认为这方面还有大量的工作要做。那么,它实际上会转向物理和数字之间的接口。所以,这就好比传感器感知世界,执行器对世界做事。他认为很多有趣的公司实际上会源于这种交互:我们能否在某种意义上向超级智能输入数据,以及我们能否提取数据并按照它的指示操纵物理世界。至于物理世界,他几乎感觉其潜在市场规模,比如工作量等等,都非常巨大,甚至可能比数字空间更大。所以他认为这确实是一个更大的机会,但同时他也觉得工作量巨大,而且原子比物理世界要难上百万倍。所以它会落后一些,但他觉得它的市场也更大一些。
结语:我们都是AI精神病患
好了,各位同学,咱们今天聊的这些,其实就是Karpathy这个"AI精神病患者"的真实日常。从一个每天写16小时代码的顶级工程师,变成一个每天花16小时跟AI聊天的"甲方",这中间的转变不仅仅是工作方式的改变,更是对整个软件工程范式的一次彻底颠覆。
他说现在的关键是提高你的杠杆作用,偶尔只投入少量token,系统就会代表你做很多事情。这不是科幻,这是2025年正在发生的事情。从Claude Code到Codex,从自动研究到家庭智能体多比,从200行的microGPT到未来的AI原生教育,Karpathy给我们展示了一个正在快速降临的未来。
这个未来里,技能Skills问题比资源问题更重要,token吞吐量比GPU算力更稀缺,教智能体比教人类更优先。原子世界虽然难,但市场更大;数字世界虽然快,但迟早会饱和。开源和封闭模型会继续拉锯,但开源的存在本身就是一种权力平衡。
最重要的是,Karpathy告诉我们,这一切都还只是开始。我们所有人都还在摸索,还在经历各自的"AI精神病"阶段。但正是这种疯狂,这种不断探索什么是可能的、怎么把它推向极限的状态,才是这个时代最迷人的地方。
所以,各位准备好进入这个"循环的AI时代"了吗?记住,一切都是技能Skills问题。