这篇文章专门写给那些听到"Agent基础设施"就两眼放光的投资人和创业者,更写给每一个想用AI干活却总觉得哪里不对劲的普通用户,咱们今天不搞那些虚头八脑的概念轰炸,就聊聊这个当下最火的技术方向到底在折腾什么,以及为什么你现在用的AI工具总是感觉差点意思。
当程序员们聊Agent Infra时,到底在聊个啥?
先划清边界:这篇文章不聊啥
很多人一听到AI基础设施就想到训练大模型的那些玩意儿,什么预训练、后训练、强化学习、推理加速,这些东西确实很重要,但它们跟今天的话题半毛钱关系没有,训练模型就像造火箭,是一次性的体力活,造完就完事了, surrounding的那些脚手架系统用完就扔,根本不长久。
推理基础设施更惨,已经卷成白菜价了,各大云厂商打得头破血流,产品创新空间几乎为零,这块实在没啥好聊的。
真正让人兴奋的是推理层之上的东西,当AI Agent开始接管越来越多的工作时,一个全新的基础设施层正在诞生,这个层专门服务于Agent的执行和协作,就像操作系统之于软件,这才是今天我们要聊的重点。
现在市面上的Agent智能体长啥样
先对齐一下认知,目前大家默认的Agent智能体架构大概长这样:最核心的是大模型负责思考和决策,外面套一个规划执行器把大目标拆成小步骤,再配上一堆工具技能比如查API、跑代码、搜网页,还得有个记忆库存储历史记录和偏好,最后在一个环境里实际操作。
这些组件循环往复,形成所谓的"Agentic Loop",现在几乎所有Agent智能体都是这个套路,看起来挺美,对吧,但问题一大堆。
第一个坑:串行执行慢得像蜗牛
就算规划得再完美,大多数Agent干活的方式依然是:走一步→等结果→再走下一步,这种深度串行模式简直让人抓狂。
子Agent之间的任务分配规模小得可怜,强依赖关系让并行化几乎不可能,一个环节卡壳整个流程就瘫痪,探索性任务的效率低到尘埃里。
真正复杂的任务需要大规模探索,比如让Coding Agent自主工作尽可能少打扰人类,关键是让Agent持续尝试各种方案、总结结果、迭代优化,如果探索本身效率低下,整体产出和质量直接崩盘。
第二个坑:Agent之间根本不会协作
市面上有很多Agent协作的尝试,通信协议、协调框架、多Agent系统,MCP和A2A算是比较有名的,但说实话都没成气候。
现在的Agent协作更像是"勉强能说话的Agent",离真正的协作差十万八千里,A2A协议告诉你应该做什么,但没告诉你怎么做出一个能用的系统,关键的一层始终缺失,目前也没有真正可用的平台。
第三个坑:环境越跑越脏没人管
这个问题超级重要却被严重低估,如果你的系统不能提供原子化、无副作用的操作,那么在复杂任务执行过程中,环境必然会随时间 degraded。
演示Demo里看不出来,但在长链条、多步骤、探索性的工作流中,这几乎是必然的,大多数真实操作都有强副作用,第一步跑完环境就已经被"污染"了,随着操作累积,状态堆叠、错误复合、失败路径和成功路径纠缠在一起,最终Agent根本不知道环境实际处于什么状态。
Coding Agent在这方面表现得太明显了,丢进大型真实代码库,工作区很快就变成垃圾场:随机出现的Markdown文件、风格迥异的日志、临时代码残留、多个子Agent在同一个目录互相覆盖修改,这就是典型的环境退化。
Git Worktree算是个粗糙但有效的 workaround,每个子Agent有自己的隔离工作区,完成任务后只通过diff或PR返回结果,本质是低成本提供隔离的一次性执行环境,方向对但不通用、难扩展。
第四个坑:接触真实世界就露馅
表面上看现在的Agent挺强大,但让它们做点没有干净API的事,比如真正影响物理世界,体验瞬间变得脆弱。
试试让Agent下个单、付个款、订个酒店,技能Skill是个很好的抽象,纯软件场景下工作得很好,但一旦跨进物理世界,抽象就崩了。
真实世界充满隐式状态:登录会话、权限控制、风控策略、UI变动、临时验证、重试机制,人类凭直觉就能理解,但这些很难封装成干净的执行模型,结果Agent每走一步都在环境里留下 residue,这些 residue 又反馈影响未来的规划。
我猜测Skill很快会扩展到软件之外,比如"买菜Skill"或"买咖啡Skill",只有到那时Claude Cowork这类产品才能真正发挥潜力。
灵光一闪:Skill加环境等于Box
这些问题听起来莫名熟悉,过去十年DevOps和云计算在从单节点转向大规模分布式架构时,遇到过惊人相似的挑战。
早期系统不稳定、难调试、无法复现,单机问题还能忍,上千台机器时状态爆炸直接致命,一开始我们怪人:流程不规范、操作不小心、文档不完整,后来才意识到真正的问题不是人,而是缺乏稳定的执行基础。
容器、不可变基础设施、基础设施即代码、声明式配置,这些没让软件变聪明,但让环境变得可控,失败变得可复现,部署变得可重复且幂等。
看今天的Agent Infra,感觉我们正处于同样的拐点,Agent不缺智商,缺的是稳定可预测的执行环境。
重磅推荐:Box abstraction
我的第一个建议很简单:把Skill和它的执行环境绑定在一起,引入一个新抽象,就叫Box。
一个Box不暴露执行细节,没有外部依赖,没有副作用,封装了Skill引导的操作加上可复现、可丢弃的环境,Box解决单个环境内的执行质量问题,因为是Skill定义的,所以可以组合和继承。
比如"给我买杯咖啡"可以分解成原子Skill:启动浏览器→Box1,登录账户→Box2,下咖啡订单→Box3,组合成"买咖啡"Box,前两个Box甚至可以缓存。
Claude只需要写:box3 = box1 + box2,box3.spawn().buy_coffee('latte'),咖啡买完Box就销毁,不污染本地环境。
跟Docker不同,Box环境是纯的、轻量的、完全语义化的,技术细节不会泄露给上层。
从写代码到操控物理世界
这个方法不仅解决了Coding Agent的"最后一公里"问题,更打通了代码与真实世界影响的鸿沟。
对于"买咖啡"或"找最便宜的酒店并预订"这类操作,等API是不现实的,Box是在尝试把物理世界编码化,一旦有了足够的Box函数,编程物理世界就变成了Agent最擅长的事。
一些前沿创业公司已经在探索类似思路,比如Boxlite和vm0。
Agent界的Kubernetes长啥样
如果每个动作都在可复现、可丢弃的Box里运行,下一个问题自然就是:谁创建它们,谁调度它们,谁监控它们,谁决定重试、放弃还是分叉执行路径。
答案再次来自云基础设施,Kubernetes成了容器编排的标准,那么Agent界的Kubernetes是什么样的。
我相信这是一个模型无关的基础设施层,包含几个核心组件:基于分布式数据库和文件系统的上下文管理器,数据库管结构化共享上下文比如对话历史,文件系统提供协同工作空间。
分支作为一等公民,不是Git分支或worktree,而是系统级机制表示替代执行路径,多个Agent或同一个Agent可以同时探索不同分支,共享目标但不共享副作用,元数据由数据库管理,分支文件系统提供基础。
内网消息通信中心,嵌入每个Box运行时,Box之间可以发消息、发布事件、监听事件。
调度器加生命周期管理器,处理放置、并发、重试、超时、取消和失败策略,容器领域Kubernetes天天干这些,Agent系统里大多数团队还在把逻辑硬编码进框架,重复造轮子且可靠性参差不齐。
最后就是Box运行时本身。
写在最后
说到这里,没必要再强调模型会变得多聪明了,决定Agent能否处理复杂任务的不仅是智商,更是执行是否可控、失败是否廉价、环境是否可替换、协作是否有基础设施支撑。
Agent Infra的挑战并不新鲜,我们在其他领域遇到过,部分解决过,剩下的就是重组这些经验教训,应用到新的运行时层:Agent runtime。