当我们谈论智能体基础架构时，我们在谈论什么？

#AI智能体Agent #AI基础设施 #DevOps教程 #Kubernetes平台教程

2026-01-30 4K banq

这篇文章专门写给那些听到"Agent基础设施"就两眼放光的投资人和创业者，更写给每一个想用AI干活却总觉得哪里不对劲的普通用户，咱们今天不搞那些虚头八脑的概念轰炸，就聊聊这个当下最火的技术方向到底在折腾什么，以及为什么你现在用的AI工具总是感觉差点意思。

当程序员们聊Agent Infra时，到底在聊个啥？

先划清边界：这篇文章不聊啥

很多人一听到AI基础设施就想到训练大模型的那些玩意儿，什么预训练、后训练、强化学习、推理加速，这些东西确实很重要，但它们跟今天的话题半毛钱关系没有，训练模型就像造火箭，是一次性的体力活，造完就完事了， surrounding的那些脚手架系统用完就扔，根本不长久。

推理基础设施更惨，已经卷成白菜价了，各大云厂商打得头破血流，产品创新空间几乎为零，这块实在没啥好聊的。

真正让人兴奋的是推理层之上的东西，当AI Agent开始接管越来越多的工作时，一个全新的基础设施层正在诞生，这个层专门服务于Agent的执行和协作，就像操作系统之于软件，这才是今天我们要聊的重点。

现在市面上的Agent智能体长啥样

先对齐一下认知，目前大家默认的Agent智能体架构大概长这样：最核心的是大模型负责思考和决策，外面套一个规划执行器把大目标拆成小步骤，再配上一堆工具技能比如查API、跑代码、搜网页，还得有个记忆库存储历史记录和偏好，最后在一个环境里实际操作。

这些组件循环往复，形成所谓的"Agentic Loop"，现在几乎所有Agent智能体都是这个套路，看起来挺美，对吧，但问题一大堆。

第一个坑：串行执行慢得像蜗牛

就算规划得再完美，大多数Agent干活的方式依然是：走一步→等结果→再走下一步，这种深度串行模式简直让人抓狂。

子Agent之间的任务分配规模小得可怜，强依赖关系让并行化几乎不可能，一个环节卡壳整个流程就瘫痪，探索性任务的效率低到尘埃里。

真正复杂的任务需要大规模探索，比如让Coding Agent自主工作尽可能少打扰人类，关键是让Agent持续尝试各种方案、总结结果、迭代优化，如果探索本身效率低下，整体产出和质量直接崩盘。

第二个坑：Agent之间根本不会协作

市面上有很多Agent协作的尝试，通信协议、协调框架、多Agent系统，MCP和A2A算是比较有名的，但说实话都没成气候。

现在的Agent协作更像是"勉强能说话的Agent"，离真正的协作差十万八千里，A2A协议告诉你应该做什么，但没告诉你怎么做出一个能用的系统，关键的一层始终缺失，目前也没有真正可用的平台。

第三个坑：环境越跑越脏没人管

这个问题超级重要却被严重低估，如果你的系统不能提供原子化、无副作用的操作，那么在复杂任务执行过程中，环境必然会随时间 degraded。

演示Demo里看不出来，但在长链条、多步骤、探索性的工作流中，这几乎是必然的，大多数真实操作都有强副作用，第一步跑完环境就已经被"污染"了，随着操作累积，状态堆叠、错误复合、失败路径和成功路径纠缠在一起，最终Agent根本不知道环境实际处于什么状态。

Coding Agent在这方面表现得太明显了，丢进大型真实代码库，工作区很快就变成垃圾场：随机出现的Markdown文件、风格迥异的日志、临时代码残留、多个子Agent在同一个目录互相覆盖修改，这就是典型的环境退化。

Git Worktree算是个粗糙但有效的 workaround，每个子Agent有自己的隔离工作区，完成任务后只通过diff或PR返回结果，本质是低成本提供隔离的一次性执行环境，方向对但不通用、难扩展。

第四个坑：接触真实世界就露馅

表面上看现在的Agent挺强大，但让它们做点没有干净API的事，比如真正影响物理世界，体验瞬间变得脆弱。

试试让Agent下个单、付个款、订个酒店，技能Skill是个很好的抽象，纯软件场景下工作得很好，但一旦跨进物理世界，抽象就崩了。

真实世界充满隐式状态：登录会话、权限控制、风控策略、UI变动、临时验证、重试机制，人类凭直觉就能理解，但这些很难封装成干净的执行模型，结果Agent每走一步都在环境里留下 residue，这些 residue 又反馈影响未来的规划。

我猜测Skill很快会扩展到软件之外，比如"买菜Skill"或"买咖啡Skill"，只有到那时Claude Cowork这类产品才能真正发挥潜力。

灵光一闪：Skill加环境等于Box

这些问题听起来莫名熟悉，过去十年DevOps和云计算在从单节点转向大规模分布式架构时，遇到过惊人相似的挑战。

早期系统不稳定、难调试、无法复现，单机问题还能忍，上千台机器时状态爆炸直接致命，一开始我们怪人：流程不规范、操作不小心、文档不完整，后来才意识到真正的问题不是人，而是缺乏稳定的执行基础。

容器、不可变基础设施、基础设施即代码、声明式配置，这些没让软件变聪明，但让环境变得可控，失败变得可复现，部署变得可重复且幂等。

看今天的Agent Infra，感觉我们正处于同样的拐点，Agent不缺智商，缺的是稳定可预测的执行环境。

重磅推荐：Box abstraction

我的第一个建议很简单：把Skill和它的执行环境绑定在一起，引入一个新抽象，就叫Box。

一个Box不暴露执行细节，没有外部依赖，没有副作用，封装了Skill引导的操作加上可复现、可丢弃的环境，Box解决单个环境内的执行质量问题，因为是Skill定义的，所以可以组合和继承。

比如"给我买杯咖啡"可以分解成原子Skill：启动浏览器→Box1，登录账户→Box2，下咖啡订单→Box3，组合成"买咖啡"Box，前两个Box甚至可以缓存。

Claude只需要写：box3 = box1 + box2，box3.spawn().buy_coffee('latte')，咖啡买完Box就销毁，不污染本地环境。

跟Docker不同，Box环境是纯的、轻量的、完全语义化的，技术细节不会泄露给上层。

从写代码到操控物理世界

这个方法不仅解决了Coding Agent的"最后一公里"问题，更打通了代码与真实世界影响的鸿沟。

对于"买咖啡"或"找最便宜的酒店并预订"这类操作，等API是不现实的，Box是在尝试把物理世界编码化，一旦有了足够的Box函数，编程物理世界就变成了Agent最擅长的事。

一些前沿创业公司已经在探索类似思路，比如Boxlite和vm0。

Agent界的Kubernetes长啥样

如果每个动作都在可复现、可丢弃的Box里运行，下一个问题自然就是：谁创建它们，谁调度它们，谁监控它们，谁决定重试、放弃还是分叉执行路径。

答案再次来自云基础设施，Kubernetes成了容器编排的标准，那么Agent界的Kubernetes是什么样的。

我相信这是一个模型无关的基础设施层，包含几个核心组件：基于分布式数据库和文件系统的上下文管理器，数据库管结构化共享上下文比如对话历史，文件系统提供协同工作空间。

分支作为一等公民，不是Git分支或worktree，而是系统级机制表示替代执行路径，多个Agent或同一个Agent可以同时探索不同分支，共享目标但不共享副作用，元数据由数据库管理，分支文件系统提供基础。

内网消息通信中心，嵌入每个Box运行时，Box之间可以发消息、发布事件、监听事件。

调度器加生命周期管理器，处理放置、并发、重试、超时、取消和失败策略，容器领域Kubernetes天天干这些，Agent系统里大多数团队还在把逻辑硬编码进框架，重复造轮子且可靠性参差不齐。

最后就是Box运行时本身。

写在最后

说到这里，没必要再强调模型会变得多聪明了，决定Agent能否处理复杂任务的不仅是智商，更是执行是否可控、失败是否廉价、环境是否可替换、协作是否有基础设施支撑。

Agent Infra的挑战并不新鲜，我们在其他领域遇到过，部分解决过，剩下的就是重组这些经验教训，应用到新的运行时层：Agent runtime。

当我们谈论智能体基础架构时，我们在谈论什么？

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道