Biomni智能体给生物研究加上了算力外挂，直接操控GPU集群！

#AI智能体Agent #AI基础设施

2026-03-05 6K banq

Biomni智能体通过构建定制化高性能计算环境，让生物医学AI获得与研究人员同等的算力权限。该系统采用灵活抽象架构，允许智能体在预配置环境中编写shell命令而非调用固定API，支持GPU集群、TB级参考数据库和异步任务调度，解决了生物信息学工具依赖冲突、资源需求波动等核心痛点，实现了从笔记本电脑到数千倍算力弹性扩展的无缝衔接。

每个搞过生物信息学的人都经历过那种绝望时刻。你兴冲冲地打开一个基因组组装工具，以为自己的MacBook Pro能扛得住，结果风扇转得跟直升机起飞似的，屏幕开始卡顿，最后弹出那个让人心碎的提示："内存不足"。这时候你才意识到，自己试图用一台办公电脑去处理需要几百GB内存的任务，就像试图用自行车拉火车车厢一样荒谬。

Biomni智能体的设计团队早就看透了这一幕。他们知道，真正的生物医学研究不是在做PPT，而是在跟海量数据搏斗。一个典型的结构生物学任务可能需要同时调用AlphaFold、ChimeraX和GROMACS，这些工具不仅需要GPU加速，还要加载TB级别的参考数据库。把这些东西塞进一台笔记本电脑，相当于试图把一头大象塞进冰箱，而且还不关门。

所以Biomni做了一个关键决策：给智能体配一个"外挂大脑"。这个外挂不是简单的云存储，而是一整套高性能计算基础设施，专门用来处理那些能让普通电脑崩溃的任务。当智能体遇到算力瓶颈时，它可以无缝切换到这套系统，获得数千倍的计算能力提升。这就像给赛车手配了一个氮气加速装置，平时不用，关键时刻一按按钮就能起飞。

为什么要造这个"算力外挂"

Biomni智能体平时运行在一个沙盒环境里，这个环境大概跟一台普通笔记本电脑差不多强，预装了很多常用的生物信息学工具。对于大部分日常任务，这个配置完全够用。但生物信息学的残酷之处在于，你永远不知道下一个任务会不会是个"怪兽"。

有些基因组组装器需要几百GB内存，有些结构生物学工作流需要一整队GPU协同作战。如果给每个智能体会话都预配这些资源，那成本会高到离谱，而且99%的时间这些资源都在闲置。这就像为了应对每年一次的搬家，平时每天都开着一辆大货车上下班，显然不现实。

Biomni的解决方案是"按需租用"。智能体只在需要时才调用HPC资源，用完即释放。这种弹性架构让资源利用率大幅提升，同时也让智能体具备了处理极端任务的能力。更重要的是，这种设计隔离了那些难搞的生物信息学软件。有些生物信息学工具没法通过pip或conda安装，环境依赖还经常冲突。与其在一个环境里硬塞所有东西，不如给每个工具配一个独立的"公寓"，互不打扰。

参考数据库：那些让硬盘哭泣的TB级文件

生物信息学领域有个特殊的存在叫"参考数据库"。这些文件是计算生物学工具分析数据时的必备参考资料。有些工具，比如AlphaFold，需要TB级别的参考数据库才能运行。做AI的朋友可以把它理解为模型权重，但比模型权重更麻烦的是，这些文件不是训练出来的，而是从各种生物数据库下载的。

下载这些文件是个噩梦。有时候需要几天时间，中间网络一断就得重来。Biomni为了解决这个问题，提前把常用的参考数据库预置在一个高速共享文件系统上。这就像在图书馆里把常用参考书放在柜台旁边，而不是让读者每次都要去地下室仓库找。

这个预置策略极大地加速了HPC的响应速度。智能体不需要等待下载，可以直接开始计算。对于研究人员来说，这意味着从提出假设到获得结果的时间大幅缩短。原本可能需要等一周的数据准备，现在几分钟就能搞定。这种体验提升是质的飞跃，让研究者可以专注于科学问题本身，而不是跟下载进度条较劲。

智能体如何跟HPC"对话"

Biomni智能体可以在任务执行的任何阶段调用HPC资源，它知道哪些计算生物学工具已经在HPC里配好了环境。但它不需要记住每个工具的细节，那会把上下文撑爆。相反，它只记住基础信息：工具名称，以及如何获取更多细节。这种分层记忆策略让智能体能把注意力集中在当前任务上，而不是被海量工具文档淹没。

当智能体需要某个工具时，它可以按名称或类别搜索。比如搜索"结构生物学"，系统会返回AlphaFold、ChimeraX、GROMACS、OpenFold等工具的详细信息。这些详细信息就像给人类看的操作手册，包含使用示例、命令行参数说明、调试注意事项。这种设计几乎总能激发前沿大模型产生合理的使用方式，即使这个计算生物学工具根本没出现在模型的训练数据里。

一旦智能体理解了工具用法，它就会通过HPC启动工具。跟标准生物信息学API不同，智能体自己编写完整的命令行参数，并且能看到命令运行的完整输出。这两点对模型适应意外故障或特殊用法至关重要。如果命令失败了，智能体可以看到错误日志，分析问题，然后调整参数重试。这种反馈循环让系统具备了强大的自我纠错能力。

异步架构：让智能体学会"多线程思考"

当HPC任务提交后，它在后台异步运行，系统会调度一个"通知智能体"的回调函数。任务完成时，这个回调自动触发，告知智能体任务状态。如果智能体正在活跃状态，通知直接注入当前会话；如果智能体处于空闲，系统会唤醒它，然后从断点继续工作。

Biomni还建了一个HPC任务监控面板，让研究人员能实时查看运行中的任务。可以查看实时状态、随时检查日志、取消异常任务。如果任务被取消，回调机制立即通知智能体，智能体据此调整后续工作流。

这种异步设计解决了两个关键问题。首先，智能体不需要阻塞等待HPC任务完成，可以继续处理其他事情或跟用户交互。其次，长时间运行的任务不会因为智能体沙盒超时而中断。有些HPC任务要跑几小时甚至几天，如果智能体一直守着，可能会因为会话超时而前功尽弃。异步架构让任务和智能体生命周期解耦，实现了真正的"后台计算"。

架构选择的哲学：灵活 versus rigid

Biomni团队面临的最有趣决策是：给智能体多大程度的灵活性。具体有三个选项。选项A是刚性抽象，LLM调用预实现和验证好的生物信息学包API。选项B是灵活抽象，LLM在预配置环境里运行任意命令，但只能访问一组受限环境和使用说明。选项C是无抽象，LLM完全自管理基础设施，相当于给智能体一个独立的AWS账户。

团队最终选择了灵活抽象。这意味着有一个预配置和测试好的生物信息学工具列表，但智能体自己编写在环境里运行的shell命令。为了帮助智能体写对命令，每个环境都有详细的使用指南。

在这种模式下，如果智能体选择链式执行，可以在同一个HPC环境里运行多个命令。比如Kraken2的输出经常被Bracken立即分析。因为智能体自己写命令，它可以这样调用：kraken2 [...] && bracken [...]。这种灵活性是刚性API无法比拟的。

灵活抽象的韧性体现在它能处理失败情况，甚至是超出其范围的问题，比如内存不足错误。它支持长尾用例的能力也让它比刚性API更有用。随着LLM能力不断提升，这种灵活抽象的价值会持续增加，直到智能体能有效自管理更复杂的基础设施和环境。

从API设计到基础设施实现

确定抽象层级后，团队开始构建API。他们设计了六个程序化工具：工具搜索、提交HPC任务、检查任务状态、查看任务日志、获取任务结果、取消活跃任务。这里重点介绍工具搜索和提交HPC任务。

工具搜索底层调用一个API，搜索已测试工具的注册表。当Biomni搜索工具时，向HPC API的/v1/tools发送GET请求。收到结果后，Biomni知道要渐进式解析，因为usage字段可能特别消耗token。

提交HPC任务时，智能体发送POST请求到HPC API的/v1/jobs来启动作业。请求中的command值由智能体根据使用指南编写。这种灵活性胜过刚性API：如果作业失败，智能体可以检查日志并重写命令来修复问题或调试环境。

当然这种API也有缺点。无效参数需要更长时间才能失败，智能体可能使用一组完全不合理的参数组合。但总体上，它仍然比刚性API工作得更好，因为它的故障韧性和对特殊工具用法的支持，这些在刚性API里默认会被阻止。

应对规模化挑战：从阻塞到异步

随着工具使用量开始规模化，团队构建了两个功能来保持HPC的响应性和可靠性。驱动这两个功能的两个反复出现的问题：智能体停下来等待HPC任务完成，阻塞了会话进度；有些HPC任务运行数小时或数天，这些长任务带来了新的故障模式。

智能体可能在数小时的用户交互和上下文压缩后，忘记正在运行的HPC任务的存在。HPC任务可能超出智能体沙盒超时限制，扰乱HPC生命周期。

为了解决这些问题，团队重新设计了HPC系统为异步优先，并引入了智能体通知回调机制。这种架构下，智能体在HPC任务完成时收到通知。这消除了智能体执行循环中的阻塞行为，并在需要时自动重新激活智能体沙盒。因为HPC任务不再阻塞会话，研究人员可以在计算工作负载后台运行时继续与Biomni交互，甚至可以离开会话而不中断任何正在进行的任务。

这种向异步事件驱动模型的转变帮助团队在规模化时保持HPC的响应性和可靠性，用户体验也与真实世界研究工作流更契合。

AWS基础设施的四支柱

在基于AWS的HPC执行器上，有四个关键组件。第一是经过测试的容器镜像，提供可复现的软件环境。第二是预下载的参考数据库。第三是输入输出文件的暂存区。第四是HPC沙盒的基础设施。

每个通过Biomni HPC可用的生物信息学软件都有一个对应的镜像，经过测试确保可用。这些镜像存储在AWS Elastic Container Registry。这些镜像比典型Web应用镜像大得多，从几百MB到几十GB不等。有些镜像是团队自己构建的，其他则从Biocontainers或BioContainers等社区资源移植并测试。

为了支持不同镜像的最大兼容性，镜像内部没有依赖要求，不需要包含aws、wget、curl等命令行工具。相反，团队有独立的Phylo管理的I/O容器，负责在环境和外部之间移动输入输出数据。

许多计算生物学工具需要参考数据库。小参考数据库（比如小于1GB）可以包含在工具镜像里，但大参考数据库（比如6TB）远超合理包含在镜像里的阈值，单独下载镜像就要花半天时间。

为了解决这个问题，团队使用了一个共享只读文件系统来存储参考数据库。他们选择使用Lustre文件系统，这是一种常用于超级计算机的分布式文件系统。重要的是，Lustre是POSIX兼容的，许多替代品在用于各种生物信息学工具时会出问题，因为有些工具需要只有POSIX兼容文件系统才提供的操作。

这种模式让他们能在共享只读仓库里存储海量参考数据库。许多HPC沙盒可以同时从文件系统读取，这是Lustre良好支持的通路。随着文件系统变大，吞吐量通过添加更多服务器线性增加。

输入输出文件通过引用（比如S3 URI）或请求中的base64编码字符串与Biomni HPC共享。当Biomni HPC完成作业后，它把输出暂时存在S3桶里，供API和智能体检索。

团队使用AWS ECS管理容器生命周期，容器本身部署在他们管理的EC2实例上。当Biomni提交作业到HPC时，内部API把请求匹配到资源合适的沙盒。有时这意味着基于GPU的实例，其他时候可能是带几百GB内存的大型基于CPU的实例。

如果HPC需求突然增加，请求会被放入队列，同时Biomni HPC配置更多资源。他们按需动态配置更多服务器，不像学术HPC里典型的固定服务器集群。

未来展望：当智能体学会自己租服务器

Biomni使用HPC工具来访问与研究人员相同的计算资源：强大的硬件、专业软件、海量参考数据库。通过使用灵活抽象，让智能体在预配置环境中编写shell命令而非调用刚性API，团队找到了与当前前沿LLM良好配合的平衡点，同时为模型改进留出了成长空间。

随着模型能力不断提升，这种架构会展现出更强的适应性。现在的Opus 4.6或GPT 5.3在获得一定灵活性时能完成更多任务，一年前的模型还在跟灵活性挣扎、需要刚性API。可以预见，未来的智能体将能够自管理更复杂的基础设施，甚至自己决定何时需要租用更多服务器、选择什么配置、如何优化成本。

Biomni团队正在继续开发Biomni及其生态系统以扩展能力。这种将AI智能体与高性能计算深度融合的范式，正在重新定义生物医学研究的可能性边界。从笔记本电脑到超级计算机，从手动配置到智能调度，从刚性流程到灵活交互，这场静悄悄的革命正在让科学研究变得更加高效、更加智能、更加人性化。

最终，技术的价值不在于它有多复杂，而在于它能让研究者多专注于科学本身。当智能体学会了"租服务器"，人类就可以更专注于提出好问题，而不是跟命令行参数搏斗。这或许就是AI时代科学研究该有的样子：人负责思考，机器负责计算，各司其职，各尽其能。