代码能跑为啥细胞不行?生物界正在复制软件革命的老路
作者背景
Kenny Workman,生物技术与AI交叉领域研究者,关注自动化科研与智能体系统落地
生物智能体不会一上来就当科学家
大家老觉得生物AI智能体就该直接变成白大褂版谢耳朵,自己设计实验、自己写论文、自己拿诺奖。别做梦了。
真实剧本跟软件工程那边一模一样:先当苦力数据分析师,干脏活累活,干到滚瓜烂熟,然后才慢慢长出点科学脑子。
软件智能体两年前连单元测试都改不利索,现在都能自己鼓捣浏览器了。为啥?因为代码这层玩意好验证啊,跑一下就知道对错。生物里面也有这么一层,就是带测量数据的那种分析活儿。谁先把这层智能体整明白了,谁就卡住了下一个十年的脖子。
软件智能体的崛起其实很离谱
往回倒一两年,最乐观的人也觉得AI写代码就是个偷懒工具。让你帮忙格式化一下代码,或者把循环改成列表推导式,甚至生成几个单元测试的壳子,已经算烧高香了。没人觉得它能看懂那种写满三页的需求文档,更别说去改一个十万行的屎山代码,或者做系统级别的架构决策。
但你看现在。这帮智能体直接在公司正经软件里干起来了,而且很多时候是自主干活。我身边那些以前最瞧不上这玩意的老工程师,现在人手开好几个智能体并行跑日常的高风险工作。这变化来得又快又猛,以至于很多人回头看觉得理所当然。
代码这玩意确实好验证。跑一下编译器,对错立现。你还能随时打印变量值或者写文件来检查程序中间状态。这简直就是给智能体练手量身定做的训练场。它们可以写一段代码跑起来,看输出,看报错,然后改,再跑,就这么循环。
但这里有个坑。我们用软件造出来的那些真正有用的东西,远不止是一堆能跑的代码。浏览器、数据库、操作系统,这些东西里面掺和了大量主观的、开放式的工程决策。这些决策很大程度上取决于这个软件要解决什么问题,在哪个领域用。所以单靠“代码可验证”解释不了智能体怎么就能自己造出浏览器来。从通过单元测试到能对并发、缓存、延迟、安全这些系统级问题做决策,这中间差了十万八千里。
一个更合理的解释是,这些智能体在狂练写代码这个程序性技能的过程中,顺便把更高阶的概念也给学会了。道理很简单,你得先能碰到需要这些高阶知识的问题。你连Python函数语法都搞不明白,或者连事件循环都理不清,那确实没法去学怎么给API加限流。
但还有一点更微妙,而且跟生物学的类比特别相关。你对建筑材料有多熟悉,直接决定了你做的上层决策有多靠谱。如果你不懂代码在底层是怎么跑起来的,那你很难在浏览器层面做出好的缓存和渲染决策。底层知识是上层判断力的地基。
生物学论文的结构出卖了它的弱点
聊完软件,咱来看看生物学论文长啥样。现在绝大多数的生物论文都围绕大规模测量实验,结构基本上是固定的。
先挑一个生物模型,比如细胞系、小鼠、类器官,定好变量和对照组。然后从这个模型里产生数据。接着处理这些数据。再对照着前人文献,创造性地质疑和分析结果。最后喊出一个科学结论。
你顺着这个流程琢磨一下,一个智能体如果想自主跑通整个研究,会卡在哪。我跟你赌五毛钱,卡在最开始的数据分析环节。
对检测特定类型实验的数据分析,是智能体必须跨过去的一道坎。只有跨过去,后面那些科学推理环节才有用武之地。科学推理任务长得特别像软件工程里的高级决策,复杂程度差不多,而且都重度依赖底层对数据解析的程序性技能。所以,存在一个厚厚的、基于分子数据分析的底层,这个东西能像脚手架一样撑起科学思维,就跟代码能撑起复杂的软件工程判断力一个道理。
光说抽象没意思,咱上真实例子。
一个真实实验:55个自闭症患者的脑类器官
咱们来看一篇论文,作者是Gordon那帮人。他们从55个自闭症患者身上提取了成纤维细胞,这是一种很普通的结缔组织细胞。然后用山中因子把这些细胞重编程回干细胞状态,再让每个干细胞长成一个脑类器官。他们核心的问题很简单:每个病人身上不同的突变,到底会不会影响自闭症的发展路径。
这项目拿来当靶子特别合适,结构、规模、难度都挺典型,就是那种我们以后想让智能体去啃的硬骨头。
你一眼就能看出来,这个问题根本不存在什么全局可验证性。想搞出一个标准答案来打分?门都没有。什么样的答案算正确都不清楚。真要有个金标准,那也得依赖几十个中间观察结果,而且这些结果本身很多都没有科学共识。比如类器官怎么算质控合格,细胞类型怎么标注,基因表达模块怎么定义,吵都吵不清楚。
但是我们可以把这篇论文拆成更小、边界更清晰的步骤。有些步骤甚至能搞出局部可验证的结果。这就好玩了。
第一步是细胞系质控。智能体要把全基因组测序和RNA测序的数据拿来比对,找出每个干细胞系里的突变,同时做质量控管。这一步怎么打分?就看智能体最后扔掉了哪些细胞系,以及为每个细胞系恢复出了哪些突变。作者做了同样的事,直接拿去比就行。
第二步是差异表达分析。智能体要盯着不同细胞系,看随着类器官发育,哪些基因的表达量随时间变化最剧烈。打分也简单,看智能体找出来的基因跟作者找出来的重了多少。
第三步是用CRISPRi干扰。在实验室里真正把这些基因给敲低,然后智能体分析由此产生的Perturb-seq数据,判断哪些基因被抑制之后确实产生了功能影响。打分还是看跟作者结论的一致性。
你看,每一步分析都是从原始测量数据出发,最后指向一个定义清晰的科学产出。科学家最后要回答那个核心的大问题,所有这些步骤都是必经之路。
智能体能把生物研究拆成这种实实在在的分析步骤,而且每一步都踩在前一步的肩膀上。那么,在智能体吭哧吭哧处理完这些数据之后,还剩下哪些高阶任务需要搞定呢?
比如要跨不同检测类型的数据来交叉验证结果。像普通转录组加单细胞转录组,或者免疫沉淀质谱加Perturb-seq。还得能对比不同技术批次和不同生物学变量下的表达数据。技术批次比如测序通道、分化批次,生物学变量比如捐赠者、细胞系。另外还得会翻文献,找已有的生物学证据,比如已知的疾病关联或者候选基因的功能。
这些任务就特别像所谓的AI科学家该干的事。它们需要跨数据类型的综合能力,需要在不确定条件下做判断,还得懂点先验的生物知识。但这些任务并没有明显比软件智能体已经开始做的那些开放式工程判断更复杂。实际门槛就是匹配一个靠谱科学家的判断力:从现有的测量数据、实验控制、分析选项和文献出发,推理出当前证据最支持哪个结论。
而且因为这种生物学判断是经验性的,智能体必须能从充满噪声的数据里推理,还得深刻理解分析过程中每一步的假设。所以,培养科学判断力这件事,离不开对这些分析步骤的熟练掌握。这两者是绑死的。
举个例子。智能体搞差异表达分析的时候,得懂里面那些统计选择意味着什么。像哪些样本被包含进来,基因怎么过滤,协变量比如测序通道怎么被剔除,这些选择都能改变最终结果。一个智能体可能得出结论说某个基因下调了。这个结论可能是因为这个基因确实跟突变一起变化,也可能是因为这个基因恰好捕捉到了数据里的一个隐藏变量。这个隐藏变量可能是发育成熟度、细胞类型组成、测序深度,甚至是实验室某台设备的温度。
再举个例子,元数据怎么构建的,这里面坑更大。如果智能体想找调控发育的基因,那它得搞明白数据里的细胞类型标签到底是怎么来的。我们怎么定义早期发育中的细胞,这个定义方式直接影响结果。那些在这个细胞群里表达量很低的基因,可能是真正的生物学信号,也可能仅仅是因为我们用了一些主观的标记基因,把细胞群定义错了,把它们排除在外了。一个真正理解了这些假设的智能体,才有能力做出准确的科学决策。而且如果它自己亲手做的分析,这些细节在它的上下文里还是热乎的,新鲜得很。
生物学跟软件比,吃了两个大亏
生物学是经验科学里最后的前沿阵地之一。研究对象是活生生的生物,尺度从埃到米,横跨化学和物理的各种现象。我们用来测量它们的仪器和实验方案,本身就处在一刻知识的边界上,带着一堆噪声和误差。
这种复杂性意味着,跟软件的类比至少在两个地方会断裂。
第一个大亏,生物学的金标准太难定义了。就算是一个看起来边界很清晰的任务,比如给细胞聚类、标注细胞类型、或者找差异表达基因,也几乎不存在唯一的正确答案。这本身就是个活跃的研究领域,一堆人在搞各种方法和工具,试图约束模糊性,并且用可验证的方式把科学意图给建模出来。这件事现在依然非常非常难搞。
第二个大亏,一旦我们离开了数据分析这个层面,反馈信号就会变得非常弱。在数据分析这个圈子里,反馈回路看起来还跟软件有点像:跑代码,看输出,循环。但对于更高阶的科学推理来说,真正的反馈需要对数据生成过程有一定的控制权。我们很可能先用那种像代码一样构建和打分的人造金标准取得不少进展,但在这个过程中我们其实控制不了真实的数据生成回路。真正的自主科学,需要跟正在研究的那个真实基质直接互动反馈。
所以顺序就很清楚了。智能体必须先发育出数据分析能力,至少要先能干点正经活。而准确的科学推理,很大程度上又依赖于对数据分析的深度理解。在这个前提下,我们得看看在数据生成的大趋势下,数据分析到底会变得多重要。
分子数据爆炸会让分析层变成最值钱的环节
分子数据生成是指数级增长的,而且速度越来越快。在实验室做完实验之后发生的那些生物工作,占比越来越高。
顺着这个趋势往下推,瓶颈会从生产测量数据慢慢转移到解读这些数据上。这不是会不会发生的问题,而是什么时候发生的问题。未来的数据集会把过去所有生物数据存量都碾成渣,而人类解读数据的能力根本跟不上这个增长速度。解决方案只能是智能体上生产线,可靠地把数据转化为科学结论,部署到目前数据是瓶颈的那些生物技术研发流程里。
很多人觉得计算生物学就是那种狭窄的分析工具,比如序列拼接软件或者差异表达软件。这些东西确实是这个领域的重要贡献,但计算生物学真正的内涵,应该是广泛地用计算机来解决生物学里的各种问题。
好多年来,各种组件一直在为生物学的计算化转型做准备。分子数据飞速积累,实验室自动化程度越来越高,还有迭代的设计-构建-测试-学习工作流。但这些进步一直没有转化成一个明显的、总体的研发生产率跃升。
现在情况好像要变了。整个行业正在围绕AI和计算重组,包括怎么设计实验、怎么解读数据、怎么管理研发流程、怎么做决策。计算机正在变成智能体观察、理解、最终操控生命系统的那个界面。
这些智能体的第一批有用部署,不会是那种全自动的AI科学家,而是嵌入到真实研发流程里的分析协作者。这是真正的需求所在,也是它们最先能练熟的本事。生物学从来不缺有趣的新想法。真正有经济价值的智能体工作,都集中在计算机能推动研发循环进步的地方,在科学家们今天所在的位置上给他们打下手,而不是直接取代他们。
感谢Aidan Abdulali, Anirudh Narsipur, Brandon White, Kyle Giffin, Alfredo Andere, Aashay Sanghvi, David Yang, Hannah Le, Lada Nuzhna, Tim Proctor对本文思路的修订和贡献。