单一大模型开始吞掉“衰老时钟”整个赛道!研究提出将多种衰老时钟知识蒸馏进单一大模型,通过多模态训练与强化优化,实现跨数据类型统一推理能力,在年龄预测与蛋白生成任务中超越传统专用模型,推动AI向一体化生物研究系统演化。
期刊级别:bioRxiv 预印本(未同行评审)
作者背景:港股英矽智能Insilico Medicine人工智能药物研发公司团队,长期从事AI药物设计与衰老生物学研究
传统衰老时钟是一堆分裂的小工具,每个工具只管自己那一摊。有人把这些工具的知识直接灌进一个大模型里,让一个模型同时干所有活。这件事情的意义不在于又多了一个模型,而在于结构发生变化。
过去每一种生物数据都要单独建模,现在变成一个统一模型直接吃DNA methylation、proteomics、RNA表达、临床指标等多种数据,最后还能给出预测和生成能力。
之前是工具箱模式,现在开始变成全能打工人模式。以前是十个专家坐一排,现在是一个人戴十顶帽子。这个人还不抱怨加班,甚至越干越猛。
第二层意思更狠:这个模型不仅能预测年龄,还能生成蛋白质组合,还能做癌症预后,还能做死亡风险预测。这就好比本来只让一个学生算数学题,结果发现这人顺便还能写作文、做化学实验、还会画画,最后校长说一句,那干脆你把整个学校都管了吧。这种能力跨度让传统研究方法直接傻眼。一个模型内部同时处理多个生物层级,从分子到表型,从预测到生成,全部打包搞定。
传统衰老时钟的问题像拼乐高结果少零件
传统年龄时钟aging clock的问题不是精度,而是结构。每个模型都只会一件事,而且只认一种数据。
DNA methylation模型只看CpG位点,蛋白质模型只看蛋白表达,临床模型只看血液指标。每一个模型都像一个死脑筋选手,只认自己那一套数据格式。研究人员想换一种数据,就得重新训练一个模型。这种结构导致研究成本直接爆炸,像点外卖结果每个菜都要单独开一家店。一个团队往往同时维护七八个模型,每个模型都需要单独的数据预处理、训练流程、验证标准。
更尴尬的问题是解释能力。模型可以告诉年龄偏大,但说不清为什么。模型输出一个数字,比如预测年龄比实际年龄大五岁,然后就没有然后了。研究人员只能自己去做差异分析、通路分析、图网络分析,最后人工拼凑解释。模型负责出题,人类负责写作文,分工极其离谱。这种局面下,模型像一个黑盒子,扔进去数据,吐出来数字,中间发生了什么没人说得清。研究人员花大量时间做后验分析,效率极低。
还有一个隐形问题,多模态整合几乎不可行。因为数据不完整,机器学习方法又不擅长处理缺失值。每个患者的数据集里,可能只有DNA methylation数据,蛋白质数据缺一大半,RNA数据完全不存。
传统模型遇到缺失值直接崩。每加一个模态就要额外成本,要么补数据,要么设计复杂的插值方法。这个结构决定了规模一大就崩。数据越丰富,整合难度指数级上升,最终谁也搞不定。
Agent方案看起来聪明其实只是调度员
有人尝试用AI agent来解决问题,把LLM当调度员,让它调用各种工具。
这个思路听起来很高级,像是老板坐在办公室指挥专家团队。LLM收到一个问题,比如预测这个人的生物学年龄,然后LLM决定调用哪个衰老时钟工具,拿到结果后再汇总输出。表面上看,系统变智能了,能自动选择工具了。
但问题是老板不懂业务,只负责转话。LLM根本不理解DNA methylation和蛋白质表达之间的关系,它只知道调用A工具返回数字,调用B工具返回另一个数字。
工具还是原来的工具,偏差还是原来的偏差。每个专用模型依然只认一种数据,依然有各自的系统性误差。Agent只是把多个工具的输出拼在一起,没有解决任何根本问题。问题没有被解决,只是包装更精致。
更关键的问题在于,LLM并没有真正理解生物学。它只是把结果汇总,然后用自然语言复述。就像考试抄答案,字写得漂亮,但完全不知道题目在问什么。一个患者问为什么我的衰老速度比实际年龄快,Agent只能复述模型的输出,说DNA methylation age比实际年龄大3岁,但说不清这3岁意味着什么,是什么生物学过程导致的。
所以这个方向的瓶颈很清晰,系统是拼装的,知识是割裂的,推理是假的。
真正的突破叫做蒸馏所有衰老模型进一个脑子
这项工作的核心技术叫aging clock distillation。操作非常直接,把各种衰老时钟的知识转成prompt加推理过程,然后喂给大模型训练。
具体来说,每个专用衰老时钟模型在处理数据时,内部有一套计算逻辑。研究人员把这套逻辑拆解成文本形式的推理步骤。比如一个DNA methylation年龄预测模型,输入某个CpG位点的甲基化水平,输出年龄预测值,中间的加权计算过程被翻译成自然语言描述。把所有专家的经验整理成题库,让一个学生刷题刷到爆炸,最后变成全科天才。
训练分两步走。第一步是SFT,supervised fine-tuning,用大量数据教模型基本能力。这一步给模型喂了76万条样本,超过10亿tokens。模型学会从各种生物数据中预测年龄、预测死亡率、预测癌症预后。第二步是RFT,reinforcement fine-tuning,用奖励机制逼模型做对结果。模型每做一个预测,系统会拿真实标签对比,预测对了给正奖励,错了给负奖励。模型为了拿高分,疯狂调整内部参数。这套流程像补课班加考试系统,先讲课,再疯狂刷题,再用成绩打脸。
关键点在于,模型没有任何特殊结构改造。没有专门的生物模块,没有特殊token,没有额外预测头。就是一个普通Qwen3-14B,硬生生学会了生物学任务。这就很离谱,相当于一个普通学生通过刷题学会了医学、化学、统计学,还顺便会写论文。研究团队没有给模型开任何后门,没有预置任何生物学知识。模型从零开始,纯粹靠数据驱动,自己学会了跨模态的生物推理。这说明大模型的通用学习能力被严重低估了。
数据规模直接堆到离谱程度
训练数据规模达到76万条样本,超过10亿tokens。这个数字什么概念,相当于一个人每天读一万个字,连续读两百七十多年。涉及38个任务,覆盖DNA methylation、proteomics、transcriptomics、临床数据。每种数据都设计多种prompt形式,还加入语义变化、同义词替换、推理链。比如同一个DNA methylation数据集,研究人员设计了十几种不同的提问方式,有的直接问年龄,有的先问甲基化模式再问年龄,有的要求模型输出推理步骤。
这一步的本质是让模型见过各种出题方式,避免死记硬背。
模型如果只见过一种提问格式,换种问法就不会了,那说明它根本没学会,只是记住了答案。通过大量prompt变体,模型被迫学习真正的生物逻辑,而不是格式匹配。还有一个关键操作,严格按样本划分训练和测试。防止模型偷看答案,这点非常关键,否则结果毫无意义。研究团队确保同一个人的数据不会同时出现在训练集和测试集里。模型在测试时遇到的全是没见过的个体,这才算真本事。
性能结果直接打破旧体系
在Longevity Bench测试中,这个模型在7个任务里拿了4个第一。而原始Qwen3-14B连有效输出都做不到。原始模型拿到生物数据直接懵,输出的内容跟问题毫无关系,有时候甚至输出乱码。
这说明性能提升完全来自训练,而不是模型规模。不是模型变大了,是训练方法对了。
在DNA methylation年龄预测中,SFT后误差5.91年,RFT后降低到4.34年,直接超过Horvath经典模型的4.61年。Horvath模型从2013年开始就是黄金标准,十几年没人超越,现在被一个通用大模型干翻了。
这件事情的含义很简单,专用模型开始被通用模型反超。过去大家都觉得专用模型精度高,通用模型精度低,现在这个信念被砸碎了。蛋白质数据也类似,误差7.9年,达到专业模型水平。更狠的是还能生成蛋白质组合,Jaccard指标超过所有前沿模型。模型不仅能判断哪些蛋白质跟衰老相关,还能直接生成一组蛋白质,这组蛋白质的组合模式跟真实衰老样本高度一致。这一步已经不是预测,而是构造生物结构。模型像学会了蛋白质的语法,能自己写出符合语法的句子。
一个模型开始统一多个生物层级
这个模型的真正价值在于跨模态一致性。传统方法每个模态独立,互相不通。DNA methylation模型不知道蛋白质模型在干什么,RNA模型跟临床模型各说各话。现在一个模型内部统一表示。模型在训练过程中被迫找到一种内部表征,同时解释DNA甲基化数据、蛋白质数据、RNA数据、临床数据。这带来一个非常关键的能力,可以从部分信息推断整体。比如拿到一份血液样本,只有蛋白质数据,没有DNA甲基化数据,传统蛋白质模型只能硬猜。新模型可以借助训练时学到的DNA甲基化与蛋白质之间的关系,用蛋白质数据反推甲基化模式,再做出更准的预测。
这类似人类经验迁移,学过物理再学化学会更快。模型见过DNA甲基化跟年龄的关系,也见过蛋白质跟年龄的关系,当只给蛋白质数据时,模型能自动调用从DNA甲基化数据中学到的年龄模式。实验结果已经出现这个迹象,蛋白数据少,但表现依然强。模型在只有50个蛋白质特征的情况下,预测精度依然超过传统专用模型用几百个特征的效果。这种跨模态迁移能力,传统模型永远做不到,因为传统模型从设计之初就锁死在一个模态里。
单体模型对抗工具拼装的系统性优势
工具拼装系统的问题在于,每个工具都有假设。DNA methylation模型假设CpG位点的甲基化水平线性加权就能预测年龄,蛋白质模型假设特定蛋白的表达量独立贡献。这些假设互相冲突,系统无法统一。一个工具说这个样本衰老快,另一个工具说衰老慢,Agent调度员没有能力解决冲突,只能把两个结果都列出来。单体模型的优势在于,所有知识在同一参数空间。模型内部没有硬性的假设边界,所有特征通过神经网络自动学习相互关系。训练过程中自动对齐,形成内部一致性。
这就像一个人自己思考 vs 一群人吵架。一个人会形成逻辑闭环,一群人只会开会到天亮。单体模型在推理时,DNA methylation特征和蛋白质特征在同一个向量空间里交互,模型自己决定哪个权重高哪个权重低。不需要人工设计融合规则,不需要假设特征之间独立。模型从数据中直接学到,某些DNA甲基化位点跟某个蛋白质表达量强相关,同时跟年龄强相关。这种协同效应在拼装系统里根本实现不了,因为每个工具只看到自己的数据,看不到全貌。
从预测工具走向科研伙伴的关键一步
研究的最终目标不是预测,而是解释。
模型需要从分子层推到表型层,并说明原因。一个医生不会满足于模型说这个患者衰老快,医生想知道哪个通路出问题了,哪个蛋白质异常了,应该干预什么靶点。下一步重点是强化推理能力,让模型解释为什么变老。这一步才是真正困难,因为生物系统复杂且高度依赖上下文。同一个基因突变,在一个人身上加速衰老,在另一个人身上可能没影响,因为遗传背景不同、环境因素不同。
不过已有方向很明确,增加RFT,增加任务,扩大数据规模。研究团队计划加入更多推理任务,比如给模型一个分子图谱,要求模型一步步推导出衰老表型。每一步推理都要输出中间结果,像数学证明题一样写清楚过程。模型如果推理错了,RFT会扣分,模型被迫修正推理链。这种训练方式让模型不仅知道答案,还知道答案怎么来的。一个能解释自己推理过程的模型,才配叫科研伙伴。目前模型还做不到完美解释,但方向已经踩准了。
药物研发管线开始向一个模型全包演化
研究中提到一个极具冲击力的方向,prompt-to-drug。目标是从靶点发现到临床设计全部由一个模型完成。过去流程是靶点发现、分子设计、动物实验、临床试验,每一步都有独立系统,数据不互通,标准不统一。一个靶点从发现到进入临床平均需要十年。未来流程是一个模型贯穿所有步骤。模型直接吃疾病数据,输出候选分子,再输出动物实验方案,再输出临床试验设计。这就像从流水线变成一个超级工厂。
已有案例,TNIK抑制剂开发成功进入临床阶段。Insilico Medicine团队用AI从头设计了一个肺纤维化药物,从靶点发现到临床前候选化合物只用了18个月,成本是传统方法的十分之一。这个药物现在已经进入二期临床试验。说明AI已经开始影响真实药物研发。衰老领域更复杂,因为衰老不是单一疾病,是全身性系统退化。但逻辑一样,一个模型如果能同时理解DNA methylation、蛋白质、RNA、临床数据,就有能力设计针对衰老的干预方案。研究团队已经在探索用这个模型生成衰老相关靶点,再生成对应的小分子药物。
总体趋势
模型正在从回答问题升级为理解生命系统。过去AI做的是分类和回归,输入数据输出标签。现在AI开始构建内部世界模型,理解分子、细胞、组织、器官之间的关系。这种升级意味着AI不再是一个工具,而是一个合作者。研究人员可以跟模型对话,问如果抑制某个蛋白质,甲基化模式会怎么变,死亡率会怎么变。模型给出预测,并附上推理过程。这才是真正的变革,从被动应答到主动推理,从单点工具到统一智能。
一句话总结:大模型正在从“回答问题”升级为“理解生命系统”。