生物黑客、AI医疗

开源Qwen3-14B蒸馏多种表观遗传时钟：统一生物语言与推理

#AI医疗 #DDD泛在语言UL #AI提示上下文工程 #DeepSeek时刻

2026-04-11 7K banq

单一大模型开始吞掉“衰老时钟”整个赛道！研究提出将多种衰老时钟知识蒸馏进单一大模型，通过多模态训练与强化优化，实现跨数据类型统一推理能力，在年龄预测与蛋白生成任务中超越传统专用模型，推动AI向一体化生物研究系统演化。

期刊级别：bioRxiv 预印本（未同行评审）
作者背景：港股英矽智能Insilico Medicine人工智能药物研发公司团队，长期从事AI药物设计与衰老生物学研究

传统衰老时钟是一堆分裂的小工具，每个工具只管自己那一摊。

现在这家公司把这些工具的知识直接灌进一个大模型里，让一个模型同时干所有活。

这件事情的意义不在于又多了一个模型，而在于整体生物架构发生变化。

过去每一种生物数据都要单独建模，现在变成一个统一模型直接吃DNA methylation、proteomics、RNA表达、临床指标等多种数据，最后还能给出预测和生成能力。

之前是工具箱模式，现在开始变成全能打工人模式。
以前是十个专家坐一排，现在是一个人戴十顶帽子。这个人还不抱怨加班，甚至越干越猛。

第二层意思更狠：这个模型不仅能预测年龄，还能生成蛋白质组合，还能做癌症预后，还能做死亡风险预测。

这就好比本来只让一个学生算数学题，结果发现这人顺便还能写作文、做化学实验、还会画画，最后校长说一句，那干脆你把整个学校都管了吧。

这种能力跨度让传统研究方法直接傻眼。一个模型内部同时处理多个生物层级，从分子到表型，从预测到生成，全部打包搞定。

传统衰老时钟的问题像拼乐高结果少零件

传统年龄时钟aging clock的问题不是精度，而是结构。每个模型都只会一件事，而且只认一种数据。

DNA methylation模型只看CpG位点，蛋白质模型只看蛋白表达，临床模型只看血液指标。每一个模型都像一个死脑筋选手，只认自己那一套数据格式。研究人员想换一种数据，就得重新训练一个模型。

这种结构导致研究成本直接爆炸，像点外卖结果每个菜都要单独开一家店。一个团队往往同时维护七八个模型，每个模型都需要单独的数据预处理、训练流程、验证标准。

更尴尬的问题是解释能力。模型可以告诉年龄偏大，但说不清为什么。模型输出一个数字，比如预测年龄比实际年龄大五岁，然后就没有然后了。

研究人员只能自己去做差异分析、通路分析、图网络分析，最后人工拼凑解释。模型负责出题，人类负责写作文，分工极其离谱。

这种局面下，模型像一个黑盒子，扔进去数据，吐出来数字，中间发生了什么没人说得清。

研究人员花大量时间做后验分析，效率极低。

还有一个隐形问题，多模态整合几乎不可行。因为数据不完整，机器学习方法又不擅长处理缺失值。每个患者的数据集里，可能只有DNA methylation数据，蛋白质数据缺一大半，RNA数据完全不存。

传统模型遇到缺失值直接崩。每加一个模态就要额外成本，要么补数据，要么设计复杂的插值方法。

这个结构决定了规模一大就崩。数据越丰富，整合难度指数级上升，最终谁也搞不定。

Agent智能体方案看起来聪明其实只是调度员

有人尝试用AI agent来解决问题，把LLM当调度员，让它调用各种工具。

这个思路听起来很高级，像是老板坐在办公室指挥专家团队。LLM收到一个问题，比如预测这个人的生物学年龄，然后LLM决定调用哪个衰老时钟工具，拿到结果后再汇总输出。表面上看，系统变智能了，能自动选择工具了。

但问题是老板不懂业务，只负责转话。LLM根本不理解DNA methylation和蛋白质表达之间的关系，它只知道调用A工具返回数字，调用B工具返回另一个数字。

工具还是原来的工具，偏差还是原来的偏差。每个专用模型依然只认一种数据，依然有各自的系统性误差。

Agent只是把多个工具的输出拼在一起，没有解决任何根本问题。问题没有被解决，只是包装更精致。

更关键的问题在于，LLM并没有真正理解生物学。它只是把结果汇总，然后用自然语言复述。就像考试抄答案，字写得漂亮，但完全不知道题目在问什么。

一个患者问为什么我的衰老速度比实际年龄快，Agent只能复述模型的输出，说DNA methylation age比实际年龄大3岁，但说不清这3岁意味着什么，是什么生物学过程导致的。

所以这个方向的瓶颈很清晰，系统是拼装的，知识是割裂的，推理是假的。

真正的突破叫做蒸馏所有衰老模型进一个脑子

这项工作的核心技术叫aging clock distillation。操作非常直接，把各种衰老时钟的知识转成prompt加推理过程，然后喂给大模型训练。

具体来说，每个专用衰老时钟模型在处理数据时，内部有一套计算逻辑。研究人员把这套逻辑拆解成文本形式的推理步骤。比如一个DNA methylation年龄预测模型，输入某个CpG位点的甲基化水平，输出年龄预测值，中间的加权计算过程被翻译成自然语言描述。把所有专家的经验整理成题库，让一个学生刷题刷到爆炸，最后变成全科天才。

训练分两步走。

第一步是SFT，supervised fine-tuning，用大量数据教模型基本能力。这一步给模型喂了76万条样本，超过10亿tokens。

模型学会从各种生物数据中预测年龄、预测死亡率、预测癌症预后。

第二步是RFT，reinforcement fine-tuning，用奖励机制逼模型做对结果。模型每做一个预测，系统会拿真实标签对比，预测对了给正奖励，错了给负奖励。模型为了拿高分，疯狂调整内部参数。这套流程像补课班加考试系统，先讲课，再疯狂刷题，再用成绩打脸。

关键点在于，模型没有任何特殊结构改造。没有专门的生物模块，没有特殊token，没有额外预测头。就是一个普通Qwen3-14B，硬生生学会了生物学任务。

这就很离谱，相当于一个普通学生通过刷题学会了医学、化学、统计学，还顺便会写论文。

研究团队没有给模型开任何后门，没有预置任何生物学知识。模型从零开始，纯粹靠数据驱动，自己学会了跨模态的生物推理。这说明大模型的通用学习能力被严重低估了。

数据规模直接堆到离谱程度

训练数据规模达到76万条样本，超过10亿tokens。这个数字什么概念，相当于一个人每天读一万个字，连续读两百七十多年。涉及38个任务，覆盖DNA methylation、proteomics、transcriptomics、临床数据。每种数据都设计多种prompt形式，还加入语义变化、同义词替换、推理链。比如同一个DNA methylation数据集，研究人员设计了十几种不同的提问方式，有的直接问年龄，有的先问甲基化模式再问年龄，有的要求模型输出推理步骤。

这一步的本质是让模型见过各种出题方式，避免死记硬背。

模型如果只见过一种提问格式，换种问法就不会了，那说明它根本没学会，只是记住了答案。通过大量prompt变体，模型被迫学习真正的生物逻辑，而不是格式匹配。还有一个关键操作，严格按样本划分训练和测试。

防止模型偷看答案，这点非常关键，否则结果毫无意义。研究团队确保同一个人的数据不会同时出现在训练集和测试集里。模型在测试时遇到的全是没见过的个体，这才算真本事。

性能结果直接打破旧体系

在Longevity Bench测试中，这个模型在7个任务里拿了4个第一。而原始Qwen3-14B连有效输出都做不到。原始模型拿到生物数据直接懵，输出的内容跟问题毫无关系，有时候甚至输出乱码。

这说明性能提升完全来自训练，而不是模型规模。不是模型变大了，是训练方法对了。

在DNA methylation年龄预测中，SFT后误差5.91年，RFT后降低到4.34年，直接超过Horvath经典模型的4.61年。Horvath模型从2013年开始就是黄金标准，十几年没人超越，现在被一个通用大模型干翻了。

这件事情的含义很简单，专用模型开始被通用模型反超。过去大家都觉得专用模型精度高，通用模型精度低，现在这个信念被砸碎了。蛋白质数据也类似，误差7.9年，达到专业模型水平。更狠的是还能生成蛋白质组合，Jaccard指标超过所有前沿模型。

模型不仅能判断哪些蛋白质跟衰老相关，还能直接生成一组蛋白质，这组蛋白质的组合模式跟真实衰老样本高度一致。

这一步已经不是预测，而是构造生物结构。模型像学会了蛋白质的语法，能自己写出符合语法的句子。

一个模型开始统一多个生物层级

这个模型的真正价值在于跨模态一致性。传统方法每个模态独立，互相不通。DNA methylation模型不知道蛋白质模型在干什么，RNA模型跟临床模型各说各话。

现在一个模型内部统一表示。模型在训练过程中被迫找到一种内部表征，同时解释DNA甲基化数据、蛋白质数据、RNA数据、临床数据。

这带来一个非常关键的能力，可以从部分信息推断整体。比如拿到一份血液样本，只有蛋白质数据，没有DNA甲基化数据，传统蛋白质模型只能硬猜。

新模型可以借助训练时学到的DNA甲基化与蛋白质之间的关系，用蛋白质数据反推甲基化模式，再做出更准的预测。

这类似人类经验迁移，学过物理再学化学会更快。模型见过DNA甲基化跟年龄的关系，也见过蛋白质跟年龄的关系，当只给蛋白质数据时，模型能自动调用从DNA甲基化数据中学到的年龄模式。

实验结果已经出现这个迹象，蛋白数据少，但表现依然强。模型在只有50个蛋白质特征的情况下，预测精度依然超过传统专用模型用几百个特征的效果。

这种跨模态迁移能力，传统模型永远做不到，因为传统模型从设计之初就锁死在一个模态里。

单体模型对抗工具拼装的系统性优势

工具拼装系统的问题在于，每个工具都有假设前提和上下文。

DNA methylation模型假设CpG位点的甲基化水平线性加权就能预测年龄；蛋白质模型假设特定蛋白的表达量独立贡献。

这些假设互相冲突，系统无法统一。

一个工具说这个样本衰老快，另一个工具说衰老慢，Agent调度员没有能力解决冲突，只能把两个结果都列出来。

单体模型的优势在于，所有知识在同一参数空间。模型内部没有硬性的假设边界，所有特征通过神经网络自动学习相互关系。训练过程中自动对齐，形成内部一致性。

这就像一个人自己思考 vs 一群人吵架。一个人会形成逻辑闭环，一群人只会开会到天亮。

单体模型在推理时，DNA methylation特征和蛋白质特征在同一个向量空间里交互，模型自己决定哪个权重高哪个权重低。

不需要人工设计融合规则，不需要假设特征之间独立。模型从数据中直接学到，某些DNA甲基化位点跟某个蛋白质表达量强相关，同时跟年龄强相关。

这种协同效应在拼装系统里根本实现不了，因为每个工具只看到自己的数据，看不到全貌。

从预测工具走向科研伙伴的关键一步

研究的最终目标不是预测，而是解释。

模型需要从分子层推到表型层，并说明原因。一个医生不会满足于模型说这个患者衰老快，医生想知道哪个通路出问题了，哪个蛋白质异常了，应该干预什么靶点。

下一步重点是强化推理能力，让模型解释为什么变老。

这一步才是真正困难，因为生物系统复杂且高度依赖上下文。同一个基因突变，在一个人身上加速衰老，在另一个人身上可能没影响，因为遗传背景不同、环境因素不同。

不过已有方向很明确，增加RFT，增加任务，扩大数据规模。

该公司研究团队计划加入更多推理任务，比如给模型一个分子图谱，要求模型一步步推导出衰老表型。

每一步推理都要输出中间结果，像数学证明题一样写清楚过程。模型如果推理错了，RFT会扣分，模型被迫修正推理链。

这种训练方式让模型不仅知道答案，还知道答案怎么来的。

一个能解释自己推理过程的模型，才配叫科研伙伴。目前模型还做不到完美解释，但方向已经踩准了。

药物研发管线开始向一个模型全包演化

研究中提到一个极具冲击力的方向，prompt-to-drug。目标是从靶点发现到临床设计全部由一个模型完成。

过去流程是靶点发现、分子设计、动物实验、临床试验，每一步都有独立系统，数据不互通，标准不统一。一个靶点从发现到进入临床平均需要十年。

未来流程是一个模型贯穿所有步骤。模型直接吃疾病数据，输出候选分子，再输出动物实验方案，再输出临床试验设计。这就像从流水线变成一个超级工厂。

已有案例，TNIK抑制剂开发成功进入临床阶段。该Insilico Medicine公司团队用AI从头设计了一个肺纤维化药物，从靶点发现到临床前候选化合物只用了18个月，成本是传统方法的十分之一。

这个药物现在已经进入二期临床试验。说明AI已经开始影响真实药物研发。

而衰老领域更复杂，因为衰老不是单一疾病，是全身性系统退化。

但逻辑一样，一个模型如果能同时理解DNA methylation、蛋白质、RNA、临床数据，就有能力设计针对衰老的干预方案。

研究团队已经在探索用这个模型生成衰老相关靶点，再生成对应的小分子药物。

总体趋势

模型正在从回答问题升级为理解生命系统。过去AI做的是分类和回归，输入数据输出标签。

现在AI开始构建内部世界模型，理解分子、细胞、组织、器官之间的关系。

这种升级意味着AI不再是一个工具，而是一个合作者。研究人员可以跟模型对话，问如果抑制某个蛋白质，甲基化模式会怎么变，死亡率会怎么变。模型给出预测，并附上推理过程。这才是真正的变革，从被动应答到主动推理，从单点工具到统一智能。

一句话总结：大模型正在从“回答问题”升级为“理解生命系统”。