表观遗传时钟大翻车!科学家质疑衰老时钟临床价值:定义模糊、验证不足


科学家质疑衰老时钟临床价值,指出其定义模糊、验证不足、忽略不确定性,主张转向直接健康预测与大型健康模型。

衰老时钟真的有用吗?科学家掀桌质疑:别再拿“生物年龄”忽悠人了!

2025年12月,一篇来自俄罗斯斯科尔科沃科技学院、人工智能研究所和彼得罗夫斯基俄罗斯外科研究中心的重磅论文在《npj Aging》上提前发表(尚未最终编辑),标题直击灵魂:“我们真的需要衰老时钟吗?”

作者团队由Dmitrii Kriukov领衔,包括Evgeniy Efimov、Mikhail S. Gelfand、Alexey Moskalev与Ekaterina E. Khrameeva五位顶尖科学家。他们用近万字篇幅狠狠质疑当前火热的“生物年龄预测模型”——也就是我们常说的“衰老时钟”(Aging Clocks)——是否真的有价值。

这篇论文不仅回顾了从DNA甲基化到面部图像、血浆蛋白乃至X光片的各种“时钟”构建方式,还尖锐指出:这些模型存在定义模糊、临床验证不足、忽略预测不确定性三大硬伤。

更致命的是,科学家们直言:既然我们能直接预测死亡、多病共存、功能衰退等真实健康结局,为何还要绕道一个抽象、不可观测、甚至可能误导用户的“生物年龄”?这篇文章像一盆冰水,浇在了正热火朝天的长寿科技赛道上——如果你最近正沉迷于测甲基化年龄、做抗衰血检、甚至投资相关AI健康公司,建议你先冷静三分钟,把这篇拆解看完。

什么是“衰老时钟”?从科学神器到网红爆款的奇幻漂流

所谓“衰老时钟”,简单说就是用机器学习算法,通过分析你的一堆数据(比如血液里的DNA甲基化位点、尿液代谢物、常规体检指标,甚至你自拍的脸),来估算你“身体的真实年龄”——也就是“生物年龄”,和你身份证上的“实际年龄”区分开。

如果你40岁但生物年龄只有35,那恭喜你,你比同龄人更年轻;但如果你40岁生物年龄却50,那可能就该警惕了。这套逻辑听起来很科学,也极富传播力,因此近年来在学术界和消费市场双双爆火。从Horvath第一代甲基化时钟,到Levine的PhenoAge、Lu的GrimAge,再到用AI看脸估龄的FaceAge、用X光片预测年龄的Radiological Clock,各种“时钟”层出不穷。它们不仅被用于基础研究,还开始进入临床试验,甚至被一些高端体检机构包装成“抗衰评估神器”,价格动辄上万。

然而,这篇论文却泼了一盆冷水:这些花里胡哨的“时钟”,真的靠谱吗?真的比几十年来医生用的“CHADS2中风评分”“Frailty虚弱指数”甚至你自己知道的“三高指标”更有用吗?

生物年龄,是个“幽灵概念”:看不见摸不着,全靠算法自说自话

论文最犀利的观点之一,就是指出“生物年龄”本身是个“幽灵”——它不是自然界中可直接观测的实体,而完全依赖于构建它的模型。

换句话说,每个衰老时钟都在定义自己的“生物年龄”。你用GrimAge测出来是45岁,用PhenoAge测出来可能是48岁,用面部AI估出来又可能是50岁——那到底哪个是真的?没人能回答。

作者引用了生物年龄的四条“理想标准”:
(1)比实际年龄更能预测剩余寿命;
(2)比实际年龄更能预测慢性病发病时间;
(3)能区分同龄健康人和病人;
(4)单位必须是“年”。

但现实中,绝大多数时钟只验证了其中一两条,甚至只验证了“能不能准确猜出你几岁”——这恰恰是最大的误区!因为一个能精准猜年龄的时钟,在法医学上有用,但在健康管理上毫无意义。这叫“生物标志物悖论”:你越精准拟合实际年龄,就越失去了作为健康指标的价值。

真正的健康指标,应该是在“同龄人中找出更危险或更健康的那个”,而不是复述你早就知道的生日。

临床试验翻车实录:同一个干预,不同“时钟”给出完全相反结论

论文用真实临床试验数据狠狠打了“时光派”的脸。

比如著名的CALERIE试验——这是目前最严谨的长期热量限制研究,参与者坚持两年摄入比正常少25%的热量。
结果发现:DunedinPACE(衡量衰老速度的时钟)和PhenoAge(基于血液化学)显示显著减缓衰老;但GrimAge、Horvath、Hannum这些同样号称“第二代”的时钟却完全没变化!

更魔幻的是,Horvath时钟在另一项研究中居然显示“肥胖会加速肝脏衰老”,但在CALERIE中对热量限制却没反应。

这意味着什么?意味着这些“金标准”级别的衰老时钟,彼此之间根本不一致,甚至互相矛盾。

如果连顶级科学家都搞不清哪个时钟可信,那普通消费者花大钱测出来的“生物年龄”,到底是在反映健康,还是在反映算法的随机性?

论文作者尖锐指出:现在很多临床试验其实不是在用“时钟”评估干预效果,而是在用临床试验“测试时钟本身”——这根本本末倒置!我们是要靠工具理解世界,而不是用世界来调试工具。

四条健康预测路径大PK:专家打分、AI直连、衰老时钟、大型健康模型

作者系统梳理了预测健康结局的四种路径,并毫不客气地给衰老时钟打了低分。

第一条是“专家共识打分法”——比如麻醉前用的ASA评分、房颤患者用的HAS-BLED出血风险评分,甚至老年医学中的“虚弱指数”(Frailty Index)。这些方法透明、可解释、经过长期临床验证,缺点是依赖专家经验,可能忽略隐藏变量。

第二条是“AI直接预测”——用机器学习直接从原始数据预测死亡、住院、失能等结局,跳过“生物年龄”这个中间变量。这种方法在癌症预后、ICU死亡率等领域已广泛应用,优势是充分利用数据、不依赖主观权重,缺点是“黑箱”难解释。

第三条才是“衰老时钟”——先用数据预测一个“生物年龄”,再用这个年龄去预测健康结局。作者认为,这纯属多此一举:既然AI能直接预测死亡风险,为何非要绕个弯,引入一个模糊、不可靠的中间变量?

第四条则是未来之光——“大型健康模型”(Large Health Model, LHM),灵感来自大语言模型(LLM)。LHM将人的一生看作一连串健康事件(如“高血脂→动脉硬化→心梗→死亡”),通过海量纵向数据学习事件间的时序依赖关系,不仅能预测未来,还能模拟干预效果。论文甚至提到,已有研究证明,基于LLM推导的“生物年龄”在预测慢性病和死亡率上,已经碾压传统甲基化时钟。

未来属于LHM,而不是过时的“单一时钟”。

衰老时钟的两大范式:压缩信息 vs 整合风险——后者才可能是出路

面对质疑,作者并没有全盘否定,而是提出了一条可能的救赎之路:“第二范式”。

他们将现有衰老时钟分为两类。
第一范式,是把成百上千个生物标志物(如甲基化位点)压缩成一个数字——即“生物年龄”。这一范式的问题在于信息损失严重,且与健康结局脱节。

第二范式,则是先用各种模型(可以是AI,也可以是专家评分)分别预测多种老年病(如心梗、糖尿病、痴呆)和全因死亡的风险,再把这些风险“反推”成一个统一的“生物年龄”。比如,如果一个人的心血管风险、癌症风险、失能风险都相当于60岁人群的平均水平,那他的生物年龄就是60岁。这种定义下,“生物年龄”不再是神秘的黑箱,而是多种疾病风险的综合体现,完美契合“老年医学之父”Blagosklonny的名言:“所有老年病的总和,就是最好的衰老标志物。”

作者认为,只有转向第二范式,衰老时钟才可能具备真正的临床价值。但这也意味着,未来的“时钟”将不再是单一模型,而是由多个预测器组成的“集成系统”,甚至直接建立在LHM之上。

被严重忽视的致命问题:不确定性!所有“时钟”都该报误差范围

论文反复强调一个被99%的衰老时钟研究忽略的问题:预测不确定性。

你用血糖仪测血糖,它会显示“6.1±0.2 mmol/L”;血压计也会有误差范围。但几乎所有衰老时钟只给你一个冷冰冰的数字,比如“你的生物年龄是47.3岁”——却从不说这个数字有多可靠。

作者区分了两种不确定性:
一种是“数据内在噪声”(aleatoric uncertainty),比如同一个人重复抽血测甲基化,结果会有微小波动;
另一种更危险的是“模型外推风险”(epistemic uncertainty)——比如你用基于“健康成人血液”训练的时钟,去测“体外重编程的干细胞”,这根本就是“跨域预测”(out-of-domain),结果极可能荒谬。

论文举了个触目惊心的例子:有些研究用人类血液时钟去评估细胞重编程的“返老还童”效果,得出惊人结论。

但作者警告:这就像用“人体虚弱指数”去评估一台冰箱的健康状况——完全错位!他们提出铁律:“只在训练域内使用时钟”——血训练的,就只用于血;成人训练的,就别用于胚胎或动物。更理想的是,每个预测都附带置信区间,比如“你的生物年龄是47.3岁(95% CI: 42.1–52.5)”,否则极易引发用户过度焦虑或盲目乐观。

如果目标是理解衰老机制?那“时钟”可能跑偏了方向

除了临床应用,衰老时钟还被寄予厚望:帮助人类理解“衰老的本质”。

但作者指出,绝大多数时钟只是在“找相关性”,而非“找因果”。比如,第一代甲基化时钟可以用完全不同的甲基化位点组合,达到同样精准的年龄预测——这说明这些位点可能只是“衰老的乘客”,而非“衰老的司机”。

真正的机制研究,需要能区分“驱动因子”和“伴随现象”。虽然近年出现了基于PRC2复合物、转座子活性、表观遗传随机性等理论驱动的新型时钟,但仍是凤毛麟角。

作者建议:未来研究应将因果推断方法(如孟德尔随机化)与衰老时钟结合,并通过实验室扰动实验(如敲除某个位点,看寿命是否改变)来验证。否则,再多的AI模型,也只会堆砌出“精准但无意义”的相关性,无法触及衰老的根源。

科学家给普通人的忠告:别被“生物年龄”绑架,健康远比一个数字复杂

最后,作者对普通用户发出警告。如果你不是科研人员,只是为了“看看自己多老”而去测衰老时钟,请务必谨慎。

首先,绝大多数消费级检测未经严格验证;
其次,结果无法解释(你比同龄人老5岁,是因为熬夜?压力?基因?没人知道);
最危险的是,忽略不确定性会带来心理冲击——看到“生物年龄50岁”就恐慌,看到“35岁”就放纵,这都极其不理性。

真正的健康评估,应该是多维度的:你的体能如何?睡眠质量怎样?慢性病控制了吗?认知功能还好吗?社会关系充实吗?这些远比一个算法生成的数字重要得多。

作者甚至建议:如果非要一个简化指标,老派的“虚弱指数”(Frailty Index)可能更可靠——它基于你是否有10项、20项、甚至40项健康缺陷,直观、可操作、有大量临床证据支持。

未来已来:大型健康模型或将终结“单一衰老时钟”时代

文章结尾,作者展望未来:随着电子健康记录(EHR)、可穿戴设备、基因组学等数据的爆炸式增长,“大型健康模型”(LHM)将成为主流。像BEHRT、Life2Vec、Delphi-2M这样的模型,已经能从数百万人的健康轨迹中,学习到复杂疾病演化的图谱。它们不仅能预测你十年后的死亡风险,还能告诉你“如果你把血压降到120以下,心梗风险会降低多少”。

在这种全景式模型面前,单一的“衰老时钟”显得格外单薄。未来的抗衰干预评估,可能不再依赖某个“生物年龄”是否下降,而是直接模拟干预对整个健康轨迹的影响。这不仅更科学,也更人性化——因为健康从来不是一维的,而是一个动态、多维、充满可能性的生命过程。

作者背景揭秘:一支横跨AI、生物信息与老年医学的跨界天团

这篇论文的作者团队堪称“梦幻组合”。

第一作者Dmitrii Kriukov来自莫斯科人工智能研究所,是ComputageBench(表观遗传衰老时钟开源评测平台)的创建者,专攻算法不确定性与模型可泛化性。
Evgeniy Efimov同样是AI与生物信息学专家。Mikhail S. Gelfand是俄罗斯科学院院士,计算生物学泰斗,以基因组进化与调控网络研究闻名。
Alexey Moskalev则是俄罗斯老年医学领军人物,彼得罗夫斯基外科研究中心长寿研究所所长,长期致力于衰老机制与干预研究。
Ekaterina E. Khrameeva来自斯科尔科沃科技学院,专长多组学整合与健康大数据。

这支队伍既有顶级算法工程师,又有资深老年医学家,更有系统生物学家——正因如此,他们才能从技术、临床、理论三重维度,对衰老时钟发起这场“降维打击”。