这篇验证AI在抗衰中集体翻车的研究可能是在缘木求鱼!


LongevityBench 首次系统评测15款主流大模型在衰老研究中的真实能力,揭示其在多组学生物数据解读上的严重局限,无一模型可全面胜任科研级任务。

颠覆认知!顶级大模型竟连“谁活得更久”都判断不准?衰老研究AI能力首次被系统性打分  

一项名为 LongevityBench 的全新基准测试首次系统评估了当前最先进大语言模型(LLM)在衰老生物学领域的理解与推理能力。研究发现,尽管部分模型在特定任务上表现亮眼,但整体而言尚无任何一款模型能稳定胜任多模态、跨物种、高复杂度的衰老研究任务,尤其在基因表达、蛋白组学等底层生物数据解读方面存在严重短板。

作者背景:来自阿布扎比英矽智能的顶尖抗衰科研团队  

本研究由阿布扎比英矽智能(Insilico Medicine 港股:03696HK)主导,联合美国诺瓦托巴克衰老研究所共同完成。
核心作者包括公司创始人兼首席执行官 Alex Zhavoronkov 博士——全球最早将深度学习应用于衰老时钟开发的先驱之一;
Fedor Galkin 博士作为通讯作者,长期专注于多组学衰老标志物挖掘与 AI 药物发现;其他成员如 Denis Sidorenko、Vladimir Naumov 等均在生成式 AI、多模态生物建模和长寿干预机制领域有深厚积累。

该团队近年来推出的 Precious 系列多物种多组学 Transformer 模型已成行业标杆,此次 LongevityBench 正是其 MMAI Gym for Science 科研训练体系的关键评估模块。


大模型并没有真正“理解”衰老

如果你认为大模型能够理解语义,那么你对大模型的认知就错了,大模型是语言的上下文形式总结,大模型根本不懂语义,也就不知道衰老一词的意义,当然根本不理解衰老,本次实验再次验证这个基本原理,当然不能认为这是正确废话。

LongevityBench这篇论文做了一件很多人嘴上讨论但几乎没人真正系统做过的事:不再问大模型会不会写论文、会不会编代码,而是直接把衰老生物学里最硬、最脏、最不讲人情的数据扔到模型面前,看它能不能从底层生物信号一步步推到“寿命”“死亡风险”“年龄轨迹”这种真实世界结果。

结论并不乐观,几乎所有被测试的最先进大模型,在某些任务上表现亮眼,但在稍微换一种问题表达方式或数据形态后,就会立刻跌回接近随机猜测的水平。这意味着模型并没有形成稳定一致的衰老生物学内部表征,而更像是在不同任务中临时调用零散经验。


为什么衰老是检验AI是否“真懂生物”的试金石

衰老不是一个单点指标,而是横跨分子层、细胞层、组织层、个体层的连续过程,涉及转录组、甲基化、蛋白组、临床血检、生理指标和真实死亡结局。论文明确提出,如果一个模型连衰老这种高度结构化、可量化、跨尺度的过程都无法稳定理解,那它在生物医学研究中就只能充当“写字助手”,而不是“研究合作者”。

因此LongevityBench被设计成一种极端现实主义的测试,而不是学术玩具。

LongevityBench 这个名字听起来很学术,但它干的事儿却直接戳破了当下AI科研热潮中最危险的幻觉——以为大语言模型真的“理解”生命科学。

研究团队从七个公开数据库中提取了超过12万条结构化提示,覆盖人类全生命周期的临床记录、DNA甲基化、转录组、蛋白组、癌症生存数据,甚至包括线虫和果蝇的基因突变寿命实验。

所有任务都围绕一个核心问题展开:给定底层生物数据,模型能否准确推断出个体的年龄、死亡时间或寿命变化?这可不是简单的问答题,而是对模型是否具备“生物学常识”和“跨模态推理能力”的终极拷问。

结果令人震惊:
即便是 OpenAI 最新的 o3 模型,在平均排名上略胜一筹,也从未在任何单项任务中拿到第一;
而 Google 的 Gemini 3 Pro 虽在6项任务中夺冠,却在同样基于 NHANES 数据的“两人谁活得更久”配对任务中表现还不如瞎猜。

这种极端不稳定性说明,当前大模型对衰老的理解仍是碎片化的、表面的,远未形成统一的内在生物逻辑框架。

LongevityBench到底测了什么,不是随便出几道题

整个基准由七大类真实数据构成,总计超过十二万条提示,折算约两亿三千万token,覆盖人群生存分析、基因表达随年龄变化、突变组合对寿命影响、癌症无进展生存期预测、DNA甲基化年龄、转录组年龄、蛋白组年龄等核心衰老研究场景。所有任务都来自真实公共数据库,如NHANES、TCGA、GTEx、GEO、Open Genes等,并被统一改写成大模型可处理的结构化文本格式,而不是提前人为提炼成“答案友好型特征”。

一个关键设计:同一事实,被反复换问法

论文最狠的一点在于,同一批数据会被包装成二分类、多分类、成对比较、数值回归、生成任务等完全不同的问题形式。比如同一个人的血液指标,既可能被问“能否活过10年”,也可能被问“具体还能活多少个月”,还可能被拿去和另一个人对比“谁活得更久”。

结果显示,模型在某一种问法下表现优秀,完全不代表它真的理解了数据本身,只是适配了表达方式。

人群寿命预测暴露出的系统性幻觉

在NHANES人群生存预测任务中,多个模型在“是否能活过10年”这种二分类问题上准确率高达0.85以上,看起来已经接近临床可用水平。但一旦要求模型直接预测死亡时间,几乎所有模型都会把结果压缩到50到100个月之间,严重低估真实长期生存者。这种现象说明模型在语料中学会了“疾病=危险”的语言关联,却无法正确处理治疗成功、长期稳定等反直觉信号。

转录组、甲基化、蛋白组,模型并非一视同仁

在多组学任务中,模型对不同数据模态的掌握程度差异巨大。DNA甲基化年龄是少数模型能稳定抓住衰老信号的领域,而转录组在成对比较任务中几乎全线接近随机,但换成按年龄段分类后成绩立刻提升。蛋白组生成任务则是最差一档,即便背景空间更小,模型几乎无法补全真实高表达蛋白集合。这暴露出大模型训练语料中对不同生物数据类型覆盖极不均衡的问题。

排名存在,但不代表“谁已经够用”

从综合排名看,谷歌Gemini系列和OpenAI部分模型整体更稳定,推理型模型o3在平均排名上最好,但没有任何一个模型能在全部衰老任务中进入前三。

论文非常明确地指出,当前阶段不存在“可以放心交给它做衰老研究”的通用大模型,只能在非常具体、被验证过的子任务中谨慎使用。

一个容易被忽略但非常致命的问题:问题格式本身在操纵结论

论文反复强调,如果研究者只看某一种benchmark形式,很容易对模型能力产生严重误判。同一模型在二分类中像专家,在成对比较中却像掷硬币,这意味着AI辅助研究如果不控制提问方式,本身就可能制造系统性偏差。

这对任何打算把大模型接入真实科研流程的人来说,都是必须正视的风险。

其实不只是提问方式很重要,提问方向更重要,必须掌握前提是:大模型根本不懂词语的意义意思,比如你说“人”,他不知道这个人指向地球上你我一群具体的人,有血肉身躯存在的人,大模型无法验证一个词语是否存在!当然人类我们自己感觉我们是存在的,但是有时我们会通过发朋友圈或微博等表示自己的存在感,用词语表达我们的存在,大模型缺乏这种词语形式和实体内容存在之间的指称指针。

这项研究之所以重要,是因为它第一次把“AI能不能做科研”这个问题从模糊的讨论拉到了可量化的实证层面。过去一年,无数科学家用 ChatGPT 写论文、查文献、跑代码,效率确实提升了,但没人真正验证过这些模型在专业判断上靠不靠谱。

这项研究说明有些模型其实根本没内化生物学知识,只是在临时拼凑上下文线索。

但是也不能因为大模型不懂语义,所以由此判断不能做科研,因为科研不仅讲究实证,而且更讲究词语逻辑形式,大量论文看似证据充分,但是存在前提条件,有的从具体案例推理到全人类,有的从老鼠推理到人类,这些都存在逻辑漏洞,大模型可以约束这些没有经过逻辑专门训练的科研逻辑。这样让人们对每篇论文价值有一个相对客观的认识。


技术细节上,LongevityBench 的构建堪称教科书级别。
以“癌症生存”任务为例,研究者没有直接扔给模型原始 RNA-seq 数据,而是先对每位患者的肿瘤组织进行单样本基因集富集分析(ssGSEA),提取 Reactome 通路中 NES(标准化富集分数)差异最大的5条通路和极端值通路各5条,再列出每条通路中表达最高或最低的10个基因。这样既压缩了数据维度,又保留了最具判别性的生物学信号。

在蛋白组任务中,他们使用 Olink Explore 3072 平台检测的血浆蛋白数据,NPX 值(归一化蛋白表达量)直接输入,但生成任务要求模型仅凭25个高丰度蛋白就补全另外25个——结果最好的 Grok-3 Jaccard 相似度也只有0.03,而转录组生成任务中 Gemini 3 Pro 能达到0.176。

六倍的差距赤裸裸地暴露了大模型训练语料中蛋白质组学内容的极度匮乏。

更讽刺的是,在 NHANES 人群生存回归任务中,所有模型都系统性低估死亡时间:真实数据中有人活到250个月以上,但模型预测几乎全部集中在50–100个月区间。

研究者推测,这是因为训练文本中“疾病”常与“死亡风险”强关联,模型无法理解“带病长期生存”的医学现实。

这种偏差在二分类任务中被掩盖了(准确率超85%),一旦要求精确数值就原形毕露。


LongevityBench 的另一大贡献是提出了“科研级AI”的新标准。

作者强调,真正的科研伴侣必须能在多种数据模态间建立一致的生物学解释,而不是在每个子领域单独调参。

为此,他们将 LongevityBench 作为自家 MMAI Gym for Science 训练管道的核心评估模块,通过监督微调(SFT)和强化微调(RFT)不断对齐经验事实。

例如,在甲基化任务中,模型不仅要预测年龄,还要学会识别与衰老相关的 CpG 位点(如 ELOVL2、FHL2 等已知时钟基因附近区域);
在转录组任务中,则需理解“角质化包膜形成”通路活性随皮肤老化下降的规律。

这种基于机制的训练方式,远比单纯增加参数量更能提升模型的科学可靠性。

研究团队已在 bench.insilico.com 上线实时排行榜,未来还将加入药物筛选、跨物种推断等新任务。

可以预见,LongevityBench 很快会成为生物医药AI领域的“ImageNet时刻”——没有在这个基准上证明过自己的模型,将很难获得科研界的信任。

这里实际是业内讨论的“上下文图谱”,需要将与衰老有关的上下文背景生物知识全部录入给AI,当然因为上下文窗口限制,需要做一个智能体,定期将AI需要的上下文摘要或细节补充给它,给它一点生物学博士的skills技能。那么LongevityBench是否是一个有技能和抗衰专家背景知识的智能体呢?该论文没有提及,而是强调了强化学习RL等,相当于用强化学习让其记住一些技能,不是外挂了字典、技能表之类符号技能,而是依靠数据持续学习技能,思路很对,但是最先进模型还没有做出来。

LongevityBench真正的野心,不只是排行榜

作者并没有把LongevityBench当成一次“谁最强”的竞技,而是作为英矽智能多模态科学AI训练体系中的校准模块,用来强制模型对齐真实生物学地面事实。论文明确提出,只有在这些任务上被反复驯化并通过,模型才有资格被用于药物发现、靶点筛选等高风险场景。

最现实的结论:现在用AI做衰老研究,必须极端克制
全文最后的态度非常克制,没有渲染AI即将颠覆衰老科学,也没有否定其价值,而是明确指出当前模型更像能力不均衡的实习生,需要被严格限定任务边界、持续校验输出,并且永远不能绕过生物学基本事实验证。这种结论对科研和产业都不讨好,但极其重要。

极客点评

本文出发点是好的,但是可能属于AI泡沫中的一个典型现象,没有深刻理解AI本质是非内容的形式统计基础上,试图对内容缘木求鱼,存在一定跟风炒作倾向。

虽然LongevityBench 自称是首个专门针对衰老生物学设计的综合性 LLM 评测基准,覆盖七类生物数据模态、五种任务范式、15款主流模型,填补了 AI for Science 领域的关键空白。只是试图在网上掌握话语权而已,从 SEO 角度看,关键词如“大模型 衰老研究”、“AI 生物医学评测”、“长寿时钟 LLM”等目前竞争较低但搜索需求快速增长(尤其在抗衰科技、AI制药赛道火热背景下),配合“Gemini”、“GPT-5”、“Claude”等高流量品牌词,极易获得搜索引擎青睐。

研究机构 Insilico Medicine 在 AI 药物发现领域已有“虚”高声量,该预印本如果被 Nature Aging、Cell Reports Medicine 等顶刊快速接收,才是业界专家对其真正肯定。