蓝区神话破灭?表观遗传时钟校准显示尼科亚人只年轻两岁!研究用SuperLearner在非尼科亚人群训练表观遗传时钟,校准后分析尼科亚蓝区生物年龄,发现真实但微小的约两年衰老优势。
期刊级别与作者背景:本文为medRxiv预印本(未经同行评审),作者来自加州大学伯克利分校生物统计系、斯坦福大学流行病学与人口健康系、不列颠哥伦比亚大学医学遗传学系、哥斯达黎加大学中美洲人口中心等机构。通讯作者Alan Hubbard为生物统计教授,研究领域包括机器学习与因果推断。
这帮科学家到底干了什么惊天动地的事
各位同学,咱们先别急着看那些让人头大的数据表格。想象一下你打开了一个论文PDF,第一页就蹦出来一堆名字,什么Nolan Gunter、Andres Cardenas,感觉像是某个学术圈的复仇者联盟。这帮人来自加州大学伯克利分校、斯坦福大学、不列颠哥伦比亚大学和哥斯达黎加大学,可以说是把北美和中美洲的顶尖脑子凑一块了。他们研究的是啥呢?简单说就是想知道一个叫尼科亚的地方,那里的人是不是真的老得比别人慢。这个地方被称作蓝区,就是地球上那些特别长寿的区域。科学家们用了一种叫DNAm SuperLearner的黑科技,说白了就是把好多个预测年龄的算法打包成一个超级组合,然后专门训练它去猜哥斯达黎加普通老年人的岁数,最后再用这个训练好的模型去测尼科亚蓝区老人,看他们的生物年龄是不是真的比实际年龄年轻。
整个过程听起来像不像你期末考试前把所有辅导班的复习资料都整合在一起,然后挑最靠谱的那份去考试?
这项研究用到的数据来自哥斯达黎加长寿与健康老龄化研究,简称CRELES,名字起得还挺文艺。他们从2004年到2006年开始跟踪调查了2827个60岁以上的老人,后来又抽了1081个人抽血做DNA甲基化分析。DNA甲基化是啥?你可以粗暴理解成DNA上面的一些小开关,会随着你变老和环境变化而打开或关闭。科学家们就靠检测这些开关的状态来估算你的生物年龄。这可比问你今年几岁靠谱多了,因为有的人六十岁看起来像四十岁,有的人四十岁看起来像六十岁,光看身份证没用。这帮科学家特别鸡贼,他们故意把尼科亚蓝区的老人和哥斯达黎加其他地区的老人分开处理,用非尼科亚那875个人当训练数据去训练模型,然后再去测尼科亚那206个人的数据。
为什么要这么折腾?因为如果你直接用全世界数据训练出来的通用时钟去测尼科亚人,就好比用美国人的身高尺去量中国人,尺子本身就不准,量出来的结果能信吗?
为什么普通表观遗传时钟是个坑货
各位同学,咱们先来吐槽一下市面上那些所谓的表观遗传时钟。你可能听说过什么Horvath时钟、Hannum时钟、PhenoAge时钟,名字听着都很唬人,但它们的本质就是拿一堆人的DNA甲基化数据和实际年龄去跑回归,找出哪些CpG位点的甲基化水平跟年龄最相关。CpG是啥?别被缩写吓到,就是DNA上C和G两个碱基挨在一起的位置,化学上叫胞嘧啶-鸟嘌呤二核苷酸。
这些时钟的问题在于,它们通常是在一大堆乱七八糟的数据上训练出来的,有美国人、有欧洲人、有亚洲人,有年轻人、有老人、有病人、有健康人。训练的时候平均一下,结果就是这些时钟对谁都准一点,但对谁都不完全准。就像你拿全年级的平均分去预测每个人的单科成绩,那能准才怪。
更坑的是,当你拿这些通用时钟去测蓝区老人的时候,不同时钟会给你完全相反的结论。这篇论文里就赤裸裸地展示了这个尴尬局面。在没做任何校准之前,用DNAmFitAge这个时钟去测尼科亚老人,结果显示这些老人平均老了3.59岁,也就是说生物年龄比实际年龄老了将近四岁,这不叫蓝区,这叫红区,老得比别人快。
但用SuperLearner去测同一批人,结果却是年轻了3.05岁,生物年龄比实际年龄小三岁。同一个群体,不同的时钟,一个说你老得快,一个说你老得慢,差了将近七岁。这就好比你站在两个体重秤上,一个说你一百二十斤,一个说你一百六十斤,你信哪个?你可能会说信那个更贵的,但问题是这些时钟的研发成本都不低,每个都有自己的论文和数据支持。所以科学家们意识到,不能再这样瞎折腾了,必须搞一个更靠谱的方法。
SuperLearner到底是什么神仙算法
好了,现在咱们来拆解一下这个所谓的SuperLearner到底是个什么东西。名字起得确实很拽,超级学习者,感觉像是从漫威宇宙穿越过来的。但你别被名字吓到,它的核心思想其实特别朴实,就仨字:都试试。具体怎么操作呢?
首先你得准备一个算法库,里面放一堆候选的预测模型。这篇论文的库里放了九种固定表观遗传时钟,包括Horvath、Hannum、PhenoAge、Skin and Blood、Elastic Net、ENCen40、GrimAge2、PCGrimAge和DunedinPACE。然后又放了好几个机器学习算法,有弹性网络回归、岭回归、随机森林、梯度提升、快速线性回归,还有高维惩罚回归。每个算法还配了好几种特征筛选策略,比如根据甲基化位点跟年龄的相关性来筛选,或者根据弹性网络模型筛出来的非零系数来筛选,或者用随机森林算出来的变量重要性来筛选。总之就是把你能想到的方法全塞进去,管它黑猫白猫,先抓了再说。
然后怎么做?用V折交叉验证。啥意思?就是把你的训练数据分成五份,拿其中四份去训练每个算法,然后用剩下那一份去测试这个算法的预测效果。这样轮着来五轮,每个算法在没见过的数据上的预测误差就都算出来了。哪个算法的误差最小,哪个就是离散SuperLearner,也就是这批算法里的单科冠军。但SuperLearner的真正厉害之处不是只挑一个最好的,而是把所有算法的预测结果加权平均,权重由非负最小二乘法决定。
也就是说,预测误差越小的算法,权重越大;预测误差越大的算法,权重越小,甚至可能权重为零直接淘汰。这样组合出来的最终模型,理论上不会比里面任何一个单独的算法差。这就好比你想猜明天的天气,你问了一百个人,有的人是气象学博士,有的人是看云识天气的老农,有的人是瞎蒙的,你把他们的答案按照靠谱程度加权平均,肯定比你只听任何一个人的要准。这就是SuperLearner的底气,它的发明者在数学上证明了它有一个叫Oracle property的性质,就是说在样本量足够大的时候,它表现得跟上帝视角下你知道哪个算法最好一样好。
训练出来的超级模型到底选了哪些小弟
咱们来看看这帮科学家用非尼科亚那875个人的数据训练出来的SuperLearner到底选了哪些算法当小弟。结果出来之后,他们发现这个超级模型的权重分配非常极端。PCGrimAge这个时钟拿了73.6%的权重,Hannum时钟拿了16.1%,Elastic Net拿了7.9%,ENCen40拿了1.7%,还有一个岭回归拿了0.7%。剩下的那些算法,包括大名鼎鼎的Horvath时钟,直接给了零权重,一个子儿都没分到。
也就是说,在预测哥斯达黎加普通老年人的年龄这件事上,PCGrimAge一家独大,几乎成了这个超级模型的灵魂。PCGrimAge是啥?它是GrimAge的升级版,名字里的Grim指的是死神Grim Reaper,所以这个时钟其实是用来预测死亡风险的,跟一般的年龄预测时钟不太一样。它关注的是那些跟生理衰退相关的甲基化位点,所以它更像一个健康时钟而不是纯粹的年龄时钟。
这个权重分配结果其实透露了一个很有意思的信息。你想想看,非尼科亚的普通哥斯达黎加老人,他们的DNA甲基化模式跟PCGrimAge这个时钟最匹配,说明他们的衰老模式跟这个死神时钟高度一致。而Hannum时钟拿了16.1%的权重,也说明这个老牌时钟在哥斯达黎加人群中表现不错。
但Horvath时钟呢?零权重,直接被超级模型嫌弃了。Horvath时钟可是表观遗传时钟领域的开山鼻祖,2013年就发表了,引用好几万次,但在哥斯达黎加这个特定人群里,它的预测能力还不如其他几个后起之秀。这就好比你拿一个全国通用的高考试卷去考一个地方的学校,发现这个学校的学霸做这套卷子的成绩反而不如做地方模拟卷。不是全国卷不好,而是不匹配。这也从侧面证明了为什么需要搞这种人群特异性的校准,因为不同人群的甲基化-年龄关系是真的不一样的。
校准前后结果差了多少你敢信
现在到了最精彩的环节,就是看数据到底说了啥。咱们先看未校准的结果。所谓未校准,就是直接用训练好的模型去预测尼科亚人的年龄,算出预测年龄减去实际年龄的差值,这个差值如果是负数就说明预测年龄比实际年龄小,也就是生物年龄比实际年龄年轻,是好事;如果是正数就说明生物年龄比实际年龄老,是坏事。用SuperLearner去测,结果是负的3.05岁,95%置信区间是从负3.64到负2.46。
也就是说,在没做任何校准之前,超级学习器告诉你尼科亚老人的生物年龄平均比实际年龄小了三岁,这是一个相当可观的衰老优势。但其他时钟怎么说呢?DNAmFitAge说正3.59岁,也就是老了3.59岁;PCGrimAge说正3.42岁;DNAmGrimAge2说正0.72岁但不显著;ENCen40说正0.56岁也不显著;NNCen40说负1.17岁。你看,从负3.05到正3.59,跨度将近七岁,这些时钟给出的答案简直就像一群喝醉了的人在指路,每人指一个方向,你根本不知道该往哪走。
然后科学家们做了校准。校准的方法特别简单粗暴,就是拿尼科亚人的残差减去非尼科亚人的平均残差。为啥要这么做?因为如果你训练的模型在非尼科亚人身上本身就有偏差,比如说平均预测年龄比实际年龄老了1岁,那你在测尼科亚人时发现他们年轻了2岁,其实真实情况可能只是他们比非尼科亚人年轻了1岁。所以减去参考人群的平均残差,就相当于把尺子的零点给校正了。
校准之后的结果是啥?所有时钟的估计值都往中间靠拢了,再也没有人胡说八道说尼科亚人老了四岁。DNAmFitAge变成了负0.89岁,DNAmGrimAge2变成了负1.12岁,NNCen40变成了负1.17岁,ENCen40变成了负1.67岁,PCGrimAge变成了负1.69岁,SuperLearner变成了负1.96岁。也就是说,所有时钟现在都指向同一个方向:尼科亚老人的生物年龄确实比实际年龄年轻,但年轻的程度不是三岁,而是一到两岁。SuperLearner仍然给出了最大的估计值,接近两岁。这就好比之前那帮醉汉每人指一个方向,你把他们的平均方向算了一下,发现大家都大致指向同一个方位,虽然有人偏左有人偏右,但总体方向是一致的。
用年龄分组校准后优势几乎消失了
但是故事还没完,科学家们又做了更精细的校准。他们把人群按照实际年龄分成十年一个的组,六十到七十岁一组,七十到八十岁一组,一直到一百一十岁。然后在每个年龄组里分别做校准,也就是减去同年龄组里非尼科亚人的平均残差。这一下子,结果发生了戏剧性的变化。DNAmGrimAge2变成了正0.30岁,不显著了;NNCen40变成了负0.14岁,不显著了;DNAmFitAge变成了负0.35岁,不显著了;ENCen40变成了负0.52岁,P值0.05,勉强显著但也很弱;PCGrimAge变成了负0.50岁,显著但效应量很小;SuperLearner变成了负0.35岁,显著但只有0.35岁。看到了吗?当你在每个年龄组内比较同样岁数的尼科亚人和非尼科亚人时,那个所谓的衰老优势基本上就消失了,只剩下一个微小的、零点几岁的差异。
这说明了什么问题?这说明尼科亚人的衰老优势主要是由那些特别高龄的老人贡献的,也就是九十岁以上的那群人。你想啊,如果你把六十岁到一百一十岁的人放在一起比,尼科亚那边有很多九十岁、一百岁的超级老人,而普通哥斯达黎加地区九十岁以上的人就少很多。这些超级老人本身就是因为活得久才被采样到的,他们天然就有生存优势。如果你不控制年龄,直接比平均数,尼科亚组因为多了很多长寿老人,自然看起来整体年轻。
但如果你在同样岁数的人里面比,比如只拿八十到九十岁的尼科亚人和八十到九十岁的普通哥斯达黎加人比,那个优势就变得非常小了。这就像你拿一个重点班的平均分去跟一个普通班的平均分比,重点班分数高可能是因为他们本来就聪明,也可能是因为他们班里有几个天才把平均分拉上去了。如果你只比较两个班里成绩排名相同的学生,那个差距可能就没那么大了。所以这篇论文的一个核心结论就是:尼科亚的衰老优势存在,但远没有大家想象的那么夸张,而且很大程度上可以用年龄构成来解释。
蓝区神话是不是该打个问号了
各位同学,咱们最后来聊聊这篇论文对蓝区研究的意义。蓝区这个概念最早是Dan Buettner提出来的,他在地球上找到了五个长寿地区,包括日本的冲绳、意大利的撒丁岛、哥斯达黎加的尼科亚半岛、希腊的伊卡利亚岛,还有美国加州的洛马林达。这些地方百岁老人的比例特别高,于是大家就开始研究他们为什么长寿,发现了什么吃得健康、多走路、有社群支持之类的秘诀。但最近几年,质疑的声音越来越大了。纽约时报在2024年就发了一篇文章,说蓝区的长寿记录可能有问题,因为很多地方的出生和死亡记录不完整,有些人可能虚报了年龄。你想啊,在没有出生证明的年代,一个九十岁的老人说自己一百岁,谁能查得出来?所以光靠身份证或者户口本是不够的,需要一个更客观的生物学指标来验证。
这就是表观遗传时钟的价值所在。它不看身份证,不看户籍,直接看你的DNA甲基化状态,这个东西骗不了人。
这篇论文用SuperLearner和校准方法告诉我们,尼科亚人的生物年龄确实比实际年龄年轻,但年轻的程度只有一到两岁,而不是之前有些人宣称的五岁十岁。
而且当你把年龄结构考虑进去之后,这个优势就缩小到了零点几岁。
这个结论对蓝区研究来说是一个重要的提醒:不要被表面的数字迷惑,要用更严谨的方法去验证。这不是说尼科亚不是蓝区,也不是说那里的人不长寿,而是说我们之前可能高估了蓝区对衰老速率的减缓作用。尼科亚人确实老得慢一点,但慢得有限,不是慢到逆天的程度。那些声称自己活了一百二十岁的人,可能真的只是记错了生日。
这篇论文还有一个更广泛的启示,就是做科学研究不能偷懒。你不能随便找一个现成的表观遗传时钟,然后往自己的数据上一套,就得出结论说这个人群老得快或者老得慢。你得考虑这个时钟是不是为你的特定人群量身定做的,如果不是,你得做校准。
SuperLearner提供了一个非常灵活的框架,它可以把各种现成的知识和数据驱动的学习结合起来,还能用交叉验证来避免过拟合。这个方法不光是用来研究蓝区,还可以用来研究环境污染对衰老的影响、饮食对衰老的影响、运动对衰老的影响等等。
只要你有一个匹配的对照组,你就可以用这个方法去估计某个暴露因素对生物年龄的真实影响。这就像你拍证件照,不能拿一个默认的滤镜直接套上去,你得根据你的肤色、光线、背景去调整参数,才能拍出一张像你的照片。做科学也是一样,方法要对,结果才可信。