AI解决不了长寿难题:问题出在数据上,不是算法上!

AI要治好老年病,关键瓶颈不在算力,而在生物数据本身。长寿问题发生在器官和全身层面,而现有的分子和细胞数据给不出答案。我们需要现在就启动长达数十年的人体追踪实验,把数据和因果关系串起来,否则AI再聪明也只能干瞪眼。


作者背景
Martin Borch Jensen,生物医学研究者,长寿领域创业者,关注AI与衰老生物学的交叉点。

作者核心观点

AI现在啥都能干,写代码、考律师、解数学题,猛得一批。但你让它搞个治老年痴呆的药,它就歇菜了。
为啥?不是AI不行,是我们喂给它的数据不行。

你想让AI学会治病,得给它看“这个病人吃了这个药,三年后咋样了”这种数据。可我们现在手里攒的那些生物数据,大多是“这个病人死了,他的心脏长这样”这种静态截图。

缺了时间轴和因果关系,AI再强也等于瞎子摸象。所以别问AI能为长寿做啥,该问长寿领域能为AI准备啥数据。答案是:现在就启动持续几十年的人体追踪实验,把器官层面的变化一五一十记下来,再把动物实验和人体数据搭桥接上。这事儿拖不得,因为数据成熟要十年,而AI的进化可不等你。

聊聊AI为啥在别的领域封神却在治病上卡壳

你得先明白,AI想搞定一个任务,得有三样东西凑齐了才行。

第一样,算力。这个现在不缺了,显卡堆上去就完事。

第二样,海量的训练数据。不是随便什么数据都行,得是跟任务直接相关的。比如AI学下围棋,你给它喂几百万盘高手对局,它就能学个七七八八。

第三样,一个能告诉AI“你对还是错”的反馈系统。下围棋输了就是输了,反馈贼快。写代码编译报错也是立马知道。

这三样凑齐,AI就跟开了挂一样。语言模型为啥牛逼?因为人类几千年写下来的书、论坛帖子、代码仓库全在那摆着,反馈机制也现成——你写完一句话,别人点不点赞,接不接话,就是反馈。

但生物学的麻烦在于,反馈来得太慢了。你猜一个分子能治老年痴呆,得做实验验证,等细胞反应几小时,等老鼠变老几个月,等临床试验结果好几年。而且大部分时候,实验结果是“没效果”或者“老鼠死了”,这种反馈噪音大得要命。

更坑的是,我们现有的生物数据库,比如PubMed里那些论文,看着有几千上万篇,实际上它们代表的是“已经发表出来的、通常是阳性结果”的那一小撮实验。阴性结果没人发,偏门方向没人研究。这就好比你想学打篮球,结果只给你看NBA集锦,从来不给你看那些投丢的球。你能学明白才怪。

生物学分了四个楼层,长寿问题住在顶层

为了说清楚数据该从哪来,你得先知道生物学分四个层次,就像一栋四层楼。

一楼是分子层。啥意思?就是蛋白质长啥样,药物分子跟哪个蛋白结合。这层的事儿,AI已经干得不错了。AlphaFold预测蛋白质结构,准得吓人。而且这层的实验跑得快,机器人移液枪啪啪几下,几小时就出结果。

二楼是细胞层。你堵住一个蛋白,细胞会咋反应?它会调整基因表达,想办法活下来,可能几小时后进入一个新状态,也可能直接死给你看。CRISPR基因编辑、单细胞测序这些工具就干这个。

三楼是生理层。一个器官里的细胞变了,整个器官会咋样?心脏还能不能好好泵血?脑子还能不能记住路?这层的变化是以周、月、年为单位慢慢发生的。大多数我们想治的老毛病都住在这层:心力衰竭、痴呆、肌肉萎缩。

四楼是生物体层。这个人还活着没?活得咋样?能不能自己走路?寿命多长?临床试验的终点基本都在这层。

问题是,AI在分子层和细胞层再牛,也没法直接跳到生理层去解决问题。为啥?因为同一个分子状态在不同器官、不同时间点导致的生理结果可能完全不一样。你测一个细胞的基因表达,没法知道这个人的血压是多少。这叫“涌现”——上层的东西不是下层简单加起来就能算出来的。

打个比方,你拆开一台iPhone,把所有电阻电容都测一遍,能知道屏幕上显示的是啥画面吗?不能。你得亮屏看才行。生物学也一样,想知道心脏有没有衰竭,你得直接测心脏,不能靠猜。

我们手里现成的数据根本不够用

现在AI公司搞生物,最喜欢干的事是挖公共数据库。比如UK Biobank,五六十万人的基因、血液、健康记录,数据量巨大。但问题是,这个数据库里大部分人只跟踪了十几年,而且采样频率很低,可能三五年才抽一次血。你想用它来训练AI发现长寿秘诀?难。

为啥?因为你想知道“这个生活方式能不能让人多活十年”,你得等十年才有答案。UK Biobank里那些有意思的发现,比如某个基因变体跟心脏病有关系,都是等了十五年以上的数据才挖出来的。就算你钱多到烧不完,也没法让时间变快。

还有一个经典例子是AlphaFold。它为啥成功了?因为过去三十年生化学家们辛辛苦苦解出来的蛋白质结构数据全都存在PDB数据库里,而且每个结构都有明确的“正确”答案——X光衍射图摆在那,对不对一目了然。反馈快,数据成型,AI自然学得快。

但到了治病这层,我们没有这种“标准答案”数据库。你不知道某个分子进到人体里,三年后会咋样,因为没人做过这个实验。就算做过,结果也往往没发表,或者样本量太小,统计上不可靠。

所以现状就是:AI拿着一堆不完整、缺时间轴、缺因果关系的数据,想解决一个住在三楼四楼的问题。这就像给你一张模糊的局部地图,让你导航从北京到上海。能到才怪。

得赶紧开始做三件大事

既然问题清楚了,解法也就出来了。有三件事现在就得动手,拖一天就晚一天。

第一件,启动一个持续几十年的中年人追踪项目。找个几千号四五十岁的人,每三个月抽一次血,存起来。不光做常规化验,还得做蛋白质组、代谢组这些高维度的分子检测。每隔半年做一次心脏超声、认知测试、体能评估。这样坚持二十年,你就有了一份“人体随时间老化”的高清录像带,而不是几张模糊照片。

这个事现在不做,十年后你急也没用。因为时间不等人。AI再聪明,也不能穿越回去帮你采血。

第二件,把动物实验和人体数据搭桥接起来。老鼠老得快,两三年就老死。你可以在老鼠身上快速测试各种干预措施,然后把结果跟人体数据对比。比如在老鼠身上发现某个炎症因子升高跟肾衰有关,再到人体血液样本里验证同一个因子是不是也这样。这种“桥接数据”能大大加速从发现到验证的周期。

有个特别聪明的做法叫“体内混池筛选”。简单说,你在同一只老鼠的不同细胞里同时测试几百种基因扰动,然后看哪些扰动让老鼠的器官功能变好了。因为所有扰动都在同一只老鼠身上,环境变量控制了,结果更可靠。这种实验设计能把原来需要几百只老鼠的工作压缩到几只。

第三件,把过去的样本翻出来重新测。美国退伍军人事务部存了几百万份老兵的血样,有的放了三四十年了。这些人的健康结局——谁得了啥病,啥时候死的——全都记在病历里。你现在只需要把那些血样拿出来,用最新的技术做蛋白质组、甲基化测序,就能瞬间得到一份跨越几十年的分子变化记录,根本不用等。

同样道理,过去那些失败的临床试验,血样也都冻着。重新测一遍,可能就能发现“原来这个药对某个亚型的人有效”,只是当年没测对指标。

这三件事都不需要新技术。需要的只是有人掏钱、有人组织、现在就干。

别指望自动化实验室和虚拟细胞能救命

你可能听过一些特别乐观的说法,比如“再过几年机器人就能替我们做所有实验了”或者“虚拟细胞模型能直接在电脑里模拟人体”。这些听着很爽,但现实很骨感。

先说自动化实验室。这玩意早就有了,药厂用液体处理机器人筛化合物筛了二十年了。问题是,这些机器人只能干细胞层面的活,比如往96孔板里加液体。你让它给老鼠做手术、注射药物、取组织样本,它干不了。为啥?因为老鼠是软的、会动、会挣扎,需要精细的手部操作。现在的机器人没这本事。

就算乐观估计,三到五年后机器人有了人手级别的灵巧度,你要大规模部署到全世界的生物实验室,还得十年。而且就算部署了,它也只是把实验速度翻倍,解决不了“数据缺时间轴”的根本问题。你让机器人一天做一万个细胞实验,它也没法让老鼠老得快一点。

再说虚拟细胞。这个想法是:我们把所有已知的分子数据喂给AI,让它学会预测细胞的行为,以后就不用做真实验了。听着很美,但你去看看那些号称在做虚拟细胞的前沿团队,他们用的数据根本不是什么蛋白质结构预测,而是实实在在的细胞影像、RNA测序结果。换句话说,他们还是得先在真实细胞上测出数据,再拿去训练模型。你不可能凭空从分子层面算出细胞会咋样,就像你不可能从像素层面算出一部电影的情节。

而且就算你成功模拟了一个细胞,离模拟一个心脏还差十万八千里。一个心脏有一百亿个细胞,细胞之间还有复杂的电信号、力学相互作用。算力需求是指数级增长的。乐观估计,从能模拟一个细胞到能模拟一个器官,至少需要十年以上的算力翻倍。

所以别指望电脑替你跳过实验。实验该做还是得做,而且得从今天就开始做。

一个能跑的方案:边预测边验证的智能临床试验

说了这么多问题,总得给个能落地的方案吧。有。而且这个方案不需要等新技术,现在就能启动。

核心思路是这样的:与其做一个长达十年的传统临床试验,等最后才看结果,不如设计一个系统,让AI在每个时间点都做出预测,然后通过实际测量来快速验证对错。

具体怎么操作?

第一步,启动一个中年人的长期追踪队列,就是前面说的那个每三个月采一次血的项目。这个阶段只观察,不干预。AI吃进去每个人的分子数据和健康记录,学习每个人衰老的轨迹。

第二步,AI对每个人下个时间点的状态做出预测。比如“老王,三个月后你的肾功能指标会下降5%”。到时候一测,对了就奖励模型,错了就惩罚。这样每个数据点都是一个反馈事件,而不是等三年。

第三步,当AI的预测准到一定程度,你就可以开始干预了。把队列里的人随机分成两组,一组给真正的药,一组给安慰剂。但与传统试验不同的是,AI不仅比较两组之间的差异,还比较每个人实际的变化跟AI预测的变化是否一致。如果AI预测老王肾功能会下降5%,你给了药之后他的肾功能反而上升了2%,那你就有很强的证据说明药有效,而且这个证据来得比传统方法快得多。

第四步,同时在老鼠身上做快速验证。AI提出某个假设,比如“抑制蛋白X能延缓肾衰”,你在老鼠身上用基因编辑或药物快速测试,几周内就能得到结果,然后反馈给AI修正模型。

这套方案把慢速的人体观察和快速的动物实验串成了一个闭环。AI每天都能收到新数据,每周都能更新模型。传统临床试验要等五年才知道药有没有效,这个系统可能一年就能给出很强的信号。

唯一需要的,就是有人现在、马上、掏出钱来启动那个中年人的长期追踪队列。因为不管AI多聪明,你都没法让一个今天开始采血的人,变成二十年前就开始采血的人。

别把所有钱都砸在AI上,留十分之一给数据基建

现在AI制药公司火得一塌糊涂,融资动辄几亿美金。但这些钱绝大多数都花在算法、算力、自动化设备上。真正花在“产生新的生理层数据”上的钱,少得可怜。

这不合理。你想想,如果训练ChatGPT的互联网文本数据只有现在的十分之一,GPT-4会是什么水平?肯定拉胯。同样的道理,你现在不给AI喂生理层的纵向数据,它怎么可能学会治老年病?

建议很简单:所有投给AI生物学的钱里,至少拿出十分之一来搞数据基建。具体来说就是:

资助那个中年人的长期追踪队列,保证它能连续运行二十年以上。

资助对退伍军人血样库的大规模重新测序,把历史样本变成可训练的数据。

资助体内筛选技术的开发,让动物实验能更快地产生与人体桥接的数据。

这些事不性感、不出论文、上不了头条。但它们是长寿领域能享受AI红利的前提。没有这些数据,AI在治病这件事上就是个摆设。

时间窗口很紧。AI的进化速度是按月算的,而生物数据的成熟速度是按年甚至十年算的。你现在不种树,等AI渴死了再种就来不及了。

所以最后再喊一嗓子:别问AI能为长寿做啥,该问长寿领域能为AI准备啥数据。答案就在眼前,动手吧。