AI读懂细胞如读句子,竟意外发现全新抗癌疗法!

谷歌与耶鲁团队开发C2S-Scale大模型,将细胞基因表达转化为“句子”,成功发现西米塔塞替尼在干扰素存在下可显著增强肿瘤抗原呈递,该机制此前未被报道,且经实验验证有效,为冷肿瘤治疗开辟全新路径。

有一天AI不仅能看病、看片、看数据,还能像科学家一样提出没人想过的全新理论?这不是科幻电影,而是2025年10月刚刚发生的真实突破!谷歌和耶鲁大学的科学家联手搞出一个叫C2S-Scale的超级AI模型,参数高达270亿,基于谷歌开源的Gemma大模型家族打造。这个AI干了件惊天动地的事——它通过“阅读”细胞,像读句子一样理解生命语言,最终发现了一条从未被科学界报道过的抗癌通路!

这可不是简单的数据匹配或者已有知识的重复。它真正做到了“从0到1”的科学假设生成,而且这个假设后来在实验室里被完美验证。这意味着,AI不再是人类的助手,而是能和科学家并肩作战的“创意伙伴”。

首先,这个AI是怎么“读懂”细胞的?关键在于一个叫“Cell2Sentence”(细胞转句子,简称C2S)的聪明框架。科学家把单个细胞里表达量最高的K个基因,按活跃程度排个序,然后拼成一句“细胞句子”。比如,如果某个细胞里基因A、B、C最活跃,就变成“ABC”这样的句子结构。这样一来,原本属于生物学领域的高维复杂数据,就被转化成了大语言模型(LLM)能处理的文本格式。

这个思路太妙了!不用从头设计专门的生物AI架构,而是把生命语言“翻译”成AI熟悉的语言。于是,原本用来写文章、聊天、编程的大模型,现在可以直接用来分析细胞、推理机制、甚至预测药物效果。这相当于给生物学研究装上了“语言引擎”,打开了AI在生命科学中深度推理的大门。

更厉害的是,这个AI不是随便乱猜,而是完成了一个极其复杂的任务:找一种“条件性放大器”药物。什么意思?我们知道,很多肿瘤是“冷肿瘤”——它们躲在免疫系统眼皮底下,完全不被识别。免疫疗法的目标,就是让这些冷肿瘤“变热”,也就是让癌细胞表面多展示一些抗原(MHC-I分子),这样免疫细胞才能发现并干掉它们。

但问题来了:如果一种药不管三七二十一都拼命提升抗原表达,可能会引发自身免疫风暴,副作用极大。所以科学家想要的,是一种“只在特定条件下才起作用”的药——比如,只有当环境中存在微弱的免疫信号(比如低剂量干扰素)时,它才激活抗原呈递通路。

这个任务需要AI具备“条件推理”能力。研究人员设计了一个叫“双上下文虚拟筛选”的方法:一边是来自真实癌症患者的样本,里面有微弱的干扰素信号(免疫上下文阳性);另一边是完全隔离的细胞,没有任何免疫活动(免疫上下文中性)。AI要在这两种情境下对比数千种药物的效果,找出那个“只在第一种情境下有效”的候选者。

结果,小模型完全搞不定,只有270亿参数的C2S-Scale成功识别出了关键药物——西米塔塞替尼(silmitasertib,也叫CX-4945),一种已知的激酶抑制剂,原本用于治疗某些罕见癌症。但AI发现的新用途,是科学界从未报道过的!

重点来了:AI提出的这个假设,不是从训练数据里“抄”来的。研究人员翻遍文献,确认“西米塔塞替尼能增强干扰素存在下的MHC-I表达”这一机制,此前完全没人提过。论文里明确写道:“虽然CK2激酶(西米塔塞替尼的作用靶点)已被认为参与多种细胞功能,包括免疫调节,但通过抑制CK2来明确增强抗原呈递,此前从未见报道。”这说明,AI真的在“创造知识”,而不仅仅是“复述知识”。

光说不练假把式。再牛的AI预测,也得进实验室验证。于是团队用两种人类神经内分泌肿瘤细胞(默克尔细胞癌和肺源性)做了实验——注意,这些细胞类型在AI训练数据中几乎没出现过,所以验证更具说服力。

实验结果令人振奋:  
单独用西米塔塞替尼?没效果。  
单独用低剂量干扰素?效果微弱。  
但两者合用?抗原呈递水平飙升,最高提升50%!而且是“协同放大”效应,完全符合AI预测。这意味着,肿瘤细胞在这种组合疗法下,会变得对免疫系统“超级可见”,从而更容易被清除。

这项研究的意义,远不止发现一个新药组合。它提供了一套可复制、可推广的“AI驱动科学发现”新范式。过去,AI在医药领域多用于虚拟筛选——也就是从已知化合物里挑可能有效的。但现在,AI能基于对生命语言的理解,提出全新的生物学机制,并指导实验验证。这等于把科研流程从“试错”升级为“智能推理”。

更值得称赞的是,谷歌和耶鲁团队没有藏着掖着,而是把C2S-Scale模型和相关工具全部开源,向全球科研社区开放。这意味着,全世界的生物学家、药理学家、计算科学家,都可以用这个框架去探索自己的科学问题——也许是阿尔茨海默病,也许是自身免疫疾病,也许是衰老机制。

想象一下:如果细胞的语言能被AI读懂,那整个生命科学会不会迎来一场“翻译革命”?就像当年望远镜让我们看见星空,显微镜让我们看见细胞,现在AI可能成为我们“看见机制”的新眼睛。它不仅能加速药物研发,更能帮我们理解那些困扰人类几十年的复杂疾病背后的逻辑。

这次突破也再次证明,大模型的“涌现能力”在科学领域具有不可估量的价值。270亿参数不是数字游戏,而是实现复杂条件推理的门槛。小模型做不到的事,大模型可以。这为未来“科学大模型”的发展指明了方向——不是越小越好,而是在关键任务上,规模就是能力。

最后别忘了,西米塔塞替尼本身已是临床阶段药物,这意味着这个新发现可能更快进入人体试验。如果后续研究顺利,我们或许会在几年内看到一种全新的“免疫增敏”疗法,专门用于激活那些对现有免疫治疗无反应的冷肿瘤患者。

这不仅是技术的胜利,更是跨学科协作的典范:计算科学家、生物学家、临床医生、AI工程师坐在一起,用语言模型解码生命,用实验验证思想。而AI,终于从“工具”变成了“合作者”。