AI高精度预测3600个全新蛋白互动,4950种疾病机制浮出水面!


贝克团队利用进化数据与AI模型RoseTTAFold2-PPI,高精度预测近3万对人类蛋白质相互作用,揭示数千新互作与疾病机制,并生成3D结构模型,为构建全人类3D互作组奠定基础。

人体里那两万多个蛋白质,到底是怎么“搭伙干活”的?它们可不是单打独斗的孤狼,而是成群结队、手拉手组成“蛋白质朋友圈”,一起调控免疫、代谢、信号传导,甚至决定你是不是会得病。

但问题来了——人类蛋白质两两组合,可能的配对高达2亿对!要是靠传统实验一个一个试,那得花多少年?多少钱?而且很多“弱关系”或“临时搭伙”的互动,实验室根本抓不住。

现在,这个问题终于被AI狠狠破局了!来自华盛顿大学的著名结构生物学家大卫·贝克(David Baker)团队,联合张 Jing(Jing Zhang)和丛倩(Qian Cong)等科学家,搞出了一套超聪明的“AI+大数据”组合拳,直接预测出成千上万对人类蛋白质的相互作用,还附带3D结构模型!这可不是纸上谈兵,而是实打实能指导实验、揭示疾病机制的重磅成果。

先说说这群科学家有多牛。大卫·贝克是谁?他是计算生物学和蛋白质设计领域的泰斗级人物,也是大名鼎鼎的Rosetta软件和RoseTTAFold系列AI模型的缔造者。2021年,他的团队推出的RoseTTAFold,和DeepMind的AlphaFold2几乎同时破解了“蛋白质折叠问题”,震惊全球。而这次的RoseTTAFold2-PPI,就是专门用来预测“蛋白质之间怎么握手”的升级版AI。

那他们到底用了什么黑科技?简单说,分两步走。

第一步,挖“进化线索”——他们构建了一种叫“omicMSA”的超深多重序列比对。什么意思?就是从PB级(1PB=100万GB)的真核生物基因组数据中,把同一个蛋白质在不同物种里的“亲戚版本”全挖出来,排成队。如果两个蛋白质在进化过程中总是“同步变化”——比如A变了,B也跟着变——那它们很可能在物理上是绑在一起的!这种“共进化信号”,就是AI判断它们是否互动的关键线索。

第二步,训练一个超快、超准的AI模型——RoseTTAFold2-PPI。但这里有个大难题:已知的蛋白质复合物结构实在太少,光靠这点数据训练AI,就像让小孩只看几张照片就学会识别人脸,肯定不行。怎么办?他们想了个绝招:用AlphaFold预测出的约2亿个人类单体蛋白质结构,反向“合成”出海量的结构化训练数据!具体来说,就是从这些单体结构中提取“结构域-结构域接触”的潜在模式,告诉AI:真正的蛋白质接口长什么样。这样一来,模型见多识广,预测能力直接起飞。

结果有多猛?他们在全人类蛋白质组范围内,一口气筛查了约2亿对组合,最终高置信度地预测出约18,000对蛋白质相互作用(准确率高达90%),如果放宽到80%准确率,数量更是达到29,000对!更惊人的是,其中有大约3,600对是以前从未被报道过的全新互动!这意味着,我们对人类细胞“社交网络”的认知,一夜之间扩充了近20%。

而且,这个方法特别擅长搞定那些实验室里“最难缠”的对象——比如跨膜蛋白。跨膜蛋白嵌在细胞膜里,结构复杂、难纯化、难结晶,传统方法几乎束手无策。但AI不怕这个!它直接从序列和进化信息出发,照样精准预测它们怎么“牵手”。更厉害的是,它不只给你一个“是/否”答案,还会生成这对蛋白质结合时的3D结构模型!你能清楚看到它们的接触面长什么样、哪些氨基酸在“握手”。

这有什么用?太有用了!研究团队把人类遗传变异数据(比如致病突变)映射到这些3D接口模型上,一下子揪出了约4,950个相互作用——它们的接触面上正好有疾病相关突变!这就不是模糊的相关性了,而是直接指向“这个突变破坏了A和B的结合,导致功能异常,从而引发疾病”的具体机制。比如某种罕见病,以前只知道和某个基因有关,现在你可以精确地说:“是因为这个突变让蛋白X无法和蛋白Y结合,导致信号通路中断。”

不止于“两人约会”,这个系统还能拼出“多人派对”!团队进一步用预测结果重建了更高阶的蛋白质复合物,比如端粒维持复合体、GPI锚定糖基转移酶(GPI-GnT)、纤毛/鞭毛组装机器等。他们甚至给这些经典复合物“提名”了新的成员蛋白——这些蛋白以前没人想到会参与其中,但AI说:“它们的接口完全匹配!”这为后续实验提供了绝佳靶点。

还有更酷的发现:他们挖出了一批G蛋白偶联受体(GPCR)的新搭档。GPCR是药物研发的黄金靶点,但很多GPCR的信号伙伴一直是个谜。现在,AI帮它们“配对成功”。另外,线粒体里那些神秘的功能模块,也被一一照亮——原来这些“能量工厂”内部也有精密的协作网络,只是我们以前看不见。

说到底,这项研究的意义,远不止于发一篇顶刊论文。它实际上铺出了一条通往“全人类3D互作组”(computed 3D human interactome)的可行路径。随着更多基因组数据和蛋白质结构涌入,这个AI系统会越来越准、越来越全。

未来,医生或许能根据患者的基因突变,快速查询这个“蛋白质社交图谱”,判断哪个关键互动被破坏,从而精准用药;药物研发者也能基于这些3D接口,设计出专门“加固”或“阻断”特定蛋白结合的小分子。