AlphaFold打开了蛋白质潘多拉魔盒

banq


谷歌DeepMind的AlphaFold发现了蛋白质结构之间意想不到的联系,甚至发现了从未见过的形状。

去年,DeepMind 使用 AlphaFold通过基因组数据预测了生物体中几乎所有已知蛋白质的结构,在其数据库中积累了约 2.14 亿个结构。该存储库由位于英国欣克斯顿的欧洲分子生物学实验室欧洲生物信息学研究所 (EMBL-EBI) 托管。

比较结构的新方式
由 Steinegger 和瑞士苏黎世瑞士联邦理工学院 (ETH) 的计算生物学家 Pedro Beltrao 共同领导的团队开发了一种工具,可以根据数据库中的相似性快速比较数据库中的每个结构和他们的形状。它鉴定出超过两百万个形状相似的蛋白质“簇” 。

过去,研究人员通常利用由基因编码的蛋白质序列进行这种比较。但蛋白质序列的变化速度往往快于蛋白质结构的变化速度,这就限制了科学家发现远缘蛋白质的能力;而通过这种比较结构的新方式,他们发现的相关蛋白质群的数量是仅使用序列的十倍。

研究人员刚刚开始探索蛋白质宇宙中这些新发现的 "星系",但他们已经发现了一些惊人的联系。例如,研究人员发现,包括人类在内的复杂生物用来检测病毒DNA并触发快速免疫攻击的一种蛋白质与来自单细胞细菌和古细菌的蛋白质组成了一个群集。

结构分组的新方式
第二个团队采取了略有不同的方法来阐明蛋白质宇宙的“暗物质”。瑞士巴塞尔大学和洛桑 SIB 瑞士生物信息学研究所的计算生物学家 Joana Pereira、Janani Durairaj 和 Torsten Schwede 及其同事创建了一个网络,该网络连接了 AlphaFold 数据库中超过 5000 万个最准确预测的结构(该工具评估其预测的质量)。然后他们利用这些分组来识别蛋白质宇宙中一些最黑暗的角落。

一个令人惊喜的发现是一种以前从未见过的蛋白质形状。研究人员将其称为“β-花”,因为它的结构包含许多发夹转角(呈称为“β-桶”的蛋白质形状),类似于花朵上的花瓣。含有β-花的蛋白质彼此之间存在着较远的亲缘关系,但尚不清楚它们的作用。

这项工作实际上打开了项目的潘多拉魔盒。

伦敦大学学院的计算生物学家 Christine Orengo 很高兴能够找到探索蛋白质宇宙的新方法。
这些研究是一个新领域的开始,在这个新领域中,蛋白质结构的研究规模曾经难以想象。