蛋白质语言模型综述


蛋白质“语言”很像人类语言。鉴于这些相似之处,研究人员一直在蛋白质序列数据上构建和训练语言模型,复制其他领域的成功经验,具有深远的影响。在这篇文章中, 我将探讨 Transformer 模型如何应用于蛋白质数据以及我们的发现。

蛋白质的“语言”:

  • 蛋白质序列由20种氨基酸组成,类似于人类语言中的词汇。这些氨基酸的排列顺序决定了蛋白质的结构和功能。
  • 就像人类语言利用单词、短语和句子等模块化元素一样,蛋白质也由基序和结构域组成。
  • 以各种组合重复使用以构建复杂结构的基本构建块。
蛋白质基序和结构域类似于蛋白质世界的“单词”和“短语”,其生物学功能类似于人类语言句子传达的“含义”。

蛋白质的行为方式可能会根据其环境以及与其他分子的相互作用(例如细胞状态、其他分子和翻译后修饰)而变化,但它仍然由基础序列定义。这意味着从信息论的角度来看,蛋白质的信息(例如其结构)包含在其序列中。

蛋白质语言模型架构:

  • 编码器模型(Encoder models):主要用于获取蛋白质在向量空间中的嵌入表示,以便用于下游任务。这些模型通常使用类似BERT的架构,并采用去噪自编码训练目标。
  • 解码器模型(Decoder models):与编码器模型不同,解码器模型采用自回归训练,即基于给定上下文预测后续的氨基酸。

条件变换器(Conditional transformers):
这些模型在训练阶段整合了更深层次的生物学背景,确保学习到的模式不仅在统计上正确,而且在生物学上也有意义。

这些方法确保学习到的模式不仅在统计上正确,而且具有生物学意义。

蛋白质模型可以通过两种主要方式进行调节:

  • i) 通过序列调节,或
  • ii) 通过蛋白质结构调节。

条件序列:
url=https://arxiv.org/abs/1909.05858?ref=apoorva-srinivasan.com]条件变换器语言[/url(一种包含条件标签的自回归模型)的开发标志着 NLP 的重大进步。这些标签允许生成有针对性的文本,而不需要输入序列。这些标签被称为控制代码,显着改善了对流派、主题或风格的影响,标志着目标文本生成的重大进步。

很自然地,CTRL 很快就适应了包含 2.81 亿个蛋白质序列的数据集。生成的模型名为ProGen,采用 UniProtKB 关键字作为条件标签。这些标签涵盖“生物过程”、“细胞成分”和“分子功能”等 10 个类别,涵盖 1,100 多个术语。即使在为未包含在其训练集中的蛋白质家族生成序列时,ProGen 也实现了与高质量英语语言模型相当的困惑度。

ProGen 的性能表明我们在设计与天然蛋白质相似的蛋白质的能力方面取得了重大进步。该模型成功地创建了有效发挥作用的蛋白质序列,经过严格的测试证明,它们的性能与天然存在的蛋白质一样好甚至更好。

具体来说,ProGen 能够:

  • 创建与天然蛋白质的能量效率和结构准确性相匹配的蛋白质。
  • 生成特定蛋白质结构域的变异被证明比随机变异更有效,这表明在实际应用中具有高度的预测准确性和实用性。
现在它可以做更多的事情,正如Profluence Bio 的新论文所示,他们使用 ProGen 设计了 ​​Cas9 蛋白,这种蛋白在自然界中不存在,但能够成功地编辑人类基因。

结构条件:
除了序列之外,我们还可以在训练时结合蛋白质的结构,以便模型可以学习结构 -> 序列。这被称为“反向折叠”,因为它与蛋白质折叠完全相反,即序列→结构

这听起来可能违反直觉,但这实际上是蛋白质设计的一个非常有用的过程,特别是对于酶和治疗学。假设您希望酶或治疗性蛋白质执行一项特定任务,例如与特定分子结合或催化特定反应。传统方法通常涉及调整现有的蛋白质序列并测试新版本是否能更好地发挥作用。这可能会很慢并且有些偶然。

另一方面,反向折叠从心中的理想结构开始——您预测最能执行任务的结构。从那里开始,它向后计算出哪些序列可以折叠到该结构中。

url=https://www.biorxiv.org/content/10.1101/2022.04.10.487779v2?ref=apoorva-srinivasan.com]ESM-IF是在[/url]AlphaFold 数据库[/urlurl=https://www.cathdb.info/?ref=apoorva-srinivasan.com]CATH 蛋白质结构分类数据库[/url上训练的逆折叠模型的一个示例,该模型使用编码器-解码器架构,将结构作为编码器的输入,并以结构为条件对序列进行自回归解码编码。


规模的重要性:
随着计算能力、数据量和模型大小的增加,模型在复杂任务上的性能得到了提升。例如,ESM-2是一个由Meta构建的150亿参数模型,它利用语言模型的内部表示来进行结构预测。

在某些规模上,语言模型表现出有用的功能,这些功能是通过将简单的训练过程扩展到大型数据语料库而出现的,例如小样本语言翻译、常识推理和数学推理。

从生物学中的序列推断也存在类似的想法。由于蛋白质的结构和功能限制了其序列的突变是通过进化选择的,因此也应该可以从序列模式推断生物结构和功能,这将有助于深入了解生物学中的一些最基本的问题。

这正是Meta 构建的 150 亿参数模型[url=https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full.pdf?ref=apoorva-srinivasan.com]ESM-2所做的事情。

  • 这太不可思议了!通过扩大模型大小和数据集大小,我们可以摆脱特定的归纳偏差(例如,MSA)并仅使用单个序列作为输入来生成结构预测。
  • 尽管 ESM-2 的准确性不如如今的 AlphaFold,但它是一种有趣且简单的方法,可以利用不断扩大的多样化且未注释的蛋白质序列数据池
为了进一步说明 ESM 蛋白质模型令人惊叹的能力,研究人员使用高度优化的单克隆抗体进行了一项非凡的实验,其中包括针对埃博拉和新冠病毒等疾病的抗体。他们将这些抗体的序列输入 ESM 模型,然后该模型识别出实际氨基酸序列与其预测之间的差异。通过用模型预测的氨基酸选择性地替换这些不同位点的氨基酸,研究人员显着增强了抗体的结合亲和力、热稳定性和体外效力——成熟抗体的结合亲和力、热稳定性和体外效力提高了 7 倍,令人惊讶的是 160 倍。


结论:
最近,一种更通用的方法正在形成,较少关注进化谱系,而更多关注蛋白质的基本功能和结构方面。如果这种进展速度继续下去,我们就站在潜在突破性发现的边缘——发现熟悉蛋白质的未知方面,甚至合成全新的蛋白质。

深入研究蛋白质语言模型非常有趣。当我阅读更多内容时,蛋白质科学取得更多突破的潜力似乎很有希望,特别是通过将更大更好的模型与巧妙的实验设计相结合。