分子生物学中的大语言模型


分子生物学的中心法则描绘了从基因组到基因表达和随后的蛋白质生产的分子信息流,蛋白质是生命的基本组成部分。

基因组中有大约20,000个基因,这些基因是负责蛋白质合成的DNA片段。

  1. 大约1%的基因组编码蛋白质,
  2. 而其余部分包括控制基因表达的区域:
  • 基因中不编码蛋白质的区域,
  • 对DNA结构有贡献的区域,
  • 以及“学会”自我复制的自私DNA的“垃圾”区域。

蛋白质合成包括三个主要步骤:

  • 转录:在转录过程中,对应于基因的DNA片段充当模板,其被复制成称为信使RNA(mRNA)的分子。
  • 剪接:mRNA分子经历剪接,这是一种其中分子的某些区段被切除或剪接掉,并且剩余区段连接在一起以形成成熟mRNA的过程。切除的区域称为内含子,保留的区域,即外显子,构成mRNA的蛋白质编码部分。每个成熟mRNA由平均7个外显子组装而成,尽管对于人肌营养不良蛋白基因,人类中的计数从1到79不等。
    剪接在高等生物中至关重要,因为单个基因可以通过在剪接期间组装不同的外显子组合来产生多种不同的蛋白质。
  • 翻译:转录后,mRNA被转运到细胞的蛋白质合成机器,核糖体,在那里发生翻译。在翻译过程中,mRNA序列以三个核苷酸的组被解码,称为密码子。每一个密码子都恰好对应于构成蛋白质结构单元的20种氨基酸中的一种。这些氨基酸在链中连接在一起以形成蛋白质序列,其随后折叠成功能性三维蛋白质结构。

蛋白质是生命的基石,在几乎每一个生物过程中发挥着关键作用。它们提供细胞的结构成分,作为酶催化化学反应,并促进细胞内的通讯和运输。

基因调控
基因调控涉及决定基因在细胞内何时、何地和以何种数量表达的复杂过程。这确保了以正确的数量及时生产正确的蛋白质。基因调控发生在不同的水平,包括染色质的结构化,化学修饰,并通过称为转录因子的特定蛋白质的作用。

转录因子(TF)是在基因调控中起作用的蛋白质。
DNA甲基化是一种化学修饰,其中甲基基团被添加到DNA分子中,通常在特定的胞嘧啶碱基处。甲基化可以通过影响转录因子的结合或改变染色质结构来影响基因表达,使其更紧凑且更不易于转录。
甲基化和其他DNA化学修饰也是表观遗传密码的一部分。

基因调控是特定于每种细胞类型的动态过程。我们体内的不同细胞表现出独特的基因表达谱,使它们能够执行特定的功能。通过精确控制基因表达,细胞可以对环境刺激做出反应,维持体内平衡,并执行生命所必需的复杂过程。

信息的双向流动。传统上,中心法则被描述为信息的单向流动:DNA到RNA到蛋白质。

分子生物学中的语言模型
在过去的几年里,在分子生物学中心法则的每一步建模方面都取得了显著的进展。虽然我们还没有完全将分子生物学转变为计算科学,或者将医学和人类健康转变为工程学科,但目前的势头表明,我们与这一愿景之间只有大量的额外数据和一些进一步的发展。

组合学,离散算法和数学推理不是LLM的强项。
正如Stephen Wolfram的精彩概述中所解释的那样,计算不可约性保证了这些ChatGPT这些大语言模型不能做某些事情。

分子生物学建模需要LLM擅长的东西:学习复杂的、有噪声的顺序数据的统计特性,以便从有损表示中最好地预测这样的数据。

为了说明这一点,让我们来看看最近深度学习在分子生物学中心法则的不同阶段取得的一些突破。

预测基因结构
根据分子生物学的基本法则,DNA的主要功能是编码基因,这些基因被转录和翻译成蛋白质。每个基因翻译成蛋白质的特定片段由剪接机制决定;这些片段对于基因组中的绝大多数基因都有很好的注释。

然而,突变可以破坏剪接的精确边界,称为剪接位点。
破坏剪接的罕见突变可以显著影响所得蛋白质功能,因为它们通常产生完全不同的蛋白质序列。
因此,它们占罕见遗传疾病的约10%(Jaganathan et al. 2019年)。

因此,预测剪接位点和推断基因结构是一项基本的计算任务,对诊断遗传疾病具有重要意义。

2019年,Illumina AI实验室推出了SpliceAI(Jaganathan et al. 2019年)。SpliceAI不使用变压器技术或作为LLM;相反,它采用早期的语言建模技术,其中语言是DNA序列。

它是一个深度残差CNN,利用膨胀卷积来有效地扩展它可以处理的窗口大小。它接受人类基因组的10,000个核苷酸窗口作为输入,并预测内含子-外显子边界的确切位置,即所谓的供体和受体位点-分别为外显子-内含子和内含子-外显子边界。

在精确召回曲线下面积(PR-AUC)方面,SpliceAI在整个人类基因组中的得分为0.98,而之前的最佳得分为0.23。重要的是,SpliceAI足够准确,可以在计算机上进行突变分析:它可以人为地改变DNA的任何位置,并确定这种改变是在改变的10,000个核苷酸内引入还是消除剪接位点。

因此,它可用于辅助基因诊断:给定患有遗传疾病的患者,例如患有儿科疾病的年轻个体,可以编译个体中不存在于父母中的所有变体,并且可以将每个变体输入到SpliceAI中以询问其是否可能改变附近基因的剪接,从而破坏基因的功能。

SpliceAI是如何实现高准确率的?简而言之,它了解了DNA序列的复杂生物分子特性,这些特性可靠地将剪接机制引导到剪接位点。这些性质以前是未知的或只是不精确地知道;SpliceAI的深度残差网络有足够的能力准确捕捉它们。

这就提出了一个关于深度神经网络解释的有趣问题:我们如何提取SpliceAI学习的生物分子规则,以深入了解潜在的生物分子机制?
般来说,神经网络是黑盒子,无法解释它们如何做出预测。然而,存在用于探测网络并提取其关注的特征的技术。SpliceAI团队进行了这样的分析,并描述了大量的学习特征(Jaganathan et al. 2019年)。

预测蛋白质结构
分子生物学的中心法则讲述了我们DNA中的信息如何产生蛋白质的故事,蛋白质是生命的基本组成部分。蛋白质序列根据遗传密码从剪接的mRNA序列直接翻译,然后折叠成功能性3D形状-蛋白质结构。

从蛋白质序列预测蛋白质结构,被称为蛋白质折叠问题,长期以来一直被认为是分子生物学的圣杯,由于其巨大的重要性和看似不可逾越的困难。

蛋白质结构的金标准是来自X射线晶体学的实验数据,由于难以产生高质量的蛋白质晶体以及推导蛋白质结构所需的复杂数据处理,获得这些数据具有挑战性。

基于AlphaFold2的全面开源数据库,名为AlphaFold蛋白质结构数据库。该数据库为各种生物体提供了高精度的结构预测,包括人类蛋白质,模式生物和重要的病原体。
这些预测的结构有望加速研究,并为生物过程,药物发现和疾病理解提供有价值的见解。到目前为止,数据库中有214,683,829个蛋白质结构。

从本质上讲,由于深度学习,分子生物学曾经的圣杯现在接近解决问题。
AlphaFold 2代表了任何衡量标准的重大科学进步。(banq注:这是某国外网红女教授回国的原因之一)

AlphaFold是如何达到如此惊人的准确性的?
方法是将对蛋白质序列进行操作的卷积神经网络与成对协同进化特征相结合。
该特征识别跨不同物种中的相关蛋白质序列共变的序列位置对,以预测跨蛋白质序列的2D接触图。
接触图是序列中每对位置的得分,指示这两个位置在3D中紧密接近的可能性。AlphaFold 2方法建立在这些算法的基础上,经过专业设计和训练,在结构预测准确性方面实现了重大飞跃。

AlphaFold2引入了几个额外的新改进:


    * 它基于变压器LLM架构,这增强了其捕获蛋白质序列中氨基酸之间的长程相互作用的能力。
    * 引入了一种新的基于能量的评分,琥珀能量,以直接优化3D蛋白质结构,允许在结构优化步骤期间采用端到端可区分的方法。
    * 通过将多序列比对(MSA)数据的协同进化特征的改进利用提高了模型的能力,以确定跨同源蛋白质序列的保守结构特征。
    * 细化阶段使用在第一模型的输出上训练的第二模型来微调预测的蛋白质结构,从而导致更准确和一致的预测。

自AlphaFold成立以来,深度学习在蛋白质结构预测、建模和设计方面的应用进展迅速。

  • ESMFold(Lin et al. 2023)是一个LLM蛋白质结构预测,提供了高达60倍的加速而不损失准确性。
  • ProteinGenerator(Lyayuga Lisanza et al. 2023)是基于RoseTTAfold(Baek et al. 2021)蛋白质结构预测方法。ProteinGenerator同时生成满足任何给定序列和结构特性的蛋白质序列及其伴随结构,正如作者通过实验证明的那样。
  • RosettaFold2(Baek et al. 2023)结合了AlphaFold2和RosettaFold的特征,以提高的计算效率提供与AlphaFold2相当的准确度。

我们正处于蛋白质设计领域令人难以置信的创新的开端,即将在药物设计和生物工程领域取得突破性进展。

一个关键的结论是,虽然几十年来对第一原理的研究,包括蛋白质结构能量最小化和蛋白质动力学建模,未能产生准确的结构预测,但蛋白质如何折叠的复杂和错综复杂的分子信息存在于数据中,LLM能够学习它。

预测蛋白质变体的影响
任何两个个体的基因组中有超过400万个位置不同,其中超过20,000个这样的变体位于蛋白质编码区内。这种遗传变异的大部分是良性的,并且对在人类中观察到的表型多样性有显著贡献。然而,这种遗传多样性的一小部分是有害的,并有助于遗传疾病。了解遗传变异的影响并将其分类为良性或有害的直接应用于遗传疾病的诊断、用于药物开发的基因靶标的鉴定以及疾病的分子机制的理解。

遗憾的是,绝大多数变异是“意义不确定的变异”(VUS),它们对疾病的影响尚不清楚。注释这些变异是人类遗传学中一个关键的未解决问题。

确定一个特定的变异是否是良性的,或者至少不是太有害的,一个重要的线索来自于将人类遗传学与近亲(如黑猩猩和其他灵长类动物)的遗传学进行比较。
我们的基因组与其他灵长类动物的基因组非常相似:例如,它与黑猩猩的基因组有98.8%的相似性,与大猩猩的基因组有98.4%的相似性,与猩猩的基因组有97%的相似性。
蛋白质在进化过程中是保守的,平均而言甚至更相似。

我们的生物学也非常相似,当人类蛋白质中的突变是致命的或导致严重的遗传疾病时,相应的灵长类蛋白质中的相同突变也可能是有害的。

相反,在健康灵长类动物中观察到的蛋白质变体在人类中也可能是良性的。因此,我们可以访问的灵长类基因组越多,我们就可以收集更多关于人类基因组的信息:我们可以编制一份在灵长类动物中经常观察到的蛋白质变体的列表,并推断这些变体在人类中可能是良性的。因此,寻找导致严重遗传疾病的突变应该从不在此列表中的突变开始。

灵长类动物蛋白质中的这样一个变体列表永远不足以将人类突变分类为良性或致病性。简而言之,将有太多的良性人类突变没有机会出现在灵长类动物中观察到的变异列表中。但是,可以以更有效的方式使用此列表:通过观察蛋白质序列和结构中倾向于容忍变异的模式,以及倾向于不容忍变异的模式。通过学习区分这两类蛋白质位置,我们可以获得将蛋白质中的变体注释为可能良性和可能致病的能力。

由凯尔Farh领导的Illumina AI实验室开发了SpliceAI方法,采用这种方法来注释人类蛋白质中的变体(Gao et al. 2023年)。
研究小组在灵长类动物中发现了430万种常见蛋白质变体,相应的蛋白质也存在于人类中。然后,他们构建了一个转换器,可以学习区分人类蛋白质中的良性和致病性变体。这是通过学习灵长类动物变体倾向于存在的蛋白质位置的模式来实现的,与灵长类动物变体倾向于不存在的蛋白质位置相反。名为PrimateAI-3D的转换器是之前深度学习工具PrimateAI的新版本(Sundaram et al. 2018),由同一实验室开发。PrimateAI-3D利用蛋白质序列数据以及通过AlphaFold和HHpred等工具实验重建或计算预测的蛋白质3D模型,以2埃分辨率进行体素化

在人类注释变体及其影响的ClinVar数据集中,PrimateAI-3D实现了87.3%的召回率和80.2%的准确率,AUC为0.843,这是最先进的方法中最好的,尽管与其他方法不同,它没有在ClinVar上训练。

PrimateAI-3D可以应用于罕见疾病的诊断,其中它可以优先考虑可能有害的变体,并过滤掉可能的良性变体。

基因调控建模
因调控的复杂过程包括许多相互作用的分子组分:DNA染色质结构,DNA包裹的组蛋白内的化学改变,转录因子与启动子和增强子的连接,涉及启动子、增强子、结合的转录因子的3D DNA结构的建立,以及RNA聚合酶的募集。

理论上讲,基因附近的精确DNA序列携带着在正确的时间、正确的数量和适当的细胞类型中触发这一机制所需的所有信息。在实践中,仅从DNA序列预测基因表达是一项艰巨的任务。

然而,语言模型最近在这一领域取得了重大进展。

基因调控信息的数据生成。在过去的二十年里,基因组学研究人员进行了巨大的努力,以产生适当类型的大规模分子数据,以了解基因调控。已经开发了数百种不同的分析方法,它们告知了中心法则的各个方面,太多了,无法在这里详细说明。

总的来说,已经在ENCODE,modENCODE,Roadmap Epigenomics,Human Cell Atlas等多年国际项目下收集了数千个这样的实验。反过来,每个实验在整个人类或模型生物体基因组中有数万到数十万个数据点。

语言模型的谱系,在基于转换器的Enformer工具中达到顶峰(Avsek et al. 2021),已经被开发为接受基因附近的DNA序列作为输入,并输出该基因对于基因组中的任何基因的细胞类型特异性表达水平。

Enformer接受了以下任务的培训:给定100,000个核苷酸的基因组区域和特定的细胞类型,训练它以预测该区域的每种可用类型的实验数据,包括开放或压缩染色质的状态、目前的组蛋白修饰、特定结合的转录因子和基因表达水平。

一个语言模型非常适合这个任务:Enformer不是使用掩蔽语言建模,而是以监督的方式进行训练,从DNA序列同时预测所有轨道。通过整合注意力机制,它可以有效地整理来自遥远区域(最多100,000个核苷酸)的信息,以预测给定位置的状态。
实际上,Enformer学习了这些不同分子实体之间所有错综复杂的相关性。

Enformer在单独从序列预测基因表达方面表现相当好。

预期在可预见的未来,我们将拥有能够仅从序列预测基因表达的LLM,其具有实验级的准确性,并且因此具有准确且全面地描绘分子生物学中心法则中所涉及的复杂分子机制的模型,这不是不合理的。

如上所述,细胞内的DNA以复杂的分层3D染色质结构排列,这在基因调控中起作用,因为只有开放染色质内的基因被表达。
Orca(Zhou 2022)是一种基于卷积编码器-解码器架构的最新语言模型,它根据Hi-C实验提供的邻近数据预测3D基因组结构。这些是跨越细胞系或组织样本的整个基因组的数据集,其中彼此接近的基因组位置对被揭示为DNA片段,其将来自每个区域的DNA片段粘合在一起。Orca模型是一个分层的多级卷积编码器和多级解码器,它可以在9个分辨率级别上预测DNA结构,从4kb(千碱基对)到1024 kb,输入的DNA序列与最长的人类染色体一样长。

基础模型
基础模型是大型的深度学习架构,例如OpenAI基于transformer的GPT模型,它编码了来自不同来源的大量知识。研究人员和从业人员可以针对特定任务对这些预先训练的模型进行微调,从而为广泛的下游应用提供高性能系统。在分子生物学中已经开始出现几种基础模型。

在这里,我们将简要介绍两个这样的模型,刚刚出现在biorXiv的预印本。

1、scGPT是一个为单细胞转录组学、染色质可及性和蛋白质丰度设计的基础模型。这个模型是在1000万个人类细胞的单细胞数据上训练的。每个细胞包含大约2万个人类基因的一部分的表达值。该模型学习这个大型细胞×基因矩阵的嵌入,从而提供对潜在的细胞状态和活跃的生物途径的洞察力。

2、Nucleotide Transformer核苷酸转化器是一个专注于原始DNA序列的基础性模型。这些序列被标记成每个有六个字符的词(长度为6的k-mers),并使用BERT方法进行训练。训练数据包括参考人类基因组、3200个额外的不同人类基因组以捕捉整个人类基因组学的变化,以及850个其他物种的基因组。


详细点击标题