Chroma:用程序代码生成蛋白质的通用扩散模型


Chroma是用Python代码实现蛋白质设计的生成模型。

刚刚发表在《自然》上论文《用可编程生成模型照亮蛋白质空间》:使用人工智能生成蛋白质。

1、在实验室中验证了Chroma生成的蛋白质。 这些数据增加了文献中越来越多的证据,即扩散模型可以创建具有所需结构和功能的真实蛋白质。

2、还开源了Chroma背后的代码,并为学术和非营利研究人员提供了免费访问模型权重的机会。 您可以在@generate_biomed Chroma页面上找到代码、模型权重和示例notebook的链接

3、API意味着非常干净和易于使用,几行Python代码就可以生成一个有200个氨基酸东东,可以通过Chroma中的调节器API进行 * 有条件 * 采样。conditioner是一个python对象,它对底层的扩散过程施加一组约束或约束。

4、作为计算机科学家,我喜欢Chroma通过条件抽象实现的可编程性。 Chroma API允许调节剂的任意组合,因此它们可以很容易地混合和匹配,以创建具有所需属性的蛋白质。

5、写自己的护发素也很容易。让我们来做一些有趣的事情,比如在MxN矩形晶格上创建一个2D水晶状物体。

6、代码库中还有很多值得强调的东西,包括改进的设计网络(结构-序列)。设计网络是噪声感知的,我们发现在t=0.5时设计会在大多数结构预测模型中产生鲁棒的重折叠!

原文摘要
30 亿年的进化产生了种类繁多的蛋白质分子,但蛋白质的全部潜力可能要大得多。

由于可能的蛋白质分子空间远大于可能具有功能的蛋白质分子空间,因此获取这种潜力对于计算和实验来说都具有挑战性。

在这里,我们介绍一种蛋白质和蛋白质复合物的生成模型 Chroma,它可以直接对新的蛋白质结构和序列进行采样,并可以对生成过程进行调节,使其趋向于所需的特性和功能。

为了实现这一点,我们引入了一种尊重聚合物组合构象统计的扩散过程、一种用于分子系统的高效神经架构(该架构可实现亚二次方缩放的长程推理)、用于根据预测的残基间几何结构高效合成蛋白质三维结构的层,以及一种用于扩散模型的通用低温采样算法。

Chroma 通过外部约束条件下的贝叶斯推理实现蛋白质设计,外部约束条件可包括对称性、亚结构、形状、语义甚至自然语言提示。对 310 个蛋白质的实验表征表明,从 Chroma 中采样得到的蛋白质具有高表达性、折叠性和良好的生物物理性质。两个设计蛋白质的晶体结构与 Chroma 样品的原子结构一致(骨干均方根偏差约为 1.0 Å)。我们希望通过这种统一的蛋白质设计方法,加速蛋白质物质的编程,从而造福人类健康、材料科学和合成生物学。

蛋白质分子执行着生命所需的大部分生物功能,但创造它们是一项复杂的任务,需要数十亿年的进化。

计算蛋白质设计领域的目标是以可编程的方式自动设计功能蛋白质,从而缩短这一过程。尽管过去三十年来在实现这一目标方面取得了长足的进步,包括设计出了以前未知的拓扑结构、组装体、粘合剂、催化剂和材料7,但大多数全新的设计尚未接近自然界中大分子的复杂性和多样性。

造成这种情况的原因包括:建立序列、结构和功能之间关系的模型十分困难,而且大多数计算设计方法都依赖于迭代搜索和取样过程,就像进化一样,这些过程必须在崎岖不平的适应性环境中逐步导航。

尽管已经开发出许多计算技术来加速这种搜索并改进对天然蛋白质结构的预测,但可能的蛋白质空间仍然非常大,传统计算方法只能部分地进入。如何有效地探索可设计蛋白质结构的空间仍然是一个有待解决的难题。

在此,我们介绍一种蛋白质生成模型 Chroma,它通过准线性计算缩放和允许生成时任意条件采样来模拟完整复合物,从而满足上述所有三个要求。

它建立在扩散模型28,29 和图神经网络30,31 的框架之上:

  • 前者通过学习以可逆方式逐渐将高维分布转化为简单分布来建模,
  • 后者则能有效处理复杂分子系统中的几何信息。

我们的研究表明,Chroma 能生成高质量、多样化和创新性的结构,这些结构在硅学和晶体学实验中都能重新折叠,而且它还能根据对称性、形状、蛋白质类别甚至文本输入等不同属性,可编程地生成蛋白质。

我们预计,像 Chroma 这样可扩展的生成模型将使我们设计和构建符合功能要求的蛋白质系统的能力得到广泛而快速的提高。