AI再获2024年诺贝尔化学奖

banq


2024年诺贝尔化学奖授予了 大卫·贝克David Baker、Demis Hassabis 和 John Jumper,以表彰他们在蛋白质设计和蛋白质结构预测方面的贡献。这一成就被认为是化学领域的重大突破,因为它涉及到生命构建块的理解和应用。

这是继昨天诺贝尔物理奖颁给AI专家后的又一惊喜。

后两位简直是人生赢家,创办了公司被谷歌收购,又获得诺贝尔奖,名利双收,关键还很年轻,Jumper是70年来最年轻的诺贝尔奖得主,而且在短短七年内从获得博士学位到获得诺贝尔奖!

大卫·贝克David Baker
蛋白质通常由 20 种不同的氨基酸组成,可以说是生命的基石。2003 年,大卫·贝克成功利用这些基石设计出一种与其他蛋白质不同的新蛋白质。此后,他的研究小组不断创造出一个又一个富有想象力的蛋白质,包括可用作药物、疫苗、纳米材料和微型传感器的蛋白质。

人工智能AlphaFold2两位设计者
2020 年,Demis Hassabis和John Jumper提出了一个名为 AlphaFold2 的 AI 模型。借助该模型,他们能够预测研究人员发现的几乎所有 2 亿种蛋白质的结构。自他们取得突破以来,来自 190 个国家的 200 多万人使用了 AlphaFold2。在众多科学应用中,研究人员现在可以更好地了解抗生素耐药性并创建可分解塑料的酶的图像。

Demis Hassabis 是一位英国计算机科学家,他是 DeepMind 的联合创始人和首席执行官。他出生于1976年,曾在剑桥大学学习,并在伦敦大学获得认知神经科学博士学位。Hassabis 以其在人工智能领域的贡献而闻名,尤其是他领导开发的 AlphaGo 和 AlphaFold 项目。AlphaGo 是第一个击败人类围棋世界冠军的计算机程序,而 AlphaFold 则能够准确预测蛋白质的三维结构,这对于生物学和药物设计等领域具有重大意义。

John Jumper 是一位美国计算机科学家,出生于1985年,他在芝加哥大学获得博士学位,并自2018年起在英国伦敦的 DeepMind 担任高级研究科学家。Jumper 因参与开发 AlphaFold 而闻名,这是一个能够预测几乎所有已知蛋白质结构的人工智能模型。他的工作对科学界产生了深远的影响,被《自然》杂志列为2021年“科学界重要人物”之一,并获得了2023年生命科学突破奖。

他们通过计算和人工智能揭示了蛋白质的秘密
2024 年诺贝尔化学奖旨在表彰对氨基酸的全新理解和掌握。

奖金的一半授予 Demis Hassabis 和 John Jumper,他们利用人工智能成功解决了化学家们 50 多年来一直困扰他们的一个问题:根据氨基酸序列预测蛋白质的三维结构。这让他们能够预测几乎所有 2 亿种已知蛋白质的结构。

奖金的另一半授予 David Baker。他开发了计算机化方法来实现许多人认为不可能实现的事情:创造以前不存在的蛋白质,而且在许多情况下,这些蛋白质具有全新的功能。

2024 年诺贝尔化学奖表彰了两项不同的发现,但是都有关蛋白质。

一个谜:蛋白质如何找到自己独特的结构?
美国科学家克里斯蒂安·安芬森 (Christian Anfinsen)也做出了另一项早期发现。他利用各种化学技巧,成功使现有蛋白质展开,然后再次折叠起来。有趣的是,蛋白质每次都呈现出完全相同的形状。1961 年,他得出结论,蛋白质的三维结构完全由蛋白质中的氨基酸序列决定。这让他于 1972 年获得诺贝尔化学奖。

然而,安芬森的逻辑中却存在一个悖论,另一个美国人赛勒斯·列文塔尔在 1969 年就指出了这一点。他计算出,即使一种蛋白质只由 100 种氨基酸组成,理论上该蛋白质至少可以呈现 10 的47幂次方种不同的三维结构。

如果氨基酸链随机折叠,那么找到正确的蛋白质结构所需的时间将比宇宙的年龄还要长。在细胞中,这只需要几毫秒。那么氨基酸链究竟是如何折叠的呢?

安芬森的发现和列文塔尔悖论暗示折叠是一个预先确定的过程。而且——重要的是——有关蛋白质如何折叠的所有信息都必须存在于氨基酸序列中。

迎接生物化学的巨大挑战
上述见解带来了另一个决定性的认识——如果化学家知道蛋白质的氨基酸序列,他们就应该能够预测蛋白质的三维结构。这是一个令人兴奋的想法。如果他们成功了,他们将不再需要使用繁琐的 X 射线晶体学,并且可以节省大量时间。他们还将能够为所有不适用 X 射线晶体学的蛋白质生成结构。

这些合乎逻辑的结论向生物化学领域的巨大挑战——预测问题——发起了挑战。为了促进该领域的更快发展,研究人员于 1994 年启动了一项名为“蛋白质结构预测关键评估”(CASP)的项目,该项目发展成为一场比赛。每隔一年,来自世界各地的研究人员就会获得刚刚确定结构的蛋白质氨基酸序列。然而,这些结构对参与者是保密的。挑战是根据已知的氨基酸序列预测蛋白质结构。

CASP 吸引了众多研究人员,但解决预测问题却异常困难。研究人员在竞赛中输入的预测与实际结构之间的对应关系几乎没有任何改善。直到 2018 年,一位国际象棋大师、神经科学专家和人工智能先驱进入该领域,才取得了突破。

棋盘游戏大师参加蛋白质奥运会
Demis Hassabis 的背景:

  • 他从四岁开始下国际象棋,13 岁时就达到了大师级水平。
  • 十几岁时,他开始了程序员和成功的游戏开发者的职业生涯。
  • 他开始探索人工智能,并涉足神经科学,在那里他取得了几项革命性的发现。他利用自己对大脑的了解为人工智能开发了更好的神经网络。

2010 年,他与他人共同创立了 DeepMind,这家公司为流行的棋盘游戏开发了精湛的人工智能模型。该公司于 2014 年被出售给谷歌,两年后,DeepMind 引起了全球关注,当时该公司实现了许多人认为是人工智能的圣杯:击败了世界上最古老的棋盘游戏之一围棋的冠军选手。

在这次胜利之后,他的团队准备解决对人类更重要的问题,因此在 2018 年他报名参加了第十三届 CASP 比赛。

Demis Hassabis 的 AI 模型意外获胜
前些年,研究人员为 CASP 预测的蛋白质结构最多只能达到 40% 的准确率。而哈萨比斯Hassabis 团队的人工智能模型 AlphaFold 的准确率则接近 60%。他们最终获胜,而优异的结果让许多人感到意外——这是意料之外的进展,但解决方案还不够好。要想成功,预测结果与目标结构的准确率必须达到 90%。

他的团队继续开发 AlphaFold——但无论他们多么努力,算法都未能完全成功。残酷的事实是,他们已经走进了死胡同。团队已经筋疲力尽,但一位相对较新的员工对如何改进人工智能模型有着决定性的想法:约翰·江珀 (John Jumper)。

约翰·江珀 (John Jumper) 接受生物化学的巨大挑战
约翰·江珀对宇宙的迷恋使他开始学习物理和数学。然而,2008 年,当他开始在一家使用超级计算机模拟蛋白质及其动力学的公司工作时,他意识到物理知识可以帮助解决医学问题。

2011 年,当 Jumper 开始攻读理论物理学博士学位时,他对蛋白质产生了浓厚的兴趣。为了节省计算机容量(当时大学里计算机容量非常紧缺),他开始开发更简单、更巧妙的方法来模拟蛋白质动力学。

2017 年,他刚刚完成博士学位,就听到有传言称,谷歌 DeepMind 已经开始秘密预测蛋白质结构。他向他们发送了一份工作申请。他在蛋白质模拟方面的经验使他对如何改进 AlphaFold 有了创造性的想法,因此,在团队开始停滞不前后,他得到了晋升。Jumper 和 Hassabis 共同领导了从根本上改革人工智能模型的工作。

改革后的人工智能模型取得了惊人的成果
新版本 AlphaFold2 以 Jumper 对蛋白质的了解为蓝本。该团队还开始使用人工智能领域最近取得巨大突破背后的创新:称为transformers的神经网络。这些神经网络可以以比以前更灵活的方式在大量数据中找到模式,并有效地确定应该关注什么才能实现特定目标。

研究团队利用数据库中所有已知蛋白质结构和氨基酸序列的海量信息对 AlphaFold2 进行了训练,新的 AI 架构在第十四届 CASP 竞赛开始取得良好的成绩。

2020 年,当 CASP 的组织者评估结果时,他们意识到生物化学 50 年的挑战已经结束。

当 Demis Hassabis 和 John Jumper 确认 AlphaFold2 确实有效后,他们计算了所有人类蛋白质的结构。然后他们预测了研究人员在绘制地球生物图谱时迄今发现的几乎所有 2 亿种蛋白质的结构。

Google DeepMind 还将 AlphaFold2 的代码公开,任何人都可以访问。这个人工智能模型已经成为研究人员的金矿。到 2024 年 10 月,来自 190 个国家的 200 多万人使用了 AlphaFold2。以前,获得蛋白质结构通常需要数年时间,现在只需几分钟即可完成。这个人工智能模型并不完美,但它可以估计它所生成的结构的正确性,因此研究人员知道预测的可靠性。


一本关于细胞的教科书让大卫·贝克改变了方向
大卫·贝克开始在哈佛大学学习时,选择了哲学和社会科学专业。然而,在学习进化生物学课程时,他偶然发现了现已成为经典教科书的《细胞分子生物学》的初版。这导致他的人生方向发生了改变。他开始探索细胞生物学,并最终对蛋白质结构着迷。1993 年,当他开始担任西雅图华盛顿大学的课题组长时,他接受了生物化学的巨大挑战。通过巧妙的实验,他开始探索蛋白质如何折叠。这为他提供了深刻的见解,并在 20 世纪 90 年代末开始开发可以预测蛋白质结构的计算机软件:Rosetta。

1998 年,贝克首次使用 Rosetta 参加 CASP 竞赛,与其他参赛者相比,它的表现非常出色。这次成功带来了一个新想法——大卫·贝克的团队可以反向使用该软件。他们不必在 Rosetta 中输入氨基酸序列并得到蛋白质结构,而是可以输入所需的蛋白质结构并获得其氨基酸序列的建议,这将使他们能够创建全新的蛋白质。

贝克成为蛋白质建造者
蛋白质设计领域始于 20 世纪 90 年代末,研究人员设计具有新功能的定制蛋白质。在许多情况下,研究人员对现有蛋白质进行调整,以便它们能够分解危险物质或作为化学制造业的工具。

然而,天然蛋白质的范围有限。为了增加获得具有全新功能的蛋白质的可能性,贝克的研究小组希望从头开始创造它们。正如贝克所说,“如果你想制造一架飞机,你不会从改造一只鸟开始;相反,你要了解空气动力学的基本原理,并根据这些原理制造飞行器。”

一种独特的蛋白质问世
构建全新蛋白质的领域称为从头设计。研究小组绘制了一种具有全新结构的蛋白质,然后让 Rosetta 计算哪种氨基酸序列可以产生所需的蛋白质。为此,Rosetta 搜索了所有已知蛋白质结构的数据库,并寻找与所需结构相似的蛋白质短片段。然后,Rosetta 利用蛋白质能量图的基本知识优化了这些片段并提出了一个氨基酸序列。

为了研究该软件的成功程度,贝克的研究小组将拟议氨基酸序列的基因引入到产生所需蛋白质的细菌中。然后他们使用 X 射线晶体学确定了蛋白质结构。

事实证明,Rosetta 确实可以构建蛋白质。研究人员开发的蛋白质Top7几乎与他们设计的结构完全一致。

2020 年 CASP 竞赛结束后,大卫·贝克 也意识到了基于 Transformer 的 AI 模型的潜力,于是在 Rosetta 中加入了 Transformer,这也促进了蛋白质的从头设计。近年来,Baker 的实验室中出现了一个又一个令人难以置信的蛋白质创造物

网友
1、这些成就有一半功劳是依靠Transformer AI模型,那么Transformer的作者谁来给他们颁奖?Transformer最初是为了翻译,后来用在大语言模型上,应该获得诺贝尔文学奖。

2、chatGPT 即将获得诺贝尔文学奖

3、昨天的诺贝尔物理学奖颁出后,我绝对预见到了这一点

4、人工智能确实正在统治世界。

5、这感觉比昨天更合适:使用人工智能来研究蛋白质,而不是使用蛋白质或物理学来开发人工智能,但这是否进一步证实我们确实生活在模拟中?

6、人工智能无处不在,化学、物理......下一个是什么?