OpenAI发布长寿科学AI新模型
OpenAI的新模型名为GPT-4 b micro,经过训练,它能够提出增加蛋白质功能设计的新建议:
- 研究人员采纳了GPT-4 b micro模型的建议:改变了Yamanaka山中因子中的两个因子。
- 这个建议使得两个因子的效率提高了50倍以上!
- 由这两个因子重编程设计的蛋白质似乎比科学家自己生产的蛋白质更好。(颜宁 回国)
当您想到人工智能对科学的贡献时,您可能会想到 AlphaFold,这是 Google DeepMind 的蛋白质折叠程序,其创建者去年获得了诺贝尔奖。
现在,OpenAI 表示它也将进入科学领域,并推出了一个蛋白质工程模型。
openAI公司表示,它已经开发出一种语言模型,可以构想出能够将普通细胞转化为干细胞的蛋白质——而且它已经轻松击败了人类。
这项研究是 OpenAI 第一次做了一个专门研究生物数据的小电脑程序,也是他们第一次告诉大家,这个小语言模型可以帮科学家们发现一些意想不到的东西。
所以,这是看看人工智能能不能真的做出新发现的一步。有些人觉得,这是人工智能变得更聪明、更厉害的一个重要考验。
上周,OpenAI 的老板 Sam Altman 说,他“相信”他的公司知道怎么做出一个超级聪明的人工智能。
他还说:“这种超级聪明的工具可以帮我们更快地发现新东西,比我们自己能做到的快得多。”
这个研究蛋白质的项目是从一年前开始的。那时候,一家在旧金山的研究长寿的公司 Retro Biosciences 找到 OpenAI,问他们能不能一起合作。于是,他们就开始一起做这个厉害的项目了!
这次合作并非偶然。据《麻省理工技术评论》 2023 年首次报道, OpenAI 首席执行官 Sam Altman个人向 Retro 提供了 1.8 亿美元的资助。
Retro 的目标是将正常人类寿命延长 10 年。为此,该公司研究了所谓的山中因子。山中因子是一组蛋白质,当它们被添加到人类皮肤细胞中时,会使其变成看似年轻的干细胞,这种类型的细胞可以产生体内的任何其他组织。
Retro 公司以及Altos Labs等资金雄厚的公司的研究人员认为,这一现象可能是动物复原、人体器官构建或提供替代细胞的起点。
但这种细胞“重编程”效率不高。它需要数周时间,而且在实验室培养皿中处理的细胞中只有不到 1% 能够完成再生之旅。
OpenAI 的新模型名为 GPT-4b micro经过训练后,可以提出重新设计蛋白质因子以增强其功能的方法。
据 OpenAI 称,研究人员利用该模型的建议将山中伸弥的两个因子的效率提高了 50 倍以上——至少根据一些初步测量结果如此。
OpenAI 的一个研究员说:“这些新的蛋白质比科学家们自己做的好多了!”这个小程序的训练数据来自很多不同动物的蛋白质信息,虽然数据很多,但比起 OpenAI 的其他大模型来说,它还是个小模型。
Retro 的科学家们拿到这个小模型后,就开始用它来设计新的山中因子。他们用一种叫“少量样本”的方法,就像给机器人看几个例子,然后让它自己想出答案。虽然科学家们也有办法在实验室里改变蛋白质,但他们通常只能试几种可能性。而这个小模型可以想出很多种改变蛋白质的方法,甚至可以改变蛋白质中三分之一的“小零件”(氨基酸)。
然后马上把这个小模型的建议用在了实验室里,真的得到了好结果!在很多情况下,它设计出来的蛋白质比原来的山中因子更好。
OpenAI 研究员约翰·霍尔曼 (John Hallman) 表示:“总体而言,这些蛋白质似乎比科学家自己生产的蛋白质更好。”
Hallman 和 OpenAI 的 Aaron Jaech 以及 Retro 的 Rico Meinl 是该模型的主要开发人员。
外部科学家在公布结果之前无法判断结果是否真实,而这些公司表示他们正在计划公布结果。该模型也尚未得到更广泛的应用——它仍然是一个定制演示,而不是正式的产品发布。
该模型的工作原理与谷歌的 AlphaFold 不同:
- AlphaFold 是看蛋白质的形状,而openAI这个小模型是看蛋白质的“配方”,就像看食谱一样。它还可以告诉科学家们怎么改蛋白质的配方,让它们变得更好。
- OpenAI 表示,由于山中伸弥因子是异常柔软且非结构化的蛋白质,因此他们要求采用不同的方法,而其大型语言模型非常适合这种方法。
openAI这个模型的训练是基于许多物种的蛋白质序列样本,以及哪些蛋白质倾向于相互作用的信息。
虽然这是大量的数据,但它只是 OpenAI 旗舰聊天机器人训练数据的一小部分,这使得 GPT-4b 成为使用集中数据集的“小型语言模型”的一个例子。
Retro 科学家拿到模型后,就试图引导模型提出对 Yamanaka山中因子蛋白质进行重新设计的可能性。
所用的提示策略类似于“少量样本”方法,用户通过提供一系列带有答案的示例来向聊天机器人提问,然后提供一个例子让机器人做出回应。
尽管人类基因工程师(如颜宁)有办法在实验室中指导分子进化,但他们通常只能测试有限的几种可能性。即使是典型长度的蛋白质也可以以近乎无限的方式改变,因为蛋白质是由数百种氨基酸构成的,每种氨基酸都有 20 种可能的变体。
相比人类工作的低效率,OpenAI 模型经常会给出改变蛋白质中三分之一氨基酸的建议。
Retro 公司的老板乔·贝茨-拉克鲁瓦说:“我们马上把这个小电脑程序用在了实验室里,真的得到了好结果!”他觉得这个小程序的想法特别棒,在很多情况下,它设计出来的东西比原来的山中因子更好用。
还有一个很厉害的科学家叫 Vadim Gladyshev,他是哈佛大学的,也是 Retro 公司的顾问。他说,我们需要更好的方法来制造干细胞。
他说:“皮肤细胞很容易变成干细胞,但其他细胞就不行。而且,如果我们想在其他动物身上做实验,结果可能会完全不一样,甚至什么都得不到。”
至于这个小模型程序 GPT-4b 是怎么想出这些好主意的,现在还不太清楚。
人工智能模型通常都是这样的,就像以前有一个叫 AlphaGo 的程序打败了世界上最厉害的围棋选手,但人们花了好长时间才弄明白它是怎么做到的。
Betts-Lacroix 说:“我们还在研究这个小程序是怎么工作的,我们觉得我们现在用的方法只是刚刚开始。”简单来说,这个小程序很厉害,但科学家们还在研究它是怎么变得这么厉害的!
OpenAI 表示,此次合作中没有涉及任何金钱交易。但由于这项工作可能使 Retro 受益(其最大投资者是 奥特曼Altman),因此这一声明可能会增加围绕 OpenAI 首席执行官的副业项目的疑问。