来自《自然》杂志:DeepMind新AI破解人体"基因密码本"!连科学家都惊掉下巴的发现!
我们的身体里藏着一本巨大的“天书”,它就是我们的DNA。这本天书里,写着我们每个人独一无二的生命密码。科学家们辛辛苦苦研究了20多年,终于把这本天书的草稿给“翻译”出来了。
但是!这本天书有31亿个字母,就像一本超级厚的字典,其中98%的内容,到现在都还是个谜!
这就好比,一本《新华字典》,你知道每个字怎么写,但很多字你根本不知道它是什么意思,更别说怎么用了。更让人抓狂的是,这98%的“空白”部分虽然不直接编码蛋白质(蛋白质就像我们身体里的各种“工人”),但它们却能悄悄地影响那些“工人”的工作效率!
想想看,这98%的DNA,是不是就像宇宙中的“暗物质”一样?我们知道它存在,但摸不着也看不见,却能感受到它的巨大影响力。
不过,现在有个好消息要告诉大家!谷歌旗下的DeepMind公司,就是那个开发了围棋人工智能AlphaGo的厉害公司,他们又搞出了一个大新闻!他们开发了一个叫AlphaGenome的人工智能模型,这个模型就像一个超级聪明的“翻译官”,专门来破译我们DNA里的“暗物质”!
DeepMind的科学家们说,这不仅仅是生物学领域最重要的问题之一,甚至是所有科学领域最重要的问题之一!听起来是不是特别厉害?
AlphaGenome:DNA的“全能翻译官”
那么,AlphaGenome这个“翻译官”是怎么工作的呢?简单来说,你给它一段DNA序列,它就能预测这段DNA会有哪些神奇的功能,比如它会影响基因的表达水平(基因表达就像基因“开工”的程度),以及如果这段DNA发生了一点点变化(也就是突变),会产生什么影响。
加州斯坦福大学的一位基因组学家,Anshul Kundaje教授看了AlphaGenome之后都忍不住拍手叫好,他说这简直是“一次令人兴奋的飞跃”,比现在所有最先进的DNA预测模型都要厉害得多!
从AlphaFold到AlphaGenome:AI的生物学进化论
DeepMind在2020年的时候,曾经推出过另一个超级AI叫AlphaFold 2。它解决了困扰科学家几十年的一个难题:蛋白质序列是如何决定它三维形状的。就像给你一串珠子,它能告诉你这串珠子最终会形成一个什么样的立体造型。
但AlphaGenome解决的问题更复杂!因为DNA的功能不是一个单一的答案。一段DNA,它可能有很多相互关联的功能:
- 它可能像“吸铁石”一样,吸引一些细胞里的“小机械师”,让它们在染色体(DNA的载体)的特定位置“锁定”下来,然后把附近的基因“复印”成RNA分子(RNA就像信使,把DNA的信息传递出去)。
- 它还可能吸引一些叫“转录因子”的蛋白质,这些蛋白质会影响基因“开工”的时间、地点和程度。
- 有些DNA序列甚至能通过改变染色体的三维形状来影响基因的活性,就像给基因“开门”或“关门”,让“复印机”更容易或更难接触到基因。
几十年以来,科学家们一直在用各种计算工具来研究这些问题。过去十年左右,也开发了几十种人工智能模型来理解基因组。但这些模型大多是“专才”,只能解决单个问题,比如预测基因表达水平,或者确定基因的模块化片段是如何剪切和粘贴成不同蛋白质的。
但是科学家们一直梦想着能有一个“一体化”的工具,能把DNA序列的功能全部解释清楚。而AlphaGenome,就是这样一个“梦想成真”的模型!
它能读取多达100万个DNA字母,这可能包括一个基因和无数的调控元件(就像基因的“开关”和“调节器”),然后对几千种生物特性进行预测。而且,AlphaGenome的预测对DNA字母的细微变化都非常敏感,这意味着科学家可以预测DNA突变会带来什么后果!
举个例子,DeepMind的研究人员用AlphaGenome模型去研究一种白血病患者身上的突变。结果发现,这个模型精准地预测出,那些不编码蛋白质的突变,竟然间接地激活了附近的一个基因,而这个基因恰好是这种癌症的常见驱动因素!是不是很神奇?
未来可期,但仍有进步空间
当然啦,AlphaGenome也不是万能的。它目前只在人类和小鼠的基因组数据上进行训练。所以,它可能对其他生物也有效,但还没有经过测试。而且,这个模型也不是为了可靠地解释每个人的基因组,或者完全展现变异是如何影响复杂疾病的全貌的。
AlphaGenome的预测精度还有提升的空间。比如,对于那些相距超过10万个碱基对(DNA的基本单位)的序列,它就很难识别它们对基因表达的影响。所以,用科学家的话说,AlphaGenome还没有像AlphaFold解决蛋白质三维结构那样,完全“解决”基因调控的问题。
另外,目前AlphaGenome和类似的模型还没能捕捉到细胞的“动态性”是如何影响DNA序列功能的。要知道,细胞里的蛋白质水平、DNA上的化学标签等条件,会随着时间和细胞类型的变化而变化,这就像是给DNA的功能加上了“动态滤镜”,让同一个DNA序列在不同情况下有不同的表现。
不过,科学家们对AlphaGenome的未来充满期待!他们预测,未来研究人员可以在AlphaGenome的基础上,设计出能控制基因何时何地活跃的“调控”DNA序列,或者进行“虚拟实验”,模拟细胞对遗传变化会做出什么反应。
现在,非商业用途的研究人员已经可以通过DeepMind的服务器使用这个模型了。未来,DeepMind还会推出更完善的版本,让更多更复杂的应用成为可能!