造DNA这件事被彻底提速了:AI生成DNA + DNA合成技术

Sidewinder技术让DNA合成速度提升数万倍,错误率低至千万分之一,与AI基因组生成模型Evo 2结合后,几天内即可完成过去数月的工作量。本文以通俗语言解释这项突破性技术的工作原理、商业前景和应用场景。

写DNA这事儿以前又慢又贵,像手工抄一本几万页的书,抄错一页就可能全完蛋。但现在有个叫Sidewinder的新方法,能让科学家像玩拼图一样又快又准地拼出大段DNA,而且一次能拼好多条,错一个的概率低到一千万次才出一回。

这玩意儿最牛的地方是,它跟现在特别火的AI生成基因组技术是绝配:AI负责疯狂设计新DNA序列,Sidewinder负责真把它们造出来。

以前AI设计一堆东西,科学家在实验室里好几个月才能做一个,现在几天就能搞定一批。

为啥以前造个DNA跟受刑似的

先得搞清楚DNA合成到底难在哪儿。DNA说白了就是一条由四种碱基串起来的长链,科学家要造DNA,通常是从买短片段开始的,这些短片段叫寡核苷酸,你可以想象成一个个字母块。

问题是,你想拼一段几千个字母长的DNA,你得把这些字母块按正确顺序连起来。最笨的办法是每一块都单独买、单独拼,这样靠谱但贵得要死,一个项目下来几万美金就没了,一般实验室根本烧不起。

所以科学家就想了个省钱的办法——把所有字母块混在一起买,一个大池子里几千种不同的片段一块儿来。这样成本确实下来了,但麻烦也来了。

你想啊,几千个长得差不多的字母块搅和在一起,就像把好几套拼图的碎片全倒进一个盒子里,你要从中找出属于同一张拼图的那几块,还得按正确顺序排好。这基本就是大海捞针。

传统的方法怎么解决呢?要么用激光把每一块单独挑出来,要么把它们分到一个个微小的液滴里单独处理,要么用各种复杂的步骤一遍遍筛选。每多一步就多花一笔钱,多等好几天,而且设备特别贵,普通实验室根本玩不起。

最要命的是,这些老方法还特别容易出错。拼十次大概就有一次会接错,接错的地方轻则让DNA不好使,重则整个序列废掉,得从头再来。所以造一段几千碱基长的DNA,花一两个月是家常便饭,中间还得烧掉大把经费。

这新方法到底玩了个啥花样

Sidewinder这帮人想出来的招儿特别聪明。他们不跟那一锅乱炖较劲,而是换了个思路——既然混在一起分不清谁是谁,那就提前给每个片段贴个标签不就行了?

具体来说,他们在每个DNA短片段上加了一段很短的识别序列,就像给每块拼图写上页码。这样一来,这些片段在大池子里游泳的时候,只有页码匹配的才会互相认出来并连在一起。

这个连接的过程也挺有意思。两个带页码的片段碰上的时候,会先形成一个三向连接的结构,像个临时打的结,把两块东西对齐了,然后这个结会自动解开消失,留下一段完整无缝的DNA链。

你可以这么理解:老方法是靠看每一页的最后一行和下一页的第一行能不能接上,来给一本没编页码的书排顺序。短的书还行,上万页的书里面好多句子长得差不多,很容易排错。Sidewinder的方法就简单粗暴多了——每页顶上直接印着页码,不管内容是什么,照着页码排就行,根本不会错。

实验数据也证明了这玩意儿有多猛。Sidewinder拼一百万次才出一处错误,而传统方法拼十到三十次就可能错一回。这个差距可不是一星半点,是好几万倍的提升。

而且Sidewinder一次能在同一个试管里同时拼几十条不同的DNA序列。以前你想造十条不同的基因,你得分别做十次实验,每次都从头折腾一遍。现在好了,一次实验全搞定,时间成本直接除以十。

页码是怎么设计出来的

当然啦,事情没嘴上说的那么简单。给每个片段设计页码这件事本身就很烧脑。你得保证这些页码在各种情况下都能让正确的片段配对,同时又不会跟不该配的乱配。

最早版本的Sidewinder需要跑一个特别复杂的计算来设计这些页码。片段少的时候还行,一旦你要同时拼几十条长链,需要几百上千个片段的时候,这个计算就慢得没法用了,跑一次可能要等好几天甚至更久。

后来一个叫Jean-Sebastien Paul的本科生想了个办法。这哥们儿在Wang的实验室做暑期实习的时候,写了个叫PyWinder的软件。这个软件牛逼在哪儿呢?它能在普通笔记本电脑上,几分钟就算出所有需要的页码序列。以前那种慢到没法用的计算,现在分分钟搞定。

这就把Sidewinder的最后一个短板给补上了。设计页码不再是瓶颈,你想拼多大、多复杂的DNA都行,计算时间就那么几分钟。

除此之外,团队里有个叫Noah Robinson的博士后还改进了原料的使用方式。以前Sidewinder需要一些比较贵的特殊原料,他给改成了能用那种便宜的大规模生产的普通货色,成本又砍掉一大截。

所以现在的情况是:原料便宜了,页码几分钟算好,一次实验同时拼几十条,每条的错误率低到一千万分之一。这套组合拳打下来,造DNA这件事就从“又慢又贵还容易翻车”变成了“快、便宜、还贼准”。

AI设计加Sidewinder制造等于开挂

这玩意儿跟现在特别火的AI基因组生成技术凑在一起,简直就是天作之合。

你听说过Evo 2吧?那是斯坦福大学Brian Hie实验室搞出来的一个AI模型,喂了上百万种生物的基因数据之后,这AI能自己设计出全新的DNA序列,而且设计得飞快,想要什么功能的序列它就给你生成什么。

但问题来了——AI设计得再快,实验室里造不出来也是白搭。以前的情况是,AI几分钟就能设计出几百条新序列,科学家在实验室里花好几个月才能造出其中一条来验证。这就像你有个点子特别多的设计师,但工厂里只有一个干活特别慢的老师傅,设计师再牛也白搭。

Sidewinder正好把这个瓶颈给砸开了。Wang的团队做了个特别漂亮的演示:他们让Evo 2重新设计了一段12500碱基长的大肠杆菌DNA序列,然后用Sidewinder把它从零造了出来,而且一个错误都没有。

12500碱基什么概念?这么长的一段DNA可以编码一整条生化反应通路,也就是说你可以用它来让微生物干各种活——生产药物、制造生物燃料、合成特种化学品。更长远来看,把更大的DNA片段拼起来,离造出完整的人工基因组就不远了。

Hie自己都说,按他们实验室以前用传统商业方法的经验,这种项目至少得花一个多月。有了Sidewinder,几天就能搞定。

这玩意儿到底能干点啥实在的

聊了这么多技术,你可能想问:这跟我有啥关系?科学家造DNA快不快关我啥事?别急,这玩意儿落地的场景多了去了。

先说制药。很多现代药物是靠细胞工厂生产的,你把一段能生产某种蛋白的基因塞进细菌或者酵母里,它们就成了小型的制药车间。但天然基因生产的蛋白量可能不够,或者需要改进。有了Sidewinder,你可以让AI设计一大堆改良版的基因序列,然后快速把它们造出来,挨个测试哪个最好用。以前测十种设计方案可能要一年,现在一两个月就够了。

再说数据存储。你可能听说过DNA可以用来存数据——把0和1转成ATCG四种碱基,存进DNA分子里,理论上每克DNA能存215PB的数据,而且能放几千年不坏。以前写DNA太贵,这个技术一直停留在实验室阶段。Sidewinder要是能把成本打下来,以后你家的珍贵照片、视频,说不定真能存进DNA里塞进抽屉角落。

还有生物燃料。用微生物把植物废料转化成乙醇或者柴油,这个想法不新鲜,但效率一直上不去。有了快速合成DNA的能力,你可以疯狂试各种方案——改这个酶让它活性更高,改那个通路让它产量更大,改完了马上造出来测试。以前迭代一轮要两个月,现在一周来一轮,进步速度能快八倍。

另外像基因治疗、农业育种、环境修复这些领域,只要用到改造生物的地方,快速造DNA的能力都是刚需。Sidewinder不一定能把所有领域都颠覆,但它把“造DNA”这个最基础的步骤给提速降费了,上面所有依赖这个步骤的技术都能跟着受益。

以后还能玩出什么花来

Wang和Robinson他们已经开了一家公司叫Genyro,打算把Sidewinder商业化,主要客户是药厂和生物技术公司。但Robinson说了,他们不是只想着赚钱,也希望学术圈的研究人员能广泛用上这个东西。

他们跟Hie和另一个创业者Adrian Woolfson合伙,这几个人的组合挺有意思的——有懂合成生物学的,有懂AI的,有懂商业化的,正好覆盖了从技术到产品的整个链条。

下一步的目标也很清楚:拼更大的东西,同时拼更多的东西。拼出完整的人工染色体,拼出整个基因组,一次实验拼几百条甚至上千条不同的序列。这些目标听起来吓人,但基于Sidewinder现在的原理和表现,都不是痴人说梦。

Thomas Gorochowski, 就是英国布里斯托大学那个没参与这项研究的生物工程师,他说了一句特别到位的话:“这东西让合成大型基因系统甚至小型基因组变成了现实可行的事。”他还特意补了一句,这对于现在所有关于AI生成基因组的研究来说,“超级重要”。

你看,AI在疯狂设计,Sidewinder在加速制造,这俩凑一块儿,生物学的玩法就彻底变了。以前是“我们想造什么但造不出来”,以后是“我们想造什么就能造什么,而且很快就能知道好不好使”。这个转变的意义,怎么强调都不过分。



论文信息: 原载spectrum.ieee.org,作者Elie Dolgin,2026年5月26日,基于SynBioBeta 2026会议报告及bioRxiv预印本