阿特拉斯数据存储公司推出全球首个可扩展DNA存储服务Eon 100,实现60PB数据存入1升空间,密度超磁带千倍,可保存数千年,瞄准AI与文化遗产归档市场,标志DNA存储从实验室迈向商业化。
人类数据爆炸的终极答案?DNA存储横空出世,1升空间装下6万部4K电影!
有一天我们所有的照片、视频、AI训练数据甚至整个人类文明的数字遗产,可以被压缩进一个咖啡杯大小的玻璃瓶里?听起来像是科幻电影情节?
一家名为Atlas Data Storage(阿特拉斯数据存储)的初创公司正式宣布:这已经不是梦了!他们推出了全球首个可扩展的DNA数据存储商业服务——Atlas Eon 100,号称能在60立方英寸(约983毫升,不到1升)的空间里塞进整整60PB(6千万GB)的数据!这相当于能装下66万部4K高清电影!
更夸张的是,这家公司声称他们的技术比目前最先进的LTO-10磁带密度高出整整1000倍!而且,这些DNA胶囊不需要任何电力维持,常温下可保存数千年,连刷新都不用!相比之下,传统磁带每7到10年就得重新备份一次,还得存放在恒温恒湿的专业机房里。这项技术一旦普及,不仅会彻底颠覆数据中心的物理形态,更可能成为人类文明“数字方舟”的终极载体。
DNA存储:从实验室幻想走向商业现实的十年长征
其实DNA存储这个概念早就不是新鲜事了。
早在2010年代,微软、哈佛大学、欧洲生物信息研究所等机构就做过大量实验,证明把二进制0和1编码成DNA碱基序列(A、T、C、G)在理论上完全可行。
但长期以来,这项技术始终被锁在实验室里,成本高得离谱——写入1GB数据动辄要上万美元,读取速度慢如蜗牛,更别说规模化了。而Atlas Data Storage的创始人Bill Banyai(比尔·巴尼亚伊)却花了整整十多年,联合合成生物学、计算机科学、纳米材料等多学科团队,硬生生把DNA存储从“科学奇观”打磨成了可商用的产品。
他在发布会上自豪地宣称:“阿特拉斯是全球唯一一家能大规模交付DNA存储产品的公司。”这可不是吹牛——他们的Eon 100服务已经不再是概念验证,而是真正面向企业客户的归档解决方案,目标直指AI模型权重保存、文化遗产数字化、高价值影视素材长期存储等刚需场景。要知道,现在很多AI公司训练一次大模型产生的数据就高达数百TB,传统存储成本高到吓人,而DNA存储一旦成熟,简直就是为AI时代量身定制的“时间胶囊”。
密度恐怖如斯:60PB塞进1升瓶,磁带瞬间变古董?
让我们算一笔震撼的账。60PB等于60,000,000GB。假设一部4K电影平均占用90GB,那60PB就能装下66万部!
现在你去租一个标准机柜,用LTO-10磁带(目前最先进的线性磁带开放技术第10代)来存同样多的数据,需要多少空间?LTO-10单盘原生容量40TB(压缩后约120TB),要存60PB至少需要500盘磁带,再加上磁带库、机械臂、温控系统,占地面积可能超过10平方米。
而Atlas的方案呢?只需要6个托盘,每个托盘上排列着几颗药丸大小的玻璃胶囊——总容积还不到1升!官方演示图里,整个60PB存储单元比一盒牛奶还小。
这种密度优势不是“提升”,而是“降维打击”。更关键的是,DNA存储是化学稳定的,只要温度不超过40摄氏度(104华氏度),这些胶囊在干燥环境下能保存数千年而数据不衰减。反观磁带,不仅每隔几年就要迁移数据以防退化,还得24小时开着空调除湿。数据中心每年光是电费和维护费就是天文数字。DNA存储一旦成本降下来,传统磁带厂商恐怕要连夜改行。
读写原理揭秘:如何把你的自拍变成DNA碱基序列?
很多人好奇:电脑里的0101,怎么就变成生物分子了?其实原理并不复杂,但工程实现极其精妙。
首先,系统会把你的数字文件(比如一张JPG照片)转换成二进制流,然后通过一套编码算法映射成DNA的四种碱基:比如00=A,01=T,10=C,11=G。为了避免长串重复碱基导致合成错误,算法还会插入纠错码和索引序列。
接着,这些数字序列会被发送给合作方——比如著名的合成生物学公司Twist Bioscience(特威斯特生物科学),他们用硅芯片微阵列技术批量合成对应的DNA单链。
合成好的DNA被封装进惰性玻璃微球(capsule),隔绝氧气和水分,理论上可永久保存。
读取时,客户把胶囊寄回Atlas,他们用高通量测序仪(类似基因测序)读出碱基序列,再通过解码算法还原成原始二进制文件。整个过程目前还是“写一次读多次”(WORM)模式,适合冷数据归档。
虽然现在写入速度慢、成本高,但随着合成与测序技术指数级进步(参考摩尔定律),成本暴跌只是时间问题。要知道,2001年人类基因组计划测序花了30亿美元,现在只要300美元!
为什么是现在?AI爆炸+数据海啸催生DNA存储刚需
别以为这只是实验室里的炫技。我们正处在数据爆炸的临界点!全球每天产生超过300EB(30万PB)的新数据,其中大部分是视频、AI训练集、医疗影像等非结构化数据。传统存储介质已经快撑不住了——硬盘有机械寿命,SSD有写入次数限制,磁带又笨又贵。
而AI公司尤其头疼:一个千亿参数大模型的权重文件动辄几百GB,每次微调都要保存多个版本,长期存储成本惊人。更别说国家图书馆、影视公司、科研机构这些需要保存数据几十年甚至上百年的单位。
DNA存储的“千年保鲜”特性简直是天赐良方。Atlas这次瞄准的正是这些高价值、低访问频率的“冷数据”市场。他们不卖硬件,而是提供存储即服务(Storage-as-a-Service):你把数据上传,他们合成DNA并保管胶囊,需要时再寄回给你读取。这种模式避开了当前读写设备昂贵的问题,让企业能立即享受DNA存储的密度和耐久优势。可以说,不是技术突然成熟了,而是时代需求把它逼上了商业化快车道。
距离你我还有多远?DNA U盘2035年才能进卧室?
虽然商业服务已经启动,但别幻想明天就能在淘宝买到DNA移动硬盘。目前Atlas Eon 100面向的是企业级客户,个人用户想用?得先填个咨询表等销售联系你。价格更是保密,估计不会便宜。整个读写过程依赖外部实验室——写入要合成DNA,读取要基因测序,这两步都耗时数天且成本高昂。
所以短期内,DNA存储只会用于国家级档案馆、好莱坞片库、AI巨头的数据保险库。但技术演进往往超乎想象。参考SSD的发展轨迹:2000年代还是军工用品,价格每GB上千美元;现在2TB固态硬盘只要500块。DNA合成与测序的成本也在以超摩尔定律速度下降。
有专家预测,到2035年,家用DNA存储设备可能进入消费市场——想象一下,你的毕业相册、婚礼视频被刻录进一颗玻璃珠,放在书架上,传给孙子辈都清晰如新。更科幻的是,未来笔记本电脑或许会内置微型DNA读写模块,插上“DNA胶囊”就能访问海量离线数据。虽然这一天还很遥远,但Atlas的Eon 100无疑是关键的第一步。
行业地震预警:磁带、硬盘厂商的末日钟声已敲响?
LTO磁带技术自1990年代诞生以来,一直是企业冷存储的霸主。IBM、惠普、昆腾等巨头靠它赚得盆满钵满。但Atlas这次直接把矛头对准LTO-10,宣称密度高1000倍、寿命长100倍、维护成本趋近于零。这无异于在磁带厂商的棺材上钉钉子。虽然短期内磁带不会消失(毕竟生态成熟、成本低),但长期来看,DNA存储一旦突破成本瓶颈,整个冷存储市场将被彻底洗牌。更别说那些靠卖硬盘的公司了——西数、希捷的机械硬盘业务本就风雨飘摇,现在又来个终极替代品。
不过,DNA存储也有软肋:目前只适合归档,无法随机访问;写入不可逆(WORM);生态系统几乎为零。所以未来十年,很可能是“热数据用SSD、温数据用硬盘、冷数据用DNA”的三足鼎立格局。但别忘了,技术拐点往往在不经意间降临。就像2010年没人相信手机能干掉相机和GPS,今天的磁带厂商可能正在亲手埋葬自己的未来。
背后推手揭秘:Twist Bioscience与微软的十年布局
Atlas并非单打独斗。报道中提到他们使用了Twist Bioscience的合成DNA技术——这家公司可是DNA数据存储领域的隐形冠军。
Twist早在2016年就和微软合作,成功存储并读取了200MB的数据(包括音乐、图书等),证明了可行性。他们的核心技术是在硅芯片上并行合成百万条DNA链,成本比传统方法低两个数量级。
而微软作为AI和云计算巨头,对超长期、超密集存储有强烈需求,一直是DNA存储的坚定支持者。Atlas能率先商业化,很可能得益于与Twist的深度绑定,获得了稳定廉价的DNA合成产能。这背后是一条从基础科研(大学实验室)→技术验证(微软)→工程化(Twist)→产品化(Atlas)的完整创新链条。
可见,重大技术突破从来不是单点爆发,而是生态协同的结果。未来我们可能会看到更多类似合作:云计算巨头+合成生物公司+存储初创企业,共同推动DNA存储普及。
极客一语道破
将二进制数据通过 00=A, 01=T, 10=C, 11=G 这样的规则映射为DNA碱基序列,并不是压缩,而是一种编码(encoding)或转换(digit-to-molecule mapping)。它本身并不会减少信息量,反而在工程实现中常常伴随着显著的冗余增加。那么,为什么人们又常说“DNA能存储海量数据”?这要从信息密度和物理体积两个维度来理解。
首先,必须区分两个概念:
- 信息压缩(Compression):通过算法(如 ZIP、JPEG)减少表示同一信息所需的比特数,依赖数据中的统计冗余或感知冗余。
- 信息编码(Encoding):将一种符号系统(如二进制 0/1)转换为另一种符号系统(如 A/T/C/G),不改变信息熵(即信息量不变)。
- 1 字节(8 bit) → 4 个碱基
- 1 GB 数据 → 约 40 亿个碱基(4 Gb)
那么,为什么说 DNA “能存很多”?因为 1 克 DNA 理论上可存储约 215 PB(即2.15亿GB)的数据。这不是因为编码压缩了数据,而是因为:
DNA 分子的物理尺寸极小,且可高度并行三维堆叠。
一个碱基对的长度仅约 0.34 纳米,而现代硬盘的存储单元(磁畴)尺寸在 10–50 纳米量级,且只能二维排布。DNA 则可在溶液中以万亿条链并行存在,每条链独立携带信息——这就实现了超高密度 + 超高并行性。
实际 DNA 存储系统反而需要大量“冗余”,以对抗合成与测序错误
有趣的是,真实 DNA 存储系统不仅不压缩,反而主动增加冗余。原因在于:
- DNA 合成(写入)和测序(读取)存在错误:碱基可能被插入、删除或错配。
- 长片段难以稳定合成:目前技术限制单条 DNA 链长度通常 < 300 碱基。
- 随机访问困难:无法像硬盘那样直接读取第 n 字节,需通过 PCR 或杂交定位。
- 分块存储:将文件切分成小段,每段加地址索引(如 “Block_001”)。
- 纠错码:使用 Reed-Solomon、Fountain codes 等,为每段添加 20%–100% 冗余。
- 多份备份:同一数据写入多条 DNA 链,以防丢失。
那么,DNA 存储的“容量神话”从何而来?
关键在于单位体积/质量的信息承载能力:
- 一茶匙(约5 mL)的 DNA 溶液,理论上可存储全球一年产生的数字数据总量(据2020年代估算)。
- 且 DNA 在低温干燥下可稳定保存数千年(如猛犸象 DNA 可复原)。