日前,微软公司(Microsoft)和华盛顿大学(UW)合作的团队在基因存储技术上获得了一些可喜的突破——为数据建立了类似索引机制实现随机读取,并研发了“纳米孔”读取技术,测试了一个手掌大小 USB 设备即可读取 DNA 数据的方法。
人类的信息存储方式,至今不能超脱信息在漫长的历史长河中某个时间点会不幸丢失的命运。近期,美国最尖端的机构之一 NASA 也费了好大劲,才把几十年卫星上使用的磁带上的数据“挽救”出来。
基因存储技术是较为令人意外的数据存储研发方向之一。尽管目前该存储技术读写的速度非常的慢,但人类可以从基因中提取出数万年前的信息,而且存储空间开支非常小——已有人展示过在 DNA 材料上以每克能存储 215 拍字节(Petabytes)的密度存储了一个操作系统。
但是这种存储方式完全是无序的,要得到任何一部分数据,每次都要全部重新排序才能找到需要的部分。
美国知名科技博客 Ars Technica 网站 报导 了微软和华盛顿大学的研究者们的最新研究进展。他们开发出了让基因存储介质也像文件系统一样工作的方式,即为 DNA 数据建立索引,可以在海量数据中实现随机读取。
基因存储面临的一个难点是,数据读取较高的出错率,特别是在有较大一部分数据是重复的情况下。比如存储一副图画代表蓝色天空的数据,或者一段音乐中沉寂的部分,都有很多重复的数据。基因存储排序在遇到这些地方时,或者出错率更高,或者停下无法继续读取。该研究团队发明了一种随机序列,利用逻辑异或操作加密,从而打破大段的重复数据,并降低出现新的大片同样数据的几率。
该团队还发明了一种较新的读取技术,让 DNA 介质列能挤过一个很小的纳米孔而读取其中每个 DNA 碱基。这一技术让大大缩小了读取设备的空间开支,一个手掌大小的 USB 设备就能进行读取。
团队测得这一设备读取出错率高达 12%,但该团队已对其进行了不小的改善,对每个 DNA 序列平均读取 36 次后,终于成功读取了一整条人类基因组。
这样听起来 DNA 存储技术好像接近可用了?其实还有很长的路要走——数据写入 DNA 材料的速度还是相当慢的。
按照目前每秒能读取几个 KB 的速度,这份研发成果报告的作者们计算后说,花一年时间写入 DNA 材料的数据,只要约两周就可以读完了。
上述研究论文 刊登 在了近期出版的《自然 - 生物技术》杂志上。