利用DNA存储大数据

当我们把一些东西保存在云端时,它实际上被保存在哪里,保存它需要多少能量?
11月17日

采访

Nick Goldman,欧洲生物信息学研究所

保存在欧洲生物信息学研究所(EBI)的遗传信息有6千万亿字节的数据;对于你们中的极客来说,这是60亿兆字节。为了解决这个问题,研究人员尼克·戈德曼想到了一种新颖的解决方案,每克存储的数据是硬盘等传统方法的3万倍——他使用的是DNA!罗莎琳德·戴维斯(Rosalind Davis)去了解他是如何做到这一点的,首先看看研究所当前数据中心的内部情况……

尼克:它看起来很大程度上就像一大堆非常紧凑的电脑,一个接一个地排列在大架子上。其他数据中心将根据对其数据的需求使用不同的系统。例如,欧洲核子研究中心的数据系统非常有趣。它们使用硬盘和磁带的组合。让科学家们兴奋的新信息保存在硬盘上,一段时间后他们把它转移到磁带上。我们的全是磁盘。

罗莎琳:我们能进去吗?

尼克:是的,绝对的。跟我来。

罗莎琳:哇,现在声音越来越大了。好了,我们进入数据存储中心了。我们在不同的货架上有什么?

尼克:有各种不同年龄的机器,不同大小的磁盘。

罗莎琳德:但是所有的电线都连着天花板,那里有很多风扇。尼克,这里有点太吵了,所以我想我们还是出去继续谈话吧。

尼克-好吧。所以你听到的大部分噪音都是空调风扇发出的。有一个冷却系统,他们把冷空气吹到每隔一个通道然后把热空气吸到中间通道。所以如果你在过道里走来走去,有冷通道,热通道,冷通道,热通道,他们把电脑背靠背地放在一起,这样空气就从前面进,从后面出。

罗莎琳德:这些碟片,能用多久?

Nick -典型的数据中心策略是磁盘的最长生命周期为三年。过了一段时间,你就不再相信它了,所以,即使它还没有出问题,你也会希望更换它。

罗莎琳:哦,哇。这很常见。所有这些数据都备份了吗?

尼克:是的。现代磁盘系统是自动自我备份的,所以每个磁盘一部分用于数据,一部分用于备份另一个磁盘,所有的信息在许多磁盘上共享。因此,在日常使用中,如果一个磁盘出现问题,对系统没有实际影响。某个地方亮了一点灯,他们就把那个光盘换掉,换上一个新的。因此,在某种程度上,这种更新一直在进行,但这并不能很好地反映技术的变化,因此,在三到四年的周期内,它们将完全取代一切。

罗莎琳德:运营这样一个中心的财政和环境碳成本是多少?

财务上,EBI每年最大的预算项目之一是计算设备和磁盘的成本。这相当于每年数百万英镑。在数据中心安装空调的成本和硬件的成本差不多。所以,这是一大笔钱,你可以想象使用这么多能源对环境的影响是什么。

Rosalind—您已经研究了一种新的存储数据的方法来避免这个问题?

尼克:是的,我们在扩大基因组数据存储设施时遇到了一些问题,受到这些问题的启发,有一天我们开玩笑说会有其他不那么昂贵的存储信息的方式,然后意识到DNA本身就是存储数字信息的奇妙媒介。

罗莎琳德:所以你实际上是在把电脑和其他东西的数字数据存储回DNA中?

尼克:没错。我们设计了一个实验来证明这在相当大的范围内是可能的。

罗莎琳德:我能想象这是一个相当复杂的过程。我们能去实验室看看它是怎么工作的吗?

尼克:好的,就这么办吧。

罗莎琳德——进入实验室,穿上一次性实验服后,我和尼克坐在一个装满试管的冰箱旁,想知道他是如何将数字数据存储在DNA上的。

尼克,我们发明了一些算法和代码将从一个文件在电脑上,这实质上是0和1,并将它转换为一种格式,看起来就像DNA片段,字母a、C、G和t .当我们设计不同的DNA片段,我们给这些公司,它们叫做Agelent,和他们有技术,使这些大量的DNA片段,在他们的实验室和大量的每个片段,他们把它们放在试管里给我们,让我们在实验室里处理。

罗莎琳德:它们看起来几乎是空的,但是尼克,你是说这些瓶子里有东西吗?

尼克-那里有一小滴液体,是DNA溶液。

罗莎琳德:目前你能在DNA上放多少数据?

尼克- DNA真的非常非常小。它小得难以想象。在我们使用几兆计算机信息的实验中,DNA的实际数量基本上是看不见的。我们计算过,如果你用同样的系统来记录目前全世界电脑上的所有信息,它大约是一到两立方米。

罗莎琳:哇,好小啊。你能让别人帮你合成DNA吗?这真的是一个困难的过程吗?

尼克:目前,他们使用的系统有点像喷墨打印机,但它更复杂,需要非常高的精度。目前是在专门实验室的洁净室里进行的。这是一个在生物医学研究中越来越重要的过程,将DNA制成科学家想要的设计。所以我们乐观地认为,这将变得更快、更容易、更便宜,但目前它仍然是一个相当专业的过程。

罗莎琳德:一旦你得到了数据,并把它放进了试管。你怎么读?

尼克:所以我们设计了整个系统,使其与目前在生物学和医疗保健实验中用于基因组测序的标准技术相匹配。

罗莎琳德:你认为这种存储的应用是什么?

尼克:嗯,第一批申请将是那些人们准备花一大笔钱的申请。所以这将是高价值的信息,具有文化重要性或政治重要性的信息。DNA可以在没有任何干预的情况下存活数百年或数千年,只要你保持它的凉爽和黑暗。研究进化的基因组科学家成功地从70万年前死亡的马身上提取了DNA,虽然有一些损伤,但他们基本上能够恢复整个基因组序列,所以我们知道DNA可以保存那么长时间。那根本不是对照实验,那只是一匹死马。因此,我们正在考虑将高价值信息长期存档的应用程序。

评论

添加注释