DNA——存储大量数据

如何存储基因组价值的数据?
2018年3月13日

采访

蒂姆·卡茨博士-威康桑格研究所

存储个人电脑的数据(记录、财务等)是一回事,但在更大的规模上呢?蒂姆·雷维尔采访了剑桥威康桑格研究所的科学计算主管蒂姆·卡茨,该研究所对大量人类基因组进行了测序。首先,蒂姆·R向蒂姆·C询问DNA和基因组与数据存储的关系……

你的基因组实际上是数据。它是你的细胞用来构建和运行你的软件。为了更好地了解人类疾病,我们需要对基因组进行排序,将它们与人们的健康状况进行比较,从中我们可以确定基因组中可能出现的错误导致了某种特定的疾病。这就是桑格研究所所做的。

蒂姆·R:当你说到测序时,是指阅读和理解写在我们基因组中的软件吗?

蒂姆·C -对。而用于实现这一目标的技术已经变得非常快。最初的人类基因组计划花了大约10年时间,耗资10亿美元。这是一个巨大的国际工程。桑格研究所现在每天有能力对大约61个完整的人类基因组进行测序。

蒂姆·R:要通过的软件太多了!

蒂姆·C:我们要处理的软件太多了。

Tim R -如果你曾经试过阅读软件,那实际上是相当困难的,除非有人在旁边很好地写下所有代码行的含义。但是对于DNA来说,每行代码旁边并没有注释所以你如何去理解DNA里写的是什么呢?

蒂姆·C:我们要做的第一件事就是收集大量的样本,因为如果我们只有一个样本,我们会把你的身体状况与你的身体状况进行比较,我们会发现你和其他人有很多不同的地方。但我们不知道哪些变化导致了你的问题,所以我们必须为很多人做很多次,然后我们得到一个想法,我们以前见过这个,现在我们知道我们要去哪里。这就是尺度的来源,我们必须比较很多东西才能找到答案。

蒂姆·R:其中的挑战是什么?基因组中有很多信息,我们有很多基因组。

蒂姆·C:第一个原因是基因组非常大,大约有30亿个字母长。我们还必须对它进行多次测序,以便更好地了解每个基因组的样子,所以我们最终得到了每个基因组大约50gb的数据。

蒂姆·R -哇!这是很多信息。

Tim C:那么你每天要做60个这样的事情,这就开始形成一个相当大的数据集。

蒂姆·R:有了这个数据集,你会怎么做?我的意思是,这不仅仅是人类阅读每一行并希望找到一种模式,如何从中提取任何意义?

蒂姆·C:正如我们之前听到的,我们也有一台超级计算机来做这件事。我们需要做类似的计算。我们非常幸运,我们的计算主要是每个单独的处理器可以同时运行一个单独的问题——一个所谓的尴尬并行问题。但这就是我们所做的,那些东西正在运行,就像我们之前听到的。我们有程序员,他们的工作是编写代码来进行分析。

蒂姆·R:如果你能理解这一切,这将告诉我们什么是人类,或者它有什么用处?

蒂姆·C:我们目前最大的目标是设计出更好的精准医疗。那才是我们真正想去的地方。所以如果我能找出你和其他人的不同之处,我就可以说,对,你需要一种特殊的药。那个不适合你,但那个可以,这就是我们现在真正想要达到的。

蒂姆·R:你需要什么才能做到这一点?

蒂姆·C:我们需要非常非常大的存储空间。我们目前有50拍字节——1拍字节是1000太字节。你们很多人家里的电脑里大概有1tb的硬盘,所以这就是50000台家用电脑的由来。我们使用的系统必须非常快。硬盘实际上是相当慢的;它们只能以每秒100兆字节的速度读取数据。因此,以合适的速度向超级计算机提供数据也需要,不仅仅是出于容量的原因,还需要使用大量的磁盘来将数据输入处理器。它们很饿,而且动作很快。

蒂姆·R -蒂姆,桑格是这种大数据处理的先驱。你遇到了什么问题?

蒂姆·C:我们很快就发现,我们所购买的设备并不是为我们设计的规模。因此,我们必须与供应商密切合作,改进他们的硬件和软件,以满足我们的需求。

蒂姆·R:你需要它做什么?解决这些问题——它们是技术性很强的还是后来证明很有用?

Tim C:其中很多都成为了广泛的解决方案,尤其是软件解决方案。例如,当你在大型超级计算机上分配工作时,这有点像邮局排队——“请到一号收银台”。机器说我准备好工作了,你让它工作。但我们发现,我们给了它太多的任务,它根本无法应付我们给它的数量。因此,我们与这家公司密切合作,他们改进了软件,并在世界各地的超级计算中心使用。

评论

添加注释