DNA——存储大量数据

如何存储基因组价值的数据?

2018年3月13日

采访

蒂姆·卡茨博士-威康桑格研究所

节目的一部分我的电脑是怎么工作的?

DNA结构

信贷:

CC0, NIH，来自Flickr

玩下载

存储个人电脑的数据(记录、财务等)是一回事，但在更大的规模上呢?蒂姆·雷维尔采访了剑桥威康桑格研究所的科学计算主管蒂姆·卡茨，该研究所对大量人类基因组进行了测序。首先，蒂姆·R向蒂姆·C询问DNA和基因组与数据存储的关系……

你的基因组实际上是数据。它是你的细胞用来构建和运行你的软件。为了更好地了解人类疾病，我们需要对基因组进行排序，将它们与人们的健康状况进行比较，从中我们可以确定基因组中可能出现的错误导致了某种特定的疾病。这就是桑格研究所所做的。

蒂姆·R:当你说到测序时，是指阅读和理解写在我们基因组中的软件吗?

蒂姆·C -对。而用于实现这一目标的技术已经变得非常快。最初的人类基因组计划花了大约10年时间，耗资10亿美元。这是一个巨大的国际工程。桑格研究所现在每天有能力对大约61个完整的人类基因组进行测序。

蒂姆·R:要通过的软件太多了!

蒂姆·C:我们要处理的软件太多了。

Tim R -如果你曾经试过阅读软件，那实际上是相当困难的，除非有人在旁边很好地写下所有代码行的含义。但是对于DNA来说，每行代码旁边并没有注释所以你如何去理解DNA里写的是什么呢?

蒂姆·C:我们要做的第一件事就是收集大量的样本，因为如果我们只有一个样本，我们会把你的身体状况与你的身体状况进行比较，我们会发现你和其他人有很多不同的地方。但我们不知道哪些变化导致了你的问题，所以我们必须为很多人做很多次，然后我们得到一个想法，我们以前见过这个，现在我们知道我们要去哪里。这就是尺度的来源，我们必须比较很多东西才能找到答案。

蒂姆·R:其中的挑战是什么?基因组中有很多信息，我们有很多基因组。

蒂姆·C:第一个原因是基因组非常大，大约有30亿个字母长。我们还必须对它进行多次测序，以便更好地了解每个基因组的样子，所以我们最终得到了每个基因组大约50gb的数据。

蒂姆·R -哇!这是很多信息。

Tim C:那么你每天要做60个这样的事情，这就开始形成一个相当大的数据集。

蒂姆·R:有了这个数据集，你会怎么做?我的意思是，这不仅仅是人类阅读每一行并希望找到一种模式，如何从中提取任何意义?

蒂姆·C:正如我们之前听到的，我们也有一台超级计算机来做这件事。我们需要做类似的计算。我们非常幸运，我们的计算主要是每个单独的处理器可以同时运行一个单独的问题——一个所谓的尴尬并行问题。但这就是我们所做的，那些东西正在运行，就像我们之前听到的。我们有程序员，他们的工作是编写代码来进行分析。

蒂姆·R:如果你能理解这一切，这将告诉我们什么是人类，或者它有什么用处?

蒂姆·C:我们目前最大的目标是设计出更好的精准医疗。那才是我们真正想去的地方。所以如果我能找出你和其他人的不同之处，我就可以说，对，你需要一种特殊的药。那个不适合你，但那个可以，这就是我们现在真正想要达到的。

蒂姆·R:你需要什么才能做到这一点?

蒂姆·C:我们需要非常非常大的存储空间。我们目前有50拍字节——1拍字节是1000太字节。你们很多人家里的电脑里大概有1tb的硬盘，所以这就是50000台家用电脑的由来。我们使用的系统必须非常快。硬盘实际上是相当慢的;它们只能以每秒100兆字节的速度读取数据。因此，以合适的速度向超级计算机提供数据也需要，不仅仅是出于容量的原因，还需要使用大量的磁盘来将数据输入处理器。它们很饿，而且动作很快。

蒂姆·R -蒂姆，桑格是这种大数据处理的先驱。你遇到了什么问题?

蒂姆·C:我们很快就发现，我们所购买的设备并不是为我们设计的规模。因此，我们必须与供应商密切合作，改进他们的硬件和软件，以满足我们的需求。

蒂姆·R:你需要它做什么?解决这些问题——它们是技术性很强的还是后来证明很有用?

Tim C:其中很多都成为了广泛的解决方案，尤其是软件解决方案。例如，当你在大型超级计算机上分配工作时，这有点像邮局排队——“请到一号收银台”。机器说我准备好工作了，你让它工作。但我们发现，我们给了它太多的任务，它根本无法应付我们给它的数量。因此，我们与这家公司密切合作，他们改进了软件，并在世界各地的超级计算中心使用。