清理gb级的数据

如何检查数十亿个数据点的错误?
2019年10月14日

采访

克莱尔·拜克罗夫特,基因公司

BINARY_MAGNIFYING_GLASS

一个放大镜在二进制代码前面。

分享

基因测序仪的摄像机并不需要一次捕捉到每一个碱基,实际上DNA碱基是一次添加一个的。这需要一些复杂的化学反应。而且——别忘了——还有1.5千万亿碱基要测序。当菲尔·桑索姆与英国生物银行的马克·埃芬厄姆交谈时,他解释了处理所有这些信息是多么棘手……

历史上,英国生物银行已将其数据提供给经批准的研究人员下载。但这些数据集现在太大了,你根本无法做到这一点;每个基因组序列大约有20gb,这可能相当于你从iTunes或类似网站上下载的四部高清电影。如果再乘以50万,这是相当大的数据量。

随着这个项目的庞大规模而来的是额外的、意想不到的工作——就像克莱尔·拜克罗夫特过去所做的那样。她是一名科学家,曾经研究过英国生物银行的基因型数据。在开始全基因组测序之前,他们在更有限的范围内分析了DNA。尽管,正如她告诉菲尔·桑索姆的那样,更多的限制并不意味着小……

克莱尔:我是一个团队的一员,负责从实验室机器中获取原始基因分型数据,我们的工作是将这些丰富的数据转化为精心策划的资源。我们有点像博物馆或美术馆的策展人,只不过是为了数据。

菲尔-你这话是什么意思?因为数据不就是数据吗,然后你只需要把它放在电脑上或其他什么东西上?

克莱尔:是的,也许你会天真地这么想,但事实证明,在这样一个大型实验中,偶尔会出现一些错误是不可避免的;在处理过程中,可能是样品的处理方式,或者是计算机中发生的一些事情。我们的工作就是找到这些错误,要么从数据中删除它们,要么将这些错误传达给将要使用它的人。如果我们计算一下我们实际上移除了多少个点,大约是……不到1%。

菲尔:错误到底是什么样子的?

克莱尔:各种各样的事情。所以有时候机器或者算法无法获得足够的信息来做出判断,无法判断这个字母是G还是C还是T还是a,但在其他情况下,这个字母实际上可能是错误的。

菲尔:那你怎么知道信写错了呢?因为很可能只是那封信?

克莱尔-是的。所以通常我们要做的是考虑我们想要捕捉的是什么样的生物学,以及我们所知道的基因组是如何遗传的。如果我们碰巧在数据集中看到一半的人携带两个G,一半的人携带两个A,很少有人携带A和G,那么这就表明其中一些可能是不正确的。

菲尔:你又看了多少小数据?

克莱尔:在英国生物银行中,我们对所有个体的基因组进行了大约80万个定位。也就是80万乘50万。

菲尔-我的数学不是很好,但那一定是数十亿,对吧?

克莱尔-差不多吧。

菲尔:所以你不能完全手工操作,所以你要通过算法……

克莱尔:完全正确。我们开发了基于度量和统计的方法来尝试清理数据。

菲尔:你认为你基本上打得很好吗?你打得很好吗?还是百万分之一的概率,得到a而不是C?

克莱尔:是的,这是个非常非常重要的问题。我认为对人们来说有用的是:你如何创建一个可供数百个不同的人使用的资源,他们想要问这些数据的许多不同类型的问题,你如何使它对每个人都干净?我们考虑了人们可能使用这个数据集的主要方式——一个例子是了解基因型和常见疾病之间的联系——并考虑了对这些研究人员以及其他人有用的东西。我们也采取了这样的方法,有时人们可能对这类数据的不同寻常的方面很感兴趣,我们不想删除所有我们认为有一点点不正确的可能性的东西,这样人们就可以自己做决定。

菲尔:对,因为每个人都会有一些罕见的东西....

克莱尔:你是说英国生物银行的人吗?还是研究人员?

菲尔-英国生物银行。

克莱尔:没错。在这种规模的数据集中,我们预计会看到很多不寻常的东西,尤其是人类基因组。有时你可以将基因数据决定的性别与个人报告的性别进行比较,有时这是不一样的。从历史上看,人们经常在小样本中使用这种方法来识别实验室中潜在的操作不当。但事实证明,在英国生物银行,它足够大,可以看到一些非常有趣的例子,比如,一些人有两条X染色体和一条Y染色体;事实证明,看这些数据并从中推断性别的标准方法是不合适的。

菲尔:现在他们正在做全基因组测序,他们要把整个事情再做一遍吗?

克莱尔:在某种意义上是的。但我认为,我们已经完成的实验真正有帮助的是,我们现在已经了解了很多数据的特性,以及英国生物银行中个体的遗传学方面。例如,当我们查看基因型数据时我们必须找出的一件事是这个数据集中谁是彼此相关的。在英国生物银行里有母亲、孩子、表亲或兄弟姐妹的人。所以我怀疑他们会用这些信息来帮助他们找出大海捞针的问题,即数据中哪里有错误。

菲尔:根据你的经验,你认为在分析数据的过程中,大概有多少人会用头撞墙?

克莱尔:我想会有挫折的时候。在科学中总是如此。但我认为,总的来说,这对参与其中的人来说将是非常令人兴奋的。

评论

添加注释