有人偷了你的基因组吗?

如果你已经对你的DNA进行了测序,那么你要小心处理它……
2020年3月05日

采访

Michael Edge,加州大学戴维斯分校

GENE-DATABASES.jpg

包含数百万个人序列数据的DNA数据库

分享

目前的一个普遍趋势是对你的DNA进行测序;通常你会知道你身上有多少尼安德特人的血统,你有爱尔兰人、威尔士人和哥萨克人的血统,其中一些资源还能让你知道诸如疾病风险基因之类的事情。有些人更进一步,把他们的基因组上传到一系列在线平台上,这些平台利用序列数据来做一些事情,比如让你和失散多年的亲人团聚。但是,正如加州大学戴维斯分校的研究员迈克尔·埃奇向克里斯·史密斯解释的那样,许多这些平台都容易受到一些简单的攻击,所以你的基因组很有可能被黑客入侵和窃取……

迈克尔:有些网站允许人们上传自己的基因数据,所以人们可以从“23和我”或ancestry.com这样的网站上获得他们的基因数据,然后他们可以把这些信息上传到其他网站,比如GEDmatch,家谱DNA, MyHeritage。其中一个非常有趣的原因是,执法警察想要上传他们从犯罪现场获得的基因信息,并利用这些信息找到他们感兴趣的人。有一个非常引人注目的案例是在加州有一个连环杀手叫做“金州杀手”,大约两年前,他用这种方法被捕。所以有人把基因信息上传到GEDmatch,找到了他的第二和第三个表亲,然后最终找到了他。我们感兴趣的是,如果有人上传了正确的信息到这些数据集中,他们是否真的会损害这些数据集中许多不同人的隐私?那么,你能通过上传精选的数据集来找出数据库中人们的基因信息吗?

克里斯:好吧,给我举个例子,告诉我有什么事情会发生,而你会担心……

迈克尔-嗯,一个原因可能是保险。在美国,人们的健康保险受到一项名为GINA的法案的保护。但这并不适用于所有类型的保险。所以你可以想象人们对这些信息很感兴趣,可能会用它来歧视某些人。或者你可以想象有人可能偷了别人的一部分基因组,了解了他们的一部分基因组,然后用它来构建一个假亲戚,然后获得他们的信任。所以如果我知道你基因组的一部分,我就可以建立一个看起来像你失散多年的远房表亲之类的基因组,然后试着通过这些服务之一与你联系。也许这给了我一个“进入”某种网络钓鱼骗局或类似的东西。

Chris -你对这个系统有什么问题?你一开始是怎么处理这件事的?

Michael:我们大概有两个大致的想法,关于某人如何攻击这个数据集。一种想法是,也许他们可以利用我们所有的基因组都是由我们祖先的基因组片段拼接而成的这一事实。这就意味着我们都有一些共同的基因组片段。如果我上传我的基因组,我可以看到数据集中所有与我匹配的人的位置,那么我就知道了所有与我匹配的人的基因组。我会匹配我的近亲,这取决于数据库愿意向我展示的基因组片段有多短,我可能会匹配那些与我甚至没有特别密切关系的人。所以这是一种攻击:它只是通过观察我的基因组中与他人的基因组相匹配的片段,特别是不仅仅是我的基因组,而是我可以从网上下载的许多人的基因组,然后观察它们与他人的基因组在哪里匹配,我能找出其他人的遗传信息吗?然后我们想到的另一个广泛的方法是攻击这些网站使用的算法,特别是GEDmatch使用的算法,来识别匹配的部分。我们发现有一种方法可以欺骗算法,让它在你关心的位置显示某人的基因型。

Chris -你把这些漏洞告诉这些网站的所有者了吗?

迈克尔-是的。所以在我们发布任何东西的三个月前,我们去和所有这些不同公司的代表交谈,告诉他们我们计划做什么,并让他们大致了解我们的结果。

克里斯-他们怎么说?

Michael -他们中的许多人向我们保证,他们不认为这些问题会在不同的情况下以这样或那样的方式影响他们的网站-这要么令人信服,要么不令人信服。我们知道一些GEDmatch做了什么,但在其他情况下,我们不知道它们是否做了很多。

Chris -考虑到你已经把这个放到了公共领域,人们会希望他们会收紧,但是有没有一种方法可以在不破坏整个倡议背后存在的理由的情况下收紧呢?

迈克尔-是的,这是个好问题。我们认为有很多方法。所以我们在论文中提出了一些建议,其中两个很容易做到,第一,只显示长匹配的片段,或者根本不显示片段的位置。因此,一些公司遵循这种模式,这保护他们免受我们提出的一种主要攻击。另一种方法是使用最新的方法来寻找两个人之间匹配的片段。有一类较老的方法很容易受到我们所说的黑客攻击。大多数公司向我们保证,他们使用了一种新的方法,不会以同样的方式受到攻击,但我们认为GEDmatch仍在使用旧方法。然后第三件事会非常有效,但有点难——因为它需要合作——这些允许上传的网站实际上可以开始只接受带有数字签名的上传,以确保它们来自可信任的来源。所以这就意味着我,作为一个独立的人,不能像23和我那样去做一个格式化的文本文件,然后把它上传到这些地方。我认为这是他们现在都有的一个大漏洞。

克里斯:你认为这真的是一个很大的风险吗?因为如果有人一心想发现,比如说我的DNA,他们肯定会毫不费力地找到我,和我握几次手,在工作中和我交朋友,编造一些故事来从我身上获取样本,而我甚至都没有意识到他们这么做了。那么,大费周折地黑进这些网站真的有什么好处吗?

迈克尔:是的,所以我认为如果你对一个特定的目标感兴趣,你是对的,实际上美国在这方面的法律在能够跟踪某人并使用发现的DNA方面相当宽松。我们在这篇论文中讨论的这些方法的不同之处在于,你可以同时获得所有这些信息。因此,你不必追踪一个人或一组人,你可以从这些数据库中的每个人那里获得一些信息。例如,GEDmatch拥有超过100万用户。

Chris -你认为底线是什么?那么你给人们的建议是什么——不要上传你的DNA?

迈克尔-我不这么认为。我的意思是,人们带着不同的担忧和不同的兴趣来做这个,所以我不会说不要这样做,但我想说的是,当你这样做的时候要非常小心,要意识到你在分享什么。这不仅仅是一个人自己的信息。它是关于一个人的亲戚,甚至是远亲,甚至是未出生的亲戚。一旦发布出去,你就无法收回,就像如果我的信用卡信息被盗,如果我不得不这么做,这很痛苦,但我可以改变它。但我们的DNA不是这样的,对吧!

评论

添加注释