千万亿:对英国生物银行进行测序

在这个月的节目中,有史以来最大的全基因组计划。我们说的是千万亿…
2019年10月14日
提出的菲尔·桑塞姆

数据

数据用绿线表示

分享

50万个基因组。这是英国生物银行的数量,以血液样本的形式储存在曼彻斯特的冰柜里。2019年9月,他们宣布了一个项目,对它们中的每一个进行测序。这显然是英国生物银行的下一步,这项研究始于2006年,现在由一个巨大的生物数据库组成:其中包括50万名志愿者的个人和医疗信息。这些数据对任何申请使用它的研究人员都是可用的。但这个有史以来最大的全基因组测序项目是如何运作的呢?这需要数亿英镑的资金是谁掏出来的?产生这么多数据的意义到底是什么?在这个月的节目中,遗传学达到了一个新的规模。我们说的是千万亿。

在这一集里

实验室里载玻片上的血液样本

什么是英国生物银行?
Mark Effingham,英国生物银行

说到遗传学,有时候数据才是王道。尤其是,正如菲尔·桑索姆发现的那样,当你和马克·埃芬汉这样的人交谈时……

Mark -我是Mark Effingham,英国生物银行的首席运营官。

菲尔:英国生物银行,如果你没听说过的话,是一个庞大的科学项目,部分是研究,部分是慈善,部分是大型Excel电子表格。大约十年前,他们设法找到了50万名年龄在40-69岁之间的志愿者,他们提供了一些血液和尿液,并回答了一大堆关于他们自己的问题。这个想法是,任何科学家都可以交叉参考和研究他们想要的数据。现在,生物银行在电子表格中增加了一个相当重要的栏目:全基因组测序。

马克:我想这是开始了解人类基因组了。这个基因组实际上包含了30亿个字母。我们要做的是研究50万人的基因密码。

菲尔-等一下。30亿个字母,50万人,我需要一个计算器(打字)…好的。这是一个1,一个5,然后14个0。一亿五千亿个DNA小片段。我不是专家……但我认为这是相当多的?和马克谈过之后,我有几个问题。所以我去寻找答案。

马克:这真的很令人兴奋。

克莱尔——我想会有挫折的时候——总会有……

Serena -你可以有一个完整的世界地图…

汉娜-时间太长了,伙计!

今天在节目中,我们要讨论的是千万亿。我是Phil Sansom,这里是Naked Genetics。

DNA

基因测序的奇妙化学
文斯·史密斯,Illumina公司

在接下来的两年里,每一个离开英国生物银行的DNA片段都将被送往冰岛的deCODE公司或剑桥的威康桑格研究所。但是这两个地方都将使用Illumina测序公司的技术,以相同的方式对样本进行基因测序。如果你听了前几集,你就会知道他们的机器可以在40小时内完成一个完整的基因组。但是我们没有讲到一个关键的部分:化学,机器一次只能看一个字母。菲尔·桑索姆去拜访文斯·史密斯,他领导着他们的化学团队。

文斯-我们在一个叫做流动细胞的东西里对DNA进行测序,我手里拿着这个。就是几片玻璃粘在一起,中间有一层,两片玻璃之间有一个腔室。

这可能比看起来要复杂得多,对吧?

文斯-是的,是的,表面上看起来像一块相对较小的玻璃。它有轻微的彩虹色,光线通过它折射。

菲尔-是的,确实如此。

文斯:那是因为我们装载DNA分子的这些非常小的补丁,数十亿个非常小的圆柱形孔,它们只有几百纳米宽。

菲尔- DNA在哪里?

文斯:在一个DNA样本中,会有数十亿个来自病人的DNA片段,或者来自生物银行项目的某个人。我们所做的是将化学合成的DNA的短片段连接到这些DNA片段的两端。

菲尔:总是同样的两个序列吗?

文斯-总是同样的两个序列。我们称之为适配器dna。然后它们会特别地与流动细胞表面的互补DNA片段结合,这就是我们将DNA附着在表面的机制,这样就可以进行测序了。你们还记得DNA碱基对是相互结合的,我们利用这一特性将DNA特异地附着在流动细胞表面。

菲尔-然后呢?

文斯-那我们要做的就是在每口井里复制那一段DNA。每口井里都有大约1000个DNA片段。如果有一千个DNA片段就意味着你能得到更多的信号。

菲尔-你怎么让它们相乘?

文斯:所以我们用了一个特殊的技巧,这是一个叫做桥式放大的过程。第一个DNA片段做了一种叫做桥接的事情,它桥接,弯曲在表面形成这个桥,并与流动细胞表面的另一条互补的DNA链结合。然后再复制一份。这个过程不断重复,这些DNA分子继续沿着桥接过程在表面移动。每一步我们都会复制一个,很快你就会得到,你知道,这是一个指数过程,一个DNA分子有1000个左右的拷贝,都有相同的序列。

菲尔:那么澄清一下,在机器的高温下,DNA——通常是成对的双链——会分裂成两条单链。当每条链弯曲在流动细胞上形成一个桥时,它们会使用一种酶,这种酶利用桥的形状来形成那条链的互补对。然后它们重新站起来,因为仍然很热,它们又分开了。两条单线都弯曲,你继续前进。他们使用的酶真的很酷,因为它们需要在高温下工作,所以Illumina经常从生活在深海热喷口周围的小细菌中获取酶。利用它们,这个过程在流式细胞上数十亿个孔中的每一个孔中产生数千个DNA拷贝。

文斯:那么下一步就是我们在实验室里修改了这些DNA的化学组成部分。我们对他们做了两件事。首先,我们给它们添加了荧光染料。我们做的另一件事是加入了一个叫做终止线的东西,或者实际上是可逆终止线。

菲尔-那不是阿诺德·施瓦辛格,但他能做一个三点转身?

文斯-是啊,跟阿尼没关系。这是一种对DNA天然构建块的化学修饰,它可以阻止你在一条正在生长的DNA链上一次添加多个碱基。如果这里没有它酶就会在一个步骤中完整地复制一条链。你不可能一个字母一个字母地看到DNA。

什么酶?

文斯-这种酶叫做DNA聚合酶。在自然界中,你加入DNA聚合酶来复制DNA,它会非常迅速地沿着DNA链进行复制。在我们的系统中,我们一次只能构建一个DNA模块。然后,我们对整个液流池进行成像,看看是哪种颜色的基底被点亮。然后我们可以用另一种化学方法去除染料,荧光染料,也去除这个终止物。这个过程不断重复……

菲尔-冲洗,重复。

文斯:没错。

一个放大镜在二进制代码前面。

06:53 -清理千兆字节的数据

如何检查数十亿个数据点的错误?

清理gb级的数据
克莱尔·拜克罗夫特,基因公司

基因测序仪的摄像机并不需要一次捕捉到每一个碱基,实际上DNA碱基是一次添加一个的。这需要一些复杂的化学反应。而且——别忘了——还有1.5千万亿碱基要测序。当菲尔·桑索姆与英国生物银行的马克·埃芬厄姆交谈时,他解释了处理所有这些信息是多么棘手……

历史上,英国生物银行已将其数据提供给经批准的研究人员下载。但这些数据集现在太大了,你根本无法做到这一点;每个基因组序列大约有20gb,这可能相当于你从iTunes或类似网站上下载的四部高清电影。如果再乘以50万,这是相当大的数据量。

随着这个项目的庞大规模而来的是额外的、意想不到的工作——就像克莱尔·拜克罗夫特过去所做的那样。她是一名科学家,曾经研究过英国生物银行的基因型数据。在开始全基因组测序之前,他们在更有限的范围内分析了DNA。尽管,正如她告诉菲尔·桑索姆的那样,更多的限制并不意味着小……

克莱尔:我是一个团队的一员,负责从实验室机器中获取原始基因分型数据,我们的工作是将这些丰富的数据转化为精心策划的资源。我们有点像博物馆或美术馆的策展人,只不过是为了数据。

菲尔-你这话是什么意思?因为数据不就是数据吗,然后你只需要把它放在电脑上或其他什么东西上?

克莱尔:是的,也许你会天真地这么想,但事实证明,在这样一个大型实验中,偶尔会出现一些错误是不可避免的;在处理过程中,可能是样品的处理方式,或者是计算机中发生的一些事情。我们的工作就是找到这些错误,要么从数据中删除它们,要么将这些错误传达给将要使用它的人。如果我们计算一下我们实际上移除了多少个点,大约是……不到1%。

菲尔:错误到底是什么样子的?

克莱尔:各种各样的事情。所以有时候机器或者算法无法获得足够的信息来做出判断,无法判断这个字母是G还是C还是T还是a,但在其他情况下,这个字母实际上可能是错误的。

菲尔:那你怎么知道信写错了呢?因为很可能只是那封信?

克莱尔-是的。所以通常我们要做的是考虑我们想要捕捉的是什么样的生物学,以及我们所知道的基因组是如何遗传的。如果我们碰巧在数据集中看到一半的人携带两个G,一半的人携带两个A,很少有人携带A和G,那么这就表明其中一些可能是不正确的。

菲尔:你又看了多少小数据?

克莱尔:在英国生物银行中,我们对所有个体的基因组进行了大约80万个定位。也就是80万乘50万。

菲尔-我的数学不是很好,但那一定是数十亿,对吧?

克莱尔-差不多吧。

菲尔:所以你不能完全手工操作,所以你要通过算法……

克莱尔:完全正确。我们开发了基于度量和统计的方法来尝试清理数据。

菲尔:你认为你基本上打得很好吗?你打得很好吗?还是百万分之一的概率,得到a而不是C?

克莱尔:是的,这是个非常非常重要的问题。我认为对人们来说有用的是:你如何创建一个可供数百个不同的人使用的资源,他们想要问这些数据的许多不同类型的问题,你如何使它对每个人都干净?我们考虑了人们可能使用这个数据集的主要方式——一个例子是了解基因型和常见疾病之间的联系——并考虑了对这些研究人员以及其他人有用的东西。我们也采取了这样的方法,有时人们可能对这类数据的不同寻常的方面很感兴趣,我们不想删除所有我们认为有一点点不正确的可能性的东西,这样人们就可以自己做决定。

菲尔:对,因为每个人都会有一些罕见的东西....

克莱尔:你是说英国生物银行的人吗?还是研究人员?

菲尔-英国生物银行。

克莱尔:没错。在这种规模的数据集中,我们预计会看到很多不寻常的东西,尤其是人类基因组。有时你可以将基因数据决定的性别与个人报告的性别进行比较,有时这是不一样的。从历史上看,人们经常在小样本中使用这种方法来识别实验室中潜在的操作不当。但事实证明,在英国生物银行,它足够大,可以看到一些非常有趣的例子,比如,一些人有两条X染色体和一条Y染色体;事实证明,看这些数据并从中推断性别的标准方法是不合适的。

菲尔:现在他们正在做全基因组测序,他们要把整个事情再做一遍吗?

克莱尔:在某种意义上是的。但我认为,我们已经完成的实验真正有帮助的是,我们现在已经了解了很多数据的特性,以及英国生物银行中个体的遗传学方面。例如,当我们查看基因型数据时我们必须找出的一件事是这个数据集中谁是彼此相关的。在英国生物银行里有母亲、孩子、表亲或兄弟姐妹的人。所以我怀疑他们会用这些信息来帮助他们找出大海捞针的问题,即数据中哪里有错误。

菲尔:根据你的经验,你认为在分析数据的过程中,大概有多少人会用头撞墙?

克莱尔:我想会有挫折的时候。在科学中总是如此。但我认为,总的来说,这对参与其中的人来说将是非常令人兴奋的。

乳腺肿瘤

14:51 -乳腺癌的全基因组

为全基因组数据支付数百万美元有什么意义?举个例子,检测乳腺癌……

乳腺癌的整个基因组
Serena Nik-Zainal,剑桥大学

英国生物银行是一个庞大的数据库,包含了50万人的家族史、饮食和医疗数据……你能想到的都有。从现在开始,他们正在对每个人的整个基因组——每一个DNA片段——进行测序。这是一项耗资巨大的工作,其中一半的投资来自大型制药公司。每人2500万英镑。为什么?英国生物银行的Mark Effingham解释道:

Mark -这些丰富的基因数据将使这些制药公司能够开发新的治疗方法,在这些数据向所有英国生物银行研究人员开放之前,他们将获得9个月的短期独家访问权。

阿斯利康(AstraZeneca)的Catherine Priestley对此表示赞同,并表示他们将关注复杂疾病,如IPF、特发性肺纤维化和慢性肾脏疾病CKD。“确定‘正确的靶标’是任何药物发现的关键。为了做到这一点,你需要大规模地这样做,以发现罕见的变异。”作为一个例子,你可以看看乳腺癌,它可以帮助揭示复杂疾病背后的基因。这是英国最常见的一种癌症,每八个女性中就有一个会患上这种癌症。剑桥大学的Serena Nik-Zainal多年来一直在研究这个问题,在一项新的研究中,她告诉Phil Sansom她是如何研究整个基因组的,并发现了一些令人惊讶的事情……

瑟琳娜:我们研究了一种侵略性很强的癌症,叫做三阴性乳腺癌。我们已经使用基因组学来看看我们是否可以识别出哪些患者对治疗有反应,哪些患者对治疗没有反应。我们从肿瘤中提取DNA样本,也从病人的血液中提取DNA样本。一个肿瘤通常有一个高度突变的基因组,所以你可以做比较,找到所有导致癌症发展的突变。

菲尔:这就是它成为肿瘤的原因。

瑟琳娜-这就是为什么它是肿瘤。这是正确的。

菲尔-你研究的对象是谁?

Serena -在瑞典南部,他们从2010年开始招募乳腺癌患者。每一位患乳腺癌的女性都被纳入了这项研究。招募率约为85%,已经招募了超过11,500名患者。

他们都是瑞典人有关系吗?

瑟琳娜:它当然有自己的偏见,因为它是瑞典人。话虽如此,研究对象没有偏见,瑞典南部的所有人都被纳入了研究。

菲尔-你发现了什么?

瑟琳娜-变异的模式。具体来说,我们使用了我们开发的一种算法,一种叫做HRDetect的计算算法。HRDetect使用机器学习方法进行训练,以识别具有BRCA1或BRCA2遗传缺陷的肿瘤。这两个基因对修复DNA损伤非常重要。所以我们的DNA总是受到来自环境,来自细胞内部的攻击。BRCA1和BRCA2是参与DNA修复的蛋白质。所以当你在BRCA1和BRCA2中发生突变时你不能修复损伤你的基因组中会有很多突变。HRDetect经过训练,可以识别这些模式,并告诉你任何肿瘤具有BRCA1或BRCA2类型缺陷的可能性。

这是一个愚蠢的问题。为什么不能只看BRCA1或BRCA2?因为你知道这些基因在哪里,对吧?

瑟琳娜-是的。所以如果你能确定仅仅通过对一个基因进行测序就能找到肿瘤,那么这将是最便宜的方法。但我们发现,实际上大约三分之一的肿瘤,我们找不到遗传原因或其他原因。我们在大约三分之一的肿瘤中找不到它。所以我们可以看到这些模式,这些模式看起来与BRCA1或BRCA2肿瘤相同,但我们找不到遗传缺陷。

菲尔:这太奇怪了,这是一个BRCA1肿瘤,但它没有BRCA1的东西!

瑟琳娜-没错。我们并不完全理解这是为什么。但我们也没有完全了解整个基因组。我怀疑有一些方法可以关闭我们还不完全了解的基因。

菲尔:如果你发现这些肿瘤,人们没有意识到它们有这些模式,但实际上它们有这些模式,这对人们意味着什么?

Serena -对于那些患有BRCA1和BRCA2肿瘤的女性来说,目前她们没有得到同样的治疗。

菲尔-再说一遍有多少人?

瑟琳娜——超过59%的人得分很高。这些肿瘤被认为对特定药物敏感,尤其是针对BRCA1和BRCA2肿瘤开发的PARP抑制剂。目前在这个国家,大多数女性仍然没有得到PARP抑制剂。但即使他们这样做了,也只有1%到5%,而不是50%左右。这种增长是巨大的。所以这种药最初是为1%到5%的人开发的,不是很大的数字,不是20%左右,而是50%左右。所以有很多女性可能会得到她们没有得到的药物。

菲尔-因为它有这种模式,可能对他们有用。

瑟琳娜-没错。但我们不知道这是否一定会发生。所以我们现在需要做临床试验。

为什么你需要全基因组测序?

另一种检测基因组的方法被称为外显子测序或靶向测序。外显子测序捕获了大约1%到2%的基因组,而靶向测序捕获的更少,0.1%或更少。如果你不去看98%的基因组,你就会错过很多信息。所以我把它想象成一次航行,用非常有限的地标去尝试到达你想去的地方。但是今天,通过全基因组测序,你可以得到一张完整的世界地图。

是不是就像从“这里有龙”到GPS?

瑟琳娜-是啊,差不多就是。是的。

加葡萄柚的杜松子酒和奎宁水。

21:16 - Gins & Genes:花了这么长时间!

我们一直在谈论英国生物银行的基因组测序项目,现在是时候让我们稍微放松一下了……

Gins & Genes:花了这么长时间!
伊娃·希金波坦,剑桥大学;汉娜·汤普森,剑桥癌症基因组学

我们一直在谈论英国生物银行的基因组测序项目——现在是时候来一杯杜松子酒和奎宁水来放松一下了。本月,伊娃·希金波坦和汉娜·汤普森与菲尔·桑索姆一起来到剑桥酿酒厂……

Hannah -我是Hannah Thompson,我是一家名为Cambridge Cancer Genomics的初创公司的首席产品和人事官。

伊娃-我是伊娃·希金波坦我是动物学系的学生。

菲尔-谢谢二位的参与。我们要喝些杜松子酒,像往常一样由剑桥酿酒厂提供,由我们的朋友威尔·洛先生提供。威尔,我们今天喝什么?

威尔-所以今天我给你买了最新的超本地杜松子酒:这叫馆长杜松子酒。你在这个杯子里看到的所有味道都来自离这里不到两英里的剑桥大学植物园。

菲尔:这个月我们要讨论的是一个大项目,对英国生物银行的所有全基因组进行测序。这就是传说中的一切吗?这真的是我们理解遗传学的一个重要里程碑吗?

伊娃——我想至少对英国来说,完成后会是这样的。

菲尔-顺便问一下,这很重要吗?“为了英国”?

伊娃:我认为这很重要。我是说真的……我们可以对英国所有的基因组进行测序,但实际上生物银行的94.6%是白色的。当时他们收集的参与者实际上是人口的代表,但我们不是在谈论所有的人,当我们谈论这个的时候。我们实际上谈论的是一小部分人。我的意思是,不仅生物样本库按年龄隔离,他们招募了40到69岁的人;但也因为……这被称为健康志愿者效应。所以那些可能会回复邮件的人,比如“你想成为我们项目的一部分吗?”等等,往往是那些已经很健康的人。事实上,数据显示他们的女性比例更高; less likely to smoke; they're less likely to be obese than the general population; they're more likely to be healthy in lots of ways. But, you know, you have to start somewhere.

汉娜:你说得非常非常好,我认为知道基因层面上发生了什么是很好的,但实际上,如果不把它们放在特定的环境中,有些东西是不会表现出来的。如果你真的,真的想理清一切,你必须监控人们从出生到死亡。

伊娃:另一件事是,你知道,我和我的医生朋友聊天,她说,“我们该怎么办?”作为一名科学家,我有点喜欢,“更多的信息很有趣!”从医生的角度来看,他们会说,“太好了。就是这个基因。我怎样才能帮助这个家庭呢?”

汉娜:是的,我想这将是下一个瓶颈。

菲尔:这是否与这些制药公司获得9个月的早期使用权的原因有关?

伊娃:总的来说,他们已经投入了资金——四家公司总共投入了1亿英镑——他们投入了资金,所以他们得到了一些回报。从某种程度上说,这是事物正常运转的标志。关于制药公司尽早获得数据的问题之一是专利和基因专利问题。所以我直到最近才意识到,直到2013年,在美国,基因专利是100%合法的。实际上……

专利基因?!

汉娜:疯了!

伊娃-是的。然后还有……截至2013年,共有4300个人类基因获得专利。这不仅仅是,这不仅仅是一个问题,“哦,我们取了一些DNA,我们把它弄乱了,现在我们已经申请了专利。”这就像是我身体里的一个基因,我的身体可以制造和使用它。当你考虑测试特定的遗传疾病时,这真的会产生严重的后果。最著名的是BRCA,即乳腺癌基因。这些产品在2013年之前一直处于专利期内。所以如果你想检测你患乳腺癌的风险是否更高,你必须付钱给制药公司做测试因为他们已经为这些基因申请了专利。

菲尔-但你有基因啊!

伊娃-是的,你有这种基因!我是说,那是……它带来了所有这些有趣的问题,关于谁拥有自然。我不确定英国的法律,2013年美国确实修改了法律,不过是的。他们从这个项目的生物银行报告的一件事是,制药公司必须报告他们从这个任务中收集到的信息中将要申请的任何专利。

汉娜:我还想说,在科学的宏伟计划中,9个月并不是一个很大的开端。他们实际上是拥有最多资源的人,能够对从中得出的任何数据点采取行动。我几乎每周都与肿瘤学家交谈,他们说我们正在获得更多的基因组信息,“我不知道,我不是基因组专家,所以我不知道如何处理它。”

菲尔-那这是真正的挑战吗?分析这些东西?

汉娜:是的,我认为有大量的数据需要理解。如果我们把它们之间的联系弄错了,也会产生巨大的影响。

菲尔:你们怎么看待这个观点,你知道,数据似乎是现在大的,热门的新商品?

汉娜-数据绝对是新的黄金;或者是汽油。气体。谁知道呢。幸运的是,在数据隐私方面有相当严格的法律,但很难监督到底发生了什么,所以你不能一直看到每个人都在做什么。

Eva:这对我来说很有趣,因为我不是大数据科学家;我用显微镜拍了很多苍蝇大脑的照片。在过去的四年里,我拍了很多照片。但事实上,其中只有一小部分是有用的。我们在生物学上已经达到了一个相对容易产生大量数据的阶段。从中获得好的东西要比一开始实际生产它花的时间长得多。

菲尔:两年后,当它真正完成的时候,或者几年后,当一群人对它进行研究的时候,你认为有人的生活可能会有明显的不同吗?

汉娜——我觉得我的问题是:很多科学新闻都非常令人兴奋,非常具有爆炸性,就像,“哇,这就要发生了!”但实际上,年复一年,这并没有发生,我们都知道科学需要多长时间的痛苦。所以我认为这只是一个管理问题,管理期望之类的。

菲尔-所以控制我的期望。

汉娜:你可能会死于一种遗传疾病,而你还不知道为什么!我们不会看到数据的真正影响,大约……也许是50年,如果我想谨慎点的话?

菲尔:五十年?

汉娜:是的,我认为能够研究一些东西,找到一个药物靶点,让它通过临床试验,确保它有效,你感兴趣的一部分患者;那是很长的时间。

伊娃:而且也要花很多钱。我的意思是,这种项目的好处之一是希望它能降低新药的生产成本,因为新药上市的部分成本是无效药物的数量。你可以投入年复一年的时间和一大笔钱来开发一种药物,然后你发现,“哎呀,它实际上并没有达到你想要的效果,没关系!”这就意味着研发这种药物的成本会大大提高。因此,这类项目的一个希望是,因为我们将了解更多关于基因之间复杂调控联系的细节,我们可能能够在这个过程中更早地排除药物。所以从这个意义上说,我们需要很长时间才能看到这项工作的全部效果。但希望它也能加快整体进程。

汉娜-时间太长了,伙计!有新的,非常令人兴奋的东西出现,但只是…是的。当你回头看时,你需要花很多时间才能到达目的地。

菲尔-好了,基因的事说得够多了。我想我们赚了些杜松子酒。干杯!

全体欢呼!

汉娜-这正是我周一所需要的。

评论

添加注释