CRISPR是如何工作的?

最新基因组编辑技术指南……
2018年2月23日

分享

美国科学家最近报告说,他们已经成功地使用了分子编辑工具CRISPR/Cas9来改变人类胚胎的基因组。在此之前,中国的两个研究小组也发表了类似的声明,他们也报道了人类胚胎编辑。在这里,亚历克斯·阿什克罗夫特解释了这种风靡全球的新基因科学。

CRISPR是这三个团队用来编辑人类胚胎DNA的技术。它的意思是“聚集在一起,有规律地间隔短回文重复”,你会发现,在这篇关于CRISPR的严肃指南的尝试中,科学家们喜欢缩写;事实上,CRISPR本身就是CRISPR/Cas9的简称,这是这项技术的全称。

中心信条

为了理解CRISPR是如何工作的,我们必须首先了解遗传学的“中心教条”。1958年,弗朗西斯·克里克(Francis Crick)首次描述了这一现象,他因发现DNA结构而与莫里斯·威尔金斯(Maurice Wilkins)和詹姆斯·沃森(James Watson)共同获得1962年诺贝尔奖。中心法则解释了编码在DNA中的信息如何形成细胞,并最终形成器官和生物体。在最简单的层面上,中心教条认为,编码在DNA(脱氧核糖核酸)上的基因被复制成RNA(核糖核酸)的形式,这种所谓的“信使RNA”分子被用来产生蛋白质,蛋白质在细胞内执行大部分功能。

这种复杂的分子舞蹈的原因是DNA基因组位于细胞核内,细胞核是一个特殊的膜封闭袋。与此同时,蛋白质是在细胞核外的一种叫做核糖体的细胞织布机上制造的。RNA是DNA和织布机之间的信使。从本质上讲,mRNA是“编织模式”的复制,核糖体读取这种“编织模式”,将正确的氨基酸“线”拼接在一起,形成所需的蛋白质。

你可以把DNA基因组想象成细胞编织图案的主要集合。织布工不想带着这些东西在车间里转来转去,所以他记下了一个他想要编织的图案的信使RNA“副本”,然后把这个副本带到织布机上,在那里他使用RNA指令来获得想要的蛋白质。

那么RNA有什么特别之处呢?它实际上和DNA非常相似;事实上,它们之间的主要区别在于,DNA的单个“单位”或基因“字母”,即碱基,比同等的RNA单位少一个氧原子。还有其他一些细微的区别,比如,在脊椎动物中,RNA分子只编码一个基因,而DNA可以携带所谓的“垃圾”,它不直接编码蛋白质。

另一个需要注意的微妙之处是,当DNA为一个给定的基因创造一个RNA分子时,它创造的RNA分子是DNA序列的遗传镜像。这意味着RNA与特定的DNA序列相匹配,并可以配对或“结合”。这对生成蛋白质并不重要,但这是科学家在CRISPR中利用的一个特性。

重复的DNA序列对CRISPR的功能至关重要

CRISPR最终可以改变给定基因的DNA序列。有时它可以用来修复一个断裂的基因,这样新的DNA就可以制造出功能性的蛋白质。这就是人类胚胎基因组编辑的目标:在单个基因引起的疾病出现临床症状之前治愈它们。在其他情况下,科学家可能试图移除实验或“模型”生物体中的基因,以更好地了解其功能。但是CRISPR如何帮助他们实现这一目标呢?

基因组信息在DNA中由四个简单的分子编码,科学家们用单个字母来命名:“A”、“T”、“G”和“C”。一般来说,这些字母被称为碱基对。每个基因都是由这四个字母的独特序列产生的,人类基因的平均长度在1万到1.5万个碱基对之间。当你拥有15000个插槽时,很容易想象你如何生成真正独特的字母(或基因序列)顺序。但是,当你开始在更小的尺度上观察DNA序列时会发生什么——比如说,只有3个字母的尺度?

你可以把三个相同的字母连在一起,比如AAA或者GGG。你可能会得到所有不同的字母:ATC, ATG, GTA, CAT等等。或者你可能会得到一个字母的重复-例如AAT或CCG。

当你只有三个空格时,你可以用很多不同的方式来写“A”、“T”、“G”和“C”。当你考虑到任何字母都可以被复制的事实时,情况就变得更加复杂了。然而,只有这么多不同的方法可以做到这一点,这意味着可能的组合数量是有限的。所以你可以想象,如果你在3个碱基对的尺度上观察DNA序列,你会开始看到相同的模式,或“基序”,一次又一次地出现。事实证明,在大多数物种的基因组中都有一个高频出现的三个字母的基序。它被称为“原间隔邻近基序”,科学家们将其缩写为“PAM”结构域。

最初,科学家们只是忽略了PAM结构域和其他常见的3个碱基对序列,因为他们对它们无能为力。它们也没有用;由于它们在整个基因组中重复出现,科学家们无法用它们来区分一个基因和另一个基因。但是,最近,一些科学家发现一种叫做Cas9的蛋白质可以识别PAM结构域。这时,一切都变了……

Cas9蛋白在PAM结构域切割DNA

Cas9是一种“核酸内切酶”,这意味着它可以切割DNA。在适当的条件下,当Cas9发现一个PAM结构域时,它会在附近的DNA中制造一个断裂。

细胞的DNA一直在断裂,所以大多数物种都进化出了DNA修复机制来解决这个问题。但这些机制并不总是能完美地修复DNA。因此,如果Cas9切割DNA的次数足够多,最终,偶然地,它可以留下一个改变的基因序列。

在这一点上,我们所拥有的只是一种蛋白质,它可以识别DNA中的三个字母序列,并在附近可预测的位置引起断裂。PAM结构域经常出现在整个基因组中,如果没有一种方法来靶向一个PAM结构域而不是另一个,Cas9就是一个无用的工具。

这是几位科学家的天才见解:他们找到了一种方法,将Cas9蛋白靶向特定的PAM结构域,从而创造了CRISPR。现在他们正在争夺谁先发明了它,因此谁获得了专利。有人说这是十年来的科学丑闻!

CRISPR/Cas9——它是如何工作的

科学家们产生的机制在概念上相当简单,但非常冗长。在编辑基因之前需要很多步骤。首先,你需要在你想编辑的基因中找到一个PAM结构域。然后你需要看一下结构域旁边的DNA:接下来的18-21个碱基对是唯一的吗?如果没有,那么您需要寻找另一个PAM域并重复该过程。一旦PAM结构域位于紧邻独特DNA序列的有用位置……然后艰苦的工作开始了。你需要合成一段与PAM结构域和相邻DNA序列完全匹配的RNA。然后将这个RNA分子连接到另一段可以结合Cas9蛋白的RNA上。

这种RNA分子的复合体几乎就像一个终极外交官。与PAM结构域和相邻DNA序列相匹配的RNA片段实际上能够识别并结合到基因组中精确位置的DNA上。RNA超分子的另一半结合——“护卫”——Cas9蛋白,促进其与目标DNA片段的相互作用。正如我们已经讨论过的,当Cas9蛋白看到PAM结构域时,它会破坏旁边的DNA。

断裂的DNA反过来激活细胞的DNA修复机制。在这一点上,科学家可以在基因组编辑的两种途径中选择一种:非常准确但效率低下的机制(称为HDR)或更有效但不太准确的过程(NHEJ)。

什么是NHEJ?

NHEJ代表“非同源末端连接”。NHEJ是科学家在使用CRISPR时最容易采用的方法。科学家们将CRISPR系统植入细胞核,基本上只是抱着最好的希望。

这并不夸张。理论是,Cas9不断切割它的目标DNA,修复机制不断修复它,然后最终,偶然地,出现了一些问题,基因仍然是断裂的。也许DNA修复机制会添加错误的碱基对,造成一个断裂的基因,或者可能DNA的一小部分会意外地被删除(称为INDELS)。

DNA修复机制还会产生更多的错误,我们希望所有这些错误都能破坏目标基因。但是,正如你想象的那样,对于一个随机系统,科学家们不知道CRISPR会改变DNA中的什么,也不知道这种改变是否有用。但是,如果一个科学家想做的只是破坏一个基因,而不在乎它是如何发生的,那么NHEJ就是可行的方法,因为它是迄今为止两个系统中最简单的。它也是最有效的,尽管很难准确估计CRISPR NHEJ的效率,因为许多不同的因素会影响它,包括你针对的是哪个基因,你使用的是哪个物种,你如何在细胞内获得CRISPR,以及你是使用细胞还是实际的胚胎。

什么是HDR?

“同源定向修复”(Homology directed repair,简称HDR)是CRISPR方法中更为复杂的一种。如果科学家想要控制改变后的DNA序列,他们就会使用HDR。这显然要困难得多。

直到DNA修复阶段,HDR的工作原理与NHEJ相同。然而,在HDR中,科学家们希望欺骗细胞的DNA修复机制,使其加入他们设计的DNA片段。

它们通过在新DNA序列的两侧放置与CRISPR切割位点两侧的DNA完全匹配的DNA片段来做到这一点。他们希望修复机制不是修复原始的DNA序列,而是以类似于在word文档中剪切和粘贴的方式添加他们选择的DNA片段。

当科学家想要向基因组中添加某些东西时,这种方法很有用。例如,科学家可能想把人类基因转移到老鼠身上,研究它的作用。科学家们还可以利用这项技术用一个正常的基因替换一个受损的基因拷贝,因此它有可能成为遗传性疾病的新医学治疗方法。HDR提供了一种以非常精确的方式修复受损基因的方法,但效率非常低。一些科学家只能让它在小鼠胚胎中起作用,成功率为5-23%。

由于较不准确的NHEJ是由于细胞自身天然DNA修复机制中的随机错误而产生的,因此理论上NHEJ和HDR可能发生在同一细胞中。科学家们并不总是能够设计出解决这个问题的方法。但这总是一个问题吗?嗯,当科学家对单个细胞进行基因改造时,这并不是什么大事。然而,当科学家们改变胚胎的DNA时,这是一个巨大的问题。这是因为胚胎可以“镶嵌”。

什么是马赛克?

绝大多数人和动物体内的每个细胞都有相同的DNA。有一小部分细胞在不同的细胞中有不同的DNA,我们称之为嵌合体。

马赛克动物和人类是自然产生的,但有可能用CRISPR意外地制造出它们。CRISPR通常被直接注射到单细胞胚胎的细胞核中。但是这些胚胎最终会分裂成两个细胞,而这两个细胞又会分裂成四个,以此类推,直到一个完整的有机体出现。

如果CRISPR机制在第一次细胞分裂后仍然存在,会发生什么?然后你会在两个不同的细胞中使用CRISPR机制,每个细胞都独立地相互作用。如果NHEJ的随机编辑在一个细胞中再次发生,而不是在另一个细胞中,那么你最终会得到两个具有不同DNA序列的细胞。如果胚胎的前两个细胞有不同的DNA序列,那么它们就会创造出具有两套不同DNA的整个生物体。这将是马赛克。

与CRISPR的所有局限性一样,嵌合现象在实验室处理细胞时并不是一个大问题,但在临床中就成了一个大问题。在开发一种疗法时,即使是基因疗法,科学家和医生也需要确切地知道他们在做什么。这不仅仅是科学家成为控制狂的问题!试想一下,如果马赛克基因组编辑产生的细胞中,有些细胞的DNA是固定的,有些细胞的DNA没有固定,或者有些细胞的DNA是固定的,随后又被破坏了,会发生什么。

在任何一种情况下,你最终都会得到一个仍然有一些破损细胞的病人。因为我们不知道哪个器官是从哪个胚胎细胞发育而来的,病人的一些器官是由健康细胞形成的,而另一些器官是由损坏的细胞形成的,科学家们不知道哪个是哪个。对于治疗来说,这不是一个好的开始……因此,毫不奇怪,科学家们正在努力限制马赛克CRISPR动物的发展。

脱靶切割

CRISPR中镶嵌动物的问题似乎已经足够复杂了。但是,CRISPR还有最后一个层面的复杂性,它不仅加剧了镶嵌现象的问题,而且本身也是使用CRISPR进行治疗的主要障碍。我说的是臭名昭著的脱靶效应。

当科学家们使用CRISPR时,他们会花很多时间设计将要使用的基因组编辑机制,以尽可能地限制脱靶效应。不幸的是,完全避免它们是不可能的。那么它们是什么呢?为什么它们很重要?

CRISPR由切割DNA的Cas9酶和巧妙地将Cas9酶带到正确DNA片段的RNA超分子组成。

RNA超级分子包含一个序列,可以让它附着在Cas9酶上,还有一个序列可以识别重要的PAM结构域和它旁边的DNA片段。

靠近PAM结构域的DNA片段,是RNA外交家的目标,通常有18 - 21个碱基对长,理论上是完全独特的。

问题是人类基因组包含大约30亿个这样的碱基对。从统计学上讲,18-21碱基对序列不重复至少一次是极不可能的。

如果这个重复序列恰好位于PAM结构域的旁边(这种情况并不少见),会发生什么?

在这种情况下发生的事情并不令人惊讶:CRISPR机制发现并切割基因组中的两个位点,这意味着它改变了目标位点和其他一些随机的(“非目标”)DNA片段。

几乎不可能设计出不识别至少一个脱靶点的RNA外交官,但你可以尽量减少它们的影响。

如果脱靶位点发生在编码不同蛋白质的基因内,那么你可能有大麻烦了。如果CRISPR碰巧破坏了这个基因,那么它可能会导致一种疾病。例如,如果你从母亲和父亲那里获得的CFTR基因拷贝都被破坏了,那么你就会不幸患上一种叫做囊性纤维化的讨厌的疾病。

因此,科学家们通常试图设计RNA超分子,使脱靶区域不在其他蛋白质中。该理论认为,如果一段不编码蛋白质的DNA被破坏,就不太可能引发疾病,因此也没什么大不了的。

然而,越来越明显的是,不制造蛋白质的DNA,即最初被称为“垃圾DNA”的DNA,实际上起着一些非常重要的生理作用。实际上没有任何DNA是无用的。

虽然破坏所谓的垃圾DNA可能不会像破坏基因那样产生疾病,但它可能会产生一种进化上不那么“适合”的有机体。所有应该有的东西都会在那里,而且会起作用……但它可能不会发挥应有的作用。也许这将意味着新陈代谢比它可能的要慢。

我们能避开脱靶效应吗?

考虑到CRISPR的脱靶切割可能存在的问题,科学家们试图尽可能地限制它也就不足为奇了。

只有当科学家们知道他们想要编辑的物种的完整基因组序列时,他们才能使用CRISPR。由于整个基因组序列是已知的,科学家可以通过计算找到具有最少预期脱靶位点的RNA超分子。

但大自然母亲仍有一些妙招。一些科学家已经研究了这种脱靶预测方法在细胞中的准确性。他们发现CRISPR似乎总是在一些意想不到的地方切断。

这似乎并不是算法的错,而是RNA超级分子太急于将Cas9带入DNA,以至于有时它会意外地识别出错误的DNA片段。有趣的是,它似乎以一种一致的方式做到了这一点——科学家们仍在研究这一点。

所以我们知道,脱靶削减将会发生,而且可能会产生相当严重的后果。但这真的是一件大事吗?考虑到CRISPR的炒作,科学家们肯定已经找到了解决方案,对吧?

好吧,正如本指南的主题一样,在实验室中处理它要容易得多。如果你对啮齿动物进行基因编辑,科学家可以通过“回交”编辑过的动物来避开脱靶效应。

回传并不是一个新想法。科学家和饲养动物(如狗或马)的人已经做了几个世纪了(尽管它有很多不同的名字)。

当你回交时,你本质上是想把一个性状从一个品种或品种转移到另一个品种或品种。例如,将黑色拉布拉多犬与偶然出现的棕色拉布拉多犬(可能是巧克力色拉布拉多犬)杂交,产生一个混血儿。然后把看起来最像拉布拉多犬的棕色皮毛的后代和真正的拉布拉多犬杂交。等等......随着时间的推移,经过许多代,你得到了一种拉布拉多犬,它的理想特征(棕色皮毛)已经被培育出来了。

通过基因测试,我们不需要寻找一个明显的特征,比如毛色,我们只需要测试某种基因的存在与否。

因此,随着时间的推移,科学家可以跨越几代人,将基因改变的基因从一种啮齿动物转移到另一种啮齿动物。如果他们这样做了足够多的世代,最终所有的脱靶效应将会消失,他们将创造出一种具有正常DNA和一个编辑基因的小鼠品系。

我们不能在人类身上这样做。事实上,CRISPR编辑人类胚胎的主要问题是,胚胎中的一些细胞将成为“生殖系”。这些细胞将发育成卵子或精子,从而将改变的基因传递给下一代。把一个固定的基因传给下一代并没有那么糟糕,但把我们无法完全预测的脱靶变异传给下一代,就相当可怕了。

除非科学家们开发出一种使用CRISPR的方法,并保证不会出现脱靶效应,否则这项技术不太可能被用于编辑人类胚胎,尽管围绕设计婴儿的伦理争论依然存在。

那么,为什么科学家们对CRISPR如此兴奋呢?

鉴于CRISPR的所有这些局限性,你可能想知道所有这些炒作是关于什么的。CRISPR仍然是我们拥有的最强大的基因组编辑工具,但以目前的形式,它不太可能被用于治疗性地编辑人类胚胎。

CRISPR是特别的,因为它有很多潜在的目标,因为所有的PAM结构域。它还允许科学家编辑新生物体的基因组,只要它们有一个测序的基因组。它也相对便宜和快捷。早期的技术需要18 - 24个月才能产生一只突变小鼠。从理论上讲,现在你只需要注射一次就可以了。

因此,CRISPR是基础研究的一个极其强大的工具。事实上,它在人类身上也有一些潜在的治疗应用。

患有由单一基因引起的遗传疾病的人,影响到单个器官,如杜氏肌营养不良症,是CRISPR目前如何用于临床的一个很好的例子。

科学家们可以取一个人的肌肉干细胞,用CRISPR修复断裂的基因,然后把改变后的细胞作为治疗方法交还给病人。这种方法是基因治疗的理论基础,尽管可能会使用其他基因组编辑技术。

CRISPR在临床应用的另一个例子是,利用病人的免疫细胞,用CRISPR编辑它们的基因组,以靶向癌症。

关于如何在不编辑人类胚胎的情况下将CRISPR用于治疗,还有更多(理论上的)例子。在这些方法中,脱靶效应和镶嵌现象的问题不那么重要,因为科学家们只会改变一种细胞类型,而这些改变的细胞永远不会被下一代遗传。

尽管有其局限性,CRISPR确实在某种程度上辜负了它的宣传,它已经彻底改变了基础科学研究,并可能为一系列等待发生的医学突破奠定基础……

亚历山德拉·阿什克罗夫特(Alexandra Ashcroft)是剑桥大学的一名博士生,最近在英国遗传学会支持的“裸体科学家”组织完成了实习,这篇文章就是在实习期间写的。金宝搏app最新下载

评论

添加注释