参考资料:CRISPR-Cas9系统简介
一、背景
1.1 目前已有的基因编辑技术
-
(1)锌指核酸内切酶(zinc finger endonuclease,ZFN):是第一代人工核酸内切酶。锌指是一类能够结合DNA的蛋白质,人类细胞的转录因子中大约有一半含有锌指结构,ZFN 是将锌指蛋白与核酸内切酶 Fok I融合形成的核酸内切酶,利用它可以在各种复杂基因组的特定位置制造 DNA 的双链切口(这就是英文文献中说到的DSB,当时只当是DNA双链断裂,却不知其实叫做双链切口)。
-
(2)类转录激活因子效应物核酸酶(transcription activator-like effector nuclease,TALEN):第二代人工核酸酶。
-
(3)人工核酸内切酶(engineered endonuclease,EEN)。
-
(4)Clustered regularly interspaced short palindromic repeats (CRISPR)/CRISPR-associated (Cas)9:第三代人工核酸内切酶(前两代就是ZFN和TAILEN)。
以上三种基因编辑技术(1-3)均可用于各种复杂基因组的编辑。但是无论是 ZFN 还是 TALEN,这两种人工核酸酶都是由 DNA 结合蛋白与核酸内切酶Fok I融合而成,这就意味着,当需要对新的DNA靶点进行编辑的时候,就需要设计新的核酸内切酶序列。
1.2 细菌免疫系统
CRISPR/Cas9系统最初在细菌和古生菌中观察到,作为一种适应性微生物免疫系统,提供对外来病毒和质粒的获得性免疫;已测序物种中,40%的细菌和90%的古生菌可观察到CRISPR基因座,且细菌中可能存在一个以上的基因座。
入侵的外来DNA被Cas核酸酶切割,然后以间隔序列的形式被保守的重复序列捕获并整合到crispr位点,所获得的间隔物作为创建短CRISPR RNA(crRNAs;create short CRISPR RNAs )的模板,它与反式激活cRNA(tracRNA;trans-activating crRNA )形成复合物;它们一起起到引导链的作用,将cas9核酸酶导向互补的入侵DNA(3)。一旦结合,cas9蛋白通过其HNH和RuvC-like核酸酶结构域分别切割“crRNA互补”及反义链。
1.3 CRISPR/Cas9简介
首先请看一个介绍视频:CRISPR/Cas9英文版介绍
Clustered Regularly Interspaced Short Palindromic Repeats(CRISPR):是在细菌中发现的有规律成簇又带间隔的短回文序列,可以帮助细菌抵抗噬菌体的入侵,是细菌针对噬菌体的获得性免疫。
目前已报道了45个不同的cas蛋白家族,每一个家族在合成cRNA、整合新的间隔序列和切割入侵DNA中具有不同的作用。CRISPR-Cas系统通常分为三类,这取决于Cas蛋白质序列和结构:I型、II型和III型。目前常用于基因组编辑的CRISPR-Cas9系统是一个Ⅱ型CRISPR-Cas系统,它是从化脓性链球菌(Streptococcus pyogenes)中获得的,它和其他Cas的区别在于,只是需要一个DNA内切酶Cas9来对与sgRNA20个互补碱基的带有PAM结构的DNA进行剪切。剪切后是DNA产生平末端的DSB(双链断裂),然后在进行非同源的末端连接过程中,容易随机插入或者删除或者替换。或者进行高保真的同源定向修复,修复DNA。
1.4 CRISPR/Cas9的作用机制
首先,这是CRISPR/Cas9系统 5’ tracrRNA+Cas9+Cas1, Cas2, Csn2+引导序列+CRISPR
组装系统
工作
应用
1.5 CRISPR/Cas9的修饰类型
- 基因定点 InDel 突变
- 基因定点敲入
- 两位点同时突变和小片段的缺失
1.6 CRISPR/Cas9的优缺点
- 优点:高效,方便,快捷。CRISPR/Cas9 的定点突变效率至少是 TALEN 的 2倍以上,并且诱发双等位基因的效率更高。
- 缺点:有相当的脱靶概率。
1.7 CRISPR/Cas9的用途
CRISPR/Cas9被改造成第三代人工核酸内切酶,用于复杂基因组的编辑,目前该技术应用于人类细胞、斑马鱼、小鼠及细菌等五种的基因组精确修饰,例如各种基因工程小鼠。
二、CRISPR系统的组成及机理
2.1 内切酶 + 短引导RNA
内切酶是化脓性链球菌产生的细菌CAS9核酸酶蛋白。CAS9核酸酶具有两个DNA剪切结构域(Ruvc1和HNH-like核酸酶域),可剪切双链DNA使双链断裂(DSB;double strand breaks)。
gRNA是一种工程化的单链嵌合体RNA,结合了细菌tracrRNA的支架功能和细菌crRNA的特异性。gRNA 5’端的最后20bp作为一个归位装置,通过RNA-DNA碱基配对,将CAS9/GRNA复合物招募到PAM(protospacer adjacent motif )上游特定的DNA靶位。不同菌株和不同类型的CRISPR-Cas蛋白之间的PAM序列不同,化脓性链球菌Cas9的序列是5’-NGG。目前的CRISPR-CAS9系统可以直接用于任何5’-N20-NGG DNA序列,并产生精确的双链断裂。然后,通过在几乎所有细胞类型和生物体中发现的两种通用修复机制修复DSB:非同源末端连接(NHEJ;the non-homologous end-joining )或同源定向修复(HDR;the homology-directed repair)。
2.2 非同源末端连接修复(NHEJ)
NHEJ修复路径是一种容易出错的修复机制,用于在没有合适的修复模板的情况下修复双链断裂。NHEJ通路试图将DSB的切割端连接在一起。然而,这一过程往往导致DSB位点的插入或删除(indels)突变,导致移位或引入永久性破坏目标基因开放阅读框的成熟前终止密码子。尽管NHEJ的INDEL结果很大程度上是随机的,但是科学家们可以通过将gRNA定位于相关基因的N末端来确保最大程度的基因破坏;这将确保框架移位突变不会导致部分功能性基因产物。在利用NHEJ修复通路时,设计第一或第二外显子中的gRNA并避免靶基因的内含子区是一个很好的实践。
2.3 CAS9核酸酶同源定向修复(HDR)
除NHEJ,细胞还能够利用一种更精确的修复机制,即同源定向修复(HDR)途径。这种修复机制可以用来引入特定的核苷酸修饰基因组DNA。在这种方法中,将与预期编辑位点上游和下游序列高度同源的DNA修复模板连同适当的gRNA和CAS9核酸酶一起引入细胞。在这种合适的模板存在下,不易出错的HDR机制可以通过重组忠实地对CAS9诱导的DSB站点进行所需的更改。在设计修复模板时,请确保目标序列没有紧跟PAM序列,或者PAM序列被排除或变异。这是为了避免使用相同的CRISPR-CAS9系统对修复模板进行降解。
2.4 PAM识别序列
CRISPR-CAS9系统可以通过gRNA的设计针对任何基因组区域的特异性取决于位于目标序列下游的PAM序列。作为细菌和古细菌免疫系统,PAM识别序列激活CAS9的核酸酶域,从而作为区分自我和非自我的手段(如:阻止CRISPR基因座被靶向)。
PAM识别序列因来源于CAS9核酸酶的细菌种类和类型而异。最常用的II型CRISPR系统使用来自化脓性链球菌的CAS9核酸酶。这种特殊的核酸酶在GRNA序列的3’端识别5’-NGG。其他市售CAS9可识别其他PAM序列。
三、 其他相关概念
3.1 Cas9 Nickase 和 Cas9 Double Mutant
3.1.1 Cas9 Nickase
Cas9 Nickase是Cas9的一种突变形式,其RuvC1 或HNH-like核酸酶域中分别有D10A 或H840A 突变,这种突变形式导致在目标位点产生单链刻痕而不是双链断裂。由于单链断裂(或缺口)通常使用完整的互补DNA链作为修复模板通过HDR 途径快速修复,因此Cas9 Nickase可将脱靶效应最小化。
为了利用Cas9 Nickase进行基因组编辑,需要两个gRNA。这两个gRNA需设计在相反的DNA链上,但其距离很近,以确保一旦两个链被Cas9 Nickase切割,DSB就会被诱导。这对Cas9 Nickase修改减少了脱靶效应,因为需两个gRNA共同产生一个DSB。一旦形成DSB,NHEJ或HDR路径将被激活以完成基因组编辑过程。
如果共同引入含有所需修饰的修复模板DNA与gRNA和Cas9 nickase,则Cas9 Nickase也可用于通过同源重组产生核苷酸修饰。
3.1.2 Cas9 Double Mutant
Cas9双突变体或Null突变体是通过突变野生型Cas9的两个切割结构域而产生的。 这种Cas9蛋白保留了通过gRNA:基因组DNA碱基配对与基因组DNA结合的能力。 与Cas9核酸酶和Cas9 Nickase可以实现永久性基因破坏不同,Cas9 Null突变体不引入任何基因组修饰。 通过将Cas9双突变体与其他效应蛋白融合,CRISPR Cas9系统可以将其作用扩展到基因调控,基因组成像,染色质或DNA修饰以及染色质免疫沉淀。
3.2 spCas9, saCas9, and Cpf1 核酸酶
3.2.1 spCas9:large size and G-rich PAM sequence
3.2.2 Cpf1 Nuclease
Cpf1于2015年底由麻省理工学院的Feng Zhang小组发现。在16种候选Cpf1蛋白中,两种在哺乳动物细胞中最具潜力的高特异性基因组编辑工具:asCpf1和lb2Cpf1。这些核酸酶在人类细胞中具有与常用spCas9相当的靶向切割效率。
Cpf1允许新的定位可能性,因为它识别富含T的PAM位点。与Cas9的富含G的PAM要求相比,这显着扩大了可能的基因组目标的范围。虽然Cas9可能是靶向富含G的区域的优选核酸酶,但Cpf1可用于靶向富含T的区域。在哺乳动物细胞中,Cpf1可以靶向如支架/基质附着区域和着丝粒DNA的难以延伸的DNA片段。使用Cpf1还可以探索由富含AT的结构域控制的细菌基因组,例如引起疟疾的恶性疟原虫(Plasmodium falciparum)。同样,在Cas9的表达有毒的情况下,Cpf1可能是Cas9的有用替代品,如在谷氨酸棒杆菌(Corynebacterium glutamicum)和几种蓝细菌(Cyanobacteria)中所见。
Cpf1需要较短的guide RNA才能运作。虽然Cas9需要tracrRNA的存在来处理crRNA,但Cpf1可以自己处理pre-crRNA。这对于生物技术特别感兴趣,因为与用于Cas9的~100nt tracrRNA / crRNA杂交体相比,Cpf1可以仅用~42nt crRNA靶向。这将工程化sgRNA的大小减少了一半以上,同时还简化了与合成和化学修饰相关的方法和成本。这种自编辑功能也使Cpf1成为多重基因组编辑的最佳选择,因为更多的sgRNA可能适合一个载体。
另一个显着差异是Cas9在切割后产生平端,而Cpf1留下可用于定向克隆的粘性5’突出端。产生粘性末端的其他方法,例如限制酶消化,具有比Cpf1更短的识别序列,因此切割性较低。已经利用Cpf1的这种特性在体外进行高度特异性的DNA组装。在体内使用这种方法,科学家们可以对非分裂细胞(如神经元)进行DNA敲入,通过HDR进行基因组编辑尤其具有挑战性。
Cpf1切割PAM位点下游18-23bp的DNA,导致NHEJ修复双链DNA断裂后对识别序列没有破坏。导致Cpf1能够进行多轮DNA切割,并且增加了进行所需基因组编辑的机会。相比之下,由于Cas9仅在PAM位点上游切割3bp,因此NHEJ途径导致indel突变,其破坏识别序列,从而防止进一步的切割轮次。理论上,重复的DNA切割轮次应该导致Cpf1导致靶基因的沉默增加,并且在敲入实验的情况下,发生同源定向修复的机会更大。
Zhang等人的一项研究。表明Cpf1介导的基因组编辑可用于纠正诱导多能干细胞和小鼠的肌营养不良基因突变。这导致基因表达恢复,小鼠症状得到纠正。 Cpf1也已成功用于蛋白质-sgRNA复合物中,以突变大豆和烟草植物中的基因。
3.3 saCas9 Nuclease
虽然化脓性链球菌Cas9(S. pyogenes Cas9; spCas9)是最常用的CRISPR核酸酶,但最近的注意力已转向从金黄色葡萄球菌中分离的微型Cas9核酸酶(S. aureus; saCas9)。这种小核酸酶通过使生物体内基于CRISPR的基因编辑更加可行,具有改变生物医学研究产业的巨大潜力。 SaCas9和spCas9能够以相当的效率在体内切割真核DNA。但saCas9具有几个特性,使其对某些应用更有用。
SaCas9比spCas9小约1kb,使其能够更有效地包装到较小容量的腺相关病毒(AAV)中,为调控元件,crRNAs和tracrRNAs留下额外空间。通过将Cas9和sgRNA包含在一个构建体(称为All-In-One载体)中,可以在一个转染/转导步骤中完成Cas9表达和sgRNA靶向。由于其低免疫原性和选择性感染某些组织类型的能力,AAV是用于体内研究的优选基因递送方法。
同样,与spCas9相比,saCas9为基因组编辑开辟了新的可能性,因为它具有不同的定位能力。 spCas9识别5’-NGG-3’的PAM序列,而saCas9识别5’-NNGRRT-3’。可用于PAM序列的更多种类意味着可用于基因组编辑的增加的基因座数量。当需要使用同源定向修复精确编辑基因时,这是特别有益的,因为当识别序列非常接近待编辑区域时HDR最有效。
saCas9较长的PAM的一个缺点是,该序列在基因组中的发生频率低于spCas9的PAM序列,限制了其潜在的效用。 然而,saCas9较长的PAM序列应该有助于防止脱靶的切割,因为它具有更高的特异性。
麻省理工学院张实验室于2015年进行的一项研究调查了体内saCas9的表现。 他们将携带saCas9的AAV注射到小鼠体内以破坏PCSK9基因,该基因与家族性高胆固醇血症有关。 这导致1周后肝组织中基因修饰> 40%,注射后4周没有毒性迹象。 最近的其他工作已经用于开发具有使用分子进化的松弛PAM识别特异性的变体saCas9。 与野生型saCas9相比,这种变体允许更大范围的潜在编辑目标,同时保留其小尺寸传达的优势。
为什么有些研究人员更喜欢saCas9和spCas9?
- saCas9更紧凑,但具有与spCas9相同的基因编辑能力。
- saCas9靶向不同的基因组位点而不是spCas9:saCas9具有与spCas9不同的PAM序列,使其成为spCas9的补充工具。
- saCas9具有降低的脱靶切割风险:由于它的PAM序列在基因组中更长且更罕见,因此saCas9与靶DNA的非特异性相互作用的风险较低。
- saCas9在体外比spCas9更有效:与spCas9相比,saCas9需要更少的酶,更少的时间来完成DNA切割。
四、 基于蛋白质的基因组编辑工具的比较
4.1 两种常见的基于蛋白质的基因组编辑工具
-
锌指核酸酶(Zinc-finger Nucleases; ZFNs)
-
转录激活因子样效应核酸酶(Transcription Activator-Like Effector Nucleases; TALENs)
五、 常见缩写及专业词汇
- clustered regularly interspaced short palindromic repeats (CRISPR) :就是一个剪短的成簇的短回文结构。
- DNA double-stranded breaks (DSBs) :双链断裂
- nonhomologous end joining (NHEJ):无模板修复,引入indel,适合敲除
- homology-directed repair (HDR):有模板修复,精准编辑。
- zinc-finger nucleases (ZFNs):锌指核酸酶
- transcription activator-like effector nucleases (TALENs):转录激活因子样效应物核酸酶
- single-stranded DNA oligonucleotides (ssODNs):单链DNA寡核苷酸
- CRISPR RNA (crRNA) array
- Streptococcus pyogenes:化脓性链球菌
- single-guide RNA (sgRNA)
- guide RNA (gRNA)