2019-01-13-什么是转座子

转座子的分类及在植物中的分布

Posted by DL on January 13, 2019

参考来源:BioArt植物–曹务强

第一部分 转座子的分类

1.1 前言

FHzTbR.png

  相信只要学过高中生物的人,一定对孟德尔的豌豆实验印象深刻。那你一定还记得那一对黄色圆粒和绿色皱粒的豌豆,正是它们把我们引入了神奇的遗传学世界。不过,我猜你一定想不到,这样一对为人类打开遗传学大门的钥匙,竟然是转座子的杰作。其实,上述豌豆皱粒的表型正是由于一个转座子插入淀粉分支酶基因中,导致基因失活,进而影响种子中淀粉、脂类以及蛋白质的代谢所致。另外,葡萄皮颜色的变化,血橙的形成,甜瓜花性别的分化,以及番茄果实形状的变化等等,都和转座子有着千丝万缕的联系。

  随着测序技术的快速发展,测序的成本逐渐降低,越来越多生物的基因组被发表和公布。人们对各种生物的基因组信息进行分析后发现,几乎所有的真核生物基因组中都含有转座子,并且转座子在许多生物的基因组中都占据了非常大的部分。另外,人们还惊奇地发现,转座子的多样性极高,仅在植物中就可能有成千上万种转座子家族,它们甚至可以占据整个基因组的80%以上


1.2 转座子的分类

  一般来说,按照转座方式的不同,可将转座子分为三大类:I型转座子(Class I elements),II型转座子(Class II elements)以及Helitron转座子。

  • 三种转座子的转座机制

FHzNUP.png

  • 转座原件的分类

FHzgU0.png

1.2.1 I型转座子

  I型转座子又叫反转座子(retrotransposon)。在植物基因组中,反转座子是最常见的转座原件家族,它们占据了许多植物基因组的大部分。根据反转座子的转座机制,人们形象地称其为“复制-粘贴”型转座原件。反转座子在转座时,会先以DNA为模板,在RNA聚合酶II的作用下,转录成一段mRNA,然后再以这段mRNA为模板反转录成cDNA,最后在整合酶的作用下将这段cDNA整合到基因组上新的位置。

  根据两端侧翼有无LTR(long terminal repeat),可将反转座子进一步划分为LTR反转座子和非LTR反转座子。LTR 是一段长末端重复序列,其长度从100bp到5kb不等,携带转录起始和终止的信号,位于 LTR 反转座子两端侧翼,调节 mRNA 媒介的形成。另外,还可根据能否“自给自足”,将反转座子分为自主型反转座子和非自主型反转座子。自主型反转座子编码了所有转座必须的蛋白;而非自主型反转座子缺少一些转座必须的蛋白,需要在自主型反转座子的帮助下才能顺利完成转座。植物中数量最多的非自主型反转座子叫做 short interspersed nuclear elements (SINEs)。

1.2.2 II型转座子

  II型转座子也叫做转座子(transposon),与反转座子“复制-粘贴”的机制不同,II型转座子转座的机制被称为“剪切-粘贴”。在转座酶的作用下,II型转座子从原来的位置解离下来,再重新整合到染色体上。而原来的位置由于转座子解离形成的断链,在DNA修复的机制下得以修整。最终的结果是,原来的位置少了一段转座子序列,而新位置多了一段转座子序列。

  在植物中,数量较多的II型转座子包括 hAT(hobo, Activator and Tam3), CACTA 以及 Mutator-like element (MULE)超家族。和反转座子一样,II型转座子也可分为自主型和非自主型。非自主型转座子不具有转座必须的所有的成分,因此依赖于自主型转座子。植物基因组中,数量最多的非自主型转座子是MITEs(miniature inverted-repeat transposable elements)。

1.2.3 Helitron转座子

  Helitrons转座子是近年来发现的一种新型 DNA 转座子,最初是利用基于重复序列的计算方法在拟南芥基因组中鉴定出来的。后来发现,大多数植物和许多动物基因组中都携带 Helitrons 转座子。Helitrons 转座子具有典型的 5’TC 以及 3’CTRR(R为A或G)末端,并在3’末端上游约 15~20bp 处有一个茎环结构,是转座子的终止信号。Helitrons 转座子转座后,通常插入 AT-rich 区域的 AT 靶位点。和反转座子和转座子不同,Helitrons 通过滚环(rolling circle)的方式进行转座。并且,在滚环复制的转座过程中经常捕获和携带基因片段,可导致基因拷贝数的变化,也会在一定程度上促进基因组的进化。

1.2.4 转座子命名

  由于转座子的多样性和复杂性,许多研究转座子的实验室都有各自的命名规则,没有一个统一的标准,导致转座子的名称比较混乱。2007年 Nature Reviews Genetics发表了题为 A unified classification system for eukaryotic transposable elements 的文章,制定了一套统一的真核生物转座子命名规则。文章中将转座子划分为六个等级 class, subclass, order, superfamily, family and subfamily,这六个等级层层嵌套,根据每个等级的特点将转座子进行分类和命名。另外,他们还提出了一套转座子命名的流程和方法,才使人们有了一套可靠的标准,能够更加便捷的对转座子进行命名和注释。


第二部分 转座子在植物中的分布

2.1 前言

  我们已经知道,在生物体中转座子的多样性非常高,数量非常大。那么,在不同的植物基因组中,每种类型的转座子都是均一分布的吗?它们的分布有没有什么特点呢?下面我们以模式植物拟南芥、水稻和玉米为例,介绍一下转座子在植物基因组中的分布情况。


2.2 转座子在植物中的分布

2.2.1 拟南芥中的转座子分布情况

  2000年,Nature发表了一篇题为Analysis of the genome sequence of the fowering plant Arabidopsis thaliana 的论文,首次公开了拟南芥完整的基因组序列。研究人员对拟南芥基因组进行详细分析后发现,转座子至少占据了整个基因组的10%,并且基因间 DNA 中约 1/5 都是转座子。拟南芥基因组中约有 2109个 class I 转座子,2203个class II 转座子,另外还鉴定到1209个新类型转座子。对转座子的跳跃历史进行研究后发现,拟南芥基因组中的转座子倾向于整合到重复序列。

  不过,虽然拟南芥基因组中转座子的数量巨大,但是它们大部分都是不表达的,只有约4%的转座子可以表达。在许多具有较大基因组的植物中,I型转座子的含量通常会比较丰富。拟南芥的基因组相对较小,I型座子的数量也比较少,并且它们主要集中在着丝粒附近。相比之下,拟南芥中II型转座子则主要分布在中心体周围。对转座子和基因的分布情况分析后发现,转座子密集区域基因的分布相对较少,重组率较低,并且与之匹配的EST也较少,说明这些区域基因的表达也不活跃。

FbSWdI.png

2.2.2 水稻中的转座子分布情况

  2005年,Nature发表了水稻的基因组。水稻中转座子序列至少占据了整个基因组的35%,并且水稻基因组中几乎含有所有已知的转座子家族。具体分析后发现,水稻8号染色体和12号染色体的转座子含量最高,分别为38.0%和38.3%;1号、2号以及3号染色体的转座子含量相对较低,分别为31.0%、29.8%和29.0%。

  水稻基因组中II型转座子的含量较多,约是I型转座子的两倍。但是,I型转座子的核苷酸数量要远远大于II型转座子,因为I型转座子通常比较大,而II型转座子一般都较小。水稻中I型转座子主要集中在基因稀少的区域和异染色质区域,比如着丝粒和中心体附近;不过,仍有一些I型转座子和II型转座子分布在基因密集和重组率较高的染色体区域。总体来看,水稻转座子的分布和转座子的大小有一定的相关性:较小的转座子主要分布在基因相对密集以及重组率高的区域,而较大的转座子则集中在着丝粒和中心体附近。

FbSTSS.png

2.2.3 玉米中的转座子分布情况

  2009年,玉米的基因组也在Science上公布。由于转座子最早是在玉米中发现的,许多转座子家族也都是首先在玉米中鉴定到的,因此玉米中转座子的含量及分布规律自然更加吸引人们的注意。让人们吃惊的是,转座子这种一度被认为是“垃圾DNA”的物质,竟然占据了玉米基因组的近85%。和拟南芥以及水稻不同,玉米中许多转座子都分布在基因密集以及染色体重组率较高的染色体末端区域,这暗示着玉米中转座子在调控基因功能方面可能非常活跃。

FbSHyQ.png

  在第一部分提到的Helitrons,它是一类通过特殊的滚环方式进行转座的转座子,在植物、动物以及真菌中都有分布。不过,在玉米基因组中,这类转座子的含量非常丰富,活性极高,变异也非常多样。玉米基因组中含有8个Helitrons家族,所有成员的拷贝数加起来约为20000个,并且主要分布在基因密集区域。而在许多其他的动物和植物基因组中,Helitrons都主要分布在基因稀少的区域。这也说明了,玉米基因组中转座子广泛参与了基因的调控。


2.3 总结

  从上面列举的三种模式生物中转座子的含量和分布情况,我们可以发现,随着基因组的扩增,转座子的含量和丰富性也随之逐渐增加。而转座子的分布也随之从基因稀少的着丝粒以及中心体附近向基因密集区转移,这暗示着转座子在基因组的扩张和大基因组生物的基因调控方面起到了非常重要的作用。