2021-04-01-全基因组关联分析100个关键词

第一部分——第1到第20个关键词(偏向群体遗传学基础知识)

Posted by DL on April 1, 2021

本部分主要参考:[百迈客生物]、[生信菜鸟团]

1.群体

  是指生活在一定空间范围内,能够相互交配并生育具有正常生殖能力后代的同种个体群。群体与个体相对,是个体的共同体,不同个体按某种特征结合在一起,进行共同活动、相互交往,就形成了群体。


2.等位基因频率

cZqfKK.jpg

  等位基因频率是群体遗传学的术语,用来显示一个种群中基因的多样性,或者说是基因库的丰富程度。在一个群体中,等位基因频率即某类等位基因占该基因位点上全部等位基因数的比率。如:在某种群中一个等位基因的基因频率为20%,那么在种群的所有成员中,1/5的染色体带有那个等位基因,而其他4/5的染色体带有该等位基因的其他对应变种—可以是一种也可以是很多种。

计算方法:

(1)通过基因型个数计算基因频率

  • 方法:某种基因的基因频率=此种基因的个数/(此种基因的个数+其等位基因的个数)

(2)通过基因型频率计算基因频率

  • 方法:某种基因的基因频率=某种基因的纯合体频率+1/2杂合体频率

(3)根据遗传平衡定律计算基因频率

  • 遗传平衡定律:一个群体在符合一定条件的情况下,群体中各个体的比例可从一代到另一代维持不变。

3.基因型频率

  群体中某一基因型个体占群体总个数的比例。可以反映某一基因型个体在群体中的相对数量。在群体遗传学中基因型频率指在一个种群中某种基因型的所占的百分比。


4.遗传平衡定律(哈迪-温伯格定律)

  “哈迪-温伯格定律”是指在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。

条件:

  • ①种群足够大;
  • ②种群个体间随机交配;
  • ③没有突变;
  • ④没有选择;
  • ⑤没有迁移;
  • ⑥没有遗传漂变。

  例:当等位基因只有一对(Aa)时,设基因A的频率为p,基因a的频率为q,则A+a=p+q=1,AA+Aa+aa=p2+2pq+q2=1。哈迪-温伯格平衡定律(Hardy-Weinberg equilibrium) 对于一个大且随机交配的种群,基因频率和基因型频率在没有迁移、突变和选择的条件下会保持不变。

  违反HWE法则表明基因型频率与预期值显着不同(例如,如果等位基因A的频率= 0.20,等位基因T的频率=0.80;基因型AT的预期频率为20.20.8 = 0.32),并且观察到的频率不应有显着差异。在 GWAS中,通常假设与HWE的差异是基因分型错误的结果。病例中的HWE阈值通常不如对照组中的阈值严格,因为在病例中违反HWE法则可表明。


5.适合度

  是指生物体或生物群体对环境适应的量化特征,是分析估计生物所具有的各种特征的适应性,以及在进化过程中继续往后代传递的能力的指标。达尔文的《物种起源》中指出:适合度是衡量一个个体存活和繁殖成功机会的尺度。适合度越大,个体成活的机会和繁殖成功的机会也越大,反之则相反(因此义项与广义适合度相对应,故亦可称之为狭义适合度)。达尔文的适者生存的个体选择观点就是建立在适合度基础上的,但用个体选择的观点无法解释动物的利他行为。因为利他行为所增进的是其他个体的适合度,而不是自己的适合度。

  计算方式:适合度可以用数据计算出来:W=ml。其中,W代表适合度,m表示基因型个体生育力,l表示基因型个体存活率。


6.选择压力

  又称为进化压力,指外界施与一个生物进化过程的压力,从而改变该过程的前进方向,所谓达尔文的自然选择,或者物竞天择、适者生存,即是指自然界施与生物体选择压力从而使得适应自然环境者得以存活和繁衍。

分类:

  • (1)负向选择(纯化选择):若某个群体内DNA突变对于生物是有害的,对这个突变的选择就是负向的(Negative selection)或纯化选择(Purifying selection)。理论上,纯化选择将消灭群体中的有害突变。但是轻微有害突变的命运则没有那么明确。

  • (2)正向选择:若某个群体内某DNA突变对于生物是有益的,对这个突变的选择就是正向的(Positive selection)。根据有益优势水平的不同,这个有益突变在正面选择下在种群中广泛存在需要不同的时间,短的可以是几代,长的可以上成千上万代。

  • (3)平衡选择:是一种关于自然选择保持种群内遗传多态性的学说,是在一些等位基因上杂合的基因型的系列,这些等位基因的纯合体仅在正常的杂交群体的少数个体中存在,并且在适合度上低于杂合体,然后将会出现有利于在许多座位上发展复等位基因系列的选择压力。

7.群体分层(Population stratification)

  是指群体内存在等位基因频率不同的亚群,因为人工选择、地理隔离、生殖隔离、自然进化等因素都会引起不同程度的群体结构分层,从而增加染色体间的连锁不平衡性,使目的性状与不相关的位点间表现出关联,最终造成定位结果的伪关联,导致QTL定位的假阳性。所以,在进行全基因组关联分析的时候,为了有效地降低群体分层对关联结果的影响,需要对研究样本进行群体分层检验。

筷子基因就是一个很好的例子,由于群体分层的现象而导致得到SNP可以用来解释用筷子吃饭的习惯的结论。

群体分层拓展阅读


8.核苷酸多态性(π)

  衡量特定群体多态性高低的参数,是指在同一群体中随机挑选的两条DNA序列在各个核苷酸位点上核苷酸差异的均值。π值越大,说明其对应的亚群多态性越高。

cZOCwD.jpg


9.群体间遗传分化指数(Fst)

  是种群分化和遗传距离的一种衡量方法,分化指数越大,差异越大。Fst居于0~1之间,越接近1表示两个群体之间分化程度越大,受选择程度越高,反之亦然。

cZOkYd.png


10.连锁不平衡(Linkage disequilibrium, LD)

  Linkage disequilibrium(LD)连锁不平衡:指群体内不同位点等位基因间的非随机性组合的关系,即当位于同一条染色体的两个等位基因(A,B)同时存在的概率,大于群体中因随机分布而同时出现的概率时,就称这两个点处于连锁不平衡状态。通常用D’和r2值表示。一般来说,在连锁不平衡分析中, 野生种的 LD值较低,而驯化种由于受到了正选择的作用,LD值就会偏大。

cZO3fs.png

  连锁不平衡是关联分析的基础和前提。LD这个概念在GWAS中非常重要,决定了关联分析的精度和所选用标记的数量、密度以及试验方案。利用连锁不平衡原理进行GWAS分析的好处就在于:没有严格要求我们必须得到每一个SNP位点的分型结果,只要保证每个单体型模块中都有SNP的分型信息,就会得到比较全面的GWAS的结果。

LD拓展阅读1LD拓展阅读2


11.选择性清除

  自然选择会促使有利变异更容易在群体中被保留下来,其两侧序列往往由于连锁效应同时被保留;而非有利变异则被选择清除(selective sweep)。简单的说就是基因组某区域由于受到了选择而消除多态性,即遗传多样性降低的现象。

cZOd7F.jpg


12.瓶颈效应

  由于环境骤变(如火灾、地震、洪水等)或人类活动(如人工选择、驯化),使得某一生物种群的规模迅速减少,仅有一少部分个体能够顺利通过瓶颈事件,在之后的恢复期内产生大量后代。

cZO4tH.jpg


13.迁移压力(又叫基因流)

  由于某种原因,具有某一基因频率的群体的一部分移入基因频率与其不同的另一群体,并杂交定居,就会引起迁入群体的基因频率发生改变。

cZXCj0.jpg


14.有效群体大小

  指与实际群体有相同基因频率方差或相同杂合度衰减率的理想群体含量,通常小于绝对的群体大小。


15.中性学说

  分子水平上的大多数突变是中性或近中性的,自然选择对它们不起作用,这些突变靠一代又一代的随机漂变而被保存或趋于消失,从而形成分子水平上的进化性变化或种内变异。


16.单核苷酸多态性(Single nucleotide polymorphism, SNP)

  单核苷酸多态性指的是在基因组中特定位置发生的单核苷酸(即A,C,G或T)变异。SNP通常以两种不同的形式存在(例如A与T)。这些不同的形式称为等位基因。包含两个等位基因的SNP有三种不同的基因型(例如,AA,AT和TT)。

  例如,来自两个不同个体的DNA片段,AAGCCTA和AAGCTTA为等位基因。几乎所有常见的单核苷酸多态性(SNP)位点只有两个等位基因。

  单核苷酸多态性(SNP)位点的分布是不均匀的,在非编码区比在编码区更常见。一般来说,自然选择倾向于保留最利于遗传适应性的单核苷酸多态性(SNP)位点。其他因素,如基因重组和突变率也可判断单核苷酸多态性(SNP)位点的密度。

cZTGSf.jpg

SNP拓展阅读


17.SNP遗传力(SNP‐heritability)

  Heritability,翻译为遗传力,用来描述表型变异中遗传变异的比例。这是分析中一定集合内SNP解释的性状的表型变异分数。众所周知,表型(P)由基因型(G)和环境因素(E)共同控制,即:

P = G + E

  遗传力就是基因G所占的比例,具体的,通过方差来描述遗传变异和表型变异,则遗传力的公式如下:

cEOpy8.png

  分子为一组样本基因型的方差,分母为表型的方差。方差表征的是一组样本的离散程度,所以遗传力是一个针对群体的概念,通过该公式计算出来的遗传力也称之为广义遗传力。

  除了广义遗传力外,还有其他几种遗传力的定义。首先是与之相对的—狭义遗传力。表型往往是由多个基因共同控制的,在衡量多个基因的共同作用时,常使用加性模型,同时还会考虑显隐性等遗传模式,相互作用等因素,对应的公式如下:

cEOYSx.png

  然而这样的公式过于复杂,在实际情况下很难去精确计算,为了简化计算,只考虑加性模型,即:

cEx3DK.png

  此时得到的遗传力就是狭义遗传力,当然无论是广义遗传力还是狭义遗传力,它们更多的是考虑遗传效应,没有将遗传变异与表型的关联信息考虑进去。

  随着GWAS的大规模应用,我们可以方便快速的得到SNP位点与表型的关联信息。在此基础上,科学家提出了SNP heritability的概念,即SNP遗传力,公式如下:

cExUCd.png

  用SNP位点来表征样本的遗传变异,在描述SNP位点和表型的关联性时,采用加性模型,将表型y看做是多个位点效应相加的结果:

cEx2Cj.png

  则SNP遗传力可以用以下公式进行表示:

cExfvq.png

  需要注意的是,这里的SNP位点是属于一个集合的,是部分位点,而具体是哪些位点取决于两个因素:第一个是检测到的SNP位点数量,芯片,NGS不同平台检测到的位点数不同;第二个是估算SNP遗传力的算法。目前有以下两种算法:

  • (1)GREML(Genomic relatedness matrix REstricted Maximum Likehood)
  • (2)LDSC(linkage disequilibrium score regression)

18.杂合性(Heterozygosity)

  Heterozygosity(杂合性)又称群体的平均杂合性或杂合度,它是群体遗传变异的另一个度量参数,是指某一基因座上的等位基因是杂合体的频率。个体的杂合率是杂合基因型的比例。个体内高水平的杂合性可能表明样品质量低,而低水平的杂合性可能是近亲繁殖所致。


19.次要等位基因频率(Minor allele frequency, MAF)

  Minor allele frequency(MAF)次要等位基因频率:是指标记多态性位点的基因座位上,出现次数最少的等位基因的频率。这个名词缩写为MAF,但是非常容易与主等位基因频率(Major allele frequency, MAF)混淆,并且在有参考基因组的时候,通常指的是变异类型的等位基因频率。

  大多数研究的power不足以检测表型与MAF低的SNP的关联,因此需要过滤这些SNP。


20.Relatedness

  个体之间在遗传上有多强的关联性。常规的 GWAS 研究假定所有受试者都是无关的(即,没有任何一个个体比二级亲属更接近)。若数据集中包括亲属关系,不进行适当校正的话,可能对 SNP 效应大小的标准误的估计导致一定偏差。目前已有用于分析家族数据的特定工具。