2020-08-21-全基因组重测序基础及高级分析知识汇总 - 丁立的博客

来源：微笑如酒的360doc文档

1.背景

借着2月8号，刚刚在Nature上发表柑橘的遗传进化的文章，小编来讲述一下全基因组重测序基础知识，以及常见的分析思路及软件，帮助大家迅速入门。

全基因组重测序是通过对已有参考序列（Reference Sequence）的物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的遗传差异性分析。通过全基因组重测序，研究者可以找到大量的单核苷酸多态性位点（SNP）、拷贝数变异（Copy Number Variation，CNV）、插入缺失（InDel，Insertion/Deletion）、结构变异（Structure Variation，SV）等变异位点。基于以上变异位点作为分子遗传标记，在人类复杂疾病、动植物经济性状和育种研究及物种起源、驯化、群体历史动态等方面具有重大的指导意义(Bentley2006; Casillas& Barbadilla 2017)。

2.基础理论知识

全基因组重测序研究主要是依据在全基因组水平发现的分子遗传标记进行物种的群体遗传学研究，进一步的利用统计方法进行影响表型和经济性状候选基因和功能突变的研究。分子群体遗传学研究的理论基础知识及统计分析方法日趋完善和呈现多样性，作为初学者，有必要对其中的一些基础概念有一定的了解，才能为后续的深入学习、研究提供基石。以下基础知识主要参考国内动物遗传学书籍和最新的一篇关于分子群体遗传学方面的综述改变而成(吴仲贤编1961; 李宁2011; 吴常信2015; Casillas & Barbadilla 2017)。高通量测序技术作为分子群体遗传学研究的有力工具，在科学研究、生产及疾病诊断治疗中起到原来越重要的作用。

2.1 群体遗传学基础知识

群体（Polulation）：是指生活在一定空间范围内，能够相互交配并生育具有正常生殖能力后代的同种个体群。

等位基因频率（Alleles frequency）：在一个群体中，某类等位基因占该基因位点上全部等位基因数的比率。

基因型频率（Genotype Frequence）：群体中某一基因型个体的数目占群体总个数的比例。可以反映某一基因型个体在群体中的相对数量。

遗传平衡定律或哈迪·温伯格定律（Hardy-Weinburg）：在随机交配下的孟德尔群体中，如没有替他因素（基因突变、迁移和选择）的干扰，群体的基因频率和基因型频率将逐代保持不变。

连锁平衡（Linkage equilibrium）：两个基因座的等位基因组合的频率等于组成组合的等位基因各自频率的乘积，不存在优势组合，称为连锁平衡。

连锁不平衡（Linkage Disequilibrium）：相邻位点之间的非随机关联，当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设，则这两个位点之间存在连锁不平衡。

适合度（fitness）：指一个个体能够生存并将其基因传给下一代的能力，可用相同环境中不同个体的相对生育率来衡量（即在选择中，某一基因型个体在下一代平均保留后代数的比率）。

选择系数或淘汰率（selectivity coefficient，用s表示）：某一基因型个体在下一代淘汰的个体数占总后代数的比率。

群体分层（population stratification）：群体分层是指群体内存在亚群的现象，亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系。

核苷酸多态性(π)：衡量特定群体多态性高低的参数，是指在同一群体中随机挑选的两条DNA序列在各个核苷酸位点上核苷酸差异的均值。π值越大，说明其对应的亚群多态性越高。

群体间固定指数(Fst)：衡量群体中等位基因频率是否偏离遗传平衡论比例的指标，用来研究不同群体间的分化程度。其取值为0到1，0代表两个群体未分化，其成员间是完全随机交配的；1代表两个群体完全分化，形成物种隔离，且无共同的多样性存在。

θw：Watterson’s 多态性估值，从理论上说，在中性条件下，应当有θW=4Neμ的平衡状态，Ne表示有效群体大小，μ表示每一代的序列突变率。

瓶颈效应（Bottle effects）：由于环境骤变(如火灾、地震、洪水等)或人类活动(如人工选择、驯化)，使得某一生物种群的规模迅速减少，仅有一少部分个体能够顺利通过瓶颈事件，在之后的恢复期内产生大量后代。

基因的随机漂移或遗传漂变（random genetic drift）：由某一代基因库中抽样形成下一代个体的配子时发生机误，这种机误引起基因频率的变化称之为基因的随机漂移或遗传漂变。换句话说，就是利用随机抽样的办法建立小群体时，由于抽样误差引起基因频率随机波动的现象。

始祖效应、奠基者效应或建立者效应（Founder Effect）：有少数个体的基因频率决定了他们后代中的基因频率的效应，是一种极端的遗传漂变作用。

迁移压力(又叫基因流,Gene Flow)：由于某种原因，具有某一基因频率的群体的一部分移入基因频率与其不同的另一群体，并杂交定居，就会引起迁入群体的基因频率发生改变。

有效群体大小（effective population size，Ne）：是指与实际群体具有相同基因频率方差或相同杂合度衰减率的理想群体大小,它反映了群体平均近交系数增量的大小以及群体遗传结构中基因的平均纯合度。

中性学说（neutral theory）：认为分子水平上的大多数突变是中性或近中性的，自然选择对它们不起作用，这些突变靠一代又一代的随机漂变而被保存或趋于消失，从而形成分子水平上的进化性变化或种内变异。

突变压力：一定条件下，一个群体的突变率可明显增高，形成突变压力，使某个基因频率增高。

选择压力（selection pressure）：受某种环境条件的影响，某些突变型被选择所作用，使突变基因的频率降低。

选择（selection）:在人类和自然界的干预下，某一群体的基因在世代传递过程中，某种基因型个体的比例所发生变化的群体遗传学现象(张沅 2001; 马云龙 2015)。

正选择或方向性选择、定向选择（Positive selection or Directional selection）：正向选择是选择中最常见的一种形式，当群体中出现新的有利突变时，该位点对应的适合度将从一种极端向着另一个极端转化。在这种适应性进化的过程中，选择作用是有利突变位点方向性进化的潜在驱动力。

负选择或净化选择（Negative selection or Purifying selection）：是指在群体中的某种表型性状不再适应目前环境或育种需求时，与该性状相关联的等位基因频率将会被选低或被淘汰的过程。通常该类等位基因所关联的表型性状对群体在当前环境下的生存和繁衍是不利的。

平衡选择（Balance selection）：一些等位基因的纯合体仅在正常的杂交群体的少数个体中存在，并且在适合度上低于杂合体，然后将会出现有利于在许多座位上发展复等位基因系列的选择压力。因此，平衡选择能够在种群中维持遗传学多样性，而不是仅选择一个最有利的基因型。（即由于超显性等作用，群体中的某些性状的潜在作用位点始终在选择的作用线保持较高的遗传多态性、对应较高的杂合度，可能与家畜育种中杂种优势有关）。

平行选择（Parallel selection）：与平衡选择相对应，同物种群体不同亚群之间，由于偶然或其它一些主观因素，造成影响某些性状的潜在遗传位点向着同样的方向被选择被称为平行选择（例如：不同奶牛品种中对产奶量的选择）。

歧化选择（Divergent selection）：选择作用使影响某些性状的潜在遗传位点在不同的亚群中向着不同的方向进化现象（例如：果蝇的长翅与残翅）。

选择性清除（Selective sweep）：在中性进化理论下，一个新的突变往往需要很长一段时间才能够在群体中达到一个较高的频率，并且这些突变周围的连锁不平衡程度会因重组率的影响而在这段时间内几乎完全衰减降解。因此，基因组上绝大多数未受到选择作用的位点会始终处于随机漂变状态，彼此之间形成的连锁不平衡容易衰减，单倍型长度相对较短。然而在选择的作用下，群体有利等位基因频率则会在较短的时间内达到一个较高的值，重组的作用会受到一定程度的对冲而不能对长范围单倍型造成实质性的降解。同时，选择作用下的连锁不平衡会造成选择位点附近的中性位点的基因频率随之增加形成长范围的单倍型纯合。群体遗传学中，将这种由选择作用造成的部分染色体片段的多态性降低现象称为选择性清除。

搭便车效应（Hitchhiking Effect）：选择位点周围的中性位点得益于选择作用而出现的基因频率迅速增加的现象，则被通俗地称为“搭便车”效应。

选择信号（Selection signature）：选择性扫除和“搭便车”效应属于从不同角度表述的同一群体遗传学现象，都是选择作用在基因组上留下的明显特征，此特征被称为选择信号。

微进化（microevolution）：群体在世代过程中等位基因频率的变化，称为微进化，即发生在物种内的遗传变化。

大进化（macroevolution）：从现有物种中产生新物种的过程，是微进化的扩展、累积的结果。

趋同进化（convergent evolution）：在突变和选择的作用下，不同物种间具有趋同进化的趋势，这种现象称趋同进化或协同进化。

遗传负荷（genetic load）：如果一个群体的突变不断积累，并且这些突变是有害的，就会出现适合度下降。这种现象称为遗传负荷。

Gap:空缺。

胚系突变（Germline variant）：又叫生殖细胞突变，是来源于精子或卵子这些生殖细胞的突变，因此通常身上所有细胞都带有突变。

体细胞突变（Somatic mutation）：又叫获得性突变，是在生长发育过程中或者环境因素影响下后天获得的突变，通常身上只有部分细胞带有突变。

错义突变（missense mutation）：是指DNA的突变引起mRNA中密码子改变,编码另一种氨基酸.如DNA中某GAA发生转换突变成AAA后,使原编码的谷氨酸（Glu）改变为赖氨酸（Lys）。

沉默突变（silent mutation）：也称同义突变（same-sense mutation）DNA的突变虽引起mRNA中密码子改变为另一种密码,但由于密码子的兼并作用,并未使编码的氨基酸改变。

无义突变（nonsense mutation）：DNA的突变引起mRNA中的密码子改变为一种终止密码子。

同义突变与非同义突变区别：不导致氨基酸改变的核苷酸变异我们称为同义突变，反之则称为非同义突变。一般认为，同义突变不受自然选择，而非同义突变则受到自然选择作用。在进化分析中，了解同义突变和非同义突变发生的速率是很有意义的。常用的参数有以下几种：同义突变频率(Ks)、非同义突变频率(Ka)、非同义突变率与同义突变率的比值(Ka/Ks)。如果Ka/Ks>1，则认为有正选择效应。如果Ka/Ks=1，则认为存在中性选择。

2.2 高通量测序常见术语

高通量测序技术（High-throughput sequencing，HTS）：是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

Read（读段）：高通量测序平台产生的短序列就称为reads。（例如：PE125，就是读长为125bp双端测序）

PEread（Pair-end read）：双末端测序读段。

SEread（Single-end）：单末端测序读段。

混合分组分析（BSA，bulk segregant analysis）：是一种常见的利用样本混合池（DNA pooling）重测序进行QTL定位的方法。

单核苷酸多态性（Single Nucleotide Polymorphisms，SNP）：主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。

structure variation（SV）：基因组结构变异。

染色体结构变异：是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起CNV的变化），染色体内部的某块区域发生翻转颠换，两条染色体之间发生重组（inter-chromosometrans-location）等。一般SV的展示利用Circos软件。

Indel：即插入/缺失（insert/deletion）。

SV：即结构变异（structural variation），一般是指长度在1000bp以上的DNA区域存在倒位、转位和插入缺失的现象，通常又称为拷贝数变异（CNVs, copy number variants）。当一个CNV在群体中的频率超过1%，又称为拷贝数多态性（CNP，copy number polymorphism).。CNV 是基因组结构变异(Structural variation, SV) 的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism), 是人类疾病的重要致病因素之一。

Segment duplication：一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上，有很大的SD序列。

泛基因组：对多个个体的基因组进行从头组装，寻找结构变异的方法。

2.3 常见缩略词表

FDR（False Discovery Rate）：错误发现率

IBD（Identical by desent）：同源相同

IBS（Identical by state）：同态相同

MAF（Minor allele frequency）：最小等位基因频率

GO (Gene Ontology) ：基因本体，是一个在生物信息学领域中广泛使用的本体，它涵盖生物学的三个方面:细胞组分、分子功能、生物过程。

KEGG（Kyoto Encyclopedia of Genesand Genomes）：KEGG 是了解高级功能和生物系统(如细胞、生物和生态系统)，从分子水平信息，尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源，由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一，以’理解生物系统的高级功能和实用程序资源库’著称。

3.数据分析内容

3.1 初级数据分析

主要指一般情况下，测序公司给我们的反馈回来的初步数据分析结果。主要包括以下内容。

3.1.1 测序质量报告

一般是使用FastQC、NGSQCToolkit等软件，对测序原始数据质量进行查看。主要内容包括。BasicStatistics、Per base sequence quality、Persequence quality scores……Kmer Content等11项内容。目前这部分内容一般在发表论文时很少放在正文图表里，大多数放在补充材料里面，作为补充参考内容。此外，目前测序技术和测序公司在基因组测序这块做的都比较成熟，所以这部分内容只需要看一下测序结果是否可靠即可，仅作为能否进行下一步分析的原始数据质量指标。

3.1.2 数据量产出、质量控制与mapping（数据比对）统计

数据产出统计：Read Length(读度长度) 、原始read数、总碱基数量和测序深度分析

质量控制：过滤基本参数、Clean reads结果统计和过滤后的高质量碱基总数

Mapping统计：Total Mapping Reads、UnMapped Reads统计、Mapping率和测序覆盖度

3.1.3 遗传变异检测（编码区和非编码区SNP、InDel、CNV和SV检测、统计分析）

SNPCalling 计算（SNPCalling）。检测全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。一般采用整合多种SNP探测算法的结果，综合地，更准确地识别出SNP（一般是GATK+Samtools）。通过对多种算法各自识别的SNP进行一致性分析，保留具有高度一致性的SNP作为最终SNP结果。并根据参考基因组信息对检测到的变异进行注释。

常用软件主要有： FRAPPE：https://github.com/frappe/frappe； GATK：https://software.broadinstitute.org/gatk/； FreeBayes； Samtools：https://sourceforge.net/projects/samtools/?source=navbar

这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法，以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性（常见基因型推断软件有：Beagle、impute2、Fastphase、Phase等软件）。

3.1.3.1 统计SNV的等位基因频率在全基因组上的分布

3.1.3.2 稀有等位基因数目在不同类别的SNV中的比率分布（a）

SNV的类别主要考虑：（1）无义（nonsense）,（2）化学结构中非同义，（3）所有非同义，（4）保守的非同义，（5）非编码，（6）同义，等类型SNV；另外，针对保守性的讨论，我们将分析非编码区域SNV的保守型情况及其分布。

3.1.3.3 分析对象包括全新预测的SNP，indel，large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率（fraction）。

全新预测是指预测分析结果与dbSNP（当前版本129）以及deletion数据库dbVar（2010年6月份版本）和已经发表的有关indels研究的基因组数据经过比较后识别确定的全新的SNP，indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究（JC Ventrer 以及Watson 基因组，炎黄计划亚洲人基因组）结果提供的short indels和large deletion。

3.1.3.4 计算SNP，Deletion，以及Insertion 大小分布。

计算SNP，Deletion，以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例（相对于dbSNP数据库；dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究（JC Ventrer 以及Watson 基因组，炎黄计划亚洲人基因组）结果提供的short indels和large deletion）其中，可以给出LINE，Alu的特征位置。

3.1.3.5 InDel检测及在基因组的分布:

在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。理论上可以检测1~50bp的插入缺失突变。

3.1.3.6 CNV拷贝数变异与SV结构变异检测及在基因组中的分布:

能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

拷贝数变异检测软件：CNVnator

3.1.4 变异类型注释（发生区域统计）

常见软件有SnpEff、ANNOVAR、等。

3.1.5 密码子和氨基酸变化统计

3.1.6 碱基替代类型和比例统计

3.1.7 各基因变异分布统计

3.1.8 候选位点检测、统计、注释

3.1.9候选基因GO、KEGG功能注释

生物学通路（Biological pathway），包括代谢通路和信号转导通路是生物功能的重要组成部分，我们将各种形式的突变、变异，包括SNV和SNP，的对应基因放到生物学通路中进行综合分析，考察功能性突变对pathway的影响程度和影响的规律。通过GSEA（配合芯片表达谱数据），KS检验，超几何分布检验等方法对变异基因在某些pathway的富集程度进行排序，识别发生功能改变的潜在通路。

3.2 高级数据分析

3.2.1 群体遗传多样性分析

主要指标有：群体遗传多样性指数计算。
常见分析软件：Arlequin、VCFtools等。

3.2.2 群体进化研究

主成分分析（PCA）
系统发生分析（Phylogenetic）
遗传结构（STRUCTURE）

全基因组群体进化分析是对同一物种的不同亚群或不同地理分布的品种进行全基因组重测序，通过与参考基因组序列进行比对，获得大量高精度的SNP、InDel等变异信息，进行群体的遗传结构、群体主成分、连锁不平衡和选择性消除等群体遗传学分析，从而在分子层面揭示物种的进化机制、环境适应性、种群演化历史等系列问题。

3.2.3 遗传图谱构建

3.2.4 群体遗传结构分析

3.2.5 QTL定位

进行QTL定位一般都需要详尽的表型数据记录、构建群体，当然自然群体也是可以的（但遗传背景的影响较大，理想状态下可以得出预期结果）

3.2.6 全基因组关联分析（GWAS）

随着二代测序技术的发展以及测序成本的不断降低，利用全基因组变异数据进行基因分型变得越来越容易，导致用于关联分析的样本量和标记数不断增大，原始的MLM模型求解所耗的时间可以用mpn3来表示(m为标记数目，p为求解过程的迭代次数，n为样本数)，可见，随着样本量的增加，每迭代一步，计算时间都会以样本3次方增长，这使得计算的时间变得非常长。

在GWAS分析中，群体结构和遗传背景是造成的假阳性高的主要因数。在假阳性控制条件下，如何在更大程度上利用遗传标记，提高个体数据的计算效率和提高检测功效是分析软件算法开发的主要问题。Plink是较早的GWAS软件，其计算通量和速度很高，可以实现基于等位基因频率各种非参数检验、一般线性模型（GLM）和logistic回归。该软件在人类复杂疾病病例对照研究中应用比较广泛，极大地促进了GWAS的进展。

利用基因组数据可以进行对影响表型性状的基因和功能突变进行定位，但目前利用成本较高，所以在试验前期设计时，尽量收集更多的表型信息，以充分利用数据。

常见分析软件与算法：

PLINK、Tassel5.0、GAPIT、GenABEL（R库）、EMMAX、SNPassoc（R包）、GRAMMAR-Gamma、FaST-LMM、FaST-LMM-Select和BOLT-LMM。

3.2.7 选择性清除分析（选择压力分析）

选择性清除分析主要通过物种的基因组DNA测序观测到体细胞突变在自然选择、人工选择等作用下可能是经历的复杂过程及与物种特殊性状相关的基因组特征。

3.2.7.1 自然选择分析我们选择信号检测分析

正向选择的判定:分析SNP，SNV区域的正向选择趋势，在进化和群体遗传水平解释SNV，SNP的功能性；对待control与case 组样本,我们分别采用不同统计算法计算SNP，CNV在各自样本中的差异，进而从中发现具有正向选择特征的SV。

3.2.7.2 常染色体信号检测分析

在目前主流的分析中，一般只考虑常染色体的选择信号分析，挖掘与重要经济性状、驯化、适应等相关的功能区域和突变。

3.2.7.3 性染色体选择信号分析

研究发现,基因组多态的降低, 19%~26%是由常染色体选择造成的,而12%~40%归因于性染色体的选择作用(Mcvicker et al. 2009)。因此,通过对不同物种X染色体的选择信号检测分析,揭示其遗传机理和与重要性状的关联十分必要。已经在马、猪、绵羊和人上进行了适应、经济性状、性别拮抗等方面的研究(Heyer& Segurel 2010; 马云龙 et al. 2012; Zhu et al. 2015; 刘雪雪 et al. 2015; Lucotte et al. 2016; Liu et al. 2018)。

在参考基因组性染色体组装比较完善的基础上进行性染色体的分析，可以充分利用、挖掘基因组数据中所包含的信息，也是一个不错的研究内容。可以单独作为一篇研究论文进行研究分析。

3.2.8 突变功能预测

根据选择性清除分析、GWAS分析、QTL-seq等分析方法获得与生物特殊性状或表型相关的候选基因，通过以下软件对突变导致的基因功能变化进行预测，为后续的功能验证提供数据支持(章亮& 苏志煕 2016)。

PolyPhen2
SIFT
LRT
Condel
Logit
Mutation Taster-2
Mutation Assessor

3.3 试验设计类型

随着Illumina公司的Nova-seq、X-Ten、华大基因的BGI-Seq系列等测序仪的成熟与普及，重测序价格将继续越来越平民化。鉴于重测序已经是常见的研究工具，比拼测序规模已经慢慢失去价值，而我们大部分人非数学/统计学家出身，很难去进行新的算法的开发。在试验技术、分析方法大同小异的时代，要想脱颖而出，注定要求我们要加强相关生物问题以及对各种数据分析方法的理解程度、提高实验设计和数据挖掘解读能力。

QTL定位（包含GWAS，表型）：QTL定位是广义上的QTL定位，包括经典的连锁分析和关联分析。QTL定位中的连锁分析和关联分析，其核心区别是所研究群体的特性不同，但两种分析方法在统计学上几乎没有本质区别。总体而言，QTL定位是一类依赖表型鉴定的方法。我们需要精确衡量所有个体的表型，然后通过表型和基因型的相关性分析（有多种模型供选择），定位与性状相关的QTL。随着测序价格的不断下降，QTL定位的核心问题实际上是表型鉴定。个体表型鉴定的准确性受多种因素的影响，其准确性直接影响了QTL定位的效果。因为某些表型，必须在某种环境条件下才能表现（例如，抗旱能力必须在干旱条件下才可以被观察），所以要求个体必须要被严格控制在相似的环境条件下进行检测。

对于人类这种可以主动配合实验的物种来说，表型鉴定往往还相对容易。但对动物植物来说，要想进行精确的表型鉴定，则意味着这个物种是已经被驯化的。只有在人工驯化的环境下，控制生存环境，精确的表型鉴定才能成为可能。

群体遗传（选择压力分析）。

根据研究目的和试验设计特点，小编主要以经典文章的举例来剖析今后试验设计、分析方法。

而QTL定位和选择压力分析，本质上也是实验设计的不同(Savolainen et al. 2013)[动植物重测序]。

体细胞突变。

高深度测序确定突变类型，进而GWAS分析，功能分析每个位点的贡献率。结合转录组进行表达差异功能影响。

3.3.1 重测序GWAS定位功能基因（QTL定位（包含GWAS，表型））

2017年Visscher等在《The American Journal of Human Genetics》杂志以“10 Years of GWAS Discovery:Biology, Function, and Translation”为题回顾了近10年全基因组关联分析（GWAS）的成果，并对GWAS下个十年的发展及应用方向进行了展望。文章指出，GWAS的结果已经揭示了数百个复杂的疾病性状，大多数关于性状和疾病的研究中，基因组中的突变目标会显得很大。因此，未来的GWAS将以全基因组测序为基础(Visscher et al. 2017)。

日本科研人员Yano等通过对176个日本粳稻品种的全基因组重测序，并利用混合线性模型进行GWAS关联分析，鉴定到了与抽穗期相关的26个位点(−log10 P ≥4.77），检测到受关注的5个区域分别位于染色体1、3、6、7、11，其中，位于染色体3和7的峰点与已报道的抽穗期相关基因Hd6和Hd2的QTL定位结果一致。位于1号染色体的候选区域被锚定在36.30Mb到36.65Mb之间（346Kb），包括91个与抽穗期关联的位点，这些位点分布于7个基因上，其中基因LOC_Os01g62780与拟南芥的HESO1基因同源，该基因在拟南芥中表现为延迟开花，分析发现主要是328位的缬氨酸突变为异亮氨酸形成了两种单倍型，含有单倍型B的品种抽穗时间迟于单倍型A的品种。分别将单倍型A和单倍型B的基因序列导入日本晴，导入单倍型B序列的日本晴开花时间迟于导入单倍型A序列的日本晴和对照组，说明水稻中的新基因LOC_Os01g62780与延迟开花相关(Yano et al. 2016)。

3.3.2 群体重测序进行适应性进化与功能基因定位（群体遗传（选择压力分析））

要观测到基因受本地化适应的痕迹，关键的因素是实验设计，尤其是群体的选择。其中1个很关键的因素就是：不同群体间是否存在迁徙，因为本地化适应往往与某种程度的群体隔离相关（无论是人为还是自然导致的隔离）。其中地理隔绝导致的亚群分化是比较容易理解的，例如一座高山挡住两个亚群相互迁徙的可能。

那么，在非地理隔绝的群体如何产生亚群呢？在这样的群体中，本地化适应是选择和迁徙平衡的结果。这里不得不提到1个概念：antagonistic pleiotropy，好像翻译为“拮抗性基因多效性”比较合理。这个概念实际上说的是，很多情况下，适应是有代价的：即以损失在其他环境下的适应性为代价，获得更强的本地适应能力。如下图，假设N是南方种，S是北方种，Y轴是适应性，X轴是地点。我们可以看到S在南方具有最高的适应性，到了北方却吃瘪了。这个道理其实非常容易懂，北极熊在北极的冰天雪地是霸主；如果到了针叶林，这一身高贵的白毛，保证耗子都抓不到。

antagonistic pleiotropy的意义在于在某种程度上也降低了种群的迁徙能力（地头蛇一到外地分分钟变菜鸡），从而强化了本地化适应。这也解释了人类育成的作物、畜禽某种程度上都比较娇贵，对人类提供的环境非常依赖，在自然条件下毫无适应性。实际上就是人类育种选择过程中，追求高产带来的代价。如果不是antagonistic pleiotropy，某个优势基因型在任何环境下都非常强势，其就可能慢慢占领其他的生态位，导致这个基因座逐渐固定（英文翻译为fixed，指的是群体中仅仅保留一种基因型，其他基因型被淘汰）而失去了多样性。

绝大部分我们关注的性状（尤其是动植物的生产性状）都与适应选择有关。如何定位筛查这些与适应性性状相关的基因，一直是基因组研究的热点。

3.3.3 重测序QTL定位（多用于植物）

该方法选用的研究对象可以是具有极端性状的一对品种杂交后获得的近交重组系群体（RILs）或F2代群体，选择群体中具有两种不同极端性状的20-50个个体分别构建DNA混池后进行重测序，通过对比两个混池的SNP位点的测序深度相关的一个参数（SNP-index）来定位QTL。该方法能用于群体遗传学研究，能快速识别人工选育及自然选择发生的染色体区域。

同一性状上表型相反的两个品种作为亲本，杂交后获得F2代，再通过单粒传自交至F7代，获得近交重组系群体（RILs）。如果群体中此性状的符合正态分布，则说明此性状关联的基因座是数量性状的，可以进行QTL分析。这里，我们选择这个群体中此性状表型最明显和最不明显的个体作为研究对象，一般选择20-50个个体分别混池，产生两个池，分别为最强表型池和最弱表型池。然后对两个混池分别进行重测序，采用的测序平台为Illumina Genome Analyzer IIx，测序深度一般要大于6×，这两个池所代表的的应该是某个基因组区域的两个等位基因各自所对应的表型。由此，我们观测来自两个亲本的基因组中的不平等表现，以此来识别导致两个池性状差异的含有QTL的基因组区域所在。

相对于植物来说，驯养动物繁殖率、遗传周期等原因，构建群体所需时间较长。

3.3.4 驯化过程与群体历史动态（群体遗传（选择压力分析））

通过野生物种与驯化物种的基因组比较研究，可以发现与驯化相关的基因和区域，

中国兰州大学刘建全和他的团队，以及英国圣安德鲁斯大学、荷兰乌得勒支大学等研究机构的研究人员通过测序并且比较中国26个地区野牦牛和家养牦牛的全基因组遗传变异图谱分析认为，人们早在7300年前新石器早期的青藏高原就已驯化了野生牦牛，而驯化数量则在3600年前增长了约6倍。该项研究还估算出，牦牛种群大量增加和全新世晚期人类群体在此地理区域的扩散是同时发生的。

研究团队发现，家养牦牛的基因组中表现出了遗传选择的迹象：大约有200个基因受到了人为的驯化选择，这些选择可能影响到了动物的行为，尤其是温顺性。而这种驯化基因与狗等其他驯化动物中发现的基因也十分相似(Qiu et al. 2015)。

3.3.6 进行体细胞突变或生殖细胞突变研究（针对肿瘤、癌症、多年生植物优良表型等）

因此，我们在研究这些突变的起源，突变如何受到DNA修复机制的影响，以及在疾病发展与进化过程中突变的规律方面需要做深入的分析。自然选择一般在两个方面发挥作用，即保留有利于疾病发展进化的突变的同时限制其在基因组中重要功能区域发生突变，例如转录调控区域和编码蛋白质的区域。因此，（1）如果实验设计是将primary disease与normal control做比较的话，系统的分析可以解析复杂疾病在形成突变过程中可能的机制和自然选择的因素。（2）如果实验设计是基于病灶及其转移位置或者邻接位置样本作测序，我们可以构建突变进化与转移的模型解析突变的动态模式和基因组中不稳定态变异的模式。

遗传性肿瘤——胚系突变检测

寻找靶向药物，肿瘤负荷监测等——体细胞突变检测

通过高通量测序识别发现de novo的somatic和germ line 突变，结构变异-SNV，包括重排突变（deletioin, duplication 以及copy number variation）以及SNP的座位；针对重排突变和SNP的功能性进行综合分析；我们将分析基因功能（包括miRNA），重组率（Recombination）情况，杂合性缺失（LOH）以及进化选择与mutation之间的关系；以及这些关系将怎样使得在disease（cancer）genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。(Erquiaga et al. 2014)