2021-03-20-GWAS学习笔记系列(一)

01-分析路线图和02-表型数据清洗

Posted by DL on March 20, 2021

资料来源:公众号:育种数据分析之放飞自我


一、GWAS分析的Outline

按照作者邓飞的理解,GWAS主要分为如下四个部分:

1.数据清洗

1.1 表型数据清洗

  • 删除异常值
  • 查看数据分布
  • 数据可视化

1.2 基因型数据清洗

  • MAF
  • Call rate
  • HWE

2.关联分析

2.1 一般线性模型

2.2 混合线性模型

3.结果可视化

3.1 PCA群体结构

3.2 QQ图

3.3 曼哈顿图

3.4 LD衰减图

4.结果注释

4.1 显著SNP注释

  • ANNOVAR
  • snpEFF

4.2 基因聚类分析

  • GO 富集分析
  • Kegg 通路分析

二、GWAS分析软件

  • 基因型数据质控
    • MAF
    • geno
    • HWE
  • 建模
    • GLM模型(连续性状)
    • logistic模型(二分类性状)

2.TASSEL

  • 窗口化界面
    • 不用编程,鼠标点点点
    • 需要提前将表型数据和基因型数据整理好
  • 模型
    • GLM模型
    • LMM模型
  • 可视化
    • QQ图
    • 曼哈顿图
    • LD衰减图

可以看到,TASSEL比较有优势,特别是它具有LMM模型,LMM模型是连续性状主流的分析方法。

3.其它GWAS分析软件

  • R包:GAPIT
  • R包:FamCPU
  • R包:rMVP
  • GEMMA

三、表型数据清洗

1.表型数据的选择

  • 动物数据中,对于大部分性状,一个个体只有一个观测值,直接用表型值进行后续的分析即可。

  • 对于纵向数据(比如不同胎次的产仔数,不同时期的剪毛量),对于一般的GLM模型,MLM模型,需要用平均值或者BLUE值作为表型值。

现在也有软件可以分析纵向数据的GWAS,比如宁超老师开发的软件(http://www.chaoning.org/Softwares/)

  • 对于植物数据,特别是随机区组的数据,一年多点的数据,一个基因型ID对应多个表型值,这些表型值如何利用呢?用平均值是可以的,但是使用BLUE值或者BLUP值的更多

  整体而言,BLUP值会想均值收缩(shrinkage), 虽然结果是最佳预测, 但是校正值的方差变小, 当你做GWAS时, 不容易找到显著性位点,增加了噪音(noise)。而且在GWAS中,品种是作为随机因子,如果你使用BLUP值,相当于进行了两次收缩(shrinkage)。因此, 比较好的方式是,在one-stage中,将地点,年份,区组作为随机因子,将品种作为固定因子,计算BLUE值。


2.异常值的问题

  数据分析中,一定要检查异常值,常见的异常值:

13.4写成了134,13.4写成了13..4

  这些可以通过判断数据的类型,R中的str函数,如果一列数据判断为了字符,那就需要注意下是否有数字编码错误。

  另外,就是进行汇总统计,看一下最大值,最小值,平均值,中位数,看一下数据的分布是否正常。

  对于小数点标错,可以更正的更正一下。对于数据异常,可以找一下原始的数据记录,确认一下数据是否录入错误。

  对于不可更正的异常值,将其作为缺失。


3.是否删掉三倍标准差

  这个标准,有时候会用,但不是必须使用,一般不使用。数据量少时,更应该谨慎使用。可以做一下GWAS的对比,看一下删除与否的效果。


4.数据的是否转换为正态

  • 对于数量性状,稍微偏态的数据也是可以接受的。

  • 一般不进行公式转换,因为结果不好解释。


5.表型数据整理应该下大功夫

  • 从调查数据开始,要严格要求,怎么强调都不为过,尽量亲身参与。

  • 质控数据要谨慎,删除数据要谨慎。

  • 多做几次分析,权衡一下不同的方案!


6.表型数据常见的可视化

  • 缺失数据可视化
  • 直方图
  • 箱线图