LiDing Blog

Thinking will not overcome fear but action will.

2021-03-20-GWAS学习笔记系列(一)

01-分析路线图和02-表型数据清洗

资料来源:公众号:育种数据分析之放飞自我 一、GWAS分析的Outline 按照作者邓飞的理解,GWAS主要分为如下四个部分: 1.数据清洗 1.1 表型数据清洗 删除异常值 查看数据分布 数据可视化 1.2 基因型数据清洗 MAF Call rate HWE 2.关联分析 2.1 一般线性模型 2.2 混合线性模型 3.结果可...

2021-03-19-GWAS操作笔记系列(三)

关联分析3-5:GLM模型进行GWAS分析+数值+因子+PCA协变量

资料来源:公众号:育种数据分析之放飞自我 本篇主要是介绍一般线性模型(LM)中的linear参数,考虑数值+因子+PCA协变量,然后将结果与R语言编程结果比较。 plink做GWAS只有两个模型可以用:GLM和logistic,前者分析数量性状,后者分析二分类性状。而现在GWAS更多使用LMM模型,这个模型plink没法做,以后几篇介绍GEMMA的操作方法。 1...

2021-03-18-GWAS操作笔记系列(三)

关联分析3-4:GLM模型进行GWAS分析+数值+因子协变量

资料来源:公众号:育种数据分析之放飞自我 本篇主要是介绍一般线性模型(LM)中的linear参数,考虑数值+因子协变量,然后将结果与R语言编程结果比较。   GWAS分析时,无论是一般线性模型,还是广义线性模型,都要对协变量进行处理。数值类型的协变量(比如初生重数值协变量,PCA的值)直接加进去,因子协变量(比如不同的年份,不同的地点,场等)需要转化为虚拟变量。   如果一...

2021-03-17-GWAS操作笔记系列(三)

关联分析3-3:GLM模型进行GWAS分析+因子协变量

资料来源:公众号:育种数据分析之放飞自我 本篇主要是介绍一般线性模型(LM)中的linear参数,考虑因子协变量,然后将结果与R语言编程结果比较。 1.协变量文件整理   第一列为FID, 第二列为ID ,第三列以后为协变量(注意,只能是数值,不能是字符!) 这里协变量文件为:   这里第三列为性别,第四列为世代,本篇将世代作为因子,进行因子协变量的GWAS分析。 ...

2021-03-16-GWAS操作笔记系列(三)

关联分析3-2:GLM模型进行GWAS分析+数值协变量

资料来源:公众号:育种数据分析之放飞自我 本篇主要是介绍一般线性模型(LM)中的linear参数,考虑数值协变量,然后将结果与R语言编程结果比较。 1.协变量文件整理   第一列为FID ,第二列为ID ,第三列以后为协变量(注意,只能是数值,不能是字符!) 这里协变量文件为:   这里第三列为性别,第四列为世代,为了方便操作,我们将世代作为数值,直接进行协变量分析...

2021-03-15-GWAS操作笔记系列(三)

关联分析3-1:GLM模型进行GWAS分析

资料来源:公众号:育种数据分析之放飞自我 1.前言 之前的教程中,我们使用的是别人模拟的数据,数据类型是二分类数据,这里我们模拟一个数量性状的连续性状,做GWAS更有代表性。 我们先从没有协变量的一般线性模型(LM)开始,然后加入数据类型的协变量,然后加入因子类型的协变量(这里需要进行虚拟变量的转化),然后将数值协变量和因子变量放在一起作为...

2021-03-14-GWAS操作笔记系列(二)

质控2-6:去掉亲缘关系近的个体

资料来源:公众号:育种数据分析之放飞自我 1.前言   这里,我们要对一些亲子关系的个体,进行一下过滤,计算类似IBS的结果。这里讲亲子关系的个体移除,不是必须要的,比如我们分析的群体里面有亲子关系的个体,想要进行分析,不需要做这一步的筛选。 2.计算pihat > 0.2的组合 plink --bfile HapMap_3_r3_10 --genome --m...

2021-03-13-GWAS操作笔记系列(二)

质控2-5:杂合率检验

资料来源:公众号:育种数据分析之放飞自我 1.前言   一般自然群体,基因型个体的杂合度过高或者过低,都不正常,我们需要根据杂合度进行过滤。偏差可能表明样品受到污染,近亲繁殖。我们建议删除样品杂合率平均值中偏离±3 SD的个体。   参数过滤和手动过滤:plink有个特点,所有的过滤标准,都可以生成过滤前的文件,然后可以手动过滤,也可以用参数进行过滤。 比如:–mi...

2021-03-12-GWAS操作笔记系列(二)

质控2-4:哈温平衡检验

资料来源:公众号:育种数据分析之放飞自我 1.前言 1.1 什么是哈温平衡?   哈迪-温伯格(Hardy-Weinberg)法则 哈迪-温伯格(Hardy-Weinberg)法则是群体遗传中最重要的原理,它解释了繁殖如何影响群体的基因和基因型频率。这个法则是用Hardy,G.H (英国数学家) 和Weinberg,W.(德国医生)两位学者的姓来命名的,他们于同一年(190...

2021-03-11-GWAS操作笔记系列(二)

质控2-3:MAF过滤

资料来源:公众号:育种数据分析之放飞自我 1.前言   上一次我们经过去掉缺失,去掉错误的性别信息,得到的文件为: 这里,我们根据最小等位基因频率(MAF)去筛选。 为什么要根据MAF去筛选? 最小等位基因频率怎么计算?比如一个位点有AA或者AT或者TT,那么就可以计算A的基因频率和T的基因频率,qA + qT = 1,这里谁比较小,谁就是最小等位基因频率...