本部分主要参考:[杨博士聊生信]、[生信修炼手册]、[bio生物信息]
61.GWAS中P值和beta值的关系
beta: 等位基因1的效应大小估计,也称为等位基因的效应值。
P-value: 是目标SNP与表型是否显著关联。小的P-value被视为零假设(目标SNP与表型无关系)可能不成立,即备择假设成立,也就是目标SNP与表型有关系)的证据。
GWAS分析的大致思路可以简单归为以下几点:
-
Step1: 将对应的基因型转换为0,1,2的形式,这里将主效纯合基因编码为0,杂合基因型编码为1,次要纯合基因编码为2;
-
Step2: 将基因型输入向量x, 研究的表型输入向量y;
-
Step3: 对x和y做回归分析,y= ax + b, 其中a即为效应值(beta),a是否显著即为P value。
GWAS分析-P值和beta值的爱恨相杀 (六)、beta/or, se, p, zscore换算总结帖
62.多个性状的manhattan组合图绘制
R包(CMplot)
63.使用 FUMA 鉴定 Independent SNPs 和 Lead SNPs
Independent significant SNPs: P 值小于 5e-8 的 SNP 位点,且 SNP 位点之间的 r2<0.6(注意,这里的 r2 指的是 LD 的 r2 值,不是相关性哦,别误解了,0.6 也是我设定的,不同文献给定的 r2 值不一样,主流设定是 0.6 )
Lead SNPs: Independent significant SNPs 中 r2 值小于 0.1 的 SNP(同样的,这里的 0.1 也是我设定的,不同文献阈值不一样,主流设定是 0.1 )
使用 FUMA 鉴定 Independent SNPs 和 Lead SNPs
64.卡方检验在关联分析中的应用
卡方检验:(1)适用于分析两个分类变量关联性的假设检验;(2)适用于样本数很大的情况。
case/control的关联分析,本质是寻找在两组间基因型分布有差异的SNP位点,这些位点就是候选的关联信号,常用的分析方法有以下几种:
- 卡方检验
- 费舍尔精确检验
- 逻辑回归
65.费舍尔精确检验在关联分析中的应用
费舍尔精确检验:(1)适用于分析两个分类变量关联性的假设检验;(2)适用于样本个数很小的情况。
在卡方检验中,对应的统计量只有在样本数量足够大的情况下才符合卡方分布,所以卡方分布中做了近似处理,近似认为对应的统计量服从卡方分布,而费舍尔精确检验在分析对应的p值时没有做任何的近似处理,所以称其计算出来的p值很精确。
66.odd ratio值在关联分析中的含义
在GWAS分析中,利用卡方检验,费舍尔精确检等方法,通过判断p值是否显著,我们可以分析snp位点与疾病之间是否存在关联,然而这得到的仅仅是一个定性的结论,如果存在关联,其关联性究竟有多强呢?
很显然,我们需要一个量化指标来描述关联的强弱程度。类似于相关性检验,通过p值只能够说明两个变量是否相关。至于其相关性的大小,是正相关还是负相关,还需要结合相关系数来作出判断。在关联分析中的”相关系数”则对应两个常用的统计量, risk ratio和odd ratio。