2018-12-10-科研思路2

植物抗性基因家族分析所用到的数据库和软件

Posted by DL on December 10, 2018

本文主要引自《植物科学最前沿》公众号的文章。

1. 基因组序列及注释信息下载

  • NCBI官网下载:https://www.ncbi.nlm.nih.gov/
  • 水稻全基因组注释计划:https://rice.plantbiology.msu.edu/
  • Ensembl下载地址:http://plants.ensembl.org/index.html
  • phytozome(JGI)下载地址:https://phytozome.jgi.doe.gov/pz/portal.html

具体的注释信息,要依据物种而定,主要是下载其中的gtf或gff3格式的注释文件。

2. 使用HMMER软件鉴定基因家族

2.1 hmmer搜索鉴定基因家族

  • 如何知道自己要研究的基因家族的pfam号:http://www.omicsclass.com/question/268
  • 如何下载pfam隐马尔科夫模型:http://www.omicsclass.com/article/76
  • Hmmer软件官方说明文档:http://eddylab.org/software/hmmer/Userguide.pdf
  • Hmmsearch 搜索结果说明:http://www.omicsclass.com/article/499

这部分有两个要点:

  • 第一个是要确定基因家族的pfam号,并下载其对应的seed sequence;
  • 若没有对应的pfam编号,则需找一些经前人确定的、属于该家族的蛋白质序列,做多序列比对,然后获得STO格式的比对结果;
  • 第二个要点是HMMER软件的使用,具体请看我另一篇博文: 寻找水稻NBS-LRR家族的示例

2.2. blast鉴定基因家族分析

适用于研究基因家族没有PFam号的情况(可选分析,根据自己基因家族特点是否选择)。

  • Blastall使用参数详细说明:http://www.omicsclass.com/article/504
  • Blast m8格式输出结果说明:http://www.omicsclass.com/article/505

2.3 手动确认结构域

  • SMRT:http://smart.embl-heidelberg.de/
  • NCBI CDD:http://www.omicsclass.com/article/310
  • pfam:http://pfam.xfam.org/
  • 蛋白分子量分析:ExPASy (http://web.expasy.org/protparam/)

  在通过HMMER软件鉴定出一组假定的蛋白家族基因后,我们需要对这组基因进行结构域的进一步确认。拿水稻NBS-LRR来说,通过HMMER软件鉴定出1000多个假定的NBS-LRR基因,最后通过我们的手动确认,只有430个基因真正同时含有NBS和LRR(这其中也有阈值设的过大,且存在可变剪接的原因)。   其次,上述数据库还可以帮助我们鉴定除了鉴定核心结构域以外的结构域,拿拟南芥NBS-LRR蛋白家族来说,就有TIR-NBS-LRR和CC-NBS-LRR等两种分类。

3. 进化树分析

3.1 构建进化树

  • 利用MEGA构建进化树:http://www.omicsclass.com/article/75
  • 利用iTOL网站美化进化树:https://itol.embl.de/
  • itol编辑进化树枝颜色(分组): http://www.omicsclass.com/article/448
  • 查看node id: http://www.omicsclass.com/article/433
  • 添加背景颜色:http://www.omicsclass.com/article/343

F3VYEn.png

这个是比较常见的分析,不多说了。

4. MEME 搜索基因motif分析

  • Motif序列信息查看:http://www.omicsclass.com/article/432

  • 获取motif图片:http://www.omicsclass.com/article/67

F3VaCV.png

5. 基因结构分析,外显子内含子等

  • GSDS绘图参考:http://www.omicsclass.com/article/63 FG8Dq1.png

大多数软件都能进行基因结构分析。

6. 基因结构+进化树+motif绘图

  • 绘图参考:http://www.omicsclass.com/article/382 FG87If.png

7. 基因定位到染色体

  • Mapchart绘图参考:http://www.omicsclass.com/article/397 FG8jMj.png

8. mcscanX共线性分析

8.1 基因组内共线性分析

  • 基因组内共线性分析参考:http://www.omicsclass.com/article/275
  • 提取基因家族串联重复脚本:http://www.omicsclass.com/article/399 FGG9oV.png

8.2 基因组间共线性分析

  • 物种之间共线性分析参考:http://www.omicsclass.com/article/284 FGGiJU.png

9. 结合转录组分析

9.1. GEO数据库:

  • 数据下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE121407
  • 绘制热图在线工具:http://www.heatmapper.ca/
  • meV工具绘制热图:http://www.omicsclass.com/article/263

  • 修改颜色:http://www.omicsclass.com/article/437 FGGMFK.png

9.2. SRA高通量二代测序数据,数据库下载数据方法,需要做转录组分析:

  • 利用迅雷下载NCBI中SRA数据库测序数据:http://www.omicsclass.com/article/53

对于转录组数据的分析,请见我的博文: 水稻转录组分析实例