本文主要引自《植物科学最前沿》公众号的文章。
1. 基因组序列及注释信息下载
- NCBI官网下载:https://www.ncbi.nlm.nih.gov/
- 水稻全基因组注释计划:https://rice.plantbiology.msu.edu/
- Ensembl下载地址:http://plants.ensembl.org/index.html
- phytozome(JGI)下载地址:https://phytozome.jgi.doe.gov/pz/portal.html
具体的注释信息,要依据物种而定,主要是下载其中的gtf或gff3格式的注释文件。
2. 使用HMMER软件鉴定基因家族
2.1 hmmer搜索鉴定基因家族
- 如何知道自己要研究的基因家族的pfam号:http://www.omicsclass.com/question/268
- 如何下载pfam隐马尔科夫模型:http://www.omicsclass.com/article/76
- Hmmer软件官方说明文档:http://eddylab.org/software/hmmer/Userguide.pdf
- Hmmsearch 搜索结果说明:http://www.omicsclass.com/article/499
这部分有两个要点:
- 第一个是要确定基因家族的pfam号,并下载其对应的seed sequence;
- 若没有对应的pfam编号,则需找一些经前人确定的、属于该家族的蛋白质序列,做多序列比对,然后获得STO格式的比对结果;
- 第二个要点是HMMER软件的使用,具体请看我另一篇博文: 寻找水稻NBS-LRR家族的示例
2.2. blast鉴定基因家族分析
适用于研究基因家族没有PFam号的情况(可选分析,根据自己基因家族特点是否选择)。
- Blastall使用参数详细说明:http://www.omicsclass.com/article/504
- Blast m8格式输出结果说明:http://www.omicsclass.com/article/505
2.3 手动确认结构域
- SMRT:http://smart.embl-heidelberg.de/
- NCBI CDD:http://www.omicsclass.com/article/310
- pfam:http://pfam.xfam.org/
- 蛋白分子量分析:ExPASy (http://web.expasy.org/protparam/)
在通过HMMER软件鉴定出一组假定的蛋白家族基因后,我们需要对这组基因进行结构域的进一步确认。拿水稻NBS-LRR来说,通过HMMER软件鉴定出1000多个假定的NBS-LRR基因,最后通过我们的手动确认,只有430个基因真正同时含有NBS和LRR(这其中也有阈值设的过大,且存在可变剪接的原因)。 其次,上述数据库还可以帮助我们鉴定除了鉴定核心结构域以外的结构域,拿拟南芥NBS-LRR蛋白家族来说,就有TIR-NBS-LRR和CC-NBS-LRR等两种分类。
3. 进化树分析
3.1 构建进化树
- 利用MEGA构建进化树:http://www.omicsclass.com/article/75
- 利用iTOL网站美化进化树:https://itol.embl.de/
- itol编辑进化树枝颜色(分组): http://www.omicsclass.com/article/448
- 查看node id: http://www.omicsclass.com/article/433
- 添加背景颜色:http://www.omicsclass.com/article/343
这个是比较常见的分析,不多说了。
4. MEME 搜索基因motif分析
-
Motif序列信息查看:http://www.omicsclass.com/article/432
-
获取motif图片:http://www.omicsclass.com/article/67
5. 基因结构分析,外显子内含子等
- GSDS绘图参考:http://www.omicsclass.com/article/63
大多数软件都能进行基因结构分析。
6. 基因结构+进化树+motif绘图
- 绘图参考:http://www.omicsclass.com/article/382
7. 基因定位到染色体
- Mapchart绘图参考:http://www.omicsclass.com/article/397
8. mcscanX共线性分析
8.1 基因组内共线性分析
- 基因组内共线性分析参考:http://www.omicsclass.com/article/275
- 提取基因家族串联重复脚本:http://www.omicsclass.com/article/399
8.2 基因组间共线性分析
- 物种之间共线性分析参考:http://www.omicsclass.com/article/284
9. 结合转录组分析
9.1. GEO数据库:
- 数据下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE121407
- 绘制热图在线工具:http://www.heatmapper.ca/
-
meV工具绘制热图:http://www.omicsclass.com/article/263
- 修改颜色:http://www.omicsclass.com/article/437
9.2. SRA高通量二代测序数据,数据库下载数据方法,需要做转录组分析:
- 利用迅雷下载NCBI中SRA数据库测序数据:http://www.omicsclass.com/article/53
对于转录组数据的分析,请见我的博文: 水稻转录组分析实例