2018-11-07-一种搜索水稻中NBS-LRR序列的方法

以HMM模型为基础

Posted by DL on November 7, 2018

正所谓后人总有栽树时。

感谢babyding自己的不断摸索。

参考:多篇水稻NBS-LRR相关的文献。

1.下载日本晴蛋白质组序列,构建本地数据库

wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.pep

2.建立种子序列(seed)

从plantbiology数据库中搜索“NBS-LRR”,下载111个蛋白序列,使用Clustalo做多序列比对,输出结果为STOCKHOLM格式:111_putative_seed.st

clustalo网址为:https://www.ebi.ac.uk/Tools/msa/clustalo/

3.用HMMER3.1(Linux版)搜索基因组中目标序列

3.1通过hmmbuild建立NBS-LRR的Pfam特征结构域的氨基酸种子序列的HMM模型(*.hmm)

> hmmbuild 111_putative_seed.hmm 111_putative_seed.st putative_96_seed.st为种子序列比对后的STOCKHOL 格式文件。

3.2借助种子序列的hmm模型,通过hmmsearch寻找日本晴全部蛋白质序列(*.pep)中可能存在的所有NBS-LRR序列

> hmmsearch 111_putative_seed.hmm o_sativa_version_7.0.pep > 111_putative_pep.out

3.3 对hmmsearch的结果进行筛选 The threshold expectation value was set to 10−10, a value determined empirically to filter out most of the spurious hits.

4.进一步验证获得的NBS-LRR编码序列

4.1 搜索特征结构域

将筛选后的NBS-LRR蛋白,根据ID提取其蛋白质序列,整理成fasta文件。接着,通过Interproscan软件(Linux版)结合多个蛋白数据库,对上述假定的的NBS-LRR蛋白进行特征结构域的搜索,以确保获得的NBS-LRR编码序列真实可靠。

Interproscan软件(具体安装和使用参看另一篇博文):	
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.31-70.0/interproscan-5.31-70.0-64-bit.tar.gz

4.2 排除假阳性

即排除不含特征结构域的序列。

4.3 排除重复序列

根据蛋白质对应的基因或cDNA在基因组上的位置排除冗余的基因序列,确保鉴定出的编码基因在数量上的准确性。

注:对其它来源的序列(不同机构分析结果或物种或品种),同样按上述方法分析。