正所谓后人总有栽树时。
感谢babyding自己的不断摸索。
参考:多篇水稻NBS-LRR相关的文献。
1.下载日本晴蛋白质组序列,构建本地数据库
wget http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.pep
2.建立种子序列(seed)
从plantbiology数据库中搜索“NBS-LRR”,下载111个蛋白序列,使用Clustalo做多序列比对,输出结果为STOCKHOLM格式:111_putative_seed.st
clustalo网址为:https://www.ebi.ac.uk/Tools/msa/clustalo/
3.用HMMER3.1(Linux版)搜索基因组中目标序列
3.1通过hmmbuild建立NBS-LRR的Pfam特征结构域的氨基酸种子序列的HMM模型(*.hmm)
> hmmbuild 111_putative_seed.hmm 111_putative_seed.st putative_96_seed.st为种子序列比对后的STOCKHOL 格式文件。
3.2借助种子序列的hmm模型,通过hmmsearch寻找日本晴全部蛋白质序列(*.pep)中可能存在的所有NBS-LRR序列
> hmmsearch 111_putative_seed.hmm o_sativa_version_7.0.pep > 111_putative_pep.out
3.3 对hmmsearch的结果进行筛选 The threshold expectation value was set to 10−10, a value determined empirically to filter out most of the spurious hits.
4.进一步验证获得的NBS-LRR编码序列
4.1 搜索特征结构域
将筛选后的NBS-LRR蛋白,根据ID提取其蛋白质序列,整理成fasta文件。接着,通过Interproscan软件(Linux版)结合多个蛋白数据库,对上述假定的的NBS-LRR蛋白进行特征结构域的搜索,以确保获得的NBS-LRR编码序列真实可靠。
Interproscan软件(具体安装和使用参看另一篇博文):
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.31-70.0/interproscan-5.31-70.0-64-bit.tar.gz
4.2 排除假阳性
即排除不含特征结构域的序列。
4.3 排除重复序列
根据蛋白质对应的基因或cDNA在基因组上的位置排除冗余的基因序列,确保鉴定出的编码基因在数量上的准确性。
注:对其它来源的序列(不同机构分析结果或物种或品种),同样按上述方法分析。