参考资料:《Bioinformatics and Functional Genomics》、《生物信息学基础》。
第2章 序列数据检索
2.1 存储DNA序列的集成式数据库
从1982年到现在,一直负责存储核苷酸序列的有以下三大网站:
-
①位于Bethesda的美国国立卫生研究院(NIH)的国家生物技术信息中心(NCBI)的GenBank;
-
②欧洲分析生物学实验室-核酸序列数据库(EMBL-Bank),它是位于英格兰Hinxton欧洲生物信息研究所(EBI)欧洲核苷酸档案(ENA)的一部分;
-
位于三岛国家遗传学研究所的日本DNA数据库(DDBJ)。
这三个数据库都由国际核酸序列协作体进行协调,每天分享各自的数据,所以其中的序列信息是等价的。
2.2 数据库中DNA序列的增长
-
在过去的30多年,GenBank的碱基数约每18个月加倍一次;
-
GenBank、EMBL-Bank和DDBJ存储由全基因组鸟枪法(WGS)测序的包括完整或不完整的基因组(或染色体)序列数据;
-
WGS序列中DNA碱基对的数目已经超过了GenBank;而SRA中含有的序列又比GenBank和WGS的总和还要多。
-
A vast amount of sequence data has been generated using next-generation sequence technology! (Most are open access, some have human subjects data;
-
Perhaps 40 petabases of DNA were generated in calendar year 2014 at major sequencing centers。
2.3 DNA、RNA和蛋白质数据库的内容
2.3.1 GenBank、EMBL-Bank、DDBJ中的物种
GenBank中包含310000多个不同物种,每月可增加1000多个新物种,其中收录的大部分是真核生物。
2.3.2 GenBank、EMBL-Bank、DDBJ存储的数据类型
从一个例子开始,假定我们要获取人类β-珠蛋白的序列。显著区别是DNA、RNA和蛋白质序列存储在不同的数据库。而且不同数据库,数据表示形式也多种多样。例如,β-珠蛋白可在DNA层面(作为一个基因),在RNA层面(作为一个mRNA),在蛋白质层面上进行描述。由于RNA相对不稳定,因此通常把RNA转换成相应互补DNA(cDNA)。
2.3.3 基因组DNA数据库
基因定位于染色体,是遗传的功能单元,它是一种DNA类型,通常由调控区、编码蛋白质的外显子和内含子组成。DNA水平上的数据主要有一下三种:
- ①序列标签位点(STSs)
- ②基因组调查序列(GSSs)
- ③高通量基因组序列(HTGS)
2.3.4 RNA数据
RNA水平上的数据主要有一下三种:
- ①与表达基因对应的cDNA数据库
- ②表达序列标签(ESTs)
- ③UniGene
(1)Top ten organisms for which expressed sequence tags (ESTs) have been sequenced:
(2)UniGene database: clusters of EST sequences:
UniGene项目的目标是通过自动把EST划分成非冗余集合来创建基因簇。最终一个生物体的每个基因应当配有一个UniGene簇。一个簇中可能只有一个EST,这反映了此基因的低表达,而成千上万个EST与高表达基因有关。
2.3.5 信息获取:蛋白质数据库
许多情况下,我们需要获取蛋白质序列。NCBI的蛋白质数据库包含来自于GenBank的翻译编码区和外部数据库的序列比如UniProt、PIR、SWISS-PROT、PRF和PDB。EBI也通过这些主要数据库来提供蛋白质信息。
UniProt是最全面的蛋白质序列目录,由以下三个关键数据库组成:
- ①SWISS-PROT被认为是注释最好的蛋白质数据库;
- ②TrEMBL核苷酸数据库提供蛋白质的自动注释信息,而不是像SWISS-PROT的手工注释;
- ③PIR维护的蛋白质序列数据库是由专家策划的另一个蛋白质数据库。
UniProt有三个数据库层结构:
- ①UniProtKB是中心数据库,它被分成手工注释的UniProtKB/Swiss-Prot和计算注释的UniProtKB/TrEMBL;
- ②UniRef提供基于UniProtKB的非冗余参考簇。
- ③UniProt Archive、Uniparc由蛋白质序列稳定、非冗余的档案文件组成。
2.4 信息获取:通过检索号来标记并识别序列
DNA和蛋白质序列的一个重要特征是它们都用检索号(accession)作标签。除了检索号,NCBI也给单个序列分子分配了唯一的序列标识号吗(GI)。 举例:accession号为NM_000518.4(.4是指版本号),其对应的GI号为28302128。
2.4.1 参考序列(RefSeq)项目
RefSeq目标是为基因产生的每一个正常(即非突变)转录本以及每个正常的蛋白产物提供最佳代表序列。对于一个基因,可能有数百个GenBank检索号与之对应,这是因为GenBank是一个归档数据库,通常是高度冗余的。然而,对应于一个给定基因或基因产物的RefSeq记录只有一个,或者在有剪接变体或不同位点的情况下对应不止一个RefSeq记录。
2.5 信息获取:基因组浏览器
基因组浏览器是用图形界面来展示序列信息和其他数据以确定整个染色体位置的数据库。目前主要有三大基因组浏览器:Ensembl、UCSC与NCBI。
2.5.1 基因组构建
一个基因组构建是指一个组装,在该组装中收集并排列DNA序列以反映每条染色体上的序列。此构建包括注释,即基因的起始和终止位置、外显子、重复DNA元素或其他特征的信息分配。
2.5.2 加州大学圣克鲁斯分校(UCSC)基因组浏览器
UCSC浏览器目前指出三十几种脊椎动物和无脊椎动物的基因组分析,并且也可能是人类及其他主要生物如小鼠使用最广泛的基因组浏览器。
2.5.3 Ensembl基因组浏览器
Ensembl计划提供了多种真核生物的一系列综合网站。
2.5.4 NCBI图谱浏览器
NCBI图谱浏览器包含各种生物体,包括后生动物、真菌和植物的染色体映射(物理映射和遗传图谱)。
2.5.4 访问数据集:区域和特征的大范围查询
2.6 查阅生物医学文献
美国国家医学图书馆(NLM)是世界上最大的医学图书馆,其中的MDELINE数据库(医学文献分析和联机检索系统)目前包含生命科学领域期刊论文的2400多万参考文献。我们可通过NCBI开发的PubMed对其进行自由访问。