参考资料:《Bioinformatics and Functional Genomics》、《生物信息学基础》。
第1章 概论
我们先来看两张图,感受一下海量信息的奇妙:
1. 生物信息学的两个定义
本书对生物信息学的定义
Bioinformatics is the use of computer databases and computer algorithms to analyze proteins, genes, and the complete collection of deoxyribonucleic acid (DNA) that comprises an organism (the genome).
生物信息学是使用计算机数据库和计算机算法来分析蛋白质、基因和脱氧核糖核酸的完整集合(DNA),即有机体的基因组。
NIH对生物信息学的定义
According to a National Institutes of Health (NIH) definition, bioinformatics is “research, development, or application of computational tools and approaches for expand- ing the use of biological, medical, behavioral, or health data, including those to acquire, store, organize, analyze, or visualize such data.”
根据美国国家卫生研究院(NIH)的定义,生物信息学是“拓展生物、医药、行为或健康等数据的使用的计算工具和方法的研究、开发或应用,包括这些数据的获得、存储、组织、分析或可视化。”
2. 本书的内容组织
本书有两个主要部分:
第一部分:
第二部分围绕中心法则:
3. 生物信息学:大图景
我们可以从三个方面总结生物信息学和基因组学领域:
- 生物信息学的第一个视角是细胞:
- 生物信息学的第二个视角是单个生物体:
- 生物信息学的第三个视角是生命之树:
4. 生物信息学软件:两种文化
4.1 基于网页的软件
生物信息学领域很大程度上依赖于互联网来访问序列,使用进行分子数据分析的有用软件以及集成与生物学有关的各种资源和信息。
目前最常用的公共可访问数据库有:
-
(1)美国国家生物技术信息中心(NCBI),包括GenBank及其他资源。
-
(2)欧洲生物信息学研究所(EBI)。
-
(3)Ensembl,包括基因组浏览器和几十种基因组的资源。
-
(4)加州大学圣塔克鲁斯分校(UCSC)基因组生物信息学网站,包括各种物种的网页浏览器和表浏览器。
4.2 命令行软件
命令行软件的特点:
-
(1)操作系统通常是Linux,Mac O/S与Linux也兼容,但Windows操作系统不适合大多数的命令程序。
-
(2)生物信息学中常采用编程语言:Perl、Python、R语言。
5. 生物信息学的可重复性研究
- (1)工作流程应该有据可查。
- (2)应分门别类地归类处理的数据(建立不同的文件夹等)。
- (3)数据应提供给他人。
- (4)元数据也是非常重要的数据。
- (5)应记录使用的数据库的版本号和日期。
- (6)应记录使用的软件的版本号及分析流程(方便他人可以重复你的分析,参考github上的shared-workflow)。