来源:生信媛公众号。
我们第二周目标有四个:
-
整理数据RNA-seq格式
-
了解数据质控
-
数据比对
-
read定量
首先,我们得要知道我们在转录组分析过程中会遇到很多格式,建议先通过搜索查找了解这些格式是什么
-
fasta/fas/fa
-
gtf/gff
-
bed
-
sam/bam
-
csv/tsv/txt
接着,我们会在分析过程中时刻检查我们的数据质量,所以你要尝试回答下面这几个问题
-
数据质控要在哪个阶段做
-
不同阶段要看什么标准
-
质控有哪些软件
之后,我们要将我们的二代测序结果和参考基因组/转录组进行比对,建议将比对结果用IGV进行查看
-
转录组比对和基因组比对的区别
-
比对有哪些工具
-
什么要建立索引
比对结果中存放着每个read的位置信息,我们就可以根据位置信息来计算每个转录本的表达量
-
read定量有哪些工具
-
read定量分为哪几种水平
对于初学者而言,推荐的分析流程是,trimmomatic或fastp质控 -> hisat2建立索引或下载索引 -> hisat2比对 -> featureCount定量。
以上就是第二周的内容了。这一周必读篇文献是:http://www.ncbi.nlm.nih.gov/pubmed/26813401