2019-08-28-第二周 来获取表达量矩阵

学转录组入门生信系列文章三

Posted by DL on August 28, 2019

来源:生信媛公众号。

我们第二周目标有四个:

  • 整理数据RNA-seq格式

  • 了解数据质控

  • 数据比对

  • read定量

首先,我们得要知道我们在转录组分析过程中会遇到很多格式,建议先通过搜索查找了解这些格式是什么

  • fasta/fas/fa

  • gtf/gff

  • bed

  • sam/bam

  • csv/tsv/txt

接着,我们会在分析过程中时刻检查我们的数据质量,所以你要尝试回答下面这几个问题

  • 数据质控要在哪个阶段做

  • 不同阶段要看什么标准

  • 质控有哪些软件

之后,我们要将我们的二代测序结果和参考基因组/转录组进行比对,建议将比对结果用IGV进行查看

  • 转录组比对和基因组比对的区别

  • 比对有哪些工具

  • 什么要建立索引

比对结果中存放着每个read的位置信息,我们就可以根据位置信息来计算每个转录本的表达量

  • read定量有哪些工具

  • read定量分为哪几种水平

对于初学者而言,推荐的分析流程是,trimmomatic或fastp质控 -> hisat2建立索引或下载索引 -> hisat2比对 -> featureCount定量。

以上就是第二周的内容了。这一周必读篇文献是:http://www.ncbi.nlm.nih.gov/pubmed/26813401