2019年8月-生信领域最前沿

生信类最新分享

Posted by DL on August 31, 2019

2019年8月第1周

2019.08.01—《手把手带你学 Python3 | 字典与FASTA文件序列抽提》

来源:大土豆力 生信菜鸟团

https://mp.weixin.qq.com/s/vYT2s16IfP1StvxFilWLZQ

安装入门环境首选 pycharm。

f = open('test.fa','rt')
f = f.readlines()

seq_dict = {}

for line in f:
    line = line.strip('\n')
    if line.startswith('>'):
        id = line.strip('>')
        seq_dict[id] = []
    else:
        #print(line)
        seq_dict[id] = line

#搜索
print(seq_dict['hsa_circ_00003']) 
#获得序列
ATGCCGAATATACCAACTCTCCTTTGGTACCTACATTCTGTACTCCTGGTTTGAAAATTCCATCTACAAAGAACAGCATAGCTTTG

2019年8月第2周

2019.08.06—《RNA-seq这十年(3万字长文综述)》

来源:Chonqing ZJL 读研笔记

https://mp.weixin.qq.com/s/a3y46NNNO-wardO3XWwh0w


2019.08.07—《R画的图在PowerPoint里面编辑》

来源:生信技能树 生信技能树

https://mp.weixin.qq.com/s/qCB-3t3fuNzFFJoDv_jb8g

我们需要一个神器export包,安装很简单,因为在CRAN上。


2019.08.07—《RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同》

来源:Arjuna 生信技能树

https://mp.weixin.qq.com/s/KSMzgKBlgF2qIadME5nWhw

标准化的主要目的是去除测序数据的技术偏差:测序深度和基因长度。

测序深度:同一条件下,测序深度越深,基因表达的read读数越多。

基因长度:同一条件下,不同的基因长度产生不对等的read读数,基因越长,该基因的read读数越高。

2019.08.08—《表达矩阵的归一化和标准化,去除极端值,异常值》

来源: Arjuna 生信技能树

https://mp.weixin.qq.com/s/KQgWCdZ42EcqV_Qzc2wmTw

 在数据挖掘过程,数据的归一化和标准化是必须的。取log值就是一种归一化的方法,z-score是常用的标准正态分布化的方法。


2019.08.09—《转录组表达矩阵为什么需要主成分分析以及怎么做》

来源: Arjuna 生信技能树

https://mp.weixin.qq.com/s/jvYzmwCZHY_0jt8RuZ8Okw

 主成分分析,即PCA,等降维算法,因为通常RNA-seq都是测几万个基因的表达量,但实际上病人与正常人的区别并不需要这么多基因,可能仅仅是关键的几个基因的组合,就足够区分了,那么以后临床应用就简单了,仅仅是关注重要的的主成分所构成的基因即可。


2019.08.10—《听说aspera下载会失败,我也解决不了啊》

来源:生信技能树 生信技能树

https://mp.weixin.qq.com/s/RuY6ijm8zAkqaQNIFOOdBQ


2019年8月第3周

2019.08.16—《箱线图的生物学含义》

来源: Arjuna 生信技能树

https://mp.weixin.qq.com/s/-nBMig-x34BV41UMjIHjkQ

 描述数据,或者解读数据的时候,不能只关注其“集中性”和“离散性”指标(如均数、中位数、标准差、四分位数等),还得关注原始数据的分布形式。

 箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。


2019.08.16—《三招帮你找到需要的生物信息工具》

来源:kaopubear 生信菜鸟团

https://mp.weixin.qq.com/s/erD4hQF38PYyQgN7_Xc8lw

 介绍一个综合性生物信息工具资源网站 biotools。以后只要用好这三招,就不会害怕生物信息不知道用什么和怎么选工具的问题。

 说到这类整合网站,很多人都知道 omictools, 不过它很早就已更名为 omicX 并转向商用,每天点上六七次之后就会提示你付费且价格不菲。现在,有一个同样好用还免费的网站来替代它——biotools。 Genome Biology 近日上线的一篇题为 The bio.tools registry of software tools and data resources for the life sciences 的文章,介绍的就是这个网站。

mob6PK.jpg


2019年8月第4周

2019.08.21—《基因组中是否存在未被DNA测序覆盖的区域》

来源: 生信技能树 生信技能树

https://mp.weixin.qq.com/s/8Fa5ZLNFnM6P5kjfb-t1FQ

重复DNA序列

G/C偏差

碎片偏差

2019.08.21—《全基因组测序的7个概念》

来源: 生信技能树 生信技能树

https://mp.weixin.qq.com/s/Oui7qlVV-dBSMxftrxIYow

什么是真核细胞

什么是染色体?

什么是基因组?

什么是精确医学?

什么是液体活检?

全基因组测序是什么?

2019.08.21—《limma/voom,edgeR,DESeq2分析注意事项,差异分析表达矩阵与分组信息》

来源: 生信技能树 生信技能树

https://mp.weixin.qq.com/s/SxoP_Br6a8rtCB9Zorc4aA

 limma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。

 edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异结果差异)。

 DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异结果不差异)。

 需要注意的是制作分组信息的因子向量是,因子水平的前后顺序,在R的很多模型中,默认将因子向量的第一个水平看作对照组。


2019.08.22—《手把手带你学 Python3 | 2019国自然信息爬取》

来源:大土豆力 生信菜鸟团

https://mp.weixin.qq.com/s/-NlUhQ9l87vHJqYNr7PVIA

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

 首先是是安装python包,urllib库是python内置的,无需我们额外安装。

pip3 install beautifulsoup4,requests

 安装完可以简单测试一下:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'html.parser')
print(soup.p.string)

具体代码参见原文


2019.08.23—水稻只做转录组能不能发篇3分的SCI?

来源: 徐洲更 生信媛

https://mp.weixin.qq.com/s/5eoigYx_ZdKxDa-rcH_OhQ

答案是不能,你还得补充一些定量PCR对找到差异基因做验证。 文章标题: Genes, pathways and transcription factors involved in seedling stage chilling stress tolerance in indica rice through RNA-Seq analysis

该文章发表在BMC plant biology,植物科学2区SCI,近四年IF稳定在3分左右。这篇文章的核心部分就是测了好几个转录组,然后做了一点实验验证。


2019年8月第5周

2019.08.26—《下载神器》

来源:生信技能树 生信技能树

https://www.ncbi.nlm.nih.gov/pubmed/31382519
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6639467/

2019.08.27—《基因ID转换大全2.0》

来源:Forest_Lee 生信菜鸟团

https://mp.weixin.qq.com/s/kw2x2Tku53SiGeFAMoAwaw​

 基因ID种类繁多,其中GeneCards数据库里面列出了128种数据库ID,虽然很全面,但并非都是重点。常见的基础数据库会提出自己的ID,如entrez ID, Symbol, RefSeq, probeset, PubmedID,OminID,Accnum。

moTdKA.jpg

moTwDI.jpg

 方法一:用clusterProfiler包和org.Hs.eg.db包(基于Bioconductor)

 方法二:通过使用encode数据库的gtf注释转换(基于Bioconductor)

 方法三:使用DAVID网站

 方法四:使用BioMart