高通量测序RNA-seq数据的常规分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

案例一

虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。

哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库,上机测序。拿到测序数据后,就到了我们大显身手的时候了。首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。根据组装结果,计算基因或转录本的表达量。最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。

图 1. RNA-seq常规分析流程

叨叨完毕,进入正题。

进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。

图 2. 测序数据处理模块

质控结束后,尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。

图 3.质控结果

组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。

得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

数据,有DESeq,edgeR和NOISeq三中差异表达分析方法。小白们只需要输入按照要求输入文件,设置参数,点保存即可。

图 4.差异表达分析模块

在差异分析的基础上,尔云还可以做功能富集分析,KEGG通路展示(作图工具-KEGG 通路做图-pathview),网络分析,同时也可结合临床生存数据做预后分析(作图工具-生存曲线分析),见图5.

图 5. 后续分析模块

图6是KEGG pathview的示例结果,差异表达的基因用高亮的颜色标注,红色高表达,绿色低表达。清晰的展示了差异基因在通路中的分布,以及差异表达情况。

图 6. pathview结果

图7是PPI分析结果的一个例子,给出了网络图,以及边的边的列表。如果用户想自己展示,调整网络,可以表达边的列表输入cytoscape中。

图7. PPI 网络构建

经过上面的几个步骤,我们就完成了RNA-Seq的基本分析流程。整个过程,我们需要做的只是输入文件,设置参数,点击保存、运行。So easy,老板再也不用担心我做不了RNA-seq 数据分析了。

参考文献

1.Huber-Keener K J, Liu X, Wang Z, et al. Differential gene expression in tamoxifen-resistant

breast cancer cells revealed by a new analytical model of RNA-Seq data[J]. PLoS One, 2012, 7(7): e41333.

2.Beane J, Vick J, Schembri F, et al. Characterizing the impact of smoking and lung cancer on

the airway transcriptome using RNA-Seq[J]. Cancer prevention research, 2011, 4(6):

803-817.

相关文档
最新文档