RNA-Seq测序数据分析服务流程(试运行)(精)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

北京大学生科院/CLS生物信息平台RNA-Seq测序数据分析服务流程(试运行

2015.3

平台联系人:李程(*****************文档撰写:张超

Table of Contents

1. 测序质量评估 (3

1.1 测序数据过滤 (3

1.2 质量值分布 (3

1.3 GC含量分布 (4

2. 参考序列比对 (4

3. 基因表达水平 (6

3.1 基因表达水平定量 (6

3.2 基因表达水平分步 (6

3.3 生物学重复相关性分析 (6

3.4 样本间层次聚类及PCA分析 (7

4. 差异基因分析 (7

4.1 基因表达标准化 (7

4.2 差异基因列表 (8

4.3 差异基因可视化 (8

4.4 差异基因聚类 (9

5. 差异表达基因功能分析 (10

5.1 GO富集分析 (10

5.2 信号通路富集分析 (10

5.3 癌基因功能注释 (11

6.基因结构差异分析 (11

6.1 可变剪切分析 (11

7. SNP分析 (12

7.1 SNP检测 (12

7.2 SNP 筛选 (12

7.3 GO/KEGG富集 (12

1. 测序质量评估

通过测序的数据进行进行质控,保证数据质量适合下游分析。这里我们使用fastqc和RNA-SeQC来对数据进行质量评定。

1.1 测序数据过滤

测序得到的原始下机数据往往有许多问题,不能直接使用,通常会经过以下过滤,尽量保证测序数据的质量。

a.去除带测序接头的测序序列(reads;

b.去除低质量的reads

1.2 质量值分布

按照现有的测序技术(illumina平台单碱基的错误率应控制在1%以下,即质量值在20以上。

横坐标为reads的碱基位置,纵坐标为单碱基质量值

质量值与错误率的关系:Q

=-10log10(e;其中Q phred为测序碱基质量值,e为测

phred

序错误率。

1.3 GC含量分布

对于RNA测序,鉴于序列通过超声随机打断,所以理论上每个测序循环上的C、G及A、T含量应分布相等,并且CG-content对于每个物种应大致相同。

横坐标为reads的碱基位置,纵坐标为各种碱基的不同比例

2. 参考序列比对

对于通过质量控制的数据,可以进行后续分析。首先需要将clean reads比对到参考基因组上。由于测序时reads是随机的,只有这些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比对这一步就是给所有reads一个在基因组上位置的信息。

在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,所以会较常出现一条read跨内含子的情况,tophat2可以较好的处理这种情况,所以我们选用tophat2来做比对。

比对率间接反应了测序的质量和建库的质量,若比对率低,很可能建库时混入了其他物种的序列,导致无法比对到研究的物种参考基因组上。

reads比对到基因上的位置统计:

Sample Intragenic

Rate

Exonic

Rate

Intronic

Rate

Intergenic

Rate

Split

Reads

Expression

Profiling

Efficiency

Transcripts

Detected

Genes

Detected

1BJ 0.885 0.738 0.147 0.114 9,910,010 0.738 32,796 15,434

(1Sample:样本名

(2IntragenicRate:比对到基因内的reads比例

(3ExonicRate:比对到外显子的reads比例

(4IntronicRate:比对到内含子的reads比例

(5IntergenicRate:比对到基因间区的reads比例

(6SplitReads:比对到两外显子交接处的reads数

(7ExpressionProfilingEfficiency:比对到外显子上的reads占总体的比例(8TranscriptsDetected:比对上reads数大于5的转录本数

(9GenesDetected:比对上reads数大于5的基因数

3. 基因表达水平

3.1 基因表达水平定量

在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的reads 的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了RPKM的概念,RPKM(Reads Per Kilo bases per Million reads是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法 (Mortazavi et al., 2008。

Gene_ID Sample1 Sample2 Sample3 Sample4 Sample5 Sample6

ENSG00000000003 49.32 46.94 48.91 22.51 20.60 22.95 ENSG00000000419 35.92 34.58 33.69 32.80 35.65 32.73 ENSG00000000457 1.34 0.94 1.19 2.06 2.13 2.26 ENSG00000000460 1.19 1.20 1.22 3.00 3.33 3.06