转录组实战讲解第三讲之测序质量评估和reads回贴PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2021/7/24
12
这一堂课 关注内容
Fusions Junctions
测序数据
测序评估及 低质量过滤
和参考基因 组比对
转录本重构
2021/7/24
编码基因表 达注释
编码基因差 异(特异)表达
GO功能显著 Pathway显著
性富集
性富集
功能富集网 络图
Genome Browser 可视化
长非编码鉴 定
2021/7/24
2
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
2021/7/24
3
长非编码RNA测序
• 长非编码RNAs(long non-coding RNAs, lncRNAs)是一类长度大于200 nt且不编码 蛋白质的RNAs
hg19为基因组的bowtie2的index文件
2021/7/24
31
运行命令汇总(三)
3, 比对转录组:
bowtie –o bwt_outdir_N refgene -1 N_R1.fastq -2 N_R2.fastq -S N.sam
bowtie –o bwt_outdir _P refgene -1 P_R1.fastq -2 P_R2.fastq -S P.sam
2021/7/24
21
和参考基因组比对
• 转录组比对工具选择:
– Tophat
Mapping and discovering splicing junctions with RNA-seq
2021/7/24
22
几种常见比对工具对比
Total Failed by Bowtie Failed by Bowtie2 Failed by BWA Failed by Tophat
2021/7/24
30
运行命令汇总(二)
2, 比对基因组:
tophat –o tophat_outdir_N --library-type fr-firststrand --fusion-search hg19 N_R1.fastq N_R2.fastq
tophat –o tophat outdir _P --library-type fr-firststrand --fusion-search hg19 P_R1.fastq P_R2.fastq
Quality Score与错误率:
2021/7/24
19
测序质量评估
• 工具
• fastQC(推荐) • fastX-Tookit
2021/7/24
注意adpter或是barcode的存在
20
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
2021/7/24
10
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
2021/7/24
11
转录组分析的通用套路
鉴定
有多少RNA
定量
RNA的表达量
差异
功能
结构、表达量、 比例的变化
功能注释
N_R2.fastq
@HWI-EAS724_0001:8:32:374:374#0/2 TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA +HWI-EAS724_0001:8:32:374:374#0/2 ggggfgggggd_adcggggeggfggeggegf`geececdegggggfegcfegggegggfgac[aced`bd__\_c[[Yb
– /
• Tophat-fusion
– /
• Fastqc
– /project s/fastqc/
2021/7/24
8
一个测序实例
• 取样:晚期肝癌病人的肝组织(共4个)
– 癌旁组织(N) – 原发灶(P) – 转移灶(M) – 门脉血栓转移灶(V)
一组时间序列上的4个点的取样
2021/7/24
9
RNA提取和测序参数
• RNA提取
– 提取带有polyA的所有RNA
• 测序
– Illu_outdir_M --library-type fr-firststrand --fusion-search hg19 M_R1.fastq M_R2.fastq
tophat –o tophat_outdir_V --library-type fr-firststrand --fusion-search hg19 V_R1.fastq V_R2.fastq
microRNAs,piRNAs 和lncRNAs等)
• 转录组内的RNA, 按polyA形态:
– 带polyA的RNA (mRNA和大部分的lncRNA) – 不带polyA的RNA (小RNA和小部分的lncRNA)
2021/7/24
6
长非编码RNA测序
方案一 总的RNA(>200)
方案二 总的RNA(>200)
长非编码表 达注释
长非编码差 异表达
GO功能显著 性富集
功能富集网 络图
Pathway显著 性富集
13
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
2021/7/24
14
测序下机数据
测序输出的两个文件(双端测序数据):
^对应的就是Q30
2021/7/24
17
Q-score
Q-score
Q10 Q20 Q30 Q40
不正确的碱基识 别
1/10 1/100 1/1000 1/10000
碱基正确识别率
90% 99% 99.9% 99.99%
2021/7/24
18
ASCII码、Q-score与错误率计算
Ascii码与Quality Score: Sanger: Q=ASCII值-33 Illumina1.3之后:Q=ASCII值-64
长非编码RNA测序分析实战讲解之 测序质量评估和Reads回贴
卜德超 budechao@ 中国科学院计算技术研究所
2014-12-20
2021/7/24
1
概要
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
2021/7/24
29
运行命令汇总(一)
1, 质量评估:
fastqc –o QC_outdir_N N_R1.fastq N_R2.fastq fastqc –o QC_outdir_P P_R1.fastq P_R2.fastq fastqc –o QC_outdir_M M_R1.fastq M_R2.fastq fastqc –o QC_outdir_V V_R1.fastq V_R2.fastq
思考:为何比对转录组?
2021/7/24
24
比对结果统计
2021/7/24
25
比对结果解读
基因组比对率 >80% >80% <40% <10%
1/7/24
转录组比对率 >50% <10% <30% <10%
评估
比对结果?好? ! DNA污染?? 测序质量?差? 、
reads接头?、? barcode、 ployA等未去净.
– Junctions.bed – Insertions.bed – Deletions.bed
Tophat直接报出junctions 结果
• Tophat-fusion:Fusions鉴定工具
Tophatfusion:从tophat的 输出挖掘fusions
2021/7/24
28
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
bowtie –o bwt_outdir_M refgene -1 M_R1.fastq -2 M_R2.fastq -S M.sam bowtie –o bwt_outdir_V refgene -1 V_R1.fastq -2 V_R2.fastq -V P.sam
refgene为bowtie产生的index文件
N_R1.fastq
@HWI-EAS724_0001:8:32:374:374#0/1 GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG +HWI-EAS724_0001:8:32:374:374#0/1 fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggd
2021/7/24
32
运行命令汇总(三)
4, Fusions鉴定:
tophat-fusion-post hg19
在tophat输出目录下执行上述命令
2021/7/24
33
软件链接
• Tophat
– /software/tophat/index.shtml
• Bowtie
用字符来表示每个碱基的质量值
2021/7/24
16
字符值--如何计算Q值
字符 f c g ^
ASCII码 值 102
99
103
94
Quality Score
102-64 =38
99-64 =35
103-64 =39
94-64 =30
错误率 <0.1% <0.1% <0.1% 0.1%
ASCII码表
去掉rRNA后的RNA polyA富集
带polyA的 RNA
不带polyA 的RNA
mRNA测序 (mRNA+lncRNA)
2021/7/24
测序(lncRNA)
去掉rRNA后的RNA 测序(mRNA+lncRNA)
7
• 长非编码RNA测序介绍 • 一个测序实例 • 长非编码RNA分析流程 • 步骤一详解:Reads质量评估 • 步骤二详解:基因组比对 • 附录:运行命令
• 长非编码RNA测序:通过测序技术,获得某 个物种或特定细胞在某一生理条件下产生 的所有的长非编码RNA
2021/7/24
4
想测长非编码RNA,提取 RNA的步骤是怎样的?
2021/7/24
5
转录组内的RNA
• 转录组RNA,按功能分类:
– mRNA – 非编码RNA(即Non-coding RNA,如 tRNA,rRNAs,
若双端中有一端比对率高,一端比 对率很低,则类同第四种情况
26
Tophat回贴原理
Mapped to the genome
Reads
2021/7/24
Unmapped
Searching the splicing sit
Split and Mapped
27
Junctions和Fusions鉴定
• Tophat比对后的输出目录:
拿到共4对这样的测序文件
2021/7/24
15
Fastq文件质量值表示
N_R1.fastq
@HWI-EAS724_0001:8:32:374:374#0/1 GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG +HWI-EAS724_0001:8:32:374:374#0/1 fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggd
转录组比对数
2000 588 271 26 0
Note
No gap allowed Allow small gap Allow small gap Detection Intron
输入:RNA-seq data
2021/7/24
23
双比对策略
• 基因组-转录组双比对策略:
– Bowtie比对到已知编码基因集合(转录组) – Tophat比对到基因组(基因组)