第二代测序数据分析原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013-10-6 14
第二代测序技术的局限
与第一代测序仪相比,以合成测序为基础的下一代测序平台 速度显著提高,成本明显降低。每台设备每天产出千兆碱基 的序列不足为奇。 但是, 除了罗氏的454平台之外,读长短成了下一代测序平台 的致命伤,这主要是由于DNA簇中存在的光学信号移相造成 的。 而应运而生的单分子测序技术是解决这一问题的一种方法。
2013-10-6
6
概要
• • • • 主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
第二代测序技术
454测序 Illumina SOLID Polonator Complete Genomics ……
2013-10-6
8
454
2013-10-6
9
SOLID
2013-10-6
COG注释
• 目的:对拼接得到 UniGene 进行 COG功能分类 。 原理:利用blast+算法将拼接得到的UniGene与 CDD库中的COG/KOG库进行比对,进行COG功 能分类预测,将其映射到COG分类中。 结果: COG分类分布情况图。
SSR重复序列注释
• 目的:对拼接得到 UniGene进行 SSR 简单重复 序列的查找。 原理:筛选标准:单核苷酸重复的次数在10次或 10次以上,二核苷酸重复的次数在 6次或6次以上 ,三至六核苷酸重复的次数在 5次或 5次以上。 同时,也筛选中间被少数碱基 (间隔小于100或等 于100)打断的不完全重复的SSR。 结果:重复序列的信息文件以及统计文件。
2013-10-6
15
第三代测序技术:单分子测序
Helicos Biosciences VisiGen Pacific Biosciences Mobious Nexus I ……
2013-10-6
16
2013-10-6
17
直接测序法
在所有上述三 代测序技术中,序列都是在荧光或者化学发光物质的协助 下,通过读取DNA 聚合酶或DNA 连接酶将碱基连接到DNA 链上过程中 释放出的光学信号而间接确定的。 除了需要昂贵的光学监测系统,还要记录、存储并分析大量的光学图像 ,这都使仪器的复杂性和成本增加。依赖生物化学反应读取碱基序列更 增加了试剂、耗材的使用,在目前测序成本中比例相当大。 直接读取序列信息,不使用化学试剂,对于进一步降低测序成本是非常 可取的。为了实现这样的目标,目前就有很多人在研究纳米物理技术。 在全球,许多公司和组织,如Agilent,DNA Electronics,IBM, NabSys, Oxford Nanopore Technologies,Sequenom 等都在进行纳米孔测序的开发 ,不同的只是采用的方法或策略。
问题出发
• 正常样本与异常样本,如肿瘤等; • 药物处理前后样本状态变化,如尼古丁刺激前后;
• 发育不同阶段的样本改变
.............
第二代测序数据分析原理
徐汪节
三代DNA测序技术之比较
第一代测序技术:Sanger测序法 第二代测序技术:454测序…… 第三代测序技术:? 直接测序法:?
• UniGene表达分布图,1X,5X分别为FPKM=1, FPKM=5分界点,可以大体观察到低表达,中表 达以及高表达的比例关系
UniGene样本间表达相关性散点图
• 样本间表达差异程度的MA图,可以体现差异表达 总体偏差
UniGene表达差异分析
• 目的:对定量结果进行统计检验分析,找出差异 表达UniGene 原理:双层过滤筛选差异基因 FC值筛选:采用Fold-change(FC),表达差异倍 数进行第一层此的差异基因筛选 FDR检验:一般采用卡方检验中的fisher精确检 验进行p值检验,采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验, 即,通过FDR显著性参数进行第二层次的差异基 因筛选。
2013-10-6
3
第一代测序技术 : Sanger测序法 ——简便、快速
2013-10-6
4
逐渐被遗忘的测序 技术: Maxam-Gilbert的 DNA化学降解法
2013-10-6
5
Sanger测序的局限
通过几十年的改进,第1 代测序仪的读长可以超过1000bp, 原始数据的准确率可以高达99.999%,测定每千碱基序列的 成本是0.5 美元, 每天的数据通量可以达到60万碱基。 但是,不管怎么改进,第1 代测序技术在速度和成本方面都 已达到了极限(因为对电泳分离技术的依赖, 使其难以进一 步提升分析的速度和提高并行化程度,并且难以通过微型化 降低测序成本)。 在此种情况下,第二代测序技术(Next-generation sequencing)应运而生。
外显子组分析工具 Platform
Solexa
Alignment
SOAP,bwa
Find Variations SOAPsnp samtools
Solid 454
Bioscope,BFA Bioscope,BFA ST ST BLAST,NEWB newbler LER
• • • •
主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
• 目的:对拼接得到的UniGene进行功能注释 原理:通过blast+算法将拼接得到的UniGene序 列与数据库进行比对 结果:比对结果表格,物种分布统计和Evalue分 布统计
UniGene表达分析
• 目的:UniGene定量分析。 原理:以UniGene为reference,分别将每个样本 的reads进行reference mapping ,从而得到每个样 本在每个UniGenes中的一个reads覆盖度,然后 应用RPKM/FPKM标准化公式对富集片段的数量 进行归一化。 RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:
Platform SolexaBiblioteka BaiduSolid 454
全基因组de nove分析工具 Correction Assembly
SOAPdenovo SAET SOAPdenovo Velvet,Abyss Velvet newbler
分析所需工具
• Bowtie software -http://bowtie-bio.sourceforge.net/index.shtml/ SAM tools -http://samtools.sourceforge.net/ TopHat softare -http://tophat.cbcb.umd.edu/ Cufflinks software -http://Cufflinks.cbcb.umd.edu/ CummeRbund software -http://compbio.mit.edu/cummeRbund/
KEGG代谢通路分析
• 目的:对拼接得到 UniGene 进行 KEGG pathway 映射。 原理:应用KEGG KAAS在线 pathway比对分析 工具对拼接得到的UniGene进行KEGG映射分析 。 结果:标记的Pathway通路图。
IPA pathway analysis (http://www.ingenuity.com/)
LncRNA预测
• 目的:对拼接得到的UniGene进行LncRNA(Long noncoding RNA)预测。 原理: 通过以下过程对UniGene进行过滤,最终得到候 选LncRNA序列。 1) Unigene length > 200bp; 2) Unigene ORF(Open Reading Frame) length < 300; 3) 将满足长度条件的UniGene与多个近源物种进行进化 分析,得到序列的保守性和进化特性; 4) 根据上述的特性和已知数据库中coding、noncoding区 域的特性建立编码筛选模型; 5) 将符合noncoding模型的UniGene与Pfam等蛋白域数 据库进行同源性比对,进一步去除可能的编码特性,最终 得出LncRNA预测结果。
组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势
差异基因火山图,可以观察到差异基因总体分布
GO功能分类
• 目的:利用数据库注释信息将 UniGene进行 GO 功能分类。 原理:利用数据库的注释结果,应用blast2GO算 法进行GO功能分类,得到所有序列在Gene Ontology 的三大类:molecular function, cellular component, biological process 的各个层次所占 数目,一般取到14层。 结果:MF,BP,CC三大分类结果文件以及 UniGene2GO 关系列表,三大类别中第二层次上 的柱状分布图和饼图,GO功能的层次分布图。
illumia
Solexa
ABI
SOLiD
RNA-seq
Experiments
• • • • DNA-seq: de novo, resequencing RNA-seq:mRNA, ncRNA, smRNA... ChIP-seq: Chromatin ImmunoPrecipitation Methyl-seq: methylated DNA (epigenome)
• • • •
主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
Sequencing Glossary
• Reads. A collection of clones that over-sample the target genome • Pair-end reads.Sequence reads derived from both ends of a sequencing-library clone. • Mate-pair reads.Sequence reads derived from both ends of a mat pair library clone which insert size is usually>1kb. • Insert size. The size of the clone-insert from which a clone-end pa is taken. • Contig. The result of joining an overlapping collection of sequence reads. • Scaffold. The result of connectiing non-overlapping contiges by using pir-end reads. • N50 size. As applied to contigs or scaffolds, that size above which 50% od the assembled
• 目的:将预处理后reads进行拼接,得到拼接结果 。 原理: 应用 de Bruijn graph path 算法对reads进 行denovo拼接;对上一步的拼接结果,再用 Hamilton Path算法拼接。 结果:UniGene序列,UniGene统计信息,序列 长度分布图
3. 数据库注释
常规分析
• • • • • Transcripts quantification Splicing sites discovery and quantification Gene discovery SNP/INDEL detection Allele specific expression
UniGene拼接
2013-10-6
18
2013-10-6
19
2013-10-6
20
Second generation sequence
• Roche 454 Metagenomics De novo sequencing RNA-seq De novo sequencing Re-sequencing RNA-seq (ChromatinImmunoprecipitation,ChIP) Meth-seq Re-sequencing ChIP-seq
10
Illumina
2013-10-6
11
其他
Polonator Complete Genomics ……
2013-10-6
12
2013-10-6
13
第二代测序技术的共同点
1 将目标DNA剪切为小片段 2 单个小片段DNA分子结合到固相表面 3 单分子独立扩增 4 每次只复制一个碱基(A,C,T,G)并检测信号 5 高分辨率的成像系统 。
第二代测序技术的局限
与第一代测序仪相比,以合成测序为基础的下一代测序平台 速度显著提高,成本明显降低。每台设备每天产出千兆碱基 的序列不足为奇。 但是, 除了罗氏的454平台之外,读长短成了下一代测序平台 的致命伤,这主要是由于DNA簇中存在的光学信号移相造成 的。 而应运而生的单分子测序技术是解决这一问题的一种方法。
2013-10-6
6
概要
• • • • 主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
第二代测序技术
454测序 Illumina SOLID Polonator Complete Genomics ……
2013-10-6
8
454
2013-10-6
9
SOLID
2013-10-6
COG注释
• 目的:对拼接得到 UniGene 进行 COG功能分类 。 原理:利用blast+算法将拼接得到的UniGene与 CDD库中的COG/KOG库进行比对,进行COG功 能分类预测,将其映射到COG分类中。 结果: COG分类分布情况图。
SSR重复序列注释
• 目的:对拼接得到 UniGene进行 SSR 简单重复 序列的查找。 原理:筛选标准:单核苷酸重复的次数在10次或 10次以上,二核苷酸重复的次数在 6次或6次以上 ,三至六核苷酸重复的次数在 5次或 5次以上。 同时,也筛选中间被少数碱基 (间隔小于100或等 于100)打断的不完全重复的SSR。 结果:重复序列的信息文件以及统计文件。
2013-10-6
15
第三代测序技术:单分子测序
Helicos Biosciences VisiGen Pacific Biosciences Mobious Nexus I ……
2013-10-6
16
2013-10-6
17
直接测序法
在所有上述三 代测序技术中,序列都是在荧光或者化学发光物质的协助 下,通过读取DNA 聚合酶或DNA 连接酶将碱基连接到DNA 链上过程中 释放出的光学信号而间接确定的。 除了需要昂贵的光学监测系统,还要记录、存储并分析大量的光学图像 ,这都使仪器的复杂性和成本增加。依赖生物化学反应读取碱基序列更 增加了试剂、耗材的使用,在目前测序成本中比例相当大。 直接读取序列信息,不使用化学试剂,对于进一步降低测序成本是非常 可取的。为了实现这样的目标,目前就有很多人在研究纳米物理技术。 在全球,许多公司和组织,如Agilent,DNA Electronics,IBM, NabSys, Oxford Nanopore Technologies,Sequenom 等都在进行纳米孔测序的开发 ,不同的只是采用的方法或策略。
问题出发
• 正常样本与异常样本,如肿瘤等; • 药物处理前后样本状态变化,如尼古丁刺激前后;
• 发育不同阶段的样本改变
.............
第二代测序数据分析原理
徐汪节
三代DNA测序技术之比较
第一代测序技术:Sanger测序法 第二代测序技术:454测序…… 第三代测序技术:? 直接测序法:?
• UniGene表达分布图,1X,5X分别为FPKM=1, FPKM=5分界点,可以大体观察到低表达,中表 达以及高表达的比例关系
UniGene样本间表达相关性散点图
• 样本间表达差异程度的MA图,可以体现差异表达 总体偏差
UniGene表达差异分析
• 目的:对定量结果进行统计检验分析,找出差异 表达UniGene 原理:双层过滤筛选差异基因 FC值筛选:采用Fold-change(FC),表达差异倍 数进行第一层此的差异基因筛选 FDR检验:一般采用卡方检验中的fisher精确检 验进行p值检验,采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验, 即,通过FDR显著性参数进行第二层次的差异基 因筛选。
2013-10-6
3
第一代测序技术 : Sanger测序法 ——简便、快速
2013-10-6
4
逐渐被遗忘的测序 技术: Maxam-Gilbert的 DNA化学降解法
2013-10-6
5
Sanger测序的局限
通过几十年的改进,第1 代测序仪的读长可以超过1000bp, 原始数据的准确率可以高达99.999%,测定每千碱基序列的 成本是0.5 美元, 每天的数据通量可以达到60万碱基。 但是,不管怎么改进,第1 代测序技术在速度和成本方面都 已达到了极限(因为对电泳分离技术的依赖, 使其难以进一 步提升分析的速度和提高并行化程度,并且难以通过微型化 降低测序成本)。 在此种情况下,第二代测序技术(Next-generation sequencing)应运而生。
外显子组分析工具 Platform
Solexa
Alignment
SOAP,bwa
Find Variations SOAPsnp samtools
Solid 454
Bioscope,BFA Bioscope,BFA ST ST BLAST,NEWB newbler LER
• • • •
主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
• 目的:对拼接得到的UniGene进行功能注释 原理:通过blast+算法将拼接得到的UniGene序 列与数据库进行比对 结果:比对结果表格,物种分布统计和Evalue分 布统计
UniGene表达分析
• 目的:UniGene定量分析。 原理:以UniGene为reference,分别将每个样本 的reads进行reference mapping ,从而得到每个样 本在每个UniGenes中的一个reads覆盖度,然后 应用RPKM/FPKM标准化公式对富集片段的数量 进行归一化。 RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:
Platform SolexaBiblioteka BaiduSolid 454
全基因组de nove分析工具 Correction Assembly
SOAPdenovo SAET SOAPdenovo Velvet,Abyss Velvet newbler
分析所需工具
• Bowtie software -http://bowtie-bio.sourceforge.net/index.shtml/ SAM tools -http://samtools.sourceforge.net/ TopHat softare -http://tophat.cbcb.umd.edu/ Cufflinks software -http://Cufflinks.cbcb.umd.edu/ CummeRbund software -http://compbio.mit.edu/cummeRbund/
KEGG代谢通路分析
• 目的:对拼接得到 UniGene 进行 KEGG pathway 映射。 原理:应用KEGG KAAS在线 pathway比对分析 工具对拼接得到的UniGene进行KEGG映射分析 。 结果:标记的Pathway通路图。
IPA pathway analysis (http://www.ingenuity.com/)
LncRNA预测
• 目的:对拼接得到的UniGene进行LncRNA(Long noncoding RNA)预测。 原理: 通过以下过程对UniGene进行过滤,最终得到候 选LncRNA序列。 1) Unigene length > 200bp; 2) Unigene ORF(Open Reading Frame) length < 300; 3) 将满足长度条件的UniGene与多个近源物种进行进化 分析,得到序列的保守性和进化特性; 4) 根据上述的特性和已知数据库中coding、noncoding区 域的特性建立编码筛选模型; 5) 将符合noncoding模型的UniGene与Pfam等蛋白域数 据库进行同源性比对,进一步去除可能的编码特性,最终 得出LncRNA预测结果。
组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势
差异基因火山图,可以观察到差异基因总体分布
GO功能分类
• 目的:利用数据库注释信息将 UniGene进行 GO 功能分类。 原理:利用数据库的注释结果,应用blast2GO算 法进行GO功能分类,得到所有序列在Gene Ontology 的三大类:molecular function, cellular component, biological process 的各个层次所占 数目,一般取到14层。 结果:MF,BP,CC三大分类结果文件以及 UniGene2GO 关系列表,三大类别中第二层次上 的柱状分布图和饼图,GO功能的层次分布图。
illumia
Solexa
ABI
SOLiD
RNA-seq
Experiments
• • • • DNA-seq: de novo, resequencing RNA-seq:mRNA, ncRNA, smRNA... ChIP-seq: Chromatin ImmunoPrecipitation Methyl-seq: methylated DNA (epigenome)
• • • •
主要的测序平台 基因组分析原理 转录组分析原理 分析策略的选择
Sequencing Glossary
• Reads. A collection of clones that over-sample the target genome • Pair-end reads.Sequence reads derived from both ends of a sequencing-library clone. • Mate-pair reads.Sequence reads derived from both ends of a mat pair library clone which insert size is usually>1kb. • Insert size. The size of the clone-insert from which a clone-end pa is taken. • Contig. The result of joining an overlapping collection of sequence reads. • Scaffold. The result of connectiing non-overlapping contiges by using pir-end reads. • N50 size. As applied to contigs or scaffolds, that size above which 50% od the assembled
• 目的:将预处理后reads进行拼接,得到拼接结果 。 原理: 应用 de Bruijn graph path 算法对reads进 行denovo拼接;对上一步的拼接结果,再用 Hamilton Path算法拼接。 结果:UniGene序列,UniGene统计信息,序列 长度分布图
3. 数据库注释
常规分析
• • • • • Transcripts quantification Splicing sites discovery and quantification Gene discovery SNP/INDEL detection Allele specific expression
UniGene拼接
2013-10-6
18
2013-10-6
19
2013-10-6
20
Second generation sequence
• Roche 454 Metagenomics De novo sequencing RNA-seq De novo sequencing Re-sequencing RNA-seq (ChromatinImmunoprecipitation,ChIP) Meth-seq Re-sequencing ChIP-seq
10
Illumina
2013-10-6
11
其他
Polonator Complete Genomics ……
2013-10-6
12
2013-10-6
13
第二代测序技术的共同点
1 将目标DNA剪切为小片段 2 单个小片段DNA分子结合到固相表面 3 单分子独立扩增 4 每次只复制一个碱基(A,C,T,G)并检测信号 5 高分辨率的成像系统 。