第二代测序数据分析原理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
第一代测序技术 : Sanger测序法 ——简便、快速
4
逐渐被遗忘的测序 技术: Maxam-Gilbert的 DNA化学降解法
5
Sanger测序的局限
通过几十年的改进,第1 代测序仪的读长可以超过1000bp, 原始数据的准确率可以高达99.999%,测定每千碱基序列的
成本是0.5 美元, 每天的数据通量可以达到60万碱基。 但是,不管怎么改进,第1 代测序技术在速度和成本方面都 已达到了极限(因为对电泳分离技术的依赖, 使其难以进一 步提升分析的速度和提高并行化程度,并且难以通过微型化
using pir-end reads. • N50 size. As applied to contigs or scaffolds, that size above which
50% od the assembled
全基因组de nove分析工具
分析所需工具
• Bowtie software SAM tools TopHat softare Cufflinks software CummeRbund software -
COG注释
• 目的:对拼接得到 UniGene 进行 COG功能分类 。 原理:利用blast+算法将拼接得到的UniGene与 CDD库中的COG/KOG库进行比对,进行COG功 能分类预测,将其映射到COG分类中。 结果: COG分类分布情况图。
SSR重复序列注释
• 目的:对拼接得到 UniGene进行 SSR 简单重复 序列的查找。 原理:筛选标准:单核苷酸重复的次数在10次或 10次以上,二核苷酸重复的次数在 6次或6次以上 ,三至六核苷酸重复的次数在 5次或 5次以上。 同时,也筛选中间被少数碱基 (间隔小于100或等 于100)打断的不完全重复的SSR。 结果:重复序列的信息文件以及统计文件。
UniGene拼接
• 目的:将预处理后reads进行拼接,得到拼接结果 。 原理: 应用 de Bruijn graph path 算法对reads进 行denovo拼接;对上一步的拼接结果,再用 Hamilton Path算法拼接。 结果:UniGene序列,UniGene统计信息,序列 长度分布图
14
第二代测序技术的局限
与第一代测序仪相比,以合成测序为基础的下一代测序平台 速度显著提高,成本明显降低。每台设备每天产出千兆碱基
的序列不足为奇。 但是, 除了罗氏的454平台之外,读长短成了下一代测序平台 的致命伤,这主要是由于DNA簇中存在的光学信号移相造成
的。 而应运而生的单分子测序技术是解决这一问题的一种方法。
• 主要的测序平台 • 基因组分析原理 • 转录组分析原理 • 分析策略的选择
Sequencing Glossary
• Reads. A collection of clones that over-sample the target genome • Pair-end reads.Sequence reads derived from both ends of a
降低测序成本)。 在此种情况下,第二代测序技术(Next-generation
sequencing)应运而生。
6
• 主要的测序平台 • 基因组分析原理 • 转录组分析原理 • 分析策略的选择
概要
第二代测序技术
454测序 Illumina SOLID Polonator Complete Genomics
sequencing-library clone. • Mate-pair reads.Sequence reads derived from both ends of a mat
pair library clone which insert size is usually>1kb. • Insert size. The size of the clone-insert from which a clone-end pa
RSAM‐01:模式动植物基因组数据和注释信 息整合
RSAM‐07:可变剪接分析
• 可变剪接体 与Exon skipping junction 的识 别
RSAM‐08:转录起始位点(TSS) 分析
• TSS 类和转录起始位点模式的识别
• (1) 通过tag 聚类方法将5’端read 进行聚类,识 别出不同模式的TSS,例如下图所示:确定 cluster 的边界(黄色区
LncRNA预测
• 目的:对拼接得到的UniGene进行LncRNA(Long noncoding RNA)预测。 原理: 通过以下过程对UniGene进行过滤,最终得到候 选LncRNA序列。 1) Unigene length > 200bp; 2) Unigene ORF(Open Reading Frame) length < 300; 3) 将满足长度条件的UniGene与多个近源物种进行进化 分析,得到序列的保守性和进化特性; 4) 根据上述的特性和已知数据库中coding、noncoding区 域的特性建立编码筛选模型; 5) 将符合noncoding模型的UniGene与Pfam等蛋白域数 据库进行同源性比对,进一步去除可能的编码特性,最终 得出LncRNA预测结果。
3. 数据库注释
• 目的:对拼接得到的UniGene进行功能注释 原理:通过blast+算法将拼接得到的UniGene序 列与数据库进行比对 结果:比对结果表格,物种分布统计和Evalue分 布统计
UniGene表达分析
• 目的:UniGene定量分析。 原理:以UniGene为reference,分别将每个样本 的reads进行reference mapping ,从而得到每个样 本在每个UniGenes中的一个reads覆盖度,然后 应用RPKM/FPKM标准化公式对富集片段的数量 进行归一化。 RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:
外显子组分析工具
• 主要的测序平台 • 基因组分析原理 • 转录组分析原理 • 分析策略的选择
常规分析
• Transcripts quantification • Splicing sites discovery and quantification • Gene discovery • SNP/INDEL detection • Allele specific expression
15
第三代测序技术:单分子测序
Helicos Biosciences VisiGen
Pacific Biosciences Mobious Nexus I
……
16
17
直接测序法
在所有上述三 代测序技术中,序列都是在荧光或者化学发光物质的协助 下,通过读取DNA 聚合酶或DNA 连接酶将碱基连接到DNA 链上过程中
is taken. • Contig. The result of joining an overlapping collection of sequence
reads. • Scaffold. The result of connectiing non-overlapping contiges by
释放出的光学信号而间接确定的。 除了需要昂贵的光学监测系统,还要记录、存储并分析大量的光学图像 ,这都使仪器的复杂性和成本增加。依赖生物化学反应读取碱基序列更
增加了试剂、耗材的使用,在目前测序成本中比例相当大。 直接读取序列信息,不使用化学试剂,对于进一步降低测序成本是非常 可取的。为了实现这样的目标,目前就有很多人在研究纳米物理技术。 在全球,许多公司和组织,如Agilent,DNA Electronics,IBM, NabSys, Oxford Nanopore Technologies,Sequenom 等都在进行纳米孔测序的开发
问题出发
• 正常样本与异常样本,如肿瘤等; • 药物处理前后样本状态变化,如尼古丁刺激前后; • 发育不同阶段的样本改变
.............
第二代测序数据分析原理
徐汪节
三代DNA测序技术之比较
第一代测序技术:Sanger测序法 第二代测序技术:454测序……
第三代测序技术:? 直接测序法:?
ChIP-Biblioteka Baidueq
RNA-seq
Experiments
• DNA-seq: de novo, resequencing • RNA-seq:mRNA, ncRNA, smRNA... • ChIP-seq: Chromatin ImmunoPrecipitation • Methyl-seq: methylated DNA (epigenome)
• 域)。
• (2) 每个cluster 至少包含100 reads,并统计这 些cluster 的定位和分布数量
• (3) 统计不同TSS cluster 大小宽度分布,以及 转录起始模式的识别
RSAM‐09. 融合基因的发现( Fusion gene Discovery)
RSAM‐10. 非长编码RNA 与多外显 子反义转录本的识别
• UniGene表达分布图,1X,5X分别为FPKM=1, FPKM=5分界点,可以大体观察到低表达,中表 达以及高表达的比例关系
UniGene样本间表达相关性散点图
• 样本间表达差异程度的MA图,可以体现差异表达 总体偏差
UniGene表达差异分析
• 目的:对定量结果进行统计检验分析,找出差异 表达UniGene 原理:双层过滤筛选差异基因 FC值筛选:采用Fold-change(FC),表达差异倍 数进行第一层此的差异基因筛选 FDR检验:一般采用卡方检验中的fisher精确检 验进行p值检验,采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验, 即,通过FDR显著性参数进行第二层次的差异基 因筛选。
KEGG代谢通路分析
• 目的:对拼接得到 UniGene 进行 KEGG pathway 映射。 原理:应用KEGG KAAS在线 pathway比对分析 工具对拼接得到的UniGene进行KEGG映射分析 。 结果:标记的Pathway通路图。
IPA pathway analysis ()
图例 蛋白质编码效能分析(a,b),进化保守性水平(c)与lincRNA 表达量, 多外显子反义转录本表达量(d)进行对比分析
组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势
差异基因火山图,可以观察到差异基因总体分布
GO功能分类
• 目的:利用数据库注释信息将 UniGene进行 GO 功能分类。 原理:利用数据库的注释结果,应用blast2GO算 法进行GO功能分类,得到所有序列在Gene Ontology 的三大类:molecular function, cellular component, biological process 的各个层次所占 数目,一般取到14层。 结果:MF,BP,CC三大分类结果文件以及 UniGene2GO 关系列表,三大类别中第二层次上 的柱状分布图和饼图,GO功能的层次分布图。
,不同的只是采用的方法或策略。
18
19
20
Second generation sequence
• Roche 454 illumia Solexa
ABI SOLiD
Metagenomics De novo sequencing RNA-seq De novo sequencing Re-sequencing RNA-seq (ChromatinImmunoprecipitation,ChIP) Meth-seq Re-sequencing
……
8
454
9
SOLID
10
Illumina
11
其他
Polonator Complete Genomics
……
12
13
第二代测序技术的共同点
1 将目标DNA剪切为小片段 2 单个小片段DNA分子结合到固相表面
3 单分子独立扩增 4 每次只复制一个碱基(A,C,T,G)并检测信号
5 高分辨率的成像系统 。
相关文档
最新文档