生物信息学在高通量测序数据分析中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Illunima paired-end为主 Sanger、454、SOLiD为辅, PacBio目前也开始用于基因组测序补洞
文库构建
尽量随机打断
WGS (whole genome shortgun)
• Coverage depth(覆盖深度or测序深度): 每个碱基被测序的平均次数,是用来衡量 测序数据量的首要参数。 测序总数据量/基因组大小 Coverage ratio(覆盖率): 被测序到的碱基占全基因组大小的比率。 覆盖比率随覆盖深度升高而提高,亦受测 序bias的影响,如illumina测序会受到 GC bias的影响,而导致测序不均匀。 理论上(完全随机打断)测序深度达到20x 即可覆盖整个基因组。实际工作中一般需 要50x以上(100 bp读长)。 Reads长度越长越好。
第三代测序技术
Pacific Bioscience’s single molecule sequencing (2011) Nanopore sequencing
测序的基本反应原理:DNA聚合反应
第一代测序技术 Sanger 法
结合荧光标记和毛细管电泳
测序峰图
ABI 3730 sequencer
454 文库制备 测序反应 原理 光学检测 最大读长
乳滴PCR 聚合反应 焦磷酸 是 ~1 kb
Solexa
桥式PCR 聚合反应 反向终止合成 是 250 bp
SOLiD
乳滴PCR 连接反应 可剪切探针连接 是 75 bp
Ion torrent
乳滴PCR 聚合反应 pH电位差 否 200 bp
Pacific
全基因组测序不成功案例
麻风树基因组(日本,2011)
Read length: >1,000 bp Accuracy: 99.999% Cost: $0.5/kb Throughput: 6x105 bp/day
Sanger vs NGS
Sanger
样品量 是否需要电泳 大 是
NGS
小 否
通量
单位成本 准确率 读长
低
高 高 长
高
低 偏低 短
MiSeq
HiSeq 2000
Genome Analyzer II
高通量测序技术 AB/SOLiD
SOLiD System
5500 series
SOLiD 测序探针介绍
类似454的微球反应体系,但使用连接反应。
SOLiD Sequencing
• 每次测序反应的第1轮,测序引物1与接头序列互补形成平末端,然后与探针 连接。当探针1,2位与待测序列模板互补并连接上之后,获取荧光信息。然 后在探针的5,6位之间切开探针,进行下一个连接反应。这样重复多次,可 以获得模板序列的第1-2, 6-7, 11-12……位置的信息。
高通量测序技术 Illumina/Solexa
• 使用测序引物从自由的通用接头一 侧开始测序反应。 • 测序使用的dNTP每种碱基被不同的 荧光基团标记,同时脱氧核糖的3’OH被封闭,这样每轮测序循环只能 延伸一个核苷酸。读取碱基荧光信 号,就能知道这一轮每个簇结合上 的是什么核苷酸 • 然后切除荧光基团,打开被封闭的 3’-OH,继续进行下一轮反应
RNA测序
降解组测序
表观基因组测序 Chip-seq Clip-seq
生物信息学在高通量测序 数据中的主要应用
常用生物信息学分析平台与资源
• 常用编程分析平台: Perl / BioPerl Python / BioPython R / Bioconductor JAVA / BioJava • 常用网上资源: NCBI SRA – Sequence Read Archive UCSC Genome Browser SEQanswers – WiKi & Forum for NGS
高通量测序技术 Life/APG’s SOLiD
• 优点:由于使用双碱基编码技术(two-base encoding),准确率最高, 通量高 (max 300 Gb) • 缺点:读长最短 (max 75 bp),运行时间长(7-10 day),数据储存和分析 难度大
5500 Series Genetic Analysis Systems
•
• •
De novo assembly
Paired-end reads
Contig
Mate-end reads or long reads
Scaffold
Genetic map, FISH…..
Chromosome
基因组注释
蛋白编码基因注释 重复序列注释 非编码RNA注释,主要是miRNA
常用基因组拼接软件
• • • • • • • • Velvet Ray ABySS SOAPdenovo SSAKE SHARCGS MIRA Edena
基因组比对软件
• • • • • • • • BLAST BLAT MAQ SOAP Bowtie BWA SSAHA ELAND
SNP 分析软件
H3Y^HM' 454 测序的原理:焦磷酸测序 y Synthesis
' '
5’-磷酰硫酸 ATP硫酸化酶
Key sequence
Flowgram
荧光素酶
逐次加入dATP等,每加入一种,检测信号, 清洗再加下一种。
Sequencing 7.5 h
CR
h
! . 0,. 3'
高通量测序技术 Roche/454 pyrosequencing
高通量测序技术 Roche/454 pyrosequencing
• 顺次向流通池中加入4种dNTP中的一 种,流过微孔板的一面。 • 当dNTP与脱氧核糖骨架连接后释放 出焦磷酸,在与dNTP一起加入的ATP 硫酰化酶和荧光素酶作用下产生一系 列级联反应,放出不同的光信号。 • 每个微孔中光信号的有无,就表明对 应的dNTP是否连接到了片段上。
单分子 聚合反应 单分子实时荧光 是 ~ 15 kb
最大数据产出*
运行时间 主要错误 准确率 平均数据成本 数据分析难度
700 Mb
较短 Indel 低 高 较低
600 Gb
长 替换 高 低 高
300 Gb
最长 替换 最高 低 最高
~1.2 Gb
短 Indel 较高 较低 高
~80 Mb
短 CG删除 低 高 最低
*最大数据产出量往往不是最大读长的文库 HiSeq 2500和Ion Proton均号称1天测1个30x的人类基因组,成本$1000
高通量测序技术 的主要应用
DNA测序
基因组deno测序 基因组重测序
宏基因组 (Metagenome)测序
外显子组测序 转录组测序 表达谱测序 小RNA测序
GS Junior System GS FLX+ System
高通量测序技术 Illumina/Solexa
• 单链DNA两端加上非对称的通用接头(包括测序引物),接头 与事先固定在固相芯片表面的序列互补 • 单链DNA结合到芯片表面形成桥式结构。然后使用接头引物 进行PCR扩增 • 变性后在一个芯片上可以形成上亿个不相关的单链DNA分子 簇,其一端固定在芯片表面,另一端是自由的
生物信息学在高通量测序 数据分析中的应用
主 讲 人:李广林
提
纲
高通量测序技术的介绍
高通量测序技术的主要应用 生物信息学在高通量测序数据中的主要应用
高通量测序简介
高通量测序:一次性对几百万到十亿条DNA
分子进行并行测序,又称为下一代测序技术, 其使得可对一个物种的转录组和基因组进行 深入、细致、全貌的分析,所以又被称为深 度测序。 High-throughput Sequencing Next Generation Sequencing Deep Sequencing
基因组注释流程
全基因组成功测序案例
互叶梅基因组(国际互叶梅基因组测序项目,2013) The Amborella Genome and the Evolution of Flowering Plants
完全使用NGS测序组装
最原始的被子植物互叶梅Amborella已被确定是所有其他存活被子植物的 单一姊妹物种,是其他被子植物比较的关键参照物。 Amborella植物测序基因组解决了“达尔文难解之谜”——为什么几百万 年前花在地球上突然激增的问题。基因组序列为地球生命史上重大事件 提供了理论参考:开花植物的起源。
Solexa测序的原理:可逆阻断
高通量测序技术 Illumina/Solexa
优势:通量最高 (max 600Gb, HiSeq 2500) 主要错误来源:同一个簇内不同DNA链延伸情况不同(相 位差),导致读取错误 劣势:读长较短 (max 250bp, HiSeq 2500),运行时间长 (1-14 days,HiSeq 2500大幅提升了运行速度),数据存储 和分析难度大。
Ion Proton
Ion torrent 318 chip
高通量测序技术 Pacific Bioscience’s single molecule sequencing
• 每个纳米孔底部固定一个已经结合了引物和模板的DNA聚合酶分子。 • 每次测序反应加入一种荧光标记的dNTP核苷酸,聚合酶在检测空间内将其 捕获后产生光曝。 • 通过连续实时检测每个孔内的荧光信号,就快速测定了每个孔内的模板序列
高通量测序技术 Life/APG’s Ion torrent PGM
• 454发明者的新作品 • 测序反应在微阵列芯片上 的微反应池中进行。 • 每个dNTP结合到延伸链上, 会释放出一个H+,pH值变 化会导致电位变化。 • 检测每次dNTP流过的电位 差变化,就能知道该dNTP 是否连接上去。
优势:读长长(max 1 kb, GS FLX Titanium XL+),运行时间 短(10-23 hours) 主要错误来源:难以准确判定连续碱基(经过3次级联化学 反应产生的荧光信号与连接上碱基的数量线性关系较差), 容易产生Indel 劣势:通量相对偏低(max 700M),单位成本高
• • • • • • SAMTools SOAPsnp NGS-Backbone MAQ SeqMan NGen CLCBio Genomics
生物信息学在基因组分析方面的应用 基因组de novo测序
对未知基因组序列的物种
取样: 动物:血液、肌肉 植物:叶片(黄化叶,组培植株)
估算基因组复杂度(大小、重复序列比例、杂合度) 测序技术:
高通量测序技术 Roche/454 pyrosequencing
• 以固化了引物的玻璃微球为中心形成油包水结构的乳滴,每个乳 滴都是一个PCR反应的微量反应器(通过控制测序文库DNA的浓 度和微球悬浊液的浓度,保证大多数微球只结合一条DNA模板)。 • 经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。 变性后,使微球上结合的都是单链DNA片段。 • 富集微球,转移到刻有大规模微孔阵列的微孔板上,每个微孔只 容纳一个微球。
高通量测序技术 Pacific Science’s single molecule sequencing
优点:读长长 (max 15 kb) 缺点:错误率高 (单次反应错误率~15%。经改进后使用多次 循环重复,错误率降低到1%),通量低(与读长有关)
பைடு நூலகம்
SMAT Cells
Comparison of 5 NGS techniques
3
主要测序技术
第一代测序技术
Sanger sequencing (1980’s)
第二代测序技术(next generation sequencing, NGS)
Roche/454 (2005) Illumina/Solexa (2006) Life/APG’s SOLiD (2007) Life/APG’s Ion torrent (2010)
高通量测序技术 Life/APG’s Ion torrent PGM
优点:速度快(< 2 hours),准确度较高(只需要1次聚合反 应,电位变化与碱基数量线性关系较好),成本低,芯片可 升级 缺点:读长较短(max 200 bp),通量较低(max ~1G) 已有升级版Ion Proton,号称比Ion torrent强100倍。
文库构建
尽量随机打断
WGS (whole genome shortgun)
• Coverage depth(覆盖深度or测序深度): 每个碱基被测序的平均次数,是用来衡量 测序数据量的首要参数。 测序总数据量/基因组大小 Coverage ratio(覆盖率): 被测序到的碱基占全基因组大小的比率。 覆盖比率随覆盖深度升高而提高,亦受测 序bias的影响,如illumina测序会受到 GC bias的影响,而导致测序不均匀。 理论上(完全随机打断)测序深度达到20x 即可覆盖整个基因组。实际工作中一般需 要50x以上(100 bp读长)。 Reads长度越长越好。
第三代测序技术
Pacific Bioscience’s single molecule sequencing (2011) Nanopore sequencing
测序的基本反应原理:DNA聚合反应
第一代测序技术 Sanger 法
结合荧光标记和毛细管电泳
测序峰图
ABI 3730 sequencer
454 文库制备 测序反应 原理 光学检测 最大读长
乳滴PCR 聚合反应 焦磷酸 是 ~1 kb
Solexa
桥式PCR 聚合反应 反向终止合成 是 250 bp
SOLiD
乳滴PCR 连接反应 可剪切探针连接 是 75 bp
Ion torrent
乳滴PCR 聚合反应 pH电位差 否 200 bp
Pacific
全基因组测序不成功案例
麻风树基因组(日本,2011)
Read length: >1,000 bp Accuracy: 99.999% Cost: $0.5/kb Throughput: 6x105 bp/day
Sanger vs NGS
Sanger
样品量 是否需要电泳 大 是
NGS
小 否
通量
单位成本 准确率 读长
低
高 高 长
高
低 偏低 短
MiSeq
HiSeq 2000
Genome Analyzer II
高通量测序技术 AB/SOLiD
SOLiD System
5500 series
SOLiD 测序探针介绍
类似454的微球反应体系,但使用连接反应。
SOLiD Sequencing
• 每次测序反应的第1轮,测序引物1与接头序列互补形成平末端,然后与探针 连接。当探针1,2位与待测序列模板互补并连接上之后,获取荧光信息。然 后在探针的5,6位之间切开探针,进行下一个连接反应。这样重复多次,可 以获得模板序列的第1-2, 6-7, 11-12……位置的信息。
高通量测序技术 Illumina/Solexa
• 使用测序引物从自由的通用接头一 侧开始测序反应。 • 测序使用的dNTP每种碱基被不同的 荧光基团标记,同时脱氧核糖的3’OH被封闭,这样每轮测序循环只能 延伸一个核苷酸。读取碱基荧光信 号,就能知道这一轮每个簇结合上 的是什么核苷酸 • 然后切除荧光基团,打开被封闭的 3’-OH,继续进行下一轮反应
RNA测序
降解组测序
表观基因组测序 Chip-seq Clip-seq
生物信息学在高通量测序 数据中的主要应用
常用生物信息学分析平台与资源
• 常用编程分析平台: Perl / BioPerl Python / BioPython R / Bioconductor JAVA / BioJava • 常用网上资源: NCBI SRA – Sequence Read Archive UCSC Genome Browser SEQanswers – WiKi & Forum for NGS
高通量测序技术 Life/APG’s SOLiD
• 优点:由于使用双碱基编码技术(two-base encoding),准确率最高, 通量高 (max 300 Gb) • 缺点:读长最短 (max 75 bp),运行时间长(7-10 day),数据储存和分析 难度大
5500 Series Genetic Analysis Systems
•
• •
De novo assembly
Paired-end reads
Contig
Mate-end reads or long reads
Scaffold
Genetic map, FISH…..
Chromosome
基因组注释
蛋白编码基因注释 重复序列注释 非编码RNA注释,主要是miRNA
常用基因组拼接软件
• • • • • • • • Velvet Ray ABySS SOAPdenovo SSAKE SHARCGS MIRA Edena
基因组比对软件
• • • • • • • • BLAST BLAT MAQ SOAP Bowtie BWA SSAHA ELAND
SNP 分析软件
H3Y^HM' 454 测序的原理:焦磷酸测序 y Synthesis
' '
5’-磷酰硫酸 ATP硫酸化酶
Key sequence
Flowgram
荧光素酶
逐次加入dATP等,每加入一种,检测信号, 清洗再加下一种。
Sequencing 7.5 h
CR
h
! . 0,. 3'
高通量测序技术 Roche/454 pyrosequencing
高通量测序技术 Roche/454 pyrosequencing
• 顺次向流通池中加入4种dNTP中的一 种,流过微孔板的一面。 • 当dNTP与脱氧核糖骨架连接后释放 出焦磷酸,在与dNTP一起加入的ATP 硫酰化酶和荧光素酶作用下产生一系 列级联反应,放出不同的光信号。 • 每个微孔中光信号的有无,就表明对 应的dNTP是否连接到了片段上。
单分子 聚合反应 单分子实时荧光 是 ~ 15 kb
最大数据产出*
运行时间 主要错误 准确率 平均数据成本 数据分析难度
700 Mb
较短 Indel 低 高 较低
600 Gb
长 替换 高 低 高
300 Gb
最长 替换 最高 低 最高
~1.2 Gb
短 Indel 较高 较低 高
~80 Mb
短 CG删除 低 高 最低
*最大数据产出量往往不是最大读长的文库 HiSeq 2500和Ion Proton均号称1天测1个30x的人类基因组,成本$1000
高通量测序技术 的主要应用
DNA测序
基因组deno测序 基因组重测序
宏基因组 (Metagenome)测序
外显子组测序 转录组测序 表达谱测序 小RNA测序
GS Junior System GS FLX+ System
高通量测序技术 Illumina/Solexa
• 单链DNA两端加上非对称的通用接头(包括测序引物),接头 与事先固定在固相芯片表面的序列互补 • 单链DNA结合到芯片表面形成桥式结构。然后使用接头引物 进行PCR扩增 • 变性后在一个芯片上可以形成上亿个不相关的单链DNA分子 簇,其一端固定在芯片表面,另一端是自由的
生物信息学在高通量测序 数据分析中的应用
主 讲 人:李广林
提
纲
高通量测序技术的介绍
高通量测序技术的主要应用 生物信息学在高通量测序数据中的主要应用
高通量测序简介
高通量测序:一次性对几百万到十亿条DNA
分子进行并行测序,又称为下一代测序技术, 其使得可对一个物种的转录组和基因组进行 深入、细致、全貌的分析,所以又被称为深 度测序。 High-throughput Sequencing Next Generation Sequencing Deep Sequencing
基因组注释流程
全基因组成功测序案例
互叶梅基因组(国际互叶梅基因组测序项目,2013) The Amborella Genome and the Evolution of Flowering Plants
完全使用NGS测序组装
最原始的被子植物互叶梅Amborella已被确定是所有其他存活被子植物的 单一姊妹物种,是其他被子植物比较的关键参照物。 Amborella植物测序基因组解决了“达尔文难解之谜”——为什么几百万 年前花在地球上突然激增的问题。基因组序列为地球生命史上重大事件 提供了理论参考:开花植物的起源。
Solexa测序的原理:可逆阻断
高通量测序技术 Illumina/Solexa
优势:通量最高 (max 600Gb, HiSeq 2500) 主要错误来源:同一个簇内不同DNA链延伸情况不同(相 位差),导致读取错误 劣势:读长较短 (max 250bp, HiSeq 2500),运行时间长 (1-14 days,HiSeq 2500大幅提升了运行速度),数据存储 和分析难度大。
Ion Proton
Ion torrent 318 chip
高通量测序技术 Pacific Bioscience’s single molecule sequencing
• 每个纳米孔底部固定一个已经结合了引物和模板的DNA聚合酶分子。 • 每次测序反应加入一种荧光标记的dNTP核苷酸,聚合酶在检测空间内将其 捕获后产生光曝。 • 通过连续实时检测每个孔内的荧光信号,就快速测定了每个孔内的模板序列
高通量测序技术 Life/APG’s Ion torrent PGM
• 454发明者的新作品 • 测序反应在微阵列芯片上 的微反应池中进行。 • 每个dNTP结合到延伸链上, 会释放出一个H+,pH值变 化会导致电位变化。 • 检测每次dNTP流过的电位 差变化,就能知道该dNTP 是否连接上去。
优势:读长长(max 1 kb, GS FLX Titanium XL+),运行时间 短(10-23 hours) 主要错误来源:难以准确判定连续碱基(经过3次级联化学 反应产生的荧光信号与连接上碱基的数量线性关系较差), 容易产生Indel 劣势:通量相对偏低(max 700M),单位成本高
• • • • • • SAMTools SOAPsnp NGS-Backbone MAQ SeqMan NGen CLCBio Genomics
生物信息学在基因组分析方面的应用 基因组de novo测序
对未知基因组序列的物种
取样: 动物:血液、肌肉 植物:叶片(黄化叶,组培植株)
估算基因组复杂度(大小、重复序列比例、杂合度) 测序技术:
高通量测序技术 Roche/454 pyrosequencing
• 以固化了引物的玻璃微球为中心形成油包水结构的乳滴,每个乳 滴都是一个PCR反应的微量反应器(通过控制测序文库DNA的浓 度和微球悬浊液的浓度,保证大多数微球只结合一条DNA模板)。 • 经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。 变性后,使微球上结合的都是单链DNA片段。 • 富集微球,转移到刻有大规模微孔阵列的微孔板上,每个微孔只 容纳一个微球。
高通量测序技术 Pacific Science’s single molecule sequencing
优点:读长长 (max 15 kb) 缺点:错误率高 (单次反应错误率~15%。经改进后使用多次 循环重复,错误率降低到1%),通量低(与读长有关)
பைடு நூலகம்
SMAT Cells
Comparison of 5 NGS techniques
3
主要测序技术
第一代测序技术
Sanger sequencing (1980’s)
第二代测序技术(next generation sequencing, NGS)
Roche/454 (2005) Illumina/Solexa (2006) Life/APG’s SOLiD (2007) Life/APG’s Ion torrent (2010)
高通量测序技术 Life/APG’s Ion torrent PGM
优点:速度快(< 2 hours),准确度较高(只需要1次聚合反 应,电位变化与碱基数量线性关系较好),成本低,芯片可 升级 缺点:读长较短(max 200 bp),通量较低(max ~1G) 已有升级版Ion Proton,号称比Ion torrent强100倍。