高通量测序技术及实用数据分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目前单次运行可产生600/300Gb的数据量，测序长度可达到双端150~250bp。
SOLiD测序技术：
与合成测序不同，SOLiD是通过连接反应进行测序，即以不同荧光标记的 dNTP进行多次连接反应，而非聚合反应。与454测序技术类似，SOLFra Baidu bibliotekD测序技术采用的也是乳液PCR对待测DNA片段进行扩增。在乳液PCR扩增结束后，模板变性，然后将带有模板的磁珠富集。磁珠上的模板经过3’末端修饰后，可以共价结合在特定玻片上。每张特定的玻片可以容纳更多和高密度的磁珠是SOLiD系统最大的特点，因此SOLiD技术可以实现更高的通量。SOLiD测序反应就在SOLiD玻片表面进行。每个磁珠经测序后得到一条序列。
基于Sanger测序的基因组测序技术：
基于第一代测序技术进行全基因组测序主要依靠“鸟枪法”。将目的基因组DNA随机打断成小片段，然后分别对这些大小不同的小片段进行测序，再将这些小片段利用重叠关系连接起来，从而形成一致序列，达到全基因组测序的目的。分级鸟枪法测序和全基因组鸟枪法测序是采用鸟枪法进行基因组测序的2种主要方法。其中分级鸟枪法需要构建物理图谱。全基因组鸟枪法不需要构建物理图谱，直接将全基因组随机打断成小片段进行测序，操作过程相对简单很多，但是在生成一致序列时依赖强大的计算能力。
OLC算法的基本思想是基于多序列比对获得共有（一致）序列，主要由3步来完成：
a. Overlap阶段：所有序列（reads）两两比对（all-versus-all comparison），搜索序列间的交叠部分，生成的交叠信息用于构建交叠图；
b. Layout阶段：OLC拼接的核心步骤。将所有Reads进行排列，确定它们之间的相对位置，将每个序列片段作为节点构建交叠图，通过对交叠图分析，寻找对应于待测基因组片段的路径集合，即寻找形成的contig ； c. Consensus阶段：将包含在contig上的Reads进行多序列比对，构建共有序列，即最终的congtig。
第二代测序：高通量测序（NGS）
高通量测序/第二代测序（Next-generation sequencing, NGS）一次性对几百万到几亿条DNA分子进行并行测序，又称大规模平行测序。高通量测序可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。
常见的高通量测序测序平台
高通量测序数据分析流程
Genome assembly
基因组组装就是利用高覆盖度的reads之间的交叠关系，重新构建待测基因组序列的过程。
1
2
3
Important concept in assembly
•contig Contiguous sequence of DNA created by assembling overlapping sequenced fragments of a chromosome (whether natural or artificial, as in BACs) • Scaffold A series of contigs that are in the right order but are not necessarily connected in one continuous stretch of sequence
气泡结构
K-mers
使用固定K值，不能有效的处理重复序列覆盖区域
K=3
气泡结构
气泡结构的解决办法：使用迭代算法： 1. 先用小k值，保证较好的连通性 2. 再逐步增加k值，用于去除重复序列
AAGACTCCGACTGGGACT AGACTCCGACTGGGACTT GACTCCGACTGGGACTTT
Hiseq2000/Hiseq1000（HIseq2500/Hiseq1500）平台简介：原理：基于DNA单分子簇边合成边测序技术，以及专有的可逆终止化学反应的原理。将基因组DNA的随机片段附着到光学透明的玻璃表面（即Flow cell），这些DNA片段经过延伸和桥式扩增后，在Flow cell上形成数以亿计的簇（Cluster），每个Cluster是具有数千份相同模版DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸，通过可逆性终止的SBS（边合成边测序）技术，将捕获的不同光信号转化为特定的峰值即可获得待测DNA序列的碱基顺序，据此对待测的模板DNA进行测序。 SBS：加入的dNTP要么通过酶促级联反应催化底物发出特定荧光信号，要么在合成互补链时释放出相应的荧光信号。
支持各种来源的测序数据，包括Hiseq的short reads和454的long reads。
能够处理多种格式的数据，如 fasta、fastq、fasta.gz、fastq.gz、sam、bam。输出结果为简洁的 contig，同时描绘覆盖结果的直方图、详细图等，借助第三方软件可以进行图形化展示。
Genome Assembly
基于贪婪策略的启发式算法（gready heuristics）
给定初始contig（reads），按照给定的标准，基于reads之间交叠关系，逐碱基扩展，达到延长contig的目的
初始read
常用的标准有：选择具有最长的交叠、选择具有共性最高的碱基等给定的标准需要在长度和准确度之间寻求平衡：标准标准 contig长度 contig长度准确度准确度
高通量测序/第二代测序（Next generation sequencing, NGS）
NGS测序平台:
NGS测序文库：PE、MP
NGS特点：高通量: （>600Gb/run）读长短: （35~1000bp/reads）成本低 :（<0.01 $/Mb) NGS数据格式：fasta、fastq NGS应用范围：genome、chromatin、transcriptome
Ion Torrent测序技术：使用半导体技术将生化反应与电流强度直接联系。在聚合酶反应时，每聚合一个碱基会释放出相应的质子，引起周围环境PH的变化，将 PH变化转化为电流的变化，最终记录电流信号，获得测序序列。读长约200bp，根据芯片不同可以一次产生10M-20G的数据。
第三代测序：单分子测序
不同于第二代测序依赖于DNA模板与固体表面相结合然后边合成边测序，第三代分子测序，不需要进行PCR扩增。早在2008年，HelicoBio Science 公司的Harris等在Science上报道了他们开发的TIRM（total internal reflection microscopy）测序技术。 BioScience Corporation的HeliScope单分子测序仪（HeliScope Single Molecular Sequencer）；Pacific Biosciences公司的单分子实时DNA测序技术[Single Molecule Realime (SMRT) DNA sequencing technology]； Oxford Nanopore Technologies Ltd公司的纳米孔单分子测序技术。技术优点：速度快，测序速度是化学法测序的2万倍；读长长，三代测序一个读长可测几千个碱基（二代测序可以测到上百个碱基）；直接测 RNA的序列；直接测甲基化的DNA序列。目前该技术主要缺陷是测序错误率高且标记核苷酸的成本高。
test@ubuntu:~$ sudo apt-get install velvet #软件安装
#输入密码
#安装成功
test@ubuntu:~$ velveth -h
#测试是否安装成功
#版本号
#支持reads类型的数目 #支持最大的k值 #用法介绍
焦磷酸测序技术：引物与模板DNA退火后，在dna聚合酶(DNA polymerase)、ATP硫酸化酶(ATP sulfurytase)、荧光素酶(1uciferase)和三磷酸腺苷双磷酸酶(Apyrase)4种酶的协同作用下，将引物上每一个dNTP的聚合与一次荧光信号的释放偶联起来，通过检测荧光的释放和强度，达到实时测定DNA序列的目的。
生物信息学
Bioinformatics
高通量测序及数据分析
第一节测序技术及其发展
• （基因组/DNA）测序经历了三代技术的发展
第一代测序：Sanger测序
第二代测序：高通量测序第三代测序：单分子测序
第一代测序：Sanger测序
Sanger双脱氧链终止法测序：用双脱氧核苷酸(ddGTP, ddATP, ddTTP, ddCTP)作为链终止试剂（双脱氧核苷酸在脱氧核糖上没有聚合酶延伸链所需要的3－OH基团，所以可被用作链终止试剂）通过聚合酶的引物延伸产生一系列大小不同的分子后再进行分离的方法。
含有A,T,C三种脱氧核苷酸，G双脱氧核苷酸，依次类推......
测序引物与单链DNA模板分子结合后，DNA聚合酶用dNTP延伸引物。延伸反应分四组进行，每一组分别用四种ddNTP（双脱氧核苷酸）中的一种来进行终止，再用PAGE分析四组样品。从得到的PAGE胶上可以读出我们需要的序列。
具有共同的起始点，但终止在不同的的核苷酸上
K = 18
software: SOAPdenovo、Velvet、ALLPATHS、ABySS、 etc
主要组装软件的比较
Velvet进行基因组组装
由欧洲生物信息中心（EMBL-EBI）开发，在Linux系统下运行的从头（de novo）基因组组装软件。
主要用于拼接测序读长较短的序列，如Solexa和Solid测序序列。
NGS Library Type
Single (RL) Pair end (PE) Mate pair (MP)
NGS数据格式
1） fasta格式 2） fastq格式： Illumina以及NCBI等常用网站的数据格式是FASTQ，包含序列信息和测序质量打分信息。
3）SOLiD平台的数据一般分为两个独立的文件：一个为CSFASTA文件一个为QUAL文件。其中QUAL文件包含质量评估信息。CSFASTA不同于FASTA的地方在于，序列的碱基位于不同的颜色区间，而且用0-3这几个数字表示两个相连的碱基。
software: ARACHNE, PHRAP, CAP, TIGR, CELERA etc
基于de Bruijn图的算法（简称DBG算法） 1. 在短序列拼接时，de Bruijn算法得到广泛应用 2. 该拼接技术和OLC算法有很多相似性，主要区别在于构建算法图的策略不同 3. 主要步骤为：a. 将序列分解为多个长度为K的子序列（k-mer）；b. 通过 k-mer构建de Bruijn图；c. 寻找欧拉路径。 • 每一个k-mer作为图中一个节点，两个k-mer如果在同一read中相邻，则形成一个边。 • 长度为K的子序列都将转化为图中的一个节点。 • 拼接问题等价的转化为在de Bruijn 图中寻找经过每一个节点且仅一次的的路径（欧拉路径）。
该方法比较直观，相对简单
贪婪算法的局限：
在候选扩展相差不大时，贪心方法导致拼接中断需要大量内存存储计算需要的数据，不能有效处理大数据量的计算。不能处理基因组中的重复序列
software: SSAKE, SHARCG, VCAKE, PE-Assembler, etc
Overlap-Layout-Consensus（OLC）算法交叠-排列-共有序列
4 ）把序列拼接到参考序列上产生的数据格式为SAM格式或者BAM格式。下图为SAM格式的数据：
NGS应用范围
NGS测序流程及数据分析
基因组测序平台选择： 1） Experiment Purpose (re-sequencing/de novo) 2） Genome Size 3） Genome complexity