测序常用名词解释整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高通量测序领域常用名词解释大全
什么是高通量测序?
高通量测序技术(High-throughput sequencin,g HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencin,g NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行
细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing。)
什么是Sanger法测序(一代测序)
Sanger法测序利用一种DNA 聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP 缺乏延伸所需要的3-OH 基团,使延长的寡聚核苷酸选择性地在G、A、T 或C 处终止。终止点由反应中相应的双脱氧而定。每
一种dNTPs 和ddNTPs 的相对浓度可以调整,使反应得到一组长几百至几千碱
基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
什么是基因组重测序(Genome Re-sequencin)g
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大
的科研和产业价值。
什么是de novo 测序
de novo 测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随
着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
测序名词关系图
什么是fragments
fragments 就是打成的片段,而测序测的就是这些fragments,测出来的结果就是reads,又可以分为单端侧和双端侧,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两
个reads
什么是Reads
高通量测序平台产生的序列就称为reads。
(测序读到的碱基序列片段,测序的最小单位;)
什么是Contig
拼接软件基于reads之间的overlap 区,拼接获得的序列称为Contig(重叠群)。(由reads通过对overlap区域拼接组装成的没有gap的序列段;)
什么是Contig N50
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig 长度相加,能获得一个Contig 总长度。然后将所有的Contigs 按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3... Contig 25。将Contig 按照这个顺序依次相加,当相
加的长度达到Contig 总长度的一半时,最后一个加上的Contig 长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig 总长度*1/2 时,Contig 4 的长度即为Contig N50。Contig N50 可以作为基因组拼接的结果好坏的一个判断标准。
什么是Scaffold
基因组de novo 测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb 、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig 之间的顺序关系,这些先后顺序已知的Contigs 组成Scaffold。
(通过pair ends信息确定出的contig 排列,中间有gap)
什么是Scaffold N50
Scaffold N50与Contig N50 的定义类似。Contigs 拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3... Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2 时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。
什么是测序深度和覆盖度
测序深度:是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度:是指测序获得的序列占整个基因组的比例。
Gap:由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装
获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
什么是RPKM、FPKM
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:
每1 百万个map 上的reads中map 到外显子的每1K 个碱基上的reads个数。
假如有1 百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多