测序常用名词解释整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高通量测序领域常用名词解释大全
什么是高通量测序?
高通量测序技术(,)是对传统测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术( , )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序( )。
什么是法测序(一代测序)
法测序利用一种聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(),并混入限量的一种不同的双脱氧核苷三磷酸()。由于缺乏延伸所需要的3基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。
终止点由反应中相应的双脱氧而定。每一种和的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用光胶片放射自显影或非同位素标记进行检测。
什么是基因组重测序()
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
什么是测序
测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
测序名词关系图
什么是
就是打成的片段,而测序测的就是这些,测出来的结果就是,
又可以分为单端侧和双端侧,单端测序的话,只是从的一端测序,测多长就多长,双端测序就是从一个的两端测,就会得出两个
什么是
高通量测序平台产生的序列就称为。
(测序读到的碱基序列片段,测序的最小单位;)
什么是
拼接软件基于之间的区,拼接获得的序列称为(重叠群)。
(由通过对区域拼接组装成的没有的序列段;)
什么是 N50
拼接后会获得一些不同长度的。将所有的长度相加,能获得一个总长度。然后将所有的按照从长到短进行排序,如获得 1, 2,3...……… 25。将按照这个顺序依次相加,当相加的长度达到
总长度的一半时,最后一个加上的长度即为 N50。举例: 1 2+ 3 4总长度*1/2时, 4的长度即为 N50。 N50可以作为基因组拼
接的结果好坏的一个判断标准。
什么是
基因组测序(没有参考基因组的测序,需要研究人员从头拼接
得到的序列),通过拼接获得后,往往还需要构建454 库或库,以获得一定大小片段(如3、6、10、20)两端的序列。基于这
些序列,可以确定一些之间的顺序关系,这些先后顺序已知的组成。
(通过信息确定出的排列,中间有)
什么是 N50
N50与 N50的定义类似。拼接组装获得一些不同长度的。将所有的长度相加,能获得一个总长度。然后将所有的按照从长到短进行排序,如获得 1, 2, 3...……… 25。将按照这个顺序依次相加,当相加的长度达到总长度的一半时,最后一个加上的长度即为 N50。举例: 1 2+ 3 4 5总长度*1/2时, 5的长度即为 N50。 N50可以作为基因组拼接的结果好坏的一个判断标准。
什么是测序深度和覆盖度
测序深度:是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度:是指测序获得的序列占整个基因组的比例。
:由于基因组中的高、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
什么是、
, []:
每1百万个上的中到外显子的每1K个碱基上的个数。
假如有1百万个映射到了人的基因组上,那么具体到每个外显子
呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱
基上又有多少映射上了呢,这大概就是这个的直观解释。
如果对应特定基因的话,那么就是每1000000 到该基因上的中
每有多少是到该基因上的的
.
a . , .映射到外显
子上总的个数。这个是映射到某个区域上的个数,这个区域或者
是已知注释的基因或者跨两个外显子的边界或者是某个基因已
经注释的转录本的内含子、外显子。对于真核生物来说,外显子
和它们自己内部的关系由某类型的来注释。
: ,
1000. . , ,
.外显子的长度。计算时,计算所有某个基因已注释的所有外
显子长度的总和。即使某个基因以多种注释的转录本呈现,这个
外显子在求和时只被包含一次。即使部分重叠的外显子共享相同
的区域,重叠的外显子以其总长来计算。
: . a . ( ) 's . A 's
( ), , . ( )的
总和。映射到某个基因上的所有总数。因此这包含所有的唯一映射到这个区域上的。
举例:比如对应到该基因的有1000个,总个数有100万,而该基因的外显子总长为5,那么它的为:10^9*1000(个数)/10^6(总个数)*5000(外显子长度)=200或者:1000(个数)/1(百
万)*5(K)=200这个值反映基因的表达水平。
( ). 与计算方法基本一致。不同点就是计算的是,而计算的是。比的含义更广,因此包含的意义也更广,可以是的一个,也可以是一个。
什么是
当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的回帖到基因组时,一条被切成两段,匹配到不同的区域,这样的叫做,这些对于鉴定染色体结构变异及外源序列整合具有重要作用。
什么是
由于大部分测序得到的较短,一个能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类分配给较多的区域。
什么是外显子测序()
外显子组测序是指利用序列捕获技术将全基因组外显子区域捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对