新一代DNA测序技术总览
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作者:尹银亮、陈会平、毛良伟译来源:生物谷
原文刊登于《分析化学》综述Analytical Chemistry
原文标题:Landscape of Next-Generation Sequencing Technologies
索引信息:/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro
译者资料:
尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@
陈会平,毛良伟,武汉华大基因科技有限公司
【内容】
第二代测序
第二代测序成本
第三代测序技术
单分子测序法
边连接边测序法
边合成边测序法
纳米孔测序技术
蛋白质纳米孔测序法
固态纳米孔测序法
长距离阅读DNA的扩展方法
总结性评论
DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。
第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌
体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。
后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组
复合序列就是大体上由细管电泳测序系统来测定完成的,不仅耗资庞大,花费人力无数,而且历时超过十年。尽管发表于2001年的基因组仍然处于有待完善的过程中,但其作为基因组的"参照"序列而被采用,已成为生命科学转化为实际应用的基础,并继续对研究基因型-表现型的关系发挥着重要作用。从迄今为止发表的(和未发表的)文献报道来看,要对人类复杂疾病进深入的有医疗意义的探讨,非常有必要去获得其他类型的"个人"基因组数据,如,特定组织mRNA表达概况,mRNA测序,基因调控区域的个性化分析,表观遗传调控的概况,以高质量和大范围的染色体图谱分析来归类重要的染色体删缺,插入和重排等等。为成百上千的单个个人,把他们各自的完整基因组学数据与他们完整复杂的病史对应起来,将带我们进入个体化医学的时代。大规模测序中心正完成新一代的测序仪器的转型,联合基因组研究所(the Joint Genome Institute, JGI)已经淘汰了所有的桑格测序仪。而另一方面,除非小型的第二代测序仪能在清楚读出每个碱基上的成本和测序读长上胜过毛细管电泳测序系统,毛细管测序系统仍将会大量应用于特定区域测序,如定量基因表达,生物标志物鉴定和生物学途径分析等专向性研究。
第二代测序
关于"下一代"是什么,或更确切的说,第二代测序技术是什么,已有几篇综述出现了。我们提议,将第二代技术定义为:是同步化三磷酸核苷酸的洗脱方法和同步化的光学检测方法的结合。但这种定义不是很严格。因为有几种算作是第三代测序的实时合成测序的方法,也依赖于光学检测。如太平洋生物科学公司(Pacific Biosciences')的单DNA聚合酶测序法就是突出例子。第二代测序技术靠的是连接测序,或者合成测序,包括焦磷酸测序和可逆性的链终止法。由罗氏(Roche),以鲁米那(Illumina), 赫利克斯(Helicos)和生命技术公司(Life Technologies)以商业化提供的仪器,以短的连续性的片段序列和测序阅读长度的形式,每周输出数十亿碱基对(Gbp)的DNA序列。对这种基于合成测序,也就是由一种DNA 聚合酶或连接酶主导化学过程的第二代测序方法,关于它们所面临的挑战和它们这些酶学方法的优势,另有一篇综述已做了详细的介绍。
表1. 第一代和第二代测序技术
第二代测序成本
在过去的几年里,主导第二代测序仪市场的几家公司,纷纷依靠已知的参照基因组(通过第一代桑格测序方法完成的人类基因组),以更好更经济的第二代测序方法生产出了拼接好的人类全基因组序列。同当年以ABI公司的桑格毛细管电泳测序仪产生出克莱格.文特尔(J.Craig Venter)的基因组序列草图所花的成本相比, 由罗氏(Roche)的454基因组测序仪FLX,以鲁米那(Illumina)的基因组分析仪,和赫利克斯(Helicos)的Heliscope测序仪得到原始数据所花成本,大体上分别下降了1个, 2个和3个数量级。不过,在这些报道中,只是计入了耗材和试剂成本。这些新的"大规模平行"测序仪需要大量的在仪器设备上投资,因为许多这样的高通量仪器价格都在每台50-100万美元之间。而操作这些仪器和进行信息学分析以拼接序列的人力花费也应计入总的测序成本。到本文发表之前,以鲁米那公司的仪器在第二代测序市场占据60%的份额,居于领先地位。而在剩余市场部分中,生命技术公司的Solid系统和罗氏各自分得近19%。以鲁米那公司的全基因组测序服务,每测一个全基因组费用为19500美元,比起2008年要测定一个人的全基因组所花的试剂的成本250000美元(或者是每个测好的碱基0.02美分)已经少得多,而比1996年的成本更是少了几个数量级,因为当时的第一代测序成本为每个碱基一美元。为减少成本,采用可逆末端终止物的合成测序法的以鲁米那公司,最近新推出了较小的,较便宜的Miseq测序平台,承诺可以在27个小时内以150的测序阅读长度来产出超过1GB(10亿个碱基)的数据。这种更袖珍而多功能的测序仪是专门为应对毛细管电泳测序在普通实验中的应用而设计的,如克隆鉴定,扩增序列测序,小基因组测序等。另一款规模较大的是,生命技术公司的5500xl系列仪器,以连接测序的方法,每七天能总共测出300亿碱基的序列。台式测序仪的市场里还有Ion Torrent,是生命技术公司的一个分部,正在开发第三代技术,最近刚上市了一款"个人基因仪器"(Personal Gene Machine)和"Ion Express触摸式模板制备系统"(Ion Express One Touch template preparation system)。而罗氏的454是以焦磷酸测序法,以荧光酶标记的微粒来检测单个碱基的延伸,像是对1996年同步地对DNA四种碱基测序方法的优化。这种发出光线的焦磷酸测序法,不需要用多个荧光团,也不需要激光或昂贵的光学滤片,大大降低了仪器的成本。罗氏的454GLXFlex Titanium系列,一台价值50万美元的仪器,每天可以生产高质量的4-6亿个碱基校读数据。其新的目标是要达到超过800碱基校读的测序读长。价值10万美元的454 GS Junior小型测序仪,于2009年推出市场,也是以台式仪的小型研究项目为目标,能在10个小时内以400碱基的读长完成35Mb(35兆碱基)的数据。"台式"新一代技术的发展,力求大大降低成本和仪器体积和简化测序过程,并持续提高测序能力,测序读长和精确度,从而在台式测序的市场上对第一代桑格毛细管测序构成直接挑战(毛细管测序的最后生存空间)。
为了显示全基因组测序的真实成本,美国国立人类基因组学研究所(National Human Genome Institute, NIGRI)把从他们的测序中心得到的测序成本数据进行了编辑整理,以便准确地估计出测定一个人类全基因组序列的全部成本。他们的计算中计入了人力花费,测序仪的3年折旧费,数据处理花费和样品准备过程的花费。图1显示了自2001年人类基因组最初草图发表后,每测序一套相当于人类单倍体基因组所花费的相应成本。在2008年所见的测序成本急降正是由第一代桑格毛细管测序向安装于各个测序中心的第二代测序平台转变的结果(如454,Illumina,SOLiD). 第二代测序技术产生出彼此重叠不高的相邻测序阅读