烟草基因组知识篇_2_基因组测序
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
76 中国烟草科学 2010,31(2):76-77
烟草基因组知识篇:2. 基因组测序
孙玉合
(中国农业科学院烟草研究所,青岛 266101)
基因组计划的最终目标是获取所研究生物体的全部DNA序列,一般包括三个图谱,即遗传图谱、物理图谱和基因组全序列图谱,并将基因以及其他有意义的特征定位于DNA序列中。
人以及模式生物的染色体都不能直接进行DNA测序,因此首先必须将它们随机地“敲碎”(通过限制性内切酶酶切或超声波处理或DNA酶Ⅰ降解)变成成千上万的小片段,构建成不同水平和类型的基因组文库,例如YAC(yeast artificial chromosome,酵母人工染色体)文库、BAC(bacterial artificial chromosome,细菌人工染色体)文库和cDNA文库等。
然后对文库中的每个克隆片段进行DNA测序,再对所有测定的每条序列经过计算机程序处理装配成染色体上完整的DNA序列。
1 DNA测序方法
两种不同的快速有效的传统DNA测序方法于上世纪70年代中期几乎同时发表。
链终止法(chain termination method)指单链DNA分子的序列由互补的多核苷酸链的酶促合成来决定,互补链在特定的核苷酸位置终止[1]。
化学降解法(chemical degradation method)指双链DNA分子用化学物质处理后,在特定核苷酸位置被切开,从而确定DNA分子的序列[2]。
链终止法是基因组测序的主要方法,一方面因为化学降解法中的化学试剂有毒,对测序人员的健康有害,另一方面主要因为链终止法更易自动化[3]。
基因组计划包括大量的测序反应,手工测序将花费很多年时间,因此要在可接受的时间内完成测序计划,就必须采用自动测序方法。
自上世纪90年代初,所有的DNA测序操作几乎无一例外地全部采用半自动化毛细管电泳链终止测序法。
为了提高测序速度,人们尝试设计新的测序方法,其中一种就是焦磷酸测序(pyrosequencing),它不需要电泳或其他方法分离不同长度片段,因此比链终止法测序速度快[4]。
最近,许多新一代测序仪(例如美国Roche Applied Science公司的454基因组测序仪、美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪又称作Solexa测序仪、美国Applied Biosystems公司的SOLiD测序仪等)都使用了一种称之为循环芯片测序法(cyclic-array sequencing)的新方法,也可将其称为“新一代测序技术或者第二代测序技术”[5]。
所谓循环芯片测序法,简言之就是对布满DNA样品的芯片重复进行基于DNA的聚合酶反应以及荧光序列读取反应。
新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的,它可以价廉、快速地进行DNA测序,它有望成为第三代测序技术(也可称为下下一代测序技术)[6-7]。
2 DNA测序的策略
基因组测序工作量浩大,选择适当的测序策略很重要。
测序策略主要有两种:第一种是克隆重叠群作图(clone contig mapping),也称“自上而下”作图(top-down mapping)或由长到短作图策略;第二种是“全基因组鸟枪法”(whole-genome shotgun method)作图,也称“自下而上”作图(bottom-up approach/mapping)或由短到长作图策略[8]。
这两种测序策略也称作完全测序和草图型测序策略[9]。
在第一种测序策略中,首先建立连续克隆重叠群,再对单个重叠群采用鸟枪法进行逐个测序,最后在重叠群内进行拼接,获得全长序列。
而在第二种测序策略中,直接将基因组DNA随机切成2 kb(kilobase,
中国烟草科学77 千碱基)左右的小片段,然后进行随机末端测序,再以基因组的分子标记为起点进行DNA片段拼接,计算机分析串联得到全序列。
序列拼接的最初结果是一系列的骨架序列(scaffold),每条骨架序列包括一系列被序列缺口分开的连续序列,不同的骨架序列之间被物理缺口分开;通过封闭序列缺口和物理缺口,可将不同的骨架序列拼接起来。
3 DNA序列的装配
无论是采用哪种策略进行测序,得到的都是成百上千万的小片段DNA序列,最后必须要将它们装配成基因组每条染色体上真实的排列顺序,这是手工操作无法完成的,需要借助计算机和数据库以及相关的软件系统。
因此,DNA序列的装配是一项浩繁、技术要求高而又精细的工作。
首先需要通过计算机软件对测定的DNA序列的数据质量和准确性进行评估,包括给出每个碱基的可信度;确定所测每个样品的高质量部分;在序列拼接完成后对拼接成的重叠群整体的可信度进行评估,给出可能的错误率[8]。
其次,进行序列装配。
一般采用的是Phil Green实验室建立和发展的Phred-Phrap-Consed 软件系统。
不过,随着基因组计划的不断进行,各国各实验室都开发和建立了自己的基因组测序装配的相关软件。
基因组测序的最后一步是基因组注释(genome annotation),即利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,包括基因识别和基因功能注释(这将在下期中介绍)。
人类基因组计划(HGP)于1990年正式启动。
2001年,“国际人类基因组测序联合体”(International Human Genome Sequencing Consortium, IHGSC)和美国Celera Genomics公司几乎同时在《自然》和《科学》杂志上刊文发表了两个人类基因组序列的“工作框架图”,它们覆盖了97%的基因组,组装了85%的基因组序列[10-11]。
在对人类基因组的测序与序列装配过程中,IHGSC和Celera Genomics公司采用了不同的方法。
IHGSC采用的是克隆重叠群法,也称为层次鸟枪测序法(hierarchical shotgun sequencing),而Celera Genomics公司采用的则是全基因组鸟枪测序法,也称为随机全基因组测序法(random whole-genome sequencing)。
2004年,IHGSC在《自然》上发表了人类基因组全序列的测定结果[12],人类基因组接近完整的序列图包含28亿5千万个碱基对,覆盖了常染色质99%的序列,在10万个碱基中误差率只有一个碱基,特别值得注意的是人类基因组仅有2~2.5万个编码蛋白质的基因。
参考文献
[1] Sanger F, Nicklen S, Coulson A R. DNA sequencing with chain terminating inhibitors[J]. Proc Natl Acad Sci USA, 1977, 74:
5463-5467.
[2] Maxam A M, Gilbert W. A new method for sequencing DNA[J]. Proc Natl Acad Sci USA, 1977, 74: 560-564.
[3] 布朗T A. 基因组2[M]. 袁建刚,等译. 北京:科学出版社,2002:192-218.
[4] Ronaghi M, Ehleen M, Nyrn P. A sequencing method based on real-time pyrophosphate[J]. Science, 1998, 281: 363-365.
[5] Shendure J, Ji H. Next-generation DNA sequencing[J]. Nat Biotechnol, 2008, 26: 1135-1145.
[6] Branton D, Deamer D W, Marziali A, et al. The potential and challenges of nanopore sequencing[J]. Nat Biotechnol, 2009, 26:
1146-1153.
[7] Rusk N. Cheap third-generation sequencing[J]. Nat Methods, 2009, 6: 244-245.
[8] 路铁刚, 丁毅. 分子遗传学[M]. 北京: 高等教育出版社,2008:406-409.
[9] Morot-Gaudry J –F, Lea P, Briat J –F. 植物功能基因组学[M]. 王元英, 时焦,等译. 北京:中国农业科学技术出版社,
2009:17-23.
[10] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. Nature, 2001,
409: 860-945.
[11] Venter J C, Adams M D, Myers E W, et al. The sequence of the human genome[J]. Science, 2001, 291: 1304-1351.
[12] International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome[J]. Nature,
2004, 431: 931-945.。