DNA序列在植物系统进化研究中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2002-07-25.作者简介:石开明(1980-),男,硕士研究生,主要从事植物生化方面的研究.
DNA 序列在植物系统进化研究中的应用
石开明1,彭昌操1,彭振坤1,罗正荣2
(1.湖北民族学院生物科学与技术学院,湖北恩施445000;
2.华中农业大学园艺林学学院,湖北武汉430070)
摘要:DNA 序列分析已广泛应用于植物系统与进化学研究,根据不同的研究对象和问题选择相对应的DNA 序
列来进行研究显得十分重要.目前在植物系统与进化学中主要一些DNA 的应用,主要是讨论叶绿体基因组
(rbcL 等)和核基因组(18S ,ITS 等)中的特定DNA 序列区段.研究表明,18S ,rbcL 等编码基因一般适用于较高
分类阶元甚至整个种子植物谱系间的系统发育的探讨,而ITS 及cpDNA 的非编码区序列等因其较快的进化速
率多用于较低分类阶元的系统关系研究.
关键词:DNA 序列;植物系统与进化;叶绿体基因组;核基因组
中图分类号:Q523+·8 文献标识码:A 文章编号:1008-8423(2002)04-0005-06
直到30年前,形态性状在进化和系统学研究中仍然占统治地位,但形态性状易受环境影响,普遍存在趋同和平行进化现象,使得许多分类群的进化地位难以确定.而DNA 序列则不同,它直接反映物种的基因型,并记录进化过程中发生的每一件事,含有极为丰富的进化信息.依据DNA 序列上的差异来比较植物的亲缘和演化关系,可以为植物系统与进化研究提供最直接的证据.随着PCR 和DNA 测序技术的产生和发展,分子数据为植物系统学研究提供了丰富而翔实的资料,成为解决系统与进化方面的一个十分重要的技术手段.
植物基因组因其机构和功能上的差异,进化速率有所不同,基因组内,不同部分之间的序列变异速率也不同,这些都为不同分类阶元的系统发育提供了可供选择的多样化的性状来源.一般情况下,基因组内非编码区序列(包括内含子,基因间区)因其功能上的限制较少,比编码区表现出更快的进化速率(Curtris &Clegg ,1984;Palmer ,1991;Clegg et al .1994).研究中,人们首先将目光投向了叶绿体DNA ,其基因组较少且相对保守,单亲遗传.核基因组和叶绿体基因组的起源不同,二者可能有着不同的进化机制,核基因组的研究也逐渐引起人们的广泛重视.植物线粒体基因组进化速率不到叶绿体的1/3(W olf et al .1987),应用到植物系统进化研究中的范围比较窄.目前,对线粒体基因组研究的报道极少见到(Hiesel et al .1994;Pesole et al .1996),其有效的研究体系难以建立,因此本文将不予评述.
Olmstead &Palmer (1994)强调,选择一个序列进行系统发育分析时,通常要考虑到以下问题:(1)这个序列要足够长,以提供足够的带有系统发育的核苷酸位点,且所选序列的差异百分率必须适于所要解决的系统问题.一般认为所比较的分类群间的序列差异率在5%~15%间最为合适,这时既可以使性状间的多次置换降至最低,又能提供足够数量的性状(Ritland &Clegg ,1990);(2)此序列必须易于排序,这对性状的同源性的正确评价是十分必要的:(3)此序列必须是直系同源(orthologous )的.用于系统发育分析的许多核基因存在一个严重的问题即区分直系同源(与生物体系统发育有关的基因)和异系同源(paralogous ,基因组内与基因重复有关的基因)(Sanderson &Doyle ,1991:Doyle ,1992);叶绿体不存在这个问题,只要基因保留在叶绿体基因组内,所有的基因均为单拷贝.
1 叶绿体基因组(cpDNA )
大多数叶绿体基因组具有相似的结构,为闭环双链DNA .叶绿体DNA 总量约占植物总DNA 的10%~20%,长度多在120~160kb 之间,其长度变异主要由2个反向重复系列(IR )引起.这2个反向重复序列长约第20卷第4期
2002年12月湖北民族学院学报(自然科学版)J ournal of Hubei Ins titute for Nationalities (Natural Science Edition )Vol .20 No .4Dec .2002
图1 高等植物叶绿体DNA 结构示意图Fig .1 DNA structure of chloropast of higher plants IR :反向重复区,包括编码rD NA 的基因,
LSC :大的单拷贝区,SSC :小的单拷贝区22~25kb ,将整个cpDNA 分为一个大单拷贝区(LSC )和一个
小单拷贝区(SSC )(如图1).迄今为止,叶绿体DNA 序列分析
为植物系统学研究提供了大量信息,这是因为:(1)基因组较
小,但包含大量的DNA 成分;(2)在分子水平上的差异明显,
为比较进化研究提供了大量的基本的信息支持;(3)叶绿体
DNA 无论在序列还是在结构上都相当保守,因而保证了类群
间的可比性.目前,已有水稻(O ryza sativa )(Hiratsuka et al .
1989)、玉米Zea mays (Maier 1995)、烟草(Nicotiana tabacum )
(Shinozaki et al .1994)、一种列当科植物Epifagus virginiana
(Wolfe et al .1992))、一种绿藻(Nephroselmis olivac ea )(Turmel ,et al .1999)等物种的全部叶绿体DNA 序列被测定,许多重要的
叶绿体基因如rbcL 、psbA 、trank 、rpo 、atpB 等已被克隆与测定,这使得对叶绿体DNA 的序列分析显得十分方便.
1.1 rbcL 基因
rbcL 基因编码1,5-二磷酸核酮羧化酶/氧化酶大亚基,该酶催化光合作用中的C O 2的固定.由于该酶的重要性使rbcL 成为研究的重点对象.1977年,Coen 首先测定了玉米的rbcL 序列,1987年,Ritlandh 和Clegg Zura wski 和Clegg 首先提出rbcL 基因是用于系统发育研究的合适的基因位点.随着对rbcL 基因研究的深入,如结构和功能(Kellogg &Juliano ,1997)、进化速率(Bousquet et al .1992)及其在植物不同分类阶元中的系统学意义(Kellogg &Juliano ,1997)等等,rbcL 成为分子系统学研究中应用最普遍的基因之一.
虽然rbcL 基因在不同植物类群中的进化速率有着较大的差异(Bousquet et al .1992),但总的来说相对保守(如烟草和水稻的rbcL 基因的核苷酸相似性为93%),为植物较高分类阶元的系统发育历史的重建研究提供了一重要的性状来源,并得到了很好的启发性的研究结果.迄今为止,rbcL 基因序列已用于许多分类群的系统发育研究,从科内(多位远缘属间)(如Xiang et al .1993;Fay &Chase ,1996;Morton et al .1997;Richardson et al .2000;Schwarzbach &Ricklefs ,2000)到有花植物主要谱系间(Olmstead et al .,1992),甚至整个厥类(Hasebe et al .1995)、种子植物谱系间的关系(Chase et al .1993).
与进化速率快的基因相比,rbcL 基因与其它进化较慢的cpDNA 序列常被广泛应用于较远类群的系统学研究中,但用DNA 序列研究远缘相关类群常会遇到以下两个问题(Olmstead &Palmer ,1994):(1)所选编码序列的各核苷酸位点的替代速率不一致.如rbcL 基因的同义替代率比非同义替代率大约高15倍,但这一缺陷可以使DNA 序列翻译成蛋白,进而比较氨基酸序列的方法予以弥补(表1);(2)在主要植物分支间关系的研究中,许多关键问题常会涉及到早期植物在较短的时间里发生了怎样的变化,而进化慢的基因对于进化快的基因在分化时期未能发生足够的碱基替代,故对所发生的分支进化不能提供足够的重建信息,但将分子与形态数据结合起来分析,会对系统重建有所帮助.
1.2 其它叶绿体(cpDNA )基因
目前,除rbcL 基因外,越来越多的cpDNA 编码基因(如matK ,ndhF ,atpB 等)被广泛应用于不同科、目乃至整个被子植物的系统发育研究中.matK 基因的进化速率大约是rbcL 的2~3倍(Crayn ,1998;Gadek et al .2000),ndhF 基因的核苷酸替代速率约是rbcL 的2倍(Suguira ,1989;Wolfe ,1991;表1).在某些类群中,这两种基因能够更好地提供系统发育信息,解决系统关系.
atpB 序列与rbcL 基因的进化速率非常相似,其许多特性使其在较高分类阶元的系统关系研究中具有一定的价值,其长度为1497kb ,既容易被测序,又可以提供足够的潜在系统发育信息(Sc otland et al .1995;Smith &Carr oll ,1997;Prather et al .2000).非编码区序列的测定在植物不同层次系统学研究中也越来越受到重视(Small et al .1998),该区包括内含子(rpl16,rps16,rpoC1)和间隔区(trnL -F 和trnT -L ).与许多编码基因相比,这些非编码区因其在功能上的限制较少,表现出更快的进化速率;与相当长度的编码区片段相比,这些非编码区能提供更好的具系统学意义的信息位点,故多用于较低分类阶元及其分化类群间的系统学研究中(Clegg et al .1994;Downie et al .2000).虽然在植物系统学研究中目前该区积累的分子数据还不是非常多,但是其应用潜力却不容忽视.6湖北民族学院学报(自然科学版)第20卷