表达序列标签的应用现状及分析方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表达序列标签的应用现状及
分析方法研究
王晓娜,卢欣石
(北京林业大学草地资源与生态实验室,北京100083)
摘要:表达序列标签是由大规模随机挑取的cDN A克隆测序得到的组织或细胞基因组的表达序列标签。

1个表达序列标签(EST)代表生物某一时期的某种组织或细胞的1个表达基因。

数量迅速增加的表达序列标签已经成为开发分子标记的重要资源。

介绍了EST原理、基因表达分析的方法比较、基因测序聚类分析的3个数据库比较及详细方法,表明EST在发现新基因及基因组研究中的应用具有良好的前景。

关键词:表达序列标签;聚类;分析方法
中图分类号:Q78 文献标识码:A 文章编号:1001 0629(2010)05 0076 09
表达序列标签EST(Ex pressed Sequence Tag)是从一个随机选择的cDNA克隆进行5 端和3 端单一次测序获得的短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20~7000bp不等,平均长度为360 120bp。

EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比更可能穿越家系与种的限制,因此EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息上是特别有用的。

另外,由于EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此EST也能说明该组织中各基因的表达水平。

EST s已经被广泛地应用于基因识别,研究发现EST s的数目比GenBank中其他的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因[1]。

由于EST 测序只是测定部分序列,也不需要对克隆进行排序,因而完成EST测定所需要的人力、物力消耗与基因组测序和全长cDNA测序相比要少的多,具有经济和高效的特点。

由于DNA测序技术的不断更新和大规模测序技术的出现,在DNA测序中逐步实现了工厂化和流水作业,因此测序费用大幅度降低[2]。

近年来,表达序列标签数据增长迅速。

在GenBank102版本数据中,EST序列已经占用了2/3的记录[3]。

美国国立生物技术信息中心(Na tional Center for Biotechno logy Information,NC BI)对EST进行了聚类分析,按基因划分EST,组成UniGene数据库。

还有一些网站开发了基于Internet的EST延伸服务,如Labonw eb网站的IRACE(http://ww bonw ),Bio sino 网站的BioEclone(: 9090/bio eclone.htm l)等[4 5]。

因此对EST的技术要求及应用进行归纳分析,有利于对研究对象分析不同基因的表达水平,为挖掘和克隆基因提供理论支撑。

1 EST特点及其应用
EST计划作为植物基因组计划的一个重要组成部分,已经在多种植物物种中开展起来。

相关标记包括EST SSR、EST PCR、EST SNP、EST AFLP、EST RFLP等[6]。

近年来,EST的应用已经深入到生物学的领域,其中表达序列标签微卫星(EST SSR)技术的发展和应用较为普遍,根据SSR的来源可将其分为基因组SSR和
76-84 05/2010
草 业 科 学
PRA T A CU L T U RA L SCI EN CE
27卷05期
V ol.27.N o.05
收稿日期:2009 10 15
基金项目: 863 高产、多抗、优质苜蓿新品种分子聚合育种
项目(2008AA10Z149)
作者简介:王晓娜(1986 ),女,河北衡水人,在读硕士生,主要
从事牧草分子标记辅助育种研究。

E_mail:xiaotaoyan5070@
通信作者:卢欣石 E_m ail:luxins hi304@
EST SSR[7]。

EST SSR标记狭义上是指位于EST序列上的或者基于EST序列开发的SSR标记,也被称为eSSR标记。

目前较为常用的核酸序列数据库有:美国国家信息中心的GenBank,欧洲分子生物学实验室的EMBL,日本国家数据库DDBJ,这3个数据库是收录范围最广并完全向公众开放的数据库,在它们中均含有EST子数据库dbEST。

在核酸序列数据库中,EST的量要占65%以上[8]。

由于EST是功能基因的一部分,不同基因组间,基因编码区序列的保守性远远高于非编码区,与基因组SSR相比EST SSR表现出较好的物种之间的可转移性[9 10]。

作为一种新型分子标记,EST SSR来自表达基因,因而除具备传统基因组来源的SSR标记的所有优势外,可能与基因功能表达具有直接或间接关系,从而强化了SSR 标记在遗传研究中的应用[11]。

在种质资源遗传多样性方面,张鹏等[12]利用SRAP和EST SSR分子标记对192份国内外芝麻S esamum ind icum进行分析。

发现我国南部地区芝麻品种遗传多样性较中部和北部地区丰富。

Eujayl等[13]利用EST SSR等3种不同类型的微卫星标记对64个硬粒小麦T riticum aesti vum品种的遗传多样性进行评价,表明EST SSR 可在硬粒小麦中揭示较高的多态性。

在基因连锁方面,利用分群分析法对多花黑麦草L olium p erenne抗叶斑病进行EST CA PS 标记,得到位点p56位于第5遗传连锁群,所处的基因为编码多花黑麦草天冬酰胺合成酶基因[14]。

在基因功能方面,郭久峰等建立沙冬青A m mop ip tan thus mongolicus的cDNA文库并通过EST分析技术研究其抗逆机理,得到的313个已知功能的基因标签中抗逆相关的有48条[15]。

杨成君等[16]建立了药用植物人参Panax qinseng的EST SSR标记。

陈士林等[17]构建了西洋参P.quinquef olius的cDNA文库,经EST 分析获得与水分胁迫相关的基因7个,与受伤诱导相关的基因2个,编码抗氧化酶相关的基因6个。

并在根系的EST文库中发现抗病基因12个,62个EST是其他物种尚未报道的新基因。

佘玮等[18]以生长中期的苎麻Boehmer ia nivea茎皮为材料构建cDNA文库,并进行EST分析,随即测序得到275个有效序列,约53.5%的EST 序列可能是未报道的新基因序列。

综上所述,EST为种质资源的保护利用和遗传育种工作提供科学依据,同时作为功能基因组研究的重要手段,在功能基因的开发与研究中也发挥重要作用。

2 EST在苜蓿中的研究
近几年,苜蓿M edicago sativa分子水平的研究有所深入,利用RAPD分子标记研究苜蓿种质资源遗传多样性[19]及其他相关基因的克隆序列分析等研究相对较多,如蒺蒺藜状苜蓿中MtERF 6基因的克隆及序列分析[20]。

但EST的研究相对较少,闫娟等[21]利用EST SSR标记分析了我国北部和中部地区天蓝苜蓿M.lup ulina 的遗传多样性和遗传结构,推测中等水平的遗传多样性和高度的居群间遗传分化主要受它的自交特性和分布方式影响。

在Genbank数据库中进行搜索,得出测序最多的20个物种中,除经济类作物玉米Zea may s、水稻Ory z a sativa、小麦等序列较多外,大部分物种为动物,蒺藜状苜蓿排在最后,序列条数为409757。

在表达序列标签数据库(dbEST)中进行搜索,测序最多的前20个物种中,没有和苜蓿相关的物种序列(总序列45660524条)。

由以上数据可以看出,苜蓿基因的测序分析研究相对较少,只有蒺藜状苜蓿得到的EST 较多,而紫花苜蓿和黄花苜蓿M.f alcata有待深入的研究。

3 EST获取及分析过程
3.1EST的获取过程 构建生物某一发育阶段的cDNA文库,然后大规模、随机地挑选cDNA 文库中的克隆或通过某种方法筛选cDNA中的某些克隆,最后对cDNA克隆的5 及3 进行测序,进而得到一个EST[22]。

77
05/2010草 业 科 学(第27卷05期)
3.2EST分析过程
3.2.1利用ESTs大规模分析基因表达水平 一般认为,组织和细胞分化依赖于基因特异性的时空表达,而生物体在某一时期的基因表达数量通常只占全部基因的15%[23]。

因为EST序列是从某种特定组织的cDNA 文库中随机测序而得到的,所以可以利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。

标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。

为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Pr oject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。

CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:Digital Gene Expressio n Displayer(DGED)和cDNA x Pro filer。

3.2.2基因表达系列分析(Serial Analy sis of Gene Expressio n,SAGE) 随着公用数据库中EST数据的急剧增加,基因表达研究可以利用数字化分析方法来实现[24 25],即从能够代表相应组织或器官基因表达情况的cDNA文库中获得大量EST,经过软件聚类拼接后依据代表基因的EST及其出现频率的信息进行基因表达分析。

同样原理,也可以利用代表基因3 端表达信息的SA GE标签或近来出现的代表基因5 端信息的CA GE标签来进行。

有学者把这种基于表达标签的基因表达水平定量分析方法称为数字化方法(digital metho d)或者数字化No rthern(digital Northern),而将传统的与cDN A克隆阵列和Oli g o芯片杂交分析称为模拟方法(analo g meth o d)[26]。

Velculescu等[27]1995年提出基因表达系列分析是一种用于定量、高通量基因表达分析的实验方法。

SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9~14个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反映了对应的基因的表达丰度。

技术流程如图1。

3.2.3DNA微阵列或基因芯片的研究 随着EST s数据的扩大,用EST s文库制备的DNA芯片将使测序过程简化并有力促进功能基因组学研究[28]。

高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。

在许多情况下,cDNA芯片的探针来源于3 EST[29],所以EST序列的分析有助于芯片探针的设计。

以上几种方法比较,EST s更适合大规模分析基因的表达水平(表1)。

4 EST S与基因预测
Adams等[30]提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。

虽然ESTs 序列数据相对不精确,精确度最高为97%[31],但实践证明EST技术可大大加速新基因的发现与研究。

由于EST来源于cDNA,因此每一条EST 均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。

使用合适的比对参数,90%以上已经注释的基因都能在EST库中检测到[32]。

EST s可以作为其他基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。

4.1测序方向的选择 根据不同的试验目的选择不同的测序方向[33 34]:
1)5 端:5 端上游非翻译区较短且含有较多的调控信息。

一般在寻找新基因或研究基因差异表达时用5 端EST较好,大部分EST计划都是选用5 端进行测序的,而且从5 端测序有利于将EST拼接成较长的基因序列。

2)3 端:3 端m RNA有一20~200bp的ply A结构,同时靠近plyA又有特异性的非编码区,所以从3 端测得EST含有编码的信息较少。

78P RA T A CU L T U RA L SCIEN CE(Vo l.27.N o.05)05/2010
图1 SAGE技术流程
表1 几种大规模分析基因表达水平的方法比较
类项EST SA G E M icr oarr ay GeneChip 发现新基因是是是是
有序列是(可直接进行可变剪切的分析)否否否
主要问题采样量试验过程重复性成本高
但研究也表明[35],10%的m RNA3 端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为ST S标记。

3)两端测序:获得更全面的信息。

4.2序列前处理 由于得到的序列包含一些不利因素,再聚类前要经过处理。

主要涉及到:1)去除低质量的序列(Phred);2)应用BLAST、Re peatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences),包括:载体序列(ftp:///reposi
79
05/2010草 业 科 学(第27卷05期)
to ry/v ecto r)、重复序列(RepBa,http://w w w.gi r )和污染序列(如核糖体RNA、细菌或其他物种的基因组DNA等);3)去除其中的镶嵌克隆,镶嵌克隆的识别包括Back to back poly(A)+ tails、Linker to linker in m iddle o f the sequence 和Blastn/Blastx search;4)最后去除长度小于100bp的序列。

4.3聚类方法及EST s聚类的数据库分析比较 EST聚类(clustering)分析通过序列同源比较或其他注释信息,把属于同一基因的EST聚合成一簇,聚类的作用就是为了产生较长的一致性序列(consensus sequence),用于注释。

降低数据的冗余,纠正错误数据可以用于检测选择性剪切[36]。

4.3.1聚类可分为不严格的和严格的聚类(loose and stringent clustering) lo ose cluster ing特点:产生的一致性序列比较长,含有同一基因不同的转录形式,如各种选择性剪接体。

每一类中可能包含旁系同源基因(par alo gous ex pressed g ene)的转录本,序列的保真度低。

如南非国家生物信息研究所(SA NBI)的ST ACK[37]采用基于字的聚类算法(w ord based clustering),省略了所有的比对过程,其核心在于识别并计算序列间有多少长度为n的字(w ord)能够匹配,代表性的算法有d2_cluster算法[38],是一种凝聚性的聚类算法。

而stringent clustering则产生的一致性序列比较短,表达基因ESTs数据的覆盖率低,因此所含有的同一基因的不同转录形式少,序列保真度高。

它采用类似于BLAST和FAST A的序列比对的算法,通过寻找序列间的局部相似性来判断两序列是否具有重叠片段或连续的匹配,并据此聚类。

如NCBI的Unigene[39](此系统同时还利用一些注释信息,如EST序列的克隆号)以及美国基因组研究所(T IGR)的Gene Indices[40] (TGICL聚类,适用于大规模EST序列的快速聚类,并可进行连锁分析)。

4.3.2EST s聚类的主要数据库
1)UniGene(http://w w w.ncbi.nlm.nih. gov/UniGene):U niGene Clustering方法由美国国家生物技术信息中心(Natio nal Center for Bio techno logy Infor matio n,N CBI)发展而来。

该方法使用M EGABLAST程序[41]对序列进行同源比较,采用的聚类阈值为序列间至少有100个碱基的重叠区,并且占70%以上的重叠区域的碱基同源性大于96%,依据该阈值先对已注释的基因聚类成簇,再根据EST与EST及EST与初始基因簇之间的序列同源性进一步进行聚类,由此产生的基因簇包括同一基因的不同剪接形式。

2)T IGR Gene Indices(http://w ww.tigr. o rg/tdb/tg i/):目前,根据不同的研究目的发展了多种EST聚类分析方法,其中被广泛使用的有美国基因组研究所发展而来的T IGR ASSEMBLER 方法[42]。

该方法借助FAST A程序[43]对序列进行两两比较,再根据同源比较结果用TIGR AS SEMBLER工具对相关序列进行拼接,把重叠区超过40个碱基,且该区域的碱基同源性大于95%的序列合并成一簇。

T IGR利用这个方法对来源21个物种的5358611条EST进行了聚类分析,分别建立了各个物种的基因索引(T IGR Gene In dices)[44]。

3)STACK:南非国家生物信息研究院(So uth African National Bioinform atics Institute,SAN BI)的STACK PACK方法(http://w ww.sanbi. ac.Za/Dbases.htm l),其主要特点是根据不同的组织来源先把EST分类,再根据重叠区超过150个碱基,且重叠区域的碱基同源性大于96%的聚类阈值,用d2 cluster程序[45]对各类EST分别聚类。

用ST ACK PACK分析结果建立的ST ACK 数据库可用来进行SN Ps检测和基因特异性表达的研究[46]。

目前有学者已经提出了一种基于样本间关系的新聚类方法,即从基因表达数据中通过pearson 相关系数获得样本间的关系,并用网络的方法表示这种关系,通过该网络的空间结构特征来提取样本间的关系特征,并在这种关系特征空间中进行样本的聚类[47]。

4.3.3基于BLAST和FASTA的脚本(BLASTN and FASTA based scripts) 在EST 研究中,使用最多的方法就是序列相似性比较,以
80P RA T A CU L T U RA L SCIEN CE(Vo l.27.N o.05)05/2010
此来确定EST的功能。

BLAST(Basic Lo cal A lig nm ent Sear ch T ool)是应用较广的工具软件之一,为同源分析的软件包,包括BLA ST N、BLASTP、T BLASTN、TBLA ST X、BLASTX5个软件[48]。

4.3.43个数据库的比较分析
1)U niGene:结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为m eg ablast,数据库不产生一致性序列。

2)T IGR Gene Index:用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FAST A的FLA ST,该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。

3)ST ACK:用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。

4.4EST接拼 由于高中比率重复序列的存在、克隆文库时产生的无可回避的间隙、基因的多态性以及测序技术或实验室一些人为因素引起的错误等的存在,要想把序列拼接正确是非常困难的[49]。

Cluster的连接:利用cDNA克隆的信息和5 ,3 端Reads的信息,不同的Cluster可以连接在一起。

常用的拼接软件为Phrap。

Phrap常与phred、cro ss match、consed组成一个软件包,通常用的是perl写的脚本程序PhredPhrap。

Feng Liang等比较了Phrap、CAP3、T IGR A s sembler,认为CAP3是最佳的软件[50 51]。

4.5基因注释及功能分类 注释的过程包括序列比对寻找同源基因和蛋白结构功能域的搜索。

4.5.1注释 EST数据注释通常先做blastx比对,将所有未知的EST序列按理论上的6种阅读框翻译为蛋白质序列,在非冗余的蛋白序列数据库(Non redundantprotein Sequence Database, NR)中搜索同源序列,它提供所有可能的翻译结果的比对,并且对每个比对结果进行综合的显著性分析。

在blastx中不能匹配上的核酸序列可以继续通过blastn搜索相应的核苷酸序列数据库(N ucleo tide Sequence Database,NT)。

如果要进一步验证BLAST结果,或者更详细了解蛋白序列信息,可以通过InterPro来补充和完善。

同样通过BLAST无法注释的序列,可以进一步通过InterPro数据库,搜索序列中可能含有的蛋白功能结构域(domain)、模体(m otif)等信息[52]。

局部序列比对工具BLAST是最常用的相似性检索工具[53 54]。

用户可以登录NCBI网站(ht tp://w w /BLAST/)进行检索,也可在其他网站上进行检索,还可以下载于本地运行(ffp:///)。

4.5.2基因功能分类 基因功能的分类可分为手工分类和计算机批量处理。

其中手工分类的大部分以Adam s等[55]提出的分类体系为标准。

而计算机批量处理则是利用标准基因词汇体系Gene Onto logy进行近似的分类。

其结果将会发现与已知功能的蛋白具有高度同源性的已知基因(know n genes),与未知功能的蛋白具有高度同源性的未知功能基因(un kno w n g enes)和仅有很低同源性或没有同源蛋白的序列,记为新基因(nov el g enes)[56]。

GO注释分为3个层次,分别说明基因产物执行哪种分子功能、参与哪个生理过程以及定位于哪个细胞部位[57]。

4.6后续分析 EST方法的优点在于它不需要很多关于目的基因的假设,可为后续的研究提供大量基因资源信息[58]。

所谓后续分析即EST通过以上聚类接拼,将基因功能分类后,进行比较基因组学分析、基因表达谱分析、新基因研究、基因可变剪切分析、实验验证(MicroArr ay、GeneChip、RT PCR、N orthen bloting)[59]。

用EST取代对cDNA全长的筛选、基因组序列的鉴定等繁琐的实验操作,可大大地提高分离基因的效率。

将所获EST用生物信息学方法与各公共数据库中已知序列进行比较,可迅速而准确地确定基因功能。

由于在构建cDNA文库时要尽可能地选用全长cDNA,所以一旦发现有价值的EST,就可以找到对应的克隆,获得的全长cDNA可以直接用于如转基因等的研究。

81
05/2010草 业 科 学(第27卷05期)
5 EST的问题与展望
用于构建的普通cDNA文库进行测序时,由于EST测序时克隆的挑选是随机的,高峰度表达基因引起mRNA的表达水平高而被反复测序;相反,一些峰度较低的基因需要测定上万个克隆才有可能被挑选测序。

因此,对于为寻找新基因或研究基因差异表达而言,用这样的cDNA文库进行测序,一方面稀有基因容易遗漏,及EST很短,没有给出完整的表达序列,相对较低丰度表达基因不易获得[60]。

另外,由于只是一轮测序结果,出错率达2%~5%。

有时有载体序列和核外mRNA来源的cDNA污染或是基因DNA的污染会对实验造成一定影响。

镶嵌克隆的出现以及序列的冗余都会导致所需要处理的数据量很大。

利用EST方法进行发现、分离基因的研究,不仅是人类基因组研究的热点,而且是植物基因组研究的重要内容[61 62]。

这将为人们更好地了解功能基因在不同组织中的表达提供分子生物学依据,从而为将来在分子水平调控生物的生长、发育、抗性和代谢规律打下理论基础,提供极有价值的资源。

参考文献
[1] Bog uski M S,T olsto shev C M,Bassett D E,et al.
G ene discover y in dbEST[J].Science,1994,30(9):
4.
[2] Bhattr amakki D,Chhabr a A K,H art G E,et al.An
I nteg rated SSR and RELP Linkag e M ap o f So rg hum
Bicolor M oench[J].G eno me,2000,43(6):988
1002.
[3] 李衍达,孙之荣.基因和蛋白质分析的实用指南
[M].北京:清华大学出版社,2000.
[4] 郝柏林,张淑誉.生物信息学手册[M].上海:上海科
学技术出版社,2000.
[5] 李越中,闫章才,高培基.基因组研究与生物信息学
[M].济南:山东大学出版社,2001.
[6] 陈全求,詹先进,蓝家样,等.EST分子标记开发研
究进展[J].农业生物技术科学,2008,24(9):72 77.
[7] Chen C,Zhou P,Cho iy a,et al.M ining and character
izing micro satellites f rom cit rus EST s[J].T A G the
or et ical and applied g enetics,2006,112(7):1248
1257.
[8] Leipe D D.G eno me and D NA sequence database[J].
Cur r O pin GenD ev el,1996,6(6):686 691.
[9] H anai L R,Campos T,Cama rg o L E,et al.Dev elo p
ment,characterization,and comparat ive analysis o f
polymor phism at common bean SSR lo ci iso lated
fro m genic and genomic sources[J].Genome,2007,
50(3):266 277.
[10] Ellis J R,Pashley CH,Bur ke J M,et al.High ge
net ic diversit y in a rar e and endang ered sunflo wer
as compared to a common cong ener[J].M ol Eco l.,
2006,15(9):2345 2355.
[11] 吴曼颖,刘昆玉,方芳,等.EST SSR标记的开发及
在果树上的应用研究进展[J].江西农业学报,
2009,21(5):59 62.
[12] 张鹏,张海洋,郭旺珍,等.以SR AP和EST SSR标
记分析芝麻种质资源的遗传多样性[J].作物学报,
2007,33(10):1696 1702.
[13] 忻雅,崔海瑞.植物表达序列标签(EST)标记及其
应用研究进展[J].生物学通报,2004,39(8):4
6.
[14] 丁成龙,沈益新,顾共如,等.分群分析法获得与多
花黑麦草抗叶斑病基因连锁的EST CA P S标记
[J].草地学报,2006,14(1):9 13.
[15] 郭九峰,孙国琴,沈传进,等.沙冬青cDN A文库的
构建和EST分析[J].华北农学报,2007,22(4):37
41.
[16] 杨成君,王军,穆立蔷,等.人参EST SSR标记的
建立[J].农业生物技术学报,2008,16(1):114
120.
[17] 陈士林,孙永巧,宋经元,等.西洋参cDN A文库构
建及表达序列标签(EST)分析[J].药学学报,
2008,43(6):657 663.
[18] 佘玮,邢虎成,秦占军,等.苎麻茎皮表达序列标签
(EST s)分析[J].热带作物学报,2008,29(2):657
663.
[19] 蒿若超,张月学,唐凤兰,等.利用RA PD分子标记
研究苜蓿种质资源遗传多样性[J].草业科学,
2007,24(8):69 73.
[20] 连瑞丽,李宇伟,赵德刚,等.蒺藜状苜蓿中
M tERF 6基因的克隆及序列分析[J].草业科学,
82P RA T A CU L T U RA L SCIEN CE(Vo l.27.N o.05)05/2010
2006,23(9):82 87.
[21] 闫娟,楚海家,王恒昌,等.用EST SSR标记分析中
国北部和中部地区天蓝苜蓿的遗传多样性和遗传
结构[J].生物多样性,2008,16(3):263 270. [22] 刘伟,邵菁,庞宏,等.大规模筛选表达序列标签
(EST)方法的改进[J].安徽农业科学,2007,35
(24):7410 7411.
[23] H appe T,K aminski A.D iferential reg ulatio n of the
F e hydrog enase during adaptatio n in the g reen alga
Chlam ydo monas r einhar dt ii[J].European Jo urnal
o f Biochemistry,2002,269(3):1022 1032.
[24] Rob M E,A lia B K,Olivier P,et r ge scale st a
tist ical analyses of rice ests r ev eal co rr elated pat
ter ns o f g ene ex pression[J].G eno me Research,
1999,9(10):950 959.
[25] Velculescu V E,Zhang L,Vog elstein B,et al.SA GE
Serial analysis of gene expression[J].Science,1995,
270(10):484 487.
[26] 赵光耀,孔秀英,贾继增,等.粗山羊草幼苗和根全
长cDN A文库构建及其EST注释与比较分析[J].
中国农业科学,2007,40(7):1331 1336.
[27] A udic S,Claverie J M.T he sig nificance o f digital
g ene expressio n prof iles[J].Genome Research,
1997,7(10):986 995.
[28] 李红,卢孟柱,蒋湘宁,等.表达序列标签(EST)分
析及其在林木研究中的应用[J].林业科学研究,
2004,17(6):804 809.
[29] Kleinbaum L A,Dugg an C,Fer reir a E,et al.H u
man chro mosomal localization,t issue/t umo r ex
pression,and r eg ulato ry function o f the ets family
g ene EH F[J].Biochemica l and Biophysical R e
search Communicat ions,1999,264(1):119 126.
[30] Adams M D,K elley J M,Go cayne J D,et al.Co m
plementary D NA sequencing:ex pr essed sequence
t ags and human genome pr oject[J].Science,1991,
21(6)252:1651 1656.
[31] Bailey L C,Jr sear ls D B,Dv erto n G C.A nalysis of
EST dr iven gene annotation in human genomic se
quence[J].G enome R esear ch,1998,8(4):362
376.
[32] Hillier L,Lennon G,Becker M,et al.Generation and
analysis of280,000human expressed sequence tag s
[J].Genome Research,1996(6):807 828.
[33] Hat ey F,T o sser K lopp G,Clo uscard martinato C,
et al.Expressed sequenced tag s for g enes:a r eview
[J].G enet Sel Ev ol,1998,30(5):521 541.
[34] Y ammano to K,Sasaki T.L arg e scale EST sequen
cing in rice[J].P lant M o lecular Bio lo gy,1997,35
(1):135 144.
[35] 张建成,王传堂,杨新道,等.SSR和ST S标记在花
生栽培品种鉴定中的应用研究[J].植物遗传资源
学,2006,7(2):215 219.
[36] H ide W,M iller R,Pt itsyn A,et al.EST Clustering
tutor ial[C].Heidelber g:ISM B G ermany,1999. [37] Christoffels A,van Gelder A,Grey ling G,et al.STACK:
Sequence tag alignment and consensus knowledgebase
[J].Nucleic A cids Res,2001,29(1):234 238.
[38] Bmke J,D av ison D,T lide W.d2_clust er:a v alida
ted method for cluster ing EST and full leng th cD
N Asequences[J].G enome Res,1999,9(11):
1135 1142.
[39] Schuler G D.P ieces of the puzzle:ex pressed se
quence tag s and the cat alog of human g enes[J].J
M o l M ed,1997,75(10):694 698.
[40] L ee Y,T sai J,Sunkar a S,et al.T he T IG R Gene In
dices:clustering and assembling EST and know n
g enes and integ ratio n wit h eukary otic g eno mes[J].
N ucleic Acids Res,2005,33(Database issue):71
74.
[41] Zhang Z,Schw artz S,W agner L,et al.A gr eedy al
go rithm fo r alig ning DN A sequences[J].J Comput
Biol,2000,7(1 2):203 214.
[42] Sutton G,W hite O,A dams M D,et al.T IG R As
sembler:A new too l fo r assembling larg e sho tgun
sequencing pro jects[J].Genome Sci T echno,1995
(1):9 18.
[43] Pear son W R,Lipman D J.Impro ved too ls f or bio
lo gical sequence comparison[J].P ro c N atl A cad Sci
U SA,1988,85(8):2444 2448.
[44] Quackenbush J,Cho J,L ee D,et al.T he T IGR Gene
Indices:Analysis of g ene transcr ipt sequences in hig hly
sampled eukaryotic species[J].N ucleic A cids Res,
2001,29(1):159 164.
[45] Bur ke J,D avison D,H ide W.d2_cluster:a v alida
83
05/2010草 业 科 学(第27卷05期)
ted metho d for cluster ing EST and full length cD
N A sequences[J].Genome Res,1999(9):1135
1142.
[46] M iller R T,Christo ffels A G,G opalakrishnan C,et
al.A comprehensive appro ach to cluster ing of ex
pressed human g ene sequence:T he sequence t ag a
lig nment and co nsensus know ledg e base[J].G e
nome Res,1999(9):1143 1155.
[47] 王文俊,张军英.一种新的基因表达数据聚类方法
[J].西安电子科技大学学报,2009,36(3):502
505,534.
[48] 夏云,雷二庆,王槐春.Int ernet实用技术与生物医
学应用[M].北京:军事医学出版社,1997:341
354.
[49] Green P.A g ainst a w hole g eno me sho tgun[J].G e
nome Res,1997,7(5):410 417.
[50] Jacek B,M ar ek F.A ssembling the SA RS CoV g e
nome new method based on g raph theor etical ap
pro ach[J].Acta Biochimica Polonica,2004,51(4):
983 993.
[51] Car valho C M L,M elo E P,Cabr al J M S,et al.A
steady state fluor escence study o f cutinase micr oen
capsulated in A OT r ev ersed micelles at o ptimal st a
bility co ndit ions[J].Jo ur nal o f Biotechno lo gy,
1998,21(8):673 681.
[52] 刘稳升,吴忠道.表达序列标签大规模序列分析策
略及方法[J].国际医学寄生虫病杂志,2007,34
(3):139 145.
[53] A lt schul S F,M adden T L,Schafer A A,et al.
G apped BL A SI1and P SI BL A ST:a new g ener atio n
of pr otein database sea rch pr og rams[J].N ucleic
A cids R es,1997,25(17):3389 3402.
[54] A ltschul S F,G ish W,M iller W,et al.Basic local a
lignment search too1[J].J M ol Bio l.,1990,215
(3):403 410.
[55] A dams M D,Ker lav age A R,Fleischmann R D,et
al.Init ial assessment of human g ene diver sity and
ex pr ession pat terns based upon83millio n nucleo
tides of cDN A sequence[J].N ature,1995,377:3
174.
[56] 钱骏,董利.表达序列标签数据库搜索鉴定小鼠
U BAP1基因及其数字化表达分析[J].生物化学与
生物物理进展,2002,29(2):323 327.
[57] 赵光耀,孔秀英,贾继增,等.粗山羊草(Ae.taus
chii)幼苗和根全长cDN A文库构建及其EST注释
与比较分析[J].中国农业科学,2007,40(7):1331
1336.
[58] 孙亮先,袁建军.EST技术在植物基因克隆和基因
表达谱研究中的应用[J].泉州师范学院学报,
2003,21(4):63 67.
[59] 崔佳欣,孟军,朱荣胜,等.大豆表达序列标签(ES
T s)研究进展[J].东北农业大学学报,2009,40(2):
123 126.
[60] 张新.表达序列标签(EST)的研究现状[J].黑龙江
医学,2008,32(9):676 678.
[61] Rounsley S,Linx K K.L arg e scale sequencing o f
plant genome[J].Curr O pin Plant Biol,1998,1(2):
136 141.
[62] Sasaki T.T he r ice g enome project in Japan[J].Pr oc
N atl Acad Sci U SA,1998,95(5):2027 2028.
C urrent situation and analysis method of Expressed Sequence Tags(EST)
WANG Xiao na,LU Xin shi
(Gr assland Resource and Eco logy Laborato ry,Beijing For estry U niv ersity,Beijing100083,China) Abstract:Expressed Sequence T ags(EST)is obtained fr om large scale sequencing of cDNA clones randomly,representing a gene expressed of o rganism o r cell at a time.It is becoming an impo rtant re sources in exploring molecular marks as the num ber o f EST incr eased rapidly.T he principles,meth o ds and procedur es are sum marized in this article.
Key word:EST;clustering;Analy sis Methods
84P RA T A CU L T U RA L SCIEN CE(Vo l.27.N o.05)05/2010。

相关文档
最新文档