电子克隆

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子克隆技术及其在植物基因工程中的应用

王冬冬朱延明李勇李杰柏锡

(东北农业大学生命科学学院,黑龙江哈尔滨150030)

摘要:电子克隆是随着基因组计划和EST 计划的实施而发展起来的, 是利用生物信息学手段进行基因克隆的新方法。它具有投入低、速度快、技术要求低和针对性强等优点。因此, 电子克隆技术必将成为植物基因工程中获得新基因的重要手段。阐述了电子克隆应用所依据的数据库与生物信息资源, 介绍了利用电子克隆获得功能基因的方法, 及其在植物基因工程中的应用现状与前景。

关键词:电子克隆; 植物基因工程; 表达序列标签EST; 生物信息学

电子克隆(in silico cloning)是近年来伴随着基因组计划和EST 计划发展起来的基因克隆新方法。电子克隆的技术原理是利用日益发展的生物信息学技术, 借助电子计算机的巨大运算能力, 通过EST 或基因组的序列组装和拼接, 利用

RT- PCR 的

方法快速地获得新基因。国际上Boguski 等学者在1994 年开始利用电子克隆方法发现新基因, 中国科学院生物物理研究所陈润生研究组在1996 也开始了对电子克隆的研究[1]。电子克隆技术应用的前提条件要具备拟研物种的丰富核酸序列信息, 其他物种的相关基因的信息, 以及强大的计算机硬件和相关生物信息学分析软件。基因组和EST 资料的丰富程度决定了电子克隆得以在人类、小鼠等生物中广泛应用。由于受到序列资料的限制, 植物基因的电子克隆还鲜有报道。但随着植物基因组计划和功能基因组学的发展, 电子克隆在植物基因工程研究中必将发挥出巨大的功用。

1 电子克隆技术及其依托的生物信息学资源

1.1 电子克隆的基本原理

利用电子克隆方法获得新基因是生物信息学的研究内容之一。生物信息学资源是由数据库、计算机网络和应用软件三大部分组成。而电子克隆的应用即是基于这三部分生物信息学资源而展开的。它是利用计算机技术, 依托现有的网络资源( EST数据库、核苷酸数据库、蛋白质数据库、基因组数据库等) , 采用生物信息学方法( 包括同源性检索、聚类、序列拼装等) , 通过EST 或基因组的序列组装和拼接, 利用RT- PCR 快速地获得部分乃至全长cDNA 序列的方法。

1.2 电子克隆的实施方案

首先, 在数据库或PubMed 中获得感兴趣的cDNA 或氨基酸序列, 基于EST 和基因组信息两种数据资源, 利用上述得到的已知基因序列实施电子克隆有以下两种方案。利用EST 数据库信息资料: ①利用序列同源性比较软件( 如Blast 软件) 将种子序列对库检索;②从数据库中挑选出全部相关序列; ③对所有序列进行片段整合分析( 即Contig 分析) , 形成延伸后的序列, 称新生序列。随后, 将此新生序列作为种子

序列重复进行上述三步过程, 直至新生序列不能被进一步延伸为止, 通过完整性分析即获得了全长的新基因序列[2- 3]。见图1。利用基因组信息资料: 把作为信息探针的氨基酸或核苷酸序列在NCBI 网站中对特定物种各基因组数据库进行BLAST 分析, 从结果中筛选出感兴趣的外显子序列, 并通过链接得到其所在的基因组序列, 同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正; 把这些感兴趣的外显子序列按照其所在基因组上的位置依次进行直

接连接, 或者把基因组序列提交到GenScan 和GeneFinder 等网站进行预测, 得到可能的新基因序列。有时各外显子分别处于较短的尚未组装的基因组序列中, 也可按探针基因外显子顺序进行直

接拼接; 把可能的新基因序列基于核酸数据库做BLAST 分析, 检验其新颖性; 把筛选后的新基因序列提交到dbEST 数据库做BLAST 分析并延伸,同时也是进一步确认其真实存在的可信度, 并进行组织表达定位, 为克隆该基因提供组

织来源信息。最后根据最终的序列设计引物, 进行RT- PCR 实验得到新基因[4]。见图2。

1.3 电子克隆依据的网络分析程序和应用软件

1.3.1 序列的相似性检索分析程序

一条序列对整个数据库进行相似性分析以发现其同源序列是电子克隆中的一个极其重要的方面。目前使用最广泛的程序是FASTA 和BLAST。FASTA集中反映具有显著意义的序列对齐结果。在互联网上已有许多的在线FASTA 查找服务, 同时也可下载后离线使用, 下载站点: ftp: //ftp. vir. /pub/fasta/dos/。BLAST( Basic Local Align mentSearch Tool, 基本局部比对搜索工具) 则采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和

数据库之间的最佳局部对齐效果。目前在互联网上有许多在线的BLAST 查找程序, 专门用于查找各大数据库中与用户提交的序列同源的序列, 如: NCBI (http: //www. ncbi. nlm. nih. gov/BLAST/blast. html)和EMBL(http:

//www. ebi. /blast2)和EBI 的FASTA(http: //www. ebi. ac. k/fasta33/)fasta33/)。同时运行这两个程序进行数据分析, 能避免漏检一些有用的信息[5- 6]。

1.3.2 序列拼接、聚类的软件序列拼接、聚类常用的软件或软件包见表1[7]。

1.3.3 核酸序列分析预测程序及软件

1.3.3.1 可读框架(open r eading fr ame,ORF)分析

mRNA 需要翻译为蛋白质方能发挥其生物学作用。因此, 核酸序列的可读框架分析是核酸分析的一个重要部分。基于遗传密码表, 可通过计算机方便的分析核酸序列的读码框。最常用的互联网ORF 分析资源是NCBI 提供的ORF Finder, 网址是http: //www. ncbi. nlm. nih. gov/gorf/gorf. html。1.3.3.2 基因序列中的编码区/内含子结构分析预测通过与数据库中已知的蛋白质序列、cDNA 序列以及EST 序列进行对比, 可识别编码区和内含子、外显子剪接位点。一些内含子和外显子数据库可供参考, 例如IDB( http: //Netmeg. bio. indiana. edu/intron/index. html) ;

ExInt( http: //intron. bic. . sg) 。也可通过GENESCAN( http: //211. 161. 196.214: 8888) 程序预测基因组序列中可能的外显子;利用Gene Finder 软件( http: //www. bioscience. org/urllists/genefind. html) 进行基因组序列的内含子和外显子分析。

1.3.3.3 基因启动子及其他DNA调控位点分析预测

基因启动子分析预测常用的数据库有真核生物启动子数据库EPD(Eukaryotic Promoter Database):http: //www. epd. isb- sib. ch/。植物启动子数据库PlantPromDB: http: //www. softberry. com/berry.

phtml?topic=plantprom&group=Data&subgroup=plantprom; 转录起始位点预测工具NNPP(Neural Network PromoterPrediction): http: //www. fruitfly. org/seq_tools/promoter. html,PROSCAN: http:

//bimas. dcrt. /molbio/proscan, PlantProm DB: http: //www. /berry.

phtmltopic=plantprom&group=data&subgroup=plantprom; 植物顺式作用元件分析工具PLACE: http:

//www. dna. affrc. go. jp/htdocs/PLACE/[5]。

1.3.4 蛋白质序列分析预测程序及软件

相关文档
最新文档