生物信息学在新基因全长cDNA电子克隆中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物技术通报
BIOTECHNOLOGYBULLETIN
・技术与方法・
2007年第4期
收稿日期:2007-01-31
作者简介:胡皝(1984-),男,在读硕士,研究方向:生物信息学
随着人类基因组测序工作的基本完成,人类进入到了后基因组时代,基因组学的研究从结构基因组学过渡到了功能基因组学[1],即从“是什么”过渡到“为什么”的研究。然而,全基因组序列的解读,并不能使人类对编码基因这一层次有更明确的认识。因此,cDNA的测序成为人们了解编码基因结构与功能的关键所在。要理解新基因的结构和功能,仅有不完整的cDNA片段是不够的。全长cDNA的获得是基因克隆的重要内容,也是目前基因组研究中的一个重要方面。目前获取基因全长cDNA序列较常见的方法有:cDNA文库筛选法[2]、快速cDNA末端扩增法[3]
和电子克隆法[4]
等。
电子克隆法是近年来基于表达序列标签(expre
ssedsequencetag,EST)和基因组数据库发展起来的
基因克隆新型技术,其利用生物信息学知识和计算机技术对EST或基因组数据库中进行同源性比较分析、整理拼接出新基因的编码序列,确认完整后
根据序列设计引物进行RT-PCR验证获得全长基因。具有效率高、成本低、对实验条件要求低等特点[5]。现以新基因全长cDNA电子克隆与分析的步骤为顺序,就生物信息学在其间的应用作一简单介绍。
1
新基因全长cDNA电子克隆的方法及生
物信息学在其中的应用
1.1
基于EST数据库的电子克隆
EST是从cDNA克隆中随机挑选出来进行一次
性测序的结果,一般长约200bp ̄500bp,通常作为基因的标志。近年来EST数据库容量扩增迅速,基于
EST数据库由一个已知的基因利用生物信息学的
方法进行功能基因的电子克隆已经成为目前最常用的基因克隆手段,许多新基因就是通过EST序列的拼接发现的[6,7]。
基于EST数据库的电子克隆大致步骤如下:第一步,选择其他物种尤其是亲缘关系较近的物种某
生物信息学在新基因全长cDNA电子克隆中的应用
胡皝
萧浪涛
(湖南农业大学生物科学技术学院,长沙410128)
摘
要:
新基因全长cDNA序列的获得常常是生物学工作者面临的难题,电子克隆是利用生物信息学手段得到新
基因全长cDNA序列的新方法。介绍了电子克隆的方法及其生物信息学在其间的具体应用,并概述了一些生物信息学在序列分析中的应用。
关键词:
生物信息学
电子克隆
全长cDNA
ApplicationofBioinformaticsinFull-lengthcDNASequencein
SiliconCloningofNovelGenes
HuHuang
XiaoLangtao
(CollegeofBioscienceandBiotechnology,HunanAgriculturalUniversity,Changsha410128)
Abstract:Toobtainthefull-lengthcDNAsequenceofanovelgeneisaproblemforresearchers.Insilicocloning
wasanewwayofobtainthefull-lengthcDNAsequencebybioinfomatics.Thisarticleintroducesthewayofinsilicocloningandthebioinformaticsapplicationinit.Itwasalsosummarizationofthebioinformaticsapplicationinthesequenceanalyse.
Keywords:
BioinformaticsInsiliconcloningFull-lengthcDNA
生物技术通报BiotechnologyBulletin2007年第4期
基因全长cDNA序列或EST序列为查询探针或者以该物种某基因EST为查询探针,搜索EST数据库进行Blast比对,得到许多EST序列,从中寻找感兴趣的EST(标准的选择与可预计的同源基因的同源程度有关。通常为:同源长度≥100bp,同源性50%以上,85%以下)。第二步,把感兴趣的EST基于GenBank中的非冗余数据库进行Blast分析,判断其是否是已知基因的一部分,筛选出新颖的EST。第三步,将筛选出的EST在该物种的EST数据库中进行搜索,找到部分重叠的EST进行拼接,经严格聚类分析,尽量避免含有旁系同源基因,拼接后产生的序列重叠群),相当于实验中的一部分cDNA步移工作。第四步,以新获得的重叠群为新的查询探针,继续搜索EST数据库,直到没有新的EST可供拼接为止。将拼接得到的序列对非冗余数据库进行搜索,以证明这是一个全新的序列。这种策略也存在一定的局限性,许多拷贝数较低的基因很难涵盖在EST数据库中,这些基因只能通过分析基因组序列才能被发现。
EST序列的拼接是电子克隆中非常重要的环节,用于EST序列的拼接的软件有很多,表1列出了一些比较常用的拼接软件[8],使用者可按具体情况选择不同的拼接软件以得到最好的结果。另外,还可以将序列提交到NCBI的UniGene[9]数据库上。NCBI的Unigene系统是GenBank中的序列另外分离出来形成一个非冗余的基因簇。数据库中除包含已确定的基因以外,还包括数以万计的表达序列标签,每个簇包含惟一的非冗余的基因序列,表达的组织类型和基因图谱位点。现在数据库中已经包括大量模式或重要生物的EST序列,其中人类、老鼠和水稻的序列最多。通过Unigene系统可以很方便地进行序列的拼接得到新基因。
表1常用的拼接软件及网址
1.2基于基因组数据库的电子克隆
人类基因组及其他许多模式、重要物种基因组测序工作的完成,基于基因组序列的新基因预测软件的开发为我们利用生物信息学的方法克隆新基因带来了新的策略。近年来,许多新基因[10]就是通过分析基因组序列发现的。
基于基因组数据库的电子克隆大致步骤如下:第一步,选择其他物种尤其是亲缘关系较近的物种某基因全长cDNA序列或EST序列为查询探针或者以该物种某基因EST为查询探针,基于GenBank中的非冗余数据库nr进行Blast分析,从结果中筛选出同源性较高、含外显子的该物种基因组重叠群或BAC克隆,并通过超级链接得到其所在的基因组序列,同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正。第二步,将这些外序列根据内含子和外显子的剪接特征“GU...AG”,通过人工拼接,或者通过基因预测软件预测,得到可能的新基因序列。第三步,把可能的新基因序列基于非冗余数据库做BLAST分析,检验其新颖性。第四步,把筛选后的新基因序列提交到dbEST数据库做BLAST分析并延伸,进一步确认其真实度。
用于基因预测的软件有很多,国际上使用最广泛的有GenScan、GeneFinder和FGENESH等,此外还有一些针对某一物种的专用基因预测软件,如水稻基因预测软件RiceHMM、玉米基因预测软件SplicePredictor和人类基因预测软件HumGene[11]等。
由于各种预测软件依据的原理不用,得出的结果也有所差异,使用者可同时利用几种预测软件的分析结果并结合自己的经验综合考虑,确定最有可能的基因结构。实际操作中常常将上述两种方法结合起来使用,使最后所得的序列更加准确。首先进行EST序列的拼接,无法拼接后再进行基因组比较和外显子预测,以判断EST拼接的完整性和正确性。
1.3全长cDNA的判断
运用以上方法得到的cDNA序列还不能确定
94