基因组研究进展作业 (2)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通过转录组测序我们得到了某木本植物A的一条EST(ExpressedSequenceTag)序列(核基因组),同时发现这个EST序列的表达量在干旱胁迫下明显升高,且本植物A目前没有可参考的基因组序列,但它的同源性与毛果杨(Populustrichocarpa)很高。

论述:(2000-3000字,可以加相关的图示说明)

1.你如何判断这个EST序列是否是一个完整的ORF(OpenReadingFrame)。如果不完整,我们可以通过什么样的方法得到它完整的ORF,并简要说明原理?

2.通过实验1.得到这个EST序列的完整ORF后,我们如何来初步预测它的生物学功能?

3.我们可以通过哪些实验方法对这个ORF所编码的蛋白质进行功能研究,并请说明设计这些实验的目的和必要性,以及原理。

EST简介

EST(Expressed Sequence Tag,表达序列标签)是指通过对cDNA 文库随机挑取的克隆

进行大规模一步法测序所获得的cDNA 的5'或3'端序列,长度一般为300~500bp,EST

是基因的“窗口”,可代表生物体组织某一时空的表达基因,故称之为“表达序列标签”。EST 概念提出后,被广泛应用于基因克隆、功能分析等方面,直接推动了人类基因组计划提前

完成;EST 技术也是基因芯片技术的基础,将在执行EST 计划中所获得的序列点制成芯片,成为了研究基因功能的强大平台。

一.ORF完整性的判断

ORF(开放阅读框)是起始密码子和终止密码子之间的碱基序列,是潜在的蛋白质编码区。判断ORF完整性可以采用Kozak 规则预测以及软件预测两种方法。

ORF的一般规律:

a. ORF通常不会出现在重复片段区域

b. 随机出现较长ORF的概率很小,因此,当ORF较长时可信度较高

c. 根据是否存在Kozak序列(ACCACCAUGG)判断起始位点

d.寻找起始密码子上游是否存在核糖体结合位点(起始密码子上游约8~13核苷酸处,AGGAGG)

e. 密码子出现频率应符合特定物种的密码子偏爱性

f. G/C出现频率较高

1.1Kozak 规则预测

ORF通常以A TG 开始,TAA、TGA、TAG 结束。通过寻找起始密码子和终止密码子的ORF 序列是寻找基因的一种重要的方法;寻找ORF 的成功的关键在于终止子在DNA 序列中出现的频率。A 起始密码子ATG。第一个A TG 的确定(依据Kozak 规则)。

Kozak 规则:

若将第一个ATG 中的碱基A,T,G 分别标为1, 2 , 3位,侧翼碱基序列具有以下特征:1)第4 位的偏好碱基为G;

2)A TG 的5‟ 端约15bp 范围的侧翼序列内不含碱基T;

3)在-3,-6 和-9 位置,G 是偏好碱基;

4)除-3,-6 和-9 位,在整个侧翼序列区,C 是偏好碱基。

由于多数基因ORF 均多于50 个密码子,因此最可能的选择应该是ORF 不少于100 个密码子。

1.2软件预测

每个编码蛋白的基因都含有ORF,它是由一系列密码子组成,通常以ATG 开始,TAA、TGA、TAG 结束。通过寻找起始密码子和终止密码子的ORF 序列是寻找基因的一种重要的方法。使用Sequencer、ORFinder、DNAMAN、GeneSplicer、NetGene2 等预测分析该ORF 上游在起始密码A TG之前是否有序列的终止子,是否有类似启动子或增加子的序列,如果是真核,下游UTR区是否有加尾信号,是否有PolyA尾,在起始密码子之前有个kozak序列,在终止密码子之后有AA TAA 和polyA,基本就确定是完整的了。

1.3 3’ 端的确认

3‟ 端的确认主要根据Poly(A) 尾序列,若测试DNA 片段不含Poly(A) 序列,则根据加尾信号序列“AATAAA” 和BLAST 同源性比较结果共同判断。

1.45’ 端的确认

通过同源性比较来预测mRNA 的5‟ 端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADA T Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/);另外个别生物基因组的特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG 岛。

1.5完整的ORF的获得

根据以上的结果预测出的ORF如果不完整,理论上可以采用以下三种方法:①cDNA 文库构建;②RACE 技术;③通过对全长cDNA 序列的测序、对比,以及与基因组DNA 的比较,确定基因所在的区域;通过物种已建立遗传图和物理图来确定基因的位置。但其目前没有可参考的基因组序列,所以使用BLAST与毛果杨进行同源性对比分析(在进行EST 分析时,同时使用B1astN 和B1astX 会得到较准确的结果),通过与储存在序列数据库中的毛果杨序列相似性比对,判断EST在cDNA序列中的位置。根据EST的位置做5‟RACE,3‟ RACE,或者同时做5‟RACE和3 RACE。当EST在5‟就做3‟ RACE,当EST在3‟做5‟RACE,当EST在中间就做5‟RACE和3‟RACE。

RACE技术:

经典的RACE技术是由Frohman等(1988)发明的一项技术,主要通过RT-PCR技术由已知部分cDNA序列来得到完整的cDNA5‟和3‟端,包括单边PCR和锚定PCR。该技术提出以来经过不断发展和完善,克服了早期技术步骤多、时间长、特异性差的缺点(Frohman 等,1995:Schaefer,l995: Chen,1998: Bespalova等,1998: Matz等11999)。对传统RACE技术的改进主要是引物设计及RT-PCR技术的改进:改进之一是利用锁定引物((lock docking primer)合成第一链cDNA,即在oligo(dT)引物的3'端引入两个简并的核苷酸('Oligo(dT)16-30MN-3', M=A/G/C;N=A/G/C/T)使引物定位在poly(A)尾的起始点,从而消除了在合成第一条cDNA 链时oligo(dT)与poly(A)尾的任何部位的结合所带来的影响;改进之二是在5…端加尾时,采用poly(C),而不是poly(A);改进之三是采用RNase H一莫洛尼氏鼠白血。病毒(MMLV)反转录酶或选择嗜热DNA聚合酶可能在高温h (60 度-70度)有效地逆转录mRNA,从而消除了5…端由于高GC含量导致的mRNA 二级结构对逆转录的影响;改进之四是采用热启动PCR (hot start PCR)技术和降落PCR(touch down PCR)提高PCR反应的特异性。

二.生物学功能的预测

2.1 同源性比对预测基因功能

同源基因一般不会有完全一致的核苷酸序列,因为不同的基因或不同的生物都会独立地发生随机突变,但它们有相似的序列,大部分未突变的核苷酸位置是相同的;当一个新基因的序列被确认后,根据同源性可以从数据库中查找已知序列的同源基因。根据进化的相关性,可以根据已知的同源基因推测新基因的功能;同源性分析可以给出整个基因或其中某一区段功能的有关信息。与毛果杨或者其他常用的模式植物进行BLAST比对,从毛果杨或者其他常用的模式植物的已有研究中预测这个基因的生物学功能。

2.2 蛋白质结构分析

采用DNAstar软件或者DNAman将cDNA翻译成氨基酸序列。采用SWISS-pdbviewer 软件对蛋白质序列进行结构分析,构建其结构模型,其中包括蛋白质的三维结构、α螺旋、β转角以等根据结构分析预测蛋白质的功能。

2.3 PROSITE分析蛋白质功能

利用PROSITE分析序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能,因此是序列分析的有效工具。

2.4信号肽分析

信号肽是编码区N端起始密码子之后的一段氨基酸序列,它能引导分泌蛋白至细胞膜。通过Signal 3.0计算分析ORF的N端氨基酸序列,预测是否存在信号肽。利用LipoP 1.0计算分析ORF的N端氨基酸序列,预测信号肽的蛋白质类型。使用TargetP1.1预测靶标肽段在亚细胞器中的定位和分布,进一步确定该信号序列是否为穿膜信号肽。

三.实验分析确定基因功能

3.1 基因过表达

在正常情况下,基因产物的数量是有限制的,必须与其它基因的产物平衡,某一基因产

相关文档
最新文档