麻竹EST序列中GDC-P蛋白基因的预测及其翻译多肽的分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

麻竹EST序列中GDC-P蛋白基因的预测及其翻译多肽的分析

丁伟航

(生技091,林业与生物技术学院 200901180226)

摘要:甘氨酸脱羧酶复合体(GDC)是在光呼吸中起着重要作用的酶体,存在于所有光合作用植物中。通过对麻竹的EST序列进行拼接,得到了726条contig片段,然后对这726条片段进行blast。结果发现,其中有一条长为966bp的片段与粳稻中的甘氨酸脱羧酶P蛋白亚基的mRNA序列有93%的相似性。其ORF的翻译产物与麦类作物的GDC-P亚基有93%的相似性。通过对这段多肽序列进行分析发现:这段序列是P蛋白靠近3' 端的一段序列,无跨膜结构域,含有GDC-PD的结构域。

关键词:EST;GDC;麻竹

Abstract. Glycine decarboxylase complex(GDC)is one of the important enzyme during the photorespiratory cycle, which found in plants processing photosynthesis. De novo assembly of short reads (EST) of Ma bamboo shows, 726 contigs finally formed. And then run BLAST for these contigs in NCBI, the result is that the DNA sequence, which contain 966 base pairs, is similar to the gene of P protein of Glycine decarboxylase complex from Oryza sativa Indica Group (with the identity of 93 percent ). And the protein translated by its ORF is similar to GDC-P protein of x Tritordeum sp. (with the identity of 93 percent). Analyzing the putative protein by means of the method of bioinformatics, we found that protein sequence show high identity with the region of GDC-P near the C-terminal, no transmembrane domain be found, but contain the domain of GDC-P.

Key word. EST, GDC, Dendroalamus latiftorus

甘氨酸脱羧酶是复合体(GDC)存在于线粒体基质,与SHMT(丝氨酸羟甲基转移酶)通过四氢叶酸盐相联系[1],是植物光呼吸的C2循环的重要酶体。GDC包含P、H、T、L四个蛋白亚基,其中P蛋白脱去甘氨酸上的羧基后,将其转移给H蛋白[1]。研究这个蛋白除了对研究植物的生长有重要意义,还对植物病害的防治也有一定意义,如燕麦的枯萎病是真菌(Cochliobolus victoriae)引起的[2],而这种真菌所产生的毒素(victorin),正是结合在燕麦的GDC-P蛋白上,影响P蛋白的活性从而导致植株的枯萎[3]。

由于麻竹的基因组还未被测序,因此我们对现有的9574条麻竹序列进行生物信息学分析,一方面希望能注释这些序列,找到我们感兴趣的基因,为将来的研究提供思路,另一方面也希望发现能发现一些未知的基因,丰富对基因功能的研究。

1.材料与方法

1.1 contig的获得

因为EST序列存在冗余量大的缺点,所以必须先通过聚类拼接的方法来去除冗余,得到若干条conitg,这样可以减轻BLAST工作的负担。在NCBI上以“Dendrocalamus latiflorus Munro”为关键词检索麻竹的EST序列,并打包下载。然后用CLC软件对上传至NCBI 的全部麻竹EST序列进行拼接。

1.2 基因功能及其ORF的预测

然后对长度在500bp以上的contig序列进行在线BLAST,寻找template基因,并根据template基因的功能注释来预测该基因片段的功能,并从中找到所需的感兴趣的基因。然后用CLC预测该contig的ORF,并按所有预测出的ORF翻译出蛋白,进行blastp,辅以blastx,以验证这些ORF的可靠性,选择其中最可靠的一条ORF。

1.3 蛋白质的一级结构分析及跨膜结构分析

以最可靠的ORF翻译出的多肽作为研究对象,利用PortParam (/tools/protparam.html)在线工具,对其氨基酸序列残基数目、组成、相对分子质量、理论等电点及稳定性等理化性质进行分析;利用PortScale (/tools/protscale.html)在线工具,对其疏水性进行分析;利用TMHMM (http://www.cbs.dtu.dk/services/TMHMM/)Server 2.0,对其进行跨膜区分析。

1.4 蛋白质的二级结构与三级结构预测

利用SSPro4.0(/sspro4.html)对其二级结构进行在线预测;利用swiss-model(/)进行同源建模,以预测其三级结构。

1.5 信号肽分析及亚细胞定位

利用SignalP 3.0 server(http://www.cbs.dtu.dk/services/SignalP/)预测该多肽的信号肽。利用TargetP(http://www.cbs.dtu.dk/services/TargetP)对其亚细胞定位进行预测。

1.6 蛋白质的结构域分析及motif搜索

利用SMART服务器(http://smart.embl-heidelberg.de/)分析该多肽的结构功能域。利用PROSITE数据库(/prosite)检索motif。

1.7 建立进化树

用template基因所编码的蛋白的名称在NCBI上搜索该蛋白质。在尽量大的物种范围内选取同科、同属以及其它科属的物种的相应的蛋白质序列,并将其下载到本地。先用CLC 对其进行多序列比对,再用MEGA软件重建进化树。

2 结果与分析

2.1 麻竹contig片段及GDC-P基因序列

在NCBI上通过对麻竹EST序列的搜索,得到了9574条麻竹序列,然后全部下载到本地。利用CLC对其进行批量聚类拼接后,得到了726条contig片段,其长度在221bp-2063bp 不等。最高丰度的contig包含280条EST序列,最低丰度的contig只含2条EST序列。一般丰度越高的contig多为持家基因、线粒体或叶绿体的序列,丰度越低的contig多为调控基因等一些非维持细胞生命活动所必需的基因。

然后通过对长度在400以上,且丰度较高的contig的Blast分析,找到一条contig 序列(contig 687)与其它物种已知的GDC-P基因相似度最高(详见图1)。其与粳稻“日本晴”中的甘氨酸脱羧酶P蛋白亚基的mRNA(全长CDS)序列有93%的相似性,该基因在NCBI 上的登录号为AY346327;此外还跟燕麦的victorin结合蛋白(即一种P蛋白)mRNA(全长CDS)序列有93%的相似性。Contig 687长度为966bp,由8条EST序列拼接而成,它们在NCBI上的登录号依次为JK008426.1、JK016935.1、JK012035.1、JK017274.1、JK014557.1、JK008289.1、JK013195.1和JK012568.1。

相关文档
最新文档