EGFR蛋白的生物信息学初步分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

EGFR蛋白的生物信息学初步分析
作者:刘一凡
来源:《科技风》2019年第02期
摘要:EGFR(Epidermal Growth Factor Receptor)是表皮生长因子受体(HER)中的一种重要蛋白,属于EGF(Epidermal Growth Factor)家族。

作为一种跨膜蛋白,其信号通路对细胞多种生理过程起重要作用。

本文中从该蛋白的氨基酸组成、亲水性分析、系统发育分析,亚细胞定位,三级结构模拟等多个方面对该蛋白进行了生物信息学分析,这些结果有助于我们更进一步地了解EGFR蛋白的结构与功能。

关键词:EGFR;生物信息学;初步分析;EGFR蛋白;系统发育分析;亚细胞定位预测;三级结构预测
EGF以及其受体于1953年由范德堡大学的Stanley Cohen教授发现。

Cohen教授因此与意大利的Rita Levi-Montalcini共享了1986年诺贝尔医学奖。

在许多癌症病例中,影响EGFR表达或活性的突变是癌症的重要诱因。

导致EGFR过度表达的突变被证明与多种癌症的产生有关。

其中包括肺部鳞状细胞癌(80%有关),肠癌、恶性胶质瘤(50%有关)与头颈部上皮肿瘤(80%至100%有关)。

[1]上述与癌症有关的突变与EGFR的联系主要体现在前者能导致EGFR保有异常的持续活性,间接引发不受控制的细胞增殖与分化。

对EGFR的抑制是当前开发相关癌症疗法的一个重要发展方向。

研究EGFR蛋白质的结构是研究EGFR的作用机理、信号传递和抑制方法的基本。

本文从氨基酸组成分析、系统发育分析、亚细胞定位预测和三级结构预测四个方面对EGFR的结构做了研究和探讨,以期为EGFR及其致病机理的研究和相关癌症治疗方法的开发提供参考。

1 材料与方法
1.1 材料
从uniprot[2]上下载EGFR蛋白氨基酸序列(FASTA格式),以人的EGFR蛋白序列为例:
>sp|P00533|EGFR_HUMAN Epidermal growth factor receptor OS=Homo sapiens OX=9606 GN=EGFR PE=1 SV=2
1.2 方法
1.2.1EGFR氨基酸组成分析
利用Bioedit进行氨基酸分析。

Bioedit是一款生物学序列调整软件,通过分析蛋白质氨基酸序列,为用户研究蛋白质组成和性质提供参考。

本文主要利用了其氨基酸组成分析和疏水性分析功能。

1.2.2 系统发育分析
使用MEGA [3]软件进行EGFR系统发育分析。

MEGA5是MEGA(Molecular Evolutionary Genetics Analysis)软件家族的产品,具有强大的DNA分析和蛋白质序列数据处理功能。

本文主要利用了其物种进化树构建和亲缘关系分析等功能,简洁直观地展示出系统发育分析结果。

1.2.3 亚细胞定位
在https://psort.hgc.jp/form2.html上对该蛋白在细胞中的分布情况进行分析。

通过在线计算,得出了EGFR在细胞中的定位分析结果。

1.2.4 EGFR三级结构预测
使用SWISS-MODEL[4]进行三级结构预测。

SWISS-MODEL是一个颇负盛名的蛋白质3D 结构建构服务器,为来自全球各地的生物研究者免费提供蛋白质三级结构模型建立服务。

本文主要使用了由SWISS-MODEL提供的模型对EGFR三级结构进行说明和预测。

2 结果与分析
2.1 氨基酸组成分析
使用Bioedit进行EGFR氨基酸组成分析,发现组成EGFR的氨基酸种类及其占比如下图:
结果可见,EFGR中亮氨酸(Leu)含量最高。

甘氨酸(Gly)、丝氨酸(Ser)含量很高,谷氨酸(Glu)、脯氨酸(Pro)含量居中。

氨基酸占蛋白質成分越多,则其对蛋白质的影响一定程度上更显著。

由此推断EGFR蛋白可能有胶原蛋白的性质(甘氨酸和丝氨酸含量很高,均达到7 Mol%),其结构上可能具有RNA、黏蛋白和寡聚糖的结合位点。

这与EGFR作为一种信号传导的受体,在哺乳动物上皮细胞、胶质细胞等细胞表面有广泛分布有关。

接着我们对EGFR蛋白进行了疏水性分析,如下图:
在蓝线以上的曲线峰值表现出EGFR在一定氨基酸位点区间的疏水性。

由此可知,EGFR蛋白有三个总体来说疏水性表现强烈的区间,分别为0-175位,350-500位和600-950位。

同理,在蓝线以下的曲线区间表现出EGFR在该氨基酸位点区间的亲水性,
其区间广泛分布于几乎整个蛋白质中,说明亲水性在EGFR中总体上表现更普遍。

综上所述,EGFR总体表现出亲水性,但不突出。

2.2 系统发育分析
使用MEGA软件绘制进化树。

以人类(HUMAN)、小鼠(MOUSE)、猕猴(MACMU)、鸡(CHICK)、黑腹果蝇(DROME)五种物种为例,对其EGFR蛋白序列进行系统发育分析,以研究EGFR蛋白在不同物种间有怎样的进化关系。

进化树如下图所示。

对进化树在不同物种间进行亲缘关系分析的进化距离,如下图:
由图3和图4可知,小鼠、人类、猕猴位于同一进化树分类下,表明三者进化关系较为密切。

其中,人类与猕猴又处于同一进化树分类的子类下,表明二者亲缘关系非常相近。

可推测是由于人与猕猴同属灵长类,是遗传特征非常相似的哺乳动物。

黑腹果蝇(DROME)和鸡(CHICK)则分居进化树另外两个分支上,说明两者彼此间以及和上述三者的亲缘关系都较远。

2.3 亚细胞定位
采用PSORTⅡ工具上对EGFR在细胞中的分布进行了定位。

结果如下图。

结果表示,EGFR蛋白有30.4%位于细胞质膜(plasma membrane)上,有17.4%各在内质网(endoplasmic reticulum)、液泡膜(vacuolar)、细胞核(nuclear)中。

在细胞质基质(cytoplasmic)、线粒体(mitochondrion)、高尔基体(Golgi)和细胞骨架(cytoskeleton)中也有少量分布。

不难看出,EGFR主要分布在细胞的生物膜系统上,这与其作为信号通路参与细胞间信息交流的功能有很大关系。

同时,EGFR在细胞内与蛋白质合成与能量提供有关的细胞器上也有一定分布,说明EGFR可能与细胞合成和分泌激素、糖类和脂质等有机物有关。

2.4 EGFR三級结构预测
使用SWISS-MODEL进行EGFR三级结构构建,得到的MODEL 01 三维结构预览图如下(BMP形式):
2.5 建模质量评估
对MODEL 01的建模可靠程度进行评估,结果如下:
横坐标表示氨基酸位点,纵坐标表示该模型的预测与EGFR蛋白的相似程度,区间为(0,1),在一定氨基酸位点区间中,取值越大,表示模型在该区间与蛋白质的结构预测得越相近。

由图可知,MODEL 01总体相似程度在0.7-0.8之间,说明该模型能较贴切地说明EGFR
蛋白的结构。

GMQE是一种建模准确度的估计值,在0至1内取值,取值越高越说明模型具有更佳的可靠性。

MODEL 01的GMQE达到0.58,说明MODEL 01是预测三级结构的较为可靠的模型。

参考文献:
[1]王荣,石冬琴,谢华,李文斌,田薇,贾正平.非小细胞肺癌中 EGFR 基因突变及靶向药物治疗研究进展.中国药理学通报,2013,29(1):22-6.
[2]The UniProt C:Uniprot:The universal protein knowledgebase.Nucleic acids research 2017;45:D158-D169.
[3]Tamura K,Peterson D,Peterson N,Stecher G,Nei M,Kumar S:Mega5:Molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance,and maximum parsimony methods.Molecular biology and evolution 2011;28:2731-2739.
[4]Biasini M,Bienert S,Waterhouse A,Arnold K,Studer G,Schmidt T,Kiefer F,Gallo Cassarino T,Bertoni M,Bordoli L,Schwede T:Swiss-model:Modelling protein tertiary and quaternary structure using evolutionary information.Nucleic acids research 2014;42:W252-258.。

相关文档
最新文档