生物信息学10-蛋白质结构分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类 1 2 3 4 Total 构架 拓扑 376 228 577 101 1,282 同源超家族 839 514 1,082 114 2,549 结构域 32,396 39,140 79,038 2,346 152,920

5 20 14 1 40
A G C T

CATH数据库中第一类(主要alpha)的分类情况。 结构域数量 22,755
A G C T
A G C T
Jmol是基于网络的Java程序,用于操纵分子结构
A G C T
A G C T
Jmol在分子图像下方的框中提供关于图像显示的多 种选项:如Style、Color和Surface等。
A G C T

Cartoon:彩带模型,这 种显示法使二级结构折 叠容易辨认。




A G C T

Prion由PRNP基因编码,位 于Chr20p13。 正常蛋白质称PrPC,异常折 叠形式称PrPSc。
正常蛋白位于细胞外表面,具体功能尚不明,可能 与Cu2+转运和神经突触的形成有关。 正常形式含3% β折叠,异常形式含43% β折叠。异 常形式是许多神经退行性疾病的病因,包括疯牛病。
通过蛋白质的氨基酸序列预测二级结构可以达到 70%的准确率。

A G C T

许多跨膜蛋白通过一个由20个左右的疏水性残基组 成的α-螺旋跨膜。这是预测膜蛋白很重要的标志。
A G C T

结构域:由二级结构组成的相对独立的结构单元, 一般有100~200aa,能承担特定的生物化学功能。 三级结构是由结构域在空间中按一定的方式排列形 成,二级结构元件折叠成紧密的、近乎坚硬的物体, 由极性基团和非极性基团都参与的弱相互作用所稳 定。
3.
A G C T

X射线衍射法是永远测定蛋白质 结构最精确的方法,目前80%已 知结构是通过这种技术测定。
蛋白质溶液样品必须有足够高 的浓度和纯度,并在合适条件 下形成晶体。 X射线的波长为0.05~0.15nm, 适合测量原子间距,蛋白晶体 将X光衍射到探测装置,晶体结 构可以通过衍射图像推导得到。 溶菌酶

A G C T

Ligands:显示与蛋白向 结合的小分子配体。

在Surface选项中选择 solvent excluded:表 面拓扑学图形,能突出 显示由原子的实心性质 产生的蛋白质表面。
A G C T
A G C T

CATH数据库:这是一个关于所有已知蛋白质结构域 的分级分类系统(http://www.cathdb.info/)。 有4个层次:类class,构架architecture,拓扑 topology,同源超家族homologous superfamily。
A G C T
A G C T

蛋白质的三维结构决定其功能,目前我们用实验测 定的高分辨率蛋白质结构大约60,000多个,远小于 序列的数量。
目前存在大量从基因组序列预测出的蛋白质序列, 结构基因组学的目标是解出所有蛋白质序列所对应 的三维结构。 结构基因组学的研究策略:表达预测的蛋白质,用 传统实验手段或计算机模拟得到结构信息,最后再 确定其功能。


A G C T

主要步骤:
– – – – –
利用BLAST搜索同源蛋白质的序列和结构 根据搜索结果指定折叠类型并选择模板 将目标与模板的序列中相应位置对齐 建立结构模型 评估模型

当两个序列相似度超过50%,模型质量非常好;低 于30%,模型的错误会急剧上升。
A G C T

同源建模产生的模型已经被证实具有足够的精确度, 从而可以被应用于基于结构的药物设计中。 同源建模的一个严重局限是,产生的模型向模板偏 倚,得到的结构看起来总是象我们所输入的结构。



A G C T

朊病毒prion是一种蛋白质整体的结构都可变的例 子。 朊病毒在氨基酸序列上和细胞中正常的的蛋白质是 相同的,但是发生错误的折叠,并且具有传染性。
错误折叠的蛋白其二级结构富含β折叠,倾向于互 相聚集;并且能起模板的作用,指导正常形式的蛋 白质发生结构的重排,构象变为有感染性的形式。 其蛋白质序列中部一段55aa的肽段既能采取α-螺 旋,也能采取β折叠构象。
8531 667 6 437
名称 Orthogonal Bundle Up-down Bundle
Alpha Horseshoe Alpha solenoid Alpha/alpha barrel
代表性结构域 1oaiA00
1mz9A00 1wa5B00 1pprM01 1h12A00
A G C T



A G C T

通过对多种蛋白质结构分析发现各种氨基酸在不同 二级结构中的出现有偏好: – α-螺旋:具有长侧链的氨基酸如Leu、Met、Gln 和Glu – β-折叠:β碳原子处有分支的侧链如Val、Ile 和Phe – Pro在螺旋和折叠中出现都不适宜 – Gly也很少出现在螺旋和折叠中 – Pro和Gly经常出现在β转角中


芳香族侧链:Phe、Trp、Tyr和His,参与‘堆积’ 相互作用。
A G C T


小氨基酸:Ala、Cys、Gly、Pro、Ser和Thr。
His:pKa3 = 6.5,在生理pH值下大约只有10%的侧 链带正电荷,而精确的pKa值取决于具体的微环境。 可溶性球状蛋白质包装的主要原则:疏水侧链包在 里面形成紧密核心,亲水侧链暴露在表面。
蛋白质 蛋白/核酸 核酸 复合体 1,330 3,112 964 184 22 101 3 2 2,323 3,404 总数

实验方法
X-RAY NMR 电镜 HYBRID 总计
63,656 8,027 270 42 72,128
68,100 9,182 393 48 77,878
A G C T
A G C T
A G C T

α-螺旋:最常见的二级结构元件,每圈3.6aa,第 n个残基的C=O与第n+4个残基的N-H之间形成氢键, 绝大部分是右手螺旋,典型长度4 ~ 40aa。
此外还存在一些不常见的螺旋,如π-螺旋(每圈 4.4aa)。 β折叠:由舒展的多肽链以平行或反平行方向排列, 靠链间氢键维系构象稳定,典型长度大约5~10aa。 β转角:通常由4个氨基酸组成,残基1和4间形成 氢键,多肽链180°回折。常出现在球状蛋白表面。


A G C T

蛋白质的二级结构基本上由局部的氨基酸序列决定, 这对于大部分序列都是正确的。 例外: 一些长达7aa的序列片段在一种蛋白质中采 取α-螺旋构象,但在另外一个蛋白中则形成β-折 叠。
这些序列具有根据所处蛋白质整体的折叠环境来改 变折叠方式的趋势,所以被称为‘变色龙序 列’chameleon sequence。 所以:并不是所有的序列都折叠成唯一的一种结构。


A G C T

同源建模:homology modeling。目标是通过和一 个结构已知的同源蛋白质进行序列比较和结构分析, 为未知蛋白产生一个合理的近似结构。
原理:如果两个蛋白质之间存在高度的顺序相似性 (>40%),它们总体上的折叠方式往往是相似的。 当序列一致性低于40%,结构可能有显著差异。 当存在多条对位排列的顺序时,就可以得到更高分 辨率的模型。

A G C T
• Amino acid properties:www.russelllab.org/aas/
A G C T
• 另外有两种氨基酸:硒代半胱氨酸 (Sec,U)和吡咯赖氨酸(Pyl,O)可以在 蛋白质合成时插入到多肽链中,受遗 传密码的修饰性阅读所指导。 • Sec在许多生物中普遍存在,由UGA编 码;Pyl很罕见,只存在于古生菌中, 由UAG编码。
另外一个棘手的问题是,有些序列一致性比较低的 蛋白质却拥有相似的结构(如MB与HB的两个亚基之 间的序列一致性只有28%左右)。


A G C T

PDB:Protein Data Bank数据库在结构生物学中占 有中心地位,收集蛋白质和其它大分子的结构数据。 网址: http://www.rcsb.org/pdb/home/home.do
Class:根据二级结构划分4类:主要α, 主要β, α与β混合,和缺少二级结构。 Architecture:描述结构域的形状,主要由二级结 构的取向决定。



A G C T

Topology:描述折叠家族的水平,其家族概念强调 二级结构的相似性,而不是序列的相似性。 Homologous superfamily:将具有同源性的蛋白质 聚类在一起。
1.
A G C T

两亲性:Arg、Lys、Gln和Glu,侧链中都包含有疏 水和亲水部分,部分侧链可以包埋在蛋白质结构内 部,另外部分则暴露在水环境中,是形成界面的理 想分子。
脂肪族侧链:Ala、Ile、Leu、Met、Pro和Val。侧 链的惰性很强,不易发生反应,极少直接参与蛋白 质的功能,特别适于组装蛋白质的内部结构。



A G C T

在结构生物学中,主要有3种确定蛋白质结构的方 法: 1. 实验方法: – X-射线晶体衍射法 – 核磁共振 – 冷冻电子显微镜
2.
同源建模法:通过将目标蛋白与一个或几个已知 结构的同源蛋白质进行比较,从而预测其结构; 从头预测法:对于没有已知同源蛋白质结构可用 的蛋白,采取通过物理学原理来预测结构。


衍射图案
A G C T

核磁共振:Nuclear magnetic resonance,NMR。将 蛋白质溶液置于磁场中,通过测量溶液中蛋白质指 定原子共振之间的扰动来测定核间距离,从中推测 蛋白结构。
测量的是原子核的相互作用 ,测定产生的是原子 核间距离的数据集。 不需要复杂的蛋白结晶过程,但是蛋白质必需在接 近于晶格中蛋白浓度的情况下可溶。适于分子量小 于50kDa的蛋白质。

考虑氨基酸理化性质时注意的主要因素:侧链基团 的大小,和疏水性。常根据氨基酸侧链的疏水性进 行分类。
非极性氨基酸8种:Ala,Val,Leu,Ile,Pro, Phe,Trp,Met。 2. 不带电的极性氨基酸7种:Gly,Ser,Thr,Tyr, Cys,Asn,Gln。 3. 带正电荷的极性氨基酸3种(碱性氨基酸): Lys,Arg,His。 4. 带负电荷的极性氨基酸2种(酸性氨基酸): Asp,Glu。
Backbone:金属丝模型, 表示出多肽主链的走向, 在比较同一种分子的两 种构象时有用。
A G C T

Leabharlann Baidu
Ball and Stick:球棍 模型,能显示原子水平 上的结构细节。可以估 计原子之间的相对距离, 对于评价氨基酸之间的 相互作用很重要。
CPK:实心球模型,球体 大小对应每个原子的范 德华半径。对评估配体 与结合位点的适合程度 非常有用。
使用NCBI Structure查询所选基因的结构数据,先 到MMDB网页,找到其中的PBD链接,到PBD数据库的 网站,使用Jmol操作所选蛋白的结构,对分子的二 级结构、和立体结构分别作屏幕截图。


A G C T

1958年Max Perutz和John Kendrew用X-衍射法确定了第 一个蛋白质(肌红蛋白)的三 维结构 。
1961年Christian Anfinsen研 究了核糖核酸酶的变性-复性, 提出了蛋白质序列决定三维结 构的原则。 顺序决定结构,结构决定功能。


A G C T
Orthogonal bundle
Up-down bundle Alpha solenoid
Alpha horseshoe
Alpha/alpha barrel
A G C T

使用NCBI UniGene数据库查询所选基因的表达情况。 对查询结果作屏幕截图,并简要说明表达情况。 使用MINT数据库查询所选基因的相互作用数据,对 图形作屏幕截图,并与NCBI Gene条目中所列该基 因的Interactions结果进行比较。
三级结构的一个效果是产生复杂的表面拓扑学结构, 使得蛋白质能够与其它大、小分子发生相互作用。


A G C T


四级结构则是由几条具有三级结构的肽链组成。
一个蛋白质功能上的重要位点是在三级结构或四级 结构层次上形成的。 翻译后修饰影响蛋白质结构的稳定性。最常见的是 二硫键,但大多数二硫键只出现在分泌到细胞外的 蛋白质中。 细胞内的环境是高度还原性的,不利于二硫键的存 在,因此二硫键在细胞内蛋白质中的出现比较罕见。
相关文档
最新文档