第六章1生物信息学详细讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.3 蛋白质拓扑结构、折叠和三维结 构模型
通过蛋白质的3D模型来推断和预测次级结构是 目前结构生物信息学的热点之一。目前应用最 广泛的DSSP(http://www.cmbi.kun.nl/gv/dssp) 程序,它是基于骨架之间的氢键模型建立的程 序。 次级结构主要用途:①预示折叠方式②蛋白质结 构视观中的直觉方式③影响序列的比对④与功 能密切相关
–
如疏水性、极性、侧链基团的大小等,根据残基各方面的性 质及残基之间的组合预测可能形成的二级结构。
“疏水性”是氨基酸的一种重要性质,疏水性的氨基 酸倾向于远离周围水分子,将自己包埋进蛋白质的内 部。
α螺旋的形成规律: 在一段序列中发现第i、i+3、i+4位(如1、4、 5)是疏水残基时,这一片段就被预测为α螺 旋; 当发现第i、i+1、i+4位(如7,8,11)为疏 水残基时,这一片段也被预测为α螺旋。
(5) 综合方法 综合方法不仅包括各种预测方法的综合,而且 也包括结构实验结果、序列对比结果、蛋白质 结构分类预测结果等信息的综合。
– – –
多个程序同时预测,综合评判一致结果 序列比对与二级结构预测 双重预测
首先预测蛋白质的结构类型 然后再预测二级结构
3.3、利用进化信息预测蛋白质的二级 结构
蛋白质结构预测问题 ….-Gly-Ala-Glu-Phe-….
序列——结构——功能
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….
!
FUNCTION
蛋白质结构预测主要有两大类方法:
(1)理论分析方法
–
通过理论计算(如分子力学、分子动力学计算)进行结构预测。 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型, 进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结 构。 包括:
/ β蛋白
1.2 蛋白质基本特性分析
一级结构的基础上可分析:分子质量、分子 式、等电点、氨基酸组成、理论消光系数、疏 水性、稳定性等物理、化学特征。 常用软件:ProtParam http://us.expasy.org/tools/protparam.html
1.2 蛋白质基本特性分析
蛋白质结构域、基序与结合部位分析,以此来建立结构 域的数据库和相应预测模型。主要数据来源于SCOP 和CATH等结构分类数据库。通过PredictProtein (http://cubic .bioc.columbia.edu/predicProtein)可获得有 关的大部分信息。 结构域:多肽链上那些可折叠为球状结构的特殊片段, 并发挥特殊的生物学功能。 基序(motif):通常是指蛋白质相互作用中最小的功能单 位,一般位于球形蛋白质的表面。 结合部位(binding site):则是指蛋白与蛋白或其配体结合 的具体部位,通常是一个或几个氨基酸残基。
2.2 核磁共振(NMR)光谱分析
与X-射线晶体结构分析相比较,NMR技术无须制备晶体标 本,可在溶液中直接测定,也可进行固相测定,因此利用 NMR法使得某些无法获得晶体结构的蛋白质或非液相 蛋白质的结构测定成为可能。 原理:分析受磁场作用下,经磁力加速旋转的原子核不同状 态间转换时的情形。
3、蛋白质二级结构预测
是一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得的每个残基出现于特定二级结构构 象的倾向性因子,进而利用这些倾向性因子预测蛋 白质的二级结构。
蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的85%
ห้องสมุดไป่ตู้
各种二级结构非均匀地分布在蛋白质中
–
有些蛋白质中含有大量的螺旋
–
第二代预测方法是基于氨基酸片段的统计分析
这些算法可以归为几类: (1)基于统计信息 (2)基于物理化学性质 (3)基于序列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法
第一代和第二代预测方法对三态预测的准确率都小于 70%,而对折叠预测的准确率仅为2848% – 其主要原因是只利用局部信息 第三代方法(考虑多条序列) – 运用长程信息和蛋白质序列的进化信息 – 准确度有了比较大的提高
对于β折叠的形成规律: 对于β折叠,也存在着一些特征的亲疏水残基 间隔模式,埋藏的β折叠通常由连续的疏水残 基组成,一侧暴露的β折叠则通常具有亲水-疏 水的两残基重复模式。 原则上,通过在序列中搜寻特殊的亲疏水残基 间隔模式,就可以预测α螺旋和β折叠。
(4) 同源分析法 将待预测的片段与数据库中已知二级结构的片 段进行相似性比较,利用打分矩阵计算出相似 性得分,根据相似性得分以及数据库中的构象 态,构建出待预测片段的二级结构。 该方法对数据库中同源序列的存在非常敏感, 若数据库中有相似性大于30%的序列,则预测 准确率可大大上升。
基本策略(1) 相似序列→相似结构
QLMGERIRARRKKLK QLMGAERIRARRKKLK
结构?
基本策略(2) 分类分析
α 螺旋
提取样本
预测….-Gly-Ala-Glu-Phe-…. 聚类分析
学习分类规则
3.2、蛋白质二级结构预测方法
(1)经验参数法
经验参数法由Chou 和Fasman在70年代提出来
蛋白质序列家族中氨基酸的替换模式是高度特 异的,如何利用这样的进化信息是二级结构预 测的关键。 蛋白质二级结构预测软件系统PHD
–
–
第一步工作是形成同源序列的多重对比排列 第二步工作是将得到的多重比对的统计结果送到一 个神经网络中计算。
4、常用蛋白质数据库介绍
主要的蛋白质数据库有: 存储蛋白质结构的PDB(Protein Data Bank),进 行蛋白质结构比较的SCOP和CATH,以及存储 次级结构为主的Pfam等.
1.3 蛋白质拓扑结构、折叠和三维结 构模型
蛋白质的折叠预测方法主要分为3类:同源性模 型(homology modeling)、折叠识别(fold recognition)和从头开始折叠(ab initio folding)。
1.3.1 同源性模型(homology modeling)
是根据同源蛋白质的结构分析得到有关结构域和相应的结构特征, 再预测其折叠方式。 基本原理: ①结构是由序列所决定 ②进化过程中,结构上的变化相对序列变化更缓慢 同源性模型分析过程有以下步骤:①模板识别和比对分析②比对校 正③骨架产生④环状模型⑤侧链模型⑥模型优化⑦模型确认 例如:我们想知道一个含150个氨基酸的蛋白质(A)结构,我们 首先将该序列与PDB数据库中的已知序列进行比较(例如用 BLAST)。幸运的话,我们发现待分析序列(A)与PDB中的一 个含300个氨基酸的蛋白质(B)结构具有约50%的相同性。这 时从PDB中调出B序列,将同源区切割出来,并将不同的 氨基酸 残基位置进行突变替代,这样便得到了A序列的预测模型。
1.3.3 从头开始折叠(ab initio folding)
直接根据蛋白质序列的理化特征预测其构象的方 法。 原理:基于蛋白质一级结构决定其空间结构。
2、蛋白质结构分析的技术平台
目前蛋白质结构分析主要有以下几大技术平台: 结构生物信息学、X-衍射蛋白质晶体结构分析、 核磁共振(NMR)光谱分析、电镜技术。
(2) GOR方法 是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处 理 GOR方法不仅考虑被预测位置本身氨基酸残 基种类的影响,而且考虑相邻残基种类对该位 置构象的影响
序列窗口
中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下,S发生的概率 定义信息为:
二级结构预测的方法大体分为三代:
–
第一代是基于单个氨基酸残基统计分析
从有限的数据集中提取各种残基形成特定二级结构的倾向,以 此作为二级结构预测的依据。 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二 级结构的倾向作为预测依据
–
例如:假定数据库中有 1830个残基, 780个处 于螺旋态,1050个处于 非螺旋态库中共有390 个丙氨酸(A),有240 个A处于螺旋态,其余 150个 A 处于非螺旋态。 可得: I ( H ; A ) log(
f H 780 / 1830 f H ' 1050 / 1830 f H , A 240 / 390 f H ', A 150 / 390
如血红蛋白和肌红蛋白
–
而一些蛋白质中则不含或者仅含很少的螺旋
如铁氧蛋白
–
有些蛋白质的二级结构以折叠为主
如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋 肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋
每种氨基酸出现在各种二级结构中倾向或者频率是不 同的 例如:Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在 螺旋中 可以根据每种氨基酸残基形成二级结构的倾向性或者 统计规律进行二级结构预测
第六章 蛋白质结构生物信息学
本章概要
1、蛋白质结构的简要回顾 2、蛋白质结构分析的技术平台 3、蛋白质二级结构预测 4、常用蛋白质数据库介绍
1、蛋白质结构的简要回顾
1.1 蛋白质结构概述 1.2 蛋白质基本特性分析 1.3 蛋白质拓扑结构、折叠和三维结构模型
1.1 蛋白质结构概述
所有β折叠
所有螺旋 所有α 螺旋结构
2.1 X-衍射蛋白质晶体结构分析
X-射线晶体结构分析是解析生物大分子结构与功能的基 本方法.该法首先是将待分析的纯化蛋白质形成晶体, 然后利用X-衍射技术得到该晶体的相关数据,整合成相 应的图象,存储于结构数据库中。 高通量晶体结构分析中的几大重要环节是:数据处理与分 析、重原子的定位、密度修饰、分子替换、图形整合、 模型加工和确认。
(2)统计的方法
–
–
经验性方法 结构规律提取方法 同源模型化方法
蛋白质 序列: ↓ 二级结构:
3.1、二级结构预测概述
–
– –
蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构 的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标:
判断每一段中心的残基是否处于螺旋、折叠、转角 (或其它状态)之一的二级结构态,即三态。
f H , A / f H ', A) log( f H ' / f H )
log(( 240 / 390 ) /(150 / 390 )) log(( 1050 / 1830 ) /( 780 / 1830 )) 0 . 7650
(3) Lim方法——立体化学方法 氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质
1.3.2 折叠识别(fold recognition)
又称反向蛋白折叠(reverse protein folding),将待分析蛋白质序列 作为查询单位,查找几种常用的折叠数据库,如SCOP、CATH 和DALI等,再对其3D结构进行预测。 基本原理:根据识别出的已知蛋白质折叠区,来对未知蛋白质的折 叠结构进行指认。 可能原因:①趋异进化(divergent evolution) ②趋同进化(convergent evolution) ③序列变化千千万万,但折叠方式屈指可数,导致不相关的蛋白质其 折叠结构也有某种相似性 ④折叠分类方法的错误,产生结构的相似性,即所谓的假阳性结果。
I ( S ; R ) log[ P ( S | R ) / P ( S )]
若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)>0 若R的发生不利于S的发生,则I(S; R)<0
I(S;
R)在二级结构预测中的含义
R代表中心氨基酸及其所处环境 – S代表二级结构类型 – I(S; R)代表中心氨基酸处于S的信息值