结构生物信息学3-二级结构预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学培训班
预测算法 二级结构预测方法 – 立体化学 方法 Ø 立体化学方法,基于氨基酸疏水性的预测方法:
l l
l
l
氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质,如 疏水性、极性、侧链基团的大小等; 根据残基各方面的性质及残基之间的组合预测可能形成 的二级结构。 Lim等人对α螺旋和β折叠归纳出了一套预测模式:
生物信息学培训班
结构生物信息学
蛋白质二级结构预测
张 法
中国科学院计算技术研究所
2013-5-11
生物信息学培训班
Outline
Ø 背景简介 Ø 蛋白质二级结构预测算法 Ø 蛋白质二级结构常用软件
生物信息学培训班
蛋白质二级结构预测
背景简介
蛋白质序列: 二级结构: QLMGERIRARRKKLK → STHHHHHHHHHHHHT
α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心, 另一侧则常处于亲水表面。 l α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲 水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反 映在序列上就是一些特征的亲疏水残基间隔模式
l
生物信息学培训班
二级结构预测方法 – 立体化学 方法 Ø 立体化学方法 -- Lim方法:
u u u u
l
l
α螺旋规则 β折叠规则 转角规则 重叠规则
延伸
成核区
延伸
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 -- α螺旋规则:
l
沿蛋白质序列寻找α螺旋核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形成 α螺旋,则认为是螺旋核。 从螺旋核向两端延伸 直至四肽片段的α螺旋倾向性因子的平均值{Pα }<1.0为止。 将螺旋两端各去掉3个残基
l
l
生物信息学培训班
二级结构预测方法 – 立体化学 方法 Ø 立体化学方法 –滑动窗口法:
l
预测算法
直接计算序列片段的疏水性和疏水矩,并根据定量计算结 果预测该片段对应的二级结构;
生物信息学培训班
预测算法 二级结构预测方法 – 同源分 析法 Ø 将待预测的片段与数据库中已知二级结构的片段进
l
生物信息学培训班
蛋白质二级结构预测
Ø 蛋白质二级结构预测的基本策略:
背景简介
相似序列
QLMGERIRARRKKLK
→
相似结构
QLMGAERIRARRKKLK
生物信息学培训班
蛋白质二级结构预测
Ø 蛋白质二级结构预测的基本策略: α螺旋
背景简介
模式分类
提取样本
聚类分析
预测….-Gly-Ala-Glu-Phe-….
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –重叠规则:
l
l l
对于螺旋和折叠的重叠区域,按{Pα }和{Pβ }的相对 大小进行预测 若{Pα }大于{Pβ },则预测为螺旋; 反之,预测为折叠。
生物信息学培训班
二级结构预测方法 - GOR算法
预测算法
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法基本依据:
l l l
蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的85% 某些蛋白质二级结构构成有倾向性
u 有些蛋白质中含有大量的α螺旋
(如血红蛋白和肌红蛋白) u 有些蛋白质的二级结构以β折叠为主(免疫球蛋白)
行相似性比较,利用打分矩阵计算出相似性得分, 根据相似性得分以及数据库中的构象态,构建出待 预测片段的二级结构 Ø 该方法对数据库中同源序列的存在非常敏感,若数 据库中有相似性大于30%的序列,则预测准确率可 大大上升
生物信息学培源自文库班
预测算法 二级结构预测方法 – 同源分 析法 待预测二级结构的氨基酸片段
l
背景简介
l l
通过序列比对可以得到蛋白质序列的进化信息,得到蛋 白质家族中的特定残基替换模式; 通过序列的比对也可以得到长程信息 使二级结构预测的准确程度有了比较大的提高,特别是 对β折叠的预测准确率有较大的提高,预测结果与实验 观察趋于一致。
生物信息学培训班
Outline
Ø 背景简介 Ø 蛋白质二级结构预测算法 Ø 蛋白质二级结构常用软件
学习分类规则
生物信息学培训班
蛋白质二级结构预测基本方法
Ø 第一代是基于单个氨基酸残基统计分析
l
背景简介
从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
Ø 第二代预测方法是基于氨基酸片段的统计分析
l l l l
统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成 特定二级结构的倾向作为预测依据
l
生物信息学培训班
二级结构预测方法 – 立体化学 方法 Ø 立体化学方法 --点模式方法:
l l l l
预测算法
将20种氨基酸残基分为亲水、疏水以及两性残基三类; 用八残基片段表征亲疏水间隔模式; 一个二进制位代表一个残基,疏水为1,亲水为0,共8位; 八残基片段的亲疏水模式可用0∼255的数值来表示 α螺旋的特征模式对应的值为: 9,12,13,17,……,201,205,217,219,237 β折叠的特征模式: 由连续的1或交替的01构成
Ø 将蛋白质序列看作是由各种氨基酸字符组成的字符 序列,将氨基酸残基片段作为输入的一串语言字符 ,二级结构即为对应的输出。 Ø 神经网络可以有效地学习蛋白质二级结构形成的复 杂规律或模式,提取更多的信息,并利用所掌握的 信息进行预测。 Ø 利用神经网络方法可以提高二级结构预测准确率。
Ø 定义信息为:
l
预测算法
I ( S ; R) = log[ P( S | R) / P( S )]
l l l
P(S|R):两个事件S和R的条件概率,即在R发生的条件下 ,S发生的概率 若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)>0 若R的发生不利于S的发生,则I(S; R)<0
l
预测算法
l
α螺旋的形成规律: u 在一段序列中发现第i、i+3、i+4位(如1、4、5)是 疏水残基时,这一片段就被预测为α螺旋; u 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时 ,这一片段也被预测为α螺旋。 β折叠的形成规律: u 埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的 β折叠则通常具有亲水-疏水的两残基重复模式 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式 ,就可以预测α螺旋和β折叠
假设已知二级结构的氨基酸片段 T=STNGIYW T的二级结构为 CHHHHHT H代表α螺旋, T代表转角, C代表无规卷曲 U=ATSGVFL
序列比对: T=STNGIYW U=ATSGVFL
直接将T的构象态赋予U
生物信息学培训班
二级结构预测方法 – 同源分 析法 Ø 更为合理的方法:
l
u u
l
剩余部分若长于6个残基,而且{Pα} >1.03,则 预测为螺旋。
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 – β折叠规则:
l
沿蛋白质序列寻找β折叠核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形 成β折叠,则认为是折叠核。 从螺旋核向两端延伸 直至四肽片段的β螺旋倾向性因子的平均值{Pβ }<1.0为止。 若延伸后的片段的{Pβ}>1.05,则预测为β折叠
Ø 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质 设计或蛋白质突变体的设计; Ø 当序列同源性较低时,二级结构的指认有助于确定蛋白质 间结构与功能的关系; Ø 同源蛋白质模建中,二级结构预测有助于建立正确的序列 比对关系; Ø 基于二级结构片段堆积的三级结构预测中正确的二级结构 预测是第一步;
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
基本思想是在序列中寻找规则二级结构的成核位点和终 止位点 扫描输入的氨基酸序列,利用一组规则发现可能成为特 定二级结构成核区域的短序列,然后对于成核区域进行 扩展,不断扩大成核区域,直到倾向性因子小于1.0为止 规则:
预测算法
是将待预测二级结构的蛋白质U与多个同源序列 进行多重比对,对于U的每个残基位置,其构象 态由多个同源序列对应位置的构象态决定,或 取出现次数最多的构象态,或对各种可能的构 象态给出得分值。
生物信息学培训班
预测算法 二级结构预测方法 – 神经网 络法 Ø 人工神经网络是一种复杂的信息处理模型,
f H = 780 / 1830 f H ' = 1050 / 1830 f H , A = 240 / 390 f H ', A = 150 / 390
I (ΔH ; A) = log( f H , A / f H ', A) log( f H ' / f H ) + = log((240 / 390) / (150 / 390)) + log((1050 /1830) / (780 /1830)) = 0.7650
Ø I(S; R)在二级结构预测中的含义 l R代表中心氨基酸及其所处环境 l S代表二级结构类型 l I(S; R)代表中心氨基酸处于S的信息值
生物信息学培训班
二级结构预测方法 - GOR算法
Ø 例子:
l
预测算法
l
假定数据库中有1830个残基, 780个处于螺旋态,1050 个处于非螺旋态; 库中共有390个丙氨酸(A),有240个A处于螺旋态, 其余150个 A 处于非螺旋态。
Ø 是一种基于信息论和贝叶斯统计学的方法; Ø GOR将蛋白质序列当作一连串的信息值来处理; Ø GOR方法不仅考虑被预测位置本身氨基酸残基种类 的影响,而且考虑相邻残基种类对该位置构象的 影响。 序列窗口 中心残基
窗口中各个残基对中心残基二级结构的支持程度
生物信息学培训班
二级结构预测方法 - GOR算法
u
l
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –转角规则:
l
转角的模型为四肽
f j +1 ⋅ f j +2 ⋅ f j +3 ⋅ f j +4 > 7.5 ×10
u u
−5
四肽片段Pt的平均值大于100
l
Pt的均值同时大于Pα 的均值以及Pβ 的均值 则可以预测这样连续的4个氨基酸形成转角
生物信息学培训班
蛋白质二级结构预测
背景简介
Ø 蛋白质二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构的 倾向。 Ø 二级结构预测问题:模式分类和识别问题 Ø 二级结构预测的目标:
判断每一段中心的残基是否处于α螺旋、β折叠、转角( 或其它状态)之一的二级结构态。 l 蛋白质中约85%的氨基酸残基处于三种基本二级结构状态
l
每种氨基酸出现在各种二级结构中倾向或者频率是不同的
u Glu主要出现在α螺旋中 u Asp和Gly主要分布在转角中 u Pro也常出现在转角中,但是绝不会出现在α螺旋中
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l l
由Chou 和Fasman在70年代提出来 是一种基于单个氨基酸残基统计的经验预测方法。通过 统计分析,获得的每个残基出现于特定二级结构构象的 倾向性因子,进而利用这些倾向性因子预测蛋白质的二 级结构
生物信息学培训班
蛋白质二级结构预测基本方法
Ø 第一/二代算法可以归为几类 (1)基于统计信息 (2)基于物理化学性质 (3)基于序列模式 (4)基于多层神经网络 (5)基于多元统计 (6)基于机器学习的专家规则 (7)最邻近算法
背景简介
生物信息学培训班
蛋白质二级结构预测基本方法
Ø 第三代是基于同源进化信息和长程信息
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
倾向性因子:一个氨基酸残基的构象倾向性因子定义为 残基A处于构 象态i 的比例 所有被统计残 基处于构象态 i的比例
Pi = Ai / Ti (i = α , β , c, t )
大于1.0表示该残基倾向 于形成二级结构构象i α -- 螺旋 β--折叠; c --转角; t -- 无规卷曲