蛋白质序列
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有助于了解蛋白质相互作用,这对于生 物学、医学和药学都是非常重要 通过实验方法得到蛋白质结构花费高且 耗时长
蛋白质生物学基础
蛋白质
一个蛋白质分子是由有序的氨基酸链折叠 而成的(从30到30000个残基不等)
氨基酸
20种不同的氨基酸
•Serine, Ser, S •Threonine, Thr, T •Tyrosine, Tyr, Y •Histidine, His, H
二级结构倾向性因子
定义:Pi=Ai/Ti(i=α,β, t, c)
说明:
i表示二级结构态,如α螺旋、 β折叠、转角
和无规则卷曲等 Ti是所有被统计残基处于二级结构态i的比例 Ai是第A种残基处于结构态i的比例 Pi>100表示该残基倾向于形成二级结构i; Pi<100表示倾向于形成其它二级结构
•Alanine, Ala, A •Valine, Val, V •Phenylalanine, Phe, F
•Proline, Pro, P
•Methionine, Met, M •Isoleucine, Ile, I •Leucine, Leu, L •Aspartic acid, Asp, D •Glutamic acid, Glu, E •Lysine, Lys, K •Arginine, Arg, R
11-21个氨基酸 最常用方法:GOR method (1978) 准确率稍高于60%
存在许多不同的算法:
统计信息(Statistical information) 神经网络(Neural networks) 多变量统计学(Multivariate statistics) 图论(Graph theory) 最邻近方法(Nearest Neighborhood Methods)
二级结构预测方法的第一代方法
第一代方法:
基于单个氨基酸残基统计分析,从有限的数
据集中提取各种残基形成特定二级结构的倾 向,以此作为二级结构预测的依据
最具代表性的方法: Chou-Fasman (1974) 准确率约为50%-60%
二级结构预测方法的第二代方法
第二代方法:
基于氨基酸片段的统计分析,片段的长度通常为
•Cysteine, Cys, C
•Asparagine, Asn, N •Glutamine, Gln, Q •Tryptophan, Trp, W
•Glycine, Gly, G
蛋白质二级结构
a-helix (30-35%) a-螺旋 b-sheet / b-strand (20-25%) b-折叠 Coil (40-50%) 无规则卷曲 Loop 环 b-turn b-转角
第一、二代方法存在的问题
预测准确率均小于70% 在预测β 折叠方面很不理想,准确 率只有28-48%,只考虑了局部信息 能够预测的螺旋与折叠都比较短
二级结构预测方法的第三代方法
第三代方法:
通过运用多序列比对显著改善了预测方法 相似序列往往具有相似结构理论在大的相互
作用方面提供了有利线索 序列相似性>30%往往具有相似的蛋白结构 PSI-BLAST (Alstchul et. al. 1997) 强有 力的数据库搜索工具的加入 准确率>70%
蛋白质结构预测
蛋白质结构为什么如此重要的?
DNA 序列
转录&翻译
蛋白质序列
折叠
蛋白质结构
氨基酸序列只有折叠成特定的空间结构才具有相 应的活性和相应的生物学功能
为什么要研究蛋白质结构?
生物体中许多重要的功能由蛋白质完成
催化作用、营养物质运输、生长和分化控制和生物
信号的识别和传递等等
分析蛋白质结构、功能及其关系是蛋白 质组计划中的一个重要组成部分
α螺旋
Β折叠
反平行 β-折叠
平行 β-折叠
蛋白质结构分类
蛋白质3D 结构
转角或卷曲
α 螺旋
Β 折叠
环或转角
蛋白质结构分类
Class (<10) 结构类 Folds (<1000) 折叠子 Superfamily 超家族 序列或结构相似 Family 家族 序列相似性> 25% ~ 30% 同源染色体
蛋白质结构预测
蛋白质的结构决定其生物学功能
蛋白质的结构由蛋白质序列决定
从数学上讲,蛋白质结构预测的问题是 寻找一种从蛋白质的氨基酸线性序列到 蛋白质所有原子三维坐标的映射
自然界存在的蛋白质数目有限,蛋白质 结构预测是可能的
从实验上测定蛋白质结构
X-射线衍射法 最准确 在体外进行 需要结晶的蛋白 NMR(核磁共振) 较准确 在体内 不需要结晶 限定在小分子量蛋白
二级结构预测常用方法
Chou-Fasman方法
方法 基于氨基酸疏水性的预测方法 人工神经网络方法 最邻近方法
GOR
Chou-Fasman方法
基于单个氨基酸残基统计的经验参数方法,由 Chou和Fasman在1974 & 1978提出
通过统计分析,获得每个残基出现于特定二级 结构构象的倾向性因子,利用这些倾向性因子 预测蛋白质的二级结构 每种氨基酸残基出现在各种二级结构中的倾向 或者频率是不同的,存在偏好性 准确性在 50-60%之间 http://fasta.bioch.virginia.edu/fasta_ww w/chofas.htm
X-射线衍射法
Leabharlann Baidu
慢且费用高 不能应用于 所有的蛋白
二级结构预测
预测的基本依据:每一段相邻的氨基酸残基具 有形成一定二级结构的倾向 蛋白质中约85%的氨基酸残基处于3种基本二级 结构状态(α 螺旋、β 折叠和转角) 二级结构预测的目标是判断每一个氨基酸残基 是否处于α 螺旋、β 折叠和转角(或其它状态) 之一的二级结构态,即三态 通常为蛋白质空间结构预测的第一步
已知序列的蛋白质数量与已测定结构的 蛋白质数量的差距正逐步拉大
Swissprot已经有>140000条蛋白质序列 PDB中已知结构的只有其中的约10%
为什么要研究蛋白质结构?
对于未知功能或新发现的蛋白质分子, 通过结构分析,可以进行功能注释,指 导设计进行功能确认的生物学实验 分析蛋白质结构有助于药物设计研究
蛋白质生物学基础
蛋白质
一个蛋白质分子是由有序的氨基酸链折叠 而成的(从30到30000个残基不等)
氨基酸
20种不同的氨基酸
•Serine, Ser, S •Threonine, Thr, T •Tyrosine, Tyr, Y •Histidine, His, H
二级结构倾向性因子
定义:Pi=Ai/Ti(i=α,β, t, c)
说明:
i表示二级结构态,如α螺旋、 β折叠、转角
和无规则卷曲等 Ti是所有被统计残基处于二级结构态i的比例 Ai是第A种残基处于结构态i的比例 Pi>100表示该残基倾向于形成二级结构i; Pi<100表示倾向于形成其它二级结构
•Alanine, Ala, A •Valine, Val, V •Phenylalanine, Phe, F
•Proline, Pro, P
•Methionine, Met, M •Isoleucine, Ile, I •Leucine, Leu, L •Aspartic acid, Asp, D •Glutamic acid, Glu, E •Lysine, Lys, K •Arginine, Arg, R
11-21个氨基酸 最常用方法:GOR method (1978) 准确率稍高于60%
存在许多不同的算法:
统计信息(Statistical information) 神经网络(Neural networks) 多变量统计学(Multivariate statistics) 图论(Graph theory) 最邻近方法(Nearest Neighborhood Methods)
二级结构预测方法的第一代方法
第一代方法:
基于单个氨基酸残基统计分析,从有限的数
据集中提取各种残基形成特定二级结构的倾 向,以此作为二级结构预测的依据
最具代表性的方法: Chou-Fasman (1974) 准确率约为50%-60%
二级结构预测方法的第二代方法
第二代方法:
基于氨基酸片段的统计分析,片段的长度通常为
•Cysteine, Cys, C
•Asparagine, Asn, N •Glutamine, Gln, Q •Tryptophan, Trp, W
•Glycine, Gly, G
蛋白质二级结构
a-helix (30-35%) a-螺旋 b-sheet / b-strand (20-25%) b-折叠 Coil (40-50%) 无规则卷曲 Loop 环 b-turn b-转角
第一、二代方法存在的问题
预测准确率均小于70% 在预测β 折叠方面很不理想,准确 率只有28-48%,只考虑了局部信息 能够预测的螺旋与折叠都比较短
二级结构预测方法的第三代方法
第三代方法:
通过运用多序列比对显著改善了预测方法 相似序列往往具有相似结构理论在大的相互
作用方面提供了有利线索 序列相似性>30%往往具有相似的蛋白结构 PSI-BLAST (Alstchul et. al. 1997) 强有 力的数据库搜索工具的加入 准确率>70%
蛋白质结构预测
蛋白质结构为什么如此重要的?
DNA 序列
转录&翻译
蛋白质序列
折叠
蛋白质结构
氨基酸序列只有折叠成特定的空间结构才具有相 应的活性和相应的生物学功能
为什么要研究蛋白质结构?
生物体中许多重要的功能由蛋白质完成
催化作用、营养物质运输、生长和分化控制和生物
信号的识别和传递等等
分析蛋白质结构、功能及其关系是蛋白 质组计划中的一个重要组成部分
α螺旋
Β折叠
反平行 β-折叠
平行 β-折叠
蛋白质结构分类
蛋白质3D 结构
转角或卷曲
α 螺旋
Β 折叠
环或转角
蛋白质结构分类
Class (<10) 结构类 Folds (<1000) 折叠子 Superfamily 超家族 序列或结构相似 Family 家族 序列相似性> 25% ~ 30% 同源染色体
蛋白质结构预测
蛋白质的结构决定其生物学功能
蛋白质的结构由蛋白质序列决定
从数学上讲,蛋白质结构预测的问题是 寻找一种从蛋白质的氨基酸线性序列到 蛋白质所有原子三维坐标的映射
自然界存在的蛋白质数目有限,蛋白质 结构预测是可能的
从实验上测定蛋白质结构
X-射线衍射法 最准确 在体外进行 需要结晶的蛋白 NMR(核磁共振) 较准确 在体内 不需要结晶 限定在小分子量蛋白
二级结构预测常用方法
Chou-Fasman方法
方法 基于氨基酸疏水性的预测方法 人工神经网络方法 最邻近方法
GOR
Chou-Fasman方法
基于单个氨基酸残基统计的经验参数方法,由 Chou和Fasman在1974 & 1978提出
通过统计分析,获得每个残基出现于特定二级 结构构象的倾向性因子,利用这些倾向性因子 预测蛋白质的二级结构 每种氨基酸残基出现在各种二级结构中的倾向 或者频率是不同的,存在偏好性 准确性在 50-60%之间 http://fasta.bioch.virginia.edu/fasta_ww w/chofas.htm
X-射线衍射法
Leabharlann Baidu
慢且费用高 不能应用于 所有的蛋白
二级结构预测
预测的基本依据:每一段相邻的氨基酸残基具 有形成一定二级结构的倾向 蛋白质中约85%的氨基酸残基处于3种基本二级 结构状态(α 螺旋、β 折叠和转角) 二级结构预测的目标是判断每一个氨基酸残基 是否处于α 螺旋、β 折叠和转角(或其它状态) 之一的二级结构态,即三态 通常为蛋白质空间结构预测的第一步
已知序列的蛋白质数量与已测定结构的 蛋白质数量的差距正逐步拉大
Swissprot已经有>140000条蛋白质序列 PDB中已知结构的只有其中的约10%
为什么要研究蛋白质结构?
对于未知功能或新发现的蛋白质分子, 通过结构分析,可以进行功能注释,指 导设计进行功能确认的生物学实验 分析蛋白质结构有助于药物设计研究