10、蛋白质结构分析和预测1
蛋白质的序列分析及结构预测
(3) BLOCKS ( www.blocks.fhcrc.org ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
精品课件
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
Breaking Proteins into Peptides
MPSERGTDIMRPAKID......
protein
GTDIMR PAKID
MPSER …… ……
HPLC To
MS/MS
peptides
精品课件
Mass Spectrometry
Matrix-Assisted Laser Desorption/Ionization
精品课件
Mass Spectra
H2O
GV
DD
L
K
57 Da =K‘G’ 99 Da = ‘V’ L
D
V
G
mass
0
• The peaks in the mass spectrum:
– Prefixand Suffix Fragments. – Fragments with neutral losses (-H2O, -
第五章蛋白质结构预测1ppt课件
• 蛋白质二级结构预测软件系统PHD
– 第一步工作是形成同源序列的多重对比排列 – 第二步工作是将得到的多重比对的统计结果送
到一个神经网络中计算。
4、RNA二级结构的预测
• RNA的结构可以分为三个层次
第二节 蛋白质二级结构预测
蛋白质 序列: ↓
二级结构:
源自文库
二级结构预测
蛋白质 序列:
二级结构:
QLMGERIRARRKKLK → STHHHHHHHHHHHHT
1、二级结构预测概述
– 蛋白质的二级结构预测的基本依据是:
每一段相邻的氨基酸残基具有形成一定二 级结构的倾向。
– 二级结构预测问题是模式分类问题
学习分类规则
• 二级结构预测的方法大体分为三代:
– 第一代是基于单个氨基酸残基统计分析
• 从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
– 第二代预测方法是基于氨基酸片段的统计分析
• 统计的对象是氨基酸片段 • 片段的长度通常为11-21 • 片段体现了中心残基所处的环境 • 在预测中心残基的二级结构时,以残基在特定环境形
• β折叠的特征模式: 由连续的1或交替的01构成。
疏水性定量计算
(4) 同源分析法
蛋白质结构的预测与分析
蛋白质结构的预测与分析
蛋白质是生命体中的重要分子,在生物体内起着承担生命活动
的重要作用。蛋白质结构的预测和分析是生物学研究中的重要一环,旨在揭示蛋白质的三维空间结构和功能。本文将从蛋白质结
构的基本概念入手,介绍蛋白质结构预测的方法和流程,并探讨
蛋白质结构与功能的关系。
一、蛋白质结构的基本概念
蛋白质结构指的是确定蛋白质分子在三维空间中的构象和构型,即确定蛋白质的三级结构(即原生结构)和四级结构(即蛋白质
超级结构)。蛋白质结构的决定因素是蛋白质的氨基酸序列和环
境条件。氨基酸序列由多种氨基酸组成,每种氨基酸都有其特定
的结构和性质,进而决定了蛋白质的空间构象。环境条件包括温度、ph值、离子浓度等。
二、蛋白质结构预测的方法和流程
蛋白质结构预测是指在已知蛋白质的氨基酸序列的情况下,利
用计算方法推断其三维空间结构。目前蛋白质结构预测的方法主
要包括基于序列的预测方法和基于结构的预测方法。
一、基于序列的预测方法:利用多种生物信息学分析技术,根
据给定的氨基酸序列进行分析和比对,预测蛋白质的二级结构
(α-螺旋、β-折叠、无规卷曲),从而推断出蛋白质的三维结构。基于序列的方法主要包括BLAST、PSI-BLAST、HMM等。
二、基于结构的预测方法:利用已经解析出的蛋白质结构库,
根据已确定的结构进行预测。基于结构的方法主要有模板比对法、蒙特卡罗模拟法、分子动力学模拟法等。
针对蛋白质结构预测中的误差,现阶段也推出了一些错误校正
的方法,如:模型修正法、模型优化法等。
三、蛋白质结构与功能的关系
蛋白质结构与功能紧密相关,因为蛋白质的结构和功能是相互
生物学中的蛋白质结构预测
生物学中的蛋白质结构预测蛋白质是生命体中最重要的分子之一,它们在细胞代谢、信号传导等方面发挥着重要的作用。蛋白质的功能与其三维结构密切相关,因此预测蛋白质的结构就成为了生物学研究的重要议题之一。本文将介绍蛋白质的结构预测方法,重点探讨分子动力学模拟和深度学习在蛋白质结构预测中的应用。
一、蛋白质结构的层次
在探讨蛋白质结构预测前,需要先了解蛋白质的层次结构。蛋白质在生物体内呈现出四种层次的结构,分别为一级、二级、三级和四级结构。
一级结构是蛋白质中氨基酸的线性序列,也称为氨基酸序列。氨基酸由简单的多肽链构成,每个氨基酸都有不同的化学性质和物理性质。
二级结构是指蛋白质多肽链的局部空间结构。一般来说,二级结构由螺旋和折叠两种形式组成。其中,螺旋结构是由氢键保持的,折叠结构则是由氢键、静电相互作用、疏水作用等保持的。
三级结构是蛋白质整体的空间结构,包括各个二级结构相对位置、距离等因素。三级结构的形成通常由多种相互作用力决定,如静电相互作用、疏水作用、范德华力等。
四级结构是由两个或更多的多肽链形成的蛋白质聚合体。例如许多蛋白质都是由两个或多个相同的多肽链组成的双聚体或三聚体等。
二、蛋白质结构预测的方法
蛋白质结构预测是指在蛋白质序列已知的情况下,通过各种方法预测其三维结构。目前,蛋白质结构预测的方法主要包括实验方法和计算方法两种。实验方法往往需要大量的时间和人力物力资源,且不适用于高通量的预测需求。因此,计算方法成为了当前热门的研究方向。
1. 基于模板的方法
对于新发现的蛋白质序列,如果存在同源蛋白质的结构已知,则可以通过将该蛋白质序列与已知结构进行比对,从而预测其结构。这种方法称为基于模板的方法,它是一种快速且准确的蛋白质结构预测方法。
蛋白质结构预测
蛋白质结构预测
蛋白质结构预测的基本原理是根据已知序列(或称为模式),通过计算机进行模拟,并与实验值比较来确定蛋白质分子中氨基酸残基排列顺序和空间构象等信息,从而对蛋白质的结构做出预测.
蛋白质的一级结构是指肽链内氨基酸残基之间的空间排布,即肽链骨架在三维空间上的几何形状.这种结构可以用蛋白质二级结构来描述.当给予一个结合有氨基酸残基的基团后,则会引起氨基酸残基的侧链和疏水基团暴露于相应的环境中,因此,其构象将发生变化,从而使得二级结构也随之改变,这就是蛋白质的二级结构.蛋白质的二级结构又被称作蛋白质的三级结构,即蛋白质的一级结构与二级结构的叠加,它包括了蛋白质的高级结构域及特殊的空间构象. 蛋白质的三级结构主要由疏水性氨基酸残基的位置、数目、排列方式所决定.一般认为蛋白质三级结构具有如下规律:①一条多肽链内各氨基酸残基之间不存在任何形式的氢键;②蛋白质分子中某些区域内的氨基酸残基,如α-螺旋、β-折叠片段,以及α-螺旋、β-折叠片段周围的疏水区域,它们之间都可能形成氢键;③蛋白质分子中某些区域的疏水区域与另外一些区域的亲水区域,在电荷作用下可以发生重叠.蛋白质的二级结构虽然十分稳定,但在三级结构的基础上还可以发生翻译后修饰,例如加入某些化学试剂或金属离子,便可使其产生不同的空间构象,从而影响蛋白质的功能.
蛋白质的一级结构分析与预测方法
蛋白质的一级结构分析与预测方法
蛋白质是一类生物分子,它们在机体中起到了举足轻重的作用。蛋白质分子结
构的研究是生物学、药学等领域的热门研究方向。在研究蛋白质的结构、功能和特性时,常常需要对其一级结构进行分析和预测。本文将介绍蛋白质一级结构的分析与预测方法。
一、蛋白质一级结构概述
蛋白质的一级结构指的是其氨基酸序列。蛋白质分子由20种左右的氨基酸组成,通过不同的排列组合构成不同的蛋白质。氨基酸是一种含有羧基(-COOH)、氨基(-NH2)和一侧链的有机化合物,它们通过肽键相连构成肽链,进而构成蛋
白质分子。
蛋白质的一级结构是其二级、三级结构和功能的基础。因此,研究蛋白质的一
级结构对于研究蛋白质的结构和功能具有非常重要的意义。
二、蛋白质一级结构分析方法
1. 比对分析法:比对分析法是一种通过比对蛋白质序列进行分析的方法。这种
方法通过比对蛋白质序列与已知蛋白质数据库中的序列进行比较,从而推测出该序列可能具有的功能和结构。比对分析法具有预测准确率高、速度较快等优点,因此被广泛应用于蛋白质序列的分析领域。
2. 生物物理学方法:生物物理学方法包括了一系列的实验方法,如X射线晶体衍射等,可以用来研究蛋白质的空间构象和形态。通过对蛋白质分子的实验分析,可以进一步了解其一级结构及其对应的生物学功能。
3. 生物信息学方法:生物信息学方法是一种透过计算机程序对蛋白质序列进行
分析的方法。生物信息学方法可以预测蛋白质的物理化学性质、表观结构和功能等,
包括常见的基于机器学习方法的蛋白质结构预测模型和关于序列特征分析、耦合谱分析的小标签搜索技术。
蛋白质结构与功能的模拟和预测
蛋白质结构与功能的模拟和预测随着计算机技术的飞速发展,人们对生物学科学的理解也越来
越深入。在过去的数十年里,蛋白质的结构和功能一直是生物学
领域研究的重心之一。蛋白质具有极其广泛的功能,包括支撑细
胞结构、传递信号、催化化学反应等等。因此,掌握蛋白质结构
和功能预测的方法对于生物学和药理学的发展至关重要。
蛋白质结构的模拟和预测是一门非常有挑战性的研究领域,涉
及到数学、物理、化学等各个领域的知识。蛋白质结构模拟一般
采用分子动力学模拟 (MD)、蒙特卡罗模拟 (MC)、分子力学模拟(MM)等方法。其中,分子动力学模拟是最为广泛应用的模拟方法
之一。它通过数学计算来模拟分子的运动和结构演化过程,可以
用来预测蛋白质的结构和性质,揭示蛋白质的功能机理以及药物
分子与蛋白质结合的过程。
预测蛋白质结构是蛋白质研究中最重要的问题之一。不同蛋白
质的结构复杂程度不同,因此针对不同的蛋白质,需要选择不同
的结构预测方法。蛋白质的结构预测可以分为模板和非模板方法。模板方法是指蛋白质序列与已知结构相似的蛋白质结构的比对,
从而预测出这个蛋白质的空间结构。而非模板方法则是直接预测
蛋白质的结构,包括基于物理化学原理的分析方法、基于进化的
方法、基于机器学习的方法等。这些方法各有优缺点,需要根据
蛋白质的特点和研究目的选择合适的方法。
除了预测蛋白质结构,预测蛋白质的功能也是生物学领域的热
门研究课题之一。目前,预测蛋白质功能的研究主要基于两种方法:一种是结构基准方法,通过比对已知蛋白质结构中相似部位
的序列和结构信息,寻找可能存在的功能相关片段或结构域;另
第五章蛋白质分析及预测方法
第五章蛋白质分析及预测方法
蛋白质是生物体内最基本的功能分子之一,其功能与结构密切相关。
蛋白质分析及预测方法是研究蛋白质结构和功能的重要手段之一、随着生
物信息学和计算机技术的发展,越来越多的蛋白质分析及预测方法被提出
和应用。
一、蛋白质分析方法
1.序列分析
蛋白质序列是理解和预测蛋白质功能和结构的重要基础。序列分析可
以通过比对已知蛋白质序列数据库,找出与待研究蛋白质相似的序列,从
而预测其功能和结构。常用的序列分析方法包括同源序列比对、Motif和Domain分析等。
2.结构分析
蛋白质结构是蛋白质功能的基础,因此结构分析对于研究蛋白质功能
至关重要。通常通过实验方法如X射线晶体学、核磁共振等获得蛋白质结构。此外,还可以利用计算方法预测蛋白质的二级结构和三级结构。常用
的结构分析方法包括蛋白质结构比对、分子模拟等。
3.功能分析
蛋白质功能是指蛋白质所具有的生物学功能,如催化反应、运输物质、信息传递等。功能分析通过研究蛋白质的序列和结构,以及模拟蛋白质与
其他生物分子的相互作用,来理解和预测蛋白质的功能。常用的功能分析
方法包括结构-功能关系预测、生物分子对接等。
二、蛋白质预测方法
1.序列预测
蛋白质序列预测是指通过分析蛋白质的氨基酸序列,预测其结构和功能。常见的序列预测方法包括序列比对、Motif和Domain预测、蛋白质家族预测等。这些预测方法可以通过比对已知蛋白质序列数据库,找出与待研究蛋白质相似的序列,从而推测其结构和功能。
2.结构预测
蛋白质的三级结构是指蛋白质的原子级结构,包括蛋白质中氨基酸残基的空间排列。结构预测是通过计算方法来预测蛋白质的三级结构。常用的结构预测方法包括亚氨基酸残基建模、蛋白质折叠模拟等。这些方法通过计算蛋白质中氨基酸之间的相互作用力和空间约束,来预测蛋白质的三级结构。
蛋白质结构的预测及其意义
蛋白质结构的预测及其意义蛋白质是构成生命体的基本单位,它们扮演着重要的功能和调节作用。因此,对蛋白质的结构预测具有重要的科学意义和实际应用,并且已经为医疗保健、新药研发、生命科学等领域做出了贡献。
一、蛋白质的结构种类
蛋白质的结构通常分为四种类型,即原始结构、二级结构、三级结构和四级结构。原始结构是蛋白质的基础形状,由氨基酸的线性序列决定,分为多肽链和蛋白质子单位两种类型。二级结构是指蛋白质的α螺旋和β折叠形态,由氢键和其他相互作用力引导。三级结构是指蛋白质的三维折叠,由氨基酸之间的相互作用力、离子键、疏水互作用和范德华力等决定。四级结构是指由多个多肽链组成的复合体。
二、解决蛋白质结构难题的方法
蛋白质的结构预测是基于计算机模拟和实验分析的综合方法来完成的。在计算机模拟方面,使用的方法包括基于力场的分子动
力学模拟、Monte Carlo方法和几何随机游走法等;在实验分析方面,则包括X射线衍射、核磁共振、质谱和电子显微镜等技术。
然而,由于蛋白质结构预测问题的困难性以及计算资源限制,尽
管各种方法都在不断改进,但尚没有一种方法是完美可靠的。
三、蛋白质结构预测的意义
蛋白质结构的预测对生命科学以及医学保健等领域中的研究起
到了关键的作用。由于蛋白质的结构可以直接决定它们的功能和
调控作用,因此对蛋白质的结构预测有助于设计新的分子拮抗剂、药物和功能材料。此外,结构预测也为人类外源性蛋白质和蛋白
质质量谱的解释提供了基础,它们和寿命、健康以及生育绩效等
生理学现象有关。
四、蛋白质结构预测的应用
基于蛋白质结构预测的技术已经成为生命科学的前沿研究。例如,世界各地的科学家正在利用蛋白质结构预测来研究HIV、肿
生物信息学10-蛋白质结构分析
Backbone:金属丝模型, 表示出多肽主链的走向, 在比较同一种分子的两 种构象时有用。
A G C T
•
Ball and Stick:球棍 模型,能显示原子水平 上的结构细节。可以估 计原子之间的相对距离, 对于评价氨基酸之间的 相互作用很重要。
CPK:实心球模型,球体 大小对应每个原子的范 德华半径。对评估配体 与结合位点的适合程度 非常有用。
A G C T
A G C T
•
蛋白质的三维结构决定其功能,目前我们用实验测 定的高分辨率蛋白质结构大约60,000多个,远小于 序列的数量。
目前存在大量从基因组序列预测出的蛋白质序列, 结构基因组学的目标是解出所有蛋白质序列所对应 的三维结构。 结构基因组学的研究策略:表达预测的蛋白质,用 传统实验手段或计算机模拟得到结构信息,最后再 确定其功能。
•
•
A G C T
•
同源建模:homology modeling。目标是通过和一 个结构已知的同源蛋白质进行序列比较和结构分析, 为未知蛋白产生一个合理的近似结构。
原理:如果两个蛋白质之间存在高度的顺序相似性 (>40%),它们总体上的折叠方式往往是相似的。 当序列一致性低于40%,结构可能有显著差异。 当存在多条对位排列的顺序时,就可以得到更高分 辨率的模型。
mintbiouniroma2itmintwelcomedoggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaaccccccttttttggggggaaaaaacccccctttttt选一个最接近ggggggaaaaaaccccccttttttggggggaaaaaacccccctttttt点击这里站上去点击这里到pdb的网站上去ggggggaaaaaaccccccttttttggggggaaaaaacccccctttttt先点击sequence可以看到序列和二级结构先点击sequence可以看到序列和二级结构点击jmol可以看分子的立体结构点击jmol可以看分子的立体结构ggggggaaaaaaccccccttttttggggggaaaaaacccccctttttt序列和二级结构序列和二级结构ggggggaaaaaaccccccttttttggggggaaaaaacccccctttttt更改jmol的显示设置对三种不同显示方式进行截更改jmol的显示设置对三种不同显示方式进行截
蛋白质结构的预测及其应用
蛋白质结构的预测及其应用
蛋白质是生命体中最基本的有机分子之一。它们构成了细胞、组织和器官,并执行着许多生理功能。蛋白质结构的预测及其应用是当前蛋白质研究的热点之一。本文将深入探讨蛋白质结构的预测及其应用,希望读者能对这一领域有更深入的了解。
一、蛋白质结构的预测
蛋白质的结构是其功能的基础。然而,大多数蛋白质的三维结构依然无法使用传统实验方法精确测定。因此,研究人员利用计算机技术对蛋白质结构进行预测。
1. 传统方法
传统的蛋白质结构预测方法主要有折叠预测、相互作用预测和生成骨架等。这些方法需要大量的手工参数调整和计算机模拟,且预测精度有限。
2. 深度学习
近年来,深度学习技术在蛋白质结构预测方面取得了重大进展。深度学习算法能够自动学习和提取数据特征,从而大大提高了蛋白质结构预测的准确率。目前,常用的深度学习方法包括残差神经网络、卷积神经网络和循环神经网络等。
3. 基于进化信息的预测
此外,基于进化信息的预测也是蛋白质结构预测的重要方法之一。通过对蛋白质序列相似性的分析,可以发现某些区域在蛋白质结构的折叠中发挥着重要作用。因此,这些区域的保守性可以用于推断蛋白质结构的一些特征,如二级结构和域间连接。该方法的精度较高,并且能够对大规模蛋白质进行快速预测。
二、蛋白质结构预测的应用
1. 药物设计
蛋白质结构预测在药物设计中扮演着关键的角色。结构预测可以为药物分子提供准确的蛋白质靶点,从而帮助药物研发人员设计更加有效的药物分子。例如,预测出ACE2与SARS-CoV-2 RBD结合的蛋白结构,有助于针对病毒的疫苗和药物设计的推进。
实验:蛋白质序列分析与结构预测
蛋白质序列分析与结构预测
一:实验目的
1. 能够熟练使用ProtParam、PSORT、TMHMM进行蛋白质理化性质分析。
2. 学会使用JPred服务器进行蛋白质二级结构预测。
3. 学会使用SWISS-MODEL服务器进行蛋白质三级结构预测,并会使用rasmol
浏览结果
4. 学会使用PROSITE数据库进行结构域识别与功能位点分析
二实验内容及操作步骤
一、蛋白质基本性质分析
1蛋白质理化性质分析:
1.1进入/proteomics
1.2选择protein_characterisation_and_function→ProtParam程序
1.3进入/ 的UniProtKB
1.4下载蛋白序列(如amine),并存为FASTA格式
1.5在对话框中输入蛋白质序列(注意:不是FASTA格式,而是原始序列)1.6点击Computer parameters进行分析
1.7 记录并分析结果
2 蛋白质亚细胞定位:
2.1 进入PSORT预测主页: http://psort.ims.u-tokyo.ac.jp/form2.html
2.2 下载蛋白序列(如5-hydroxytryptamine 1A receptor),并存为FASTA格式
2.3 将蛋白序列粘入对话框(注意,序列为原始序列)
2.4 点击submit Job分析
2.5 记录并分析结果(看查询的蛋白主要表达在细胞的什么位置)
3. 跨膜区预测:
3.1进入http://www.cbs.dtu.dk/services/TMHMM/
3.2提交蛋白序列(FASTA格式,可以一次提交多个蛋白)
蛋白质序列分析和结构预测 生物信息学
蛋白质序列分析和结构预测
【实验目的】
1、掌握蛋白质序列检索的操作方法;
2、熟悉蛋白质基本性质分析;
3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测;
4、了解蛋白质结构预测。
【实验内容】
1、使用Entrez信息查询系统检索人瘦素 (leptin)蛋白质序列;
2、使用EXPASY中有关工具对上述蛋白质序列进行分子质量、氨基酸组成等基本性质分析;
3、对瘦素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析;
4、对瘦素蛋白质序列进行motif结构分析、翻译后修饰等的预测
【实验方法】
1、瘦素蛋白质序列的检索:
(1)调用Internet浏览器并在其地址栏输入Entrez网址/Entrez
(2)选择protein;
(3)在输入栏输入homo sapiens leptin;
(4)点击search后显示序列接受号及序列名称;
(5)点击序列接受号后显示序列详细信息;
(6)将序列转为FASTA格式保存;
2、进入EXPASY网站使用有关软件进行蛋白质序列分析和结构预测。
(1)选择Protparam程序对蛋白质序列进行分子质量、氨基酸组成和等电点等基本性质分析;
(2)蛋白质的同源性搜索分析,NCBI的BLAST;
(3)在Pattern and profile searches中选择interPro Scan 进行结构域或motif搜索以及有关结构域的结构分析
(4)在post-translational modification prediction 选择signalP 对蛋白质序列进行信号肽预测分析
蛋白质三级结构的分析和预测
蛋白质三级结构的分析和预测蛋白质是构成生命的重要物质之一。其三级结构包括原生结构、二级结构和三级结构。这些结构决定了蛋白质的功能和性质。目前,已有许多方法可以分析和预测蛋白质的三级结构。本文将就
这些方法进行探讨。
一、蛋白质二级结构的分析和预测
蛋白质的二级结构包括α-螺旋、β-折叠、无规卷曲等。分析和
预测蛋白质二级结构的方法主要有以下几种:
1. X射线晶体衍射:通过对蛋白质的晶体进行X射线衍射,可
以确定蛋白质的三维原子结构,进而得到蛋白质的二级结构。
2. 核磁共振:该方法通过将蛋白质放入强磁场中,利用不同原
子核的不同磁共振信号来确定蛋白质的二级结构。
3. 红外光谱:该方法可以检测蛋白质样品和红外光的相互作用,从而确定蛋白质的二级结构。
4. 桥水铝质谱:该方法可以通过测量蛋白质分子离子化后的质荷比和分子碎片的相互作用来确定蛋白质的二级结构。
以上方法虽然可以准确测定蛋白质的二级结构,但需要高昂的成本和耗时的操作。
而预测蛋白质二级结构的方法主要有以下几种:
1. 基于相似性比对的方法:该方法利用已知二级结构的蛋白质序列与待预测蛋白质序列进行比对,从而预测其二级结构。缺点是需要已知的蛋白质序列作为比对对象。
2. 基于机器学习的方法:该方法利用已知蛋白质序列和其二级结构的数据集进行机器学习,从而预测未知蛋白质的二级结构。缺点是需要大量的数据集。
3. 基于物理和化学性质的方法:该方法利用蛋白质分子内部的物理和化学性质,如氨基酸的电荷、氢键等,从而推断蛋白质的二级结构。缺点是准确性有限。
二、蛋白质原生结构的分析和预测
生物信息学第七章蛋白质结构分析和预测
蛋白组学研究中涉及较多的三种修饰 形式:磷酸化、糖基化和泛素化。
翻译后修饰明显增加了蛋白质的复杂 性,同时也增加了蛋白质结构预测的 难度和准确度。
糖基化位点预测
http://www.cbs.dtu.dk/services/NetN Glyc/
http://www.cbs.dtu.dk/services/NetO Glyc/
一、蛋白质结构的价值
➢ 可能会有数以千计的假想蛋白质和已知 蛋白质具有相似的关系,它们的序列分 化的很远以至于不能再用序列分析检测 同源关系,但是它们的结构可以识别它 们之间的同源关系。
一、蛋白质结构的价值
1、结构与功能的一致性
例2:脂联素(AdipoQ)是一个由脂肪 细胞分泌的功能未知的蛋白质。结构分 析表明它与肿瘤坏死因子(TNF)有关, 暗示AdipoQ也是一个信号蛋白。但是它 们氨基酸序列的一致性只有9%。
五、蛋白质跨膜区预测
HMMTOP
http://www.enzim.hu/hmmtop/
HMMTOP数据提交界面
HMMTOP输出结果
PredictProtein
https://www.predictprotein.org/
五、分析蛋白质的翻译后修饰
几乎所有的蛋白质在合成过程中或 者合成后都要经过某些形式的修饰,有 的是肽链骨架的剪接,有的是特异氨基 酸侧链的化学修饰,这种现象称为翻译 后修饰(post-translational modification, PTM)。
蛋白质的结构和功能预测
蛋白质的结构和功能预测
蛋白质是生命体系中非常重要的分子,它们承担着各种各样的
生物学功能,例如催化反应、运输分子、细胞与细胞间的信号传
递等。因此,研究蛋白质的结构与功能对于深入理解生命过程非
常重要。近年来,随着计算机技术的发展,蛋白质的结构与功能
预测得到了很大的提高。本文将着重介绍蛋白质结构预测以及蛋
白质功能预测的相关内容。
一、蛋白质的结构预测
蛋白质的结构预测是指通过计算机模拟和实验方法来推断蛋白
质的三维空间结构。蛋白质的结构通常分为四个层次:一级结构、二级结构、三级结构和四级结构。其中,一级结构是由氨基酸序
列决定的线性多肽链,二级结构是由一系列氢键、离子键和疏水
作用等相互作用形成的α-螺旋和β-折叠结构,三级结构是由氨基
酸侧链之间的相互作用来决定的,四级结构则是由多个蛋白质分
子聚集而形成的复合体结构。
目前,预测蛋白质的结构属于亚域问题,被称为“蛋白质折叠
问题”,是计算机科学和生命科学的交叉领域研究问题。通常,结
构预测的方法可以分为两种:基于物理的方法和基于序列的方法。
基于物理的方法是通过数学和物理模型来进行蛋白质结构的预测。这些方法通常利用高通量的超级计算机处理数学和物理模型,来计算确定蛋白质的最佳三维立体结构。其中,蛋白质能量函数
模型是基于蛋白质结构的物理化学能量模型,它能够通过构建数
学模型计算蛋白质结构的能量来寻找最优结构。常见的基于物理
的方法有分子动力学模拟法、蒙特卡罗模拟法、能量最小化法等。
基于序列的方法则是通过分析蛋白质序列间的相似性和与已知
结构的比较来预测蛋白质的结构。这些方法不需要精准地计算分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://www.cbs.dtu.dk/services/TMHM M-2.0 http://www.ch.embnet.org/software/TM PRED_form.html
http://bioweb.pasteur.fr/seqanal/interfa ces/toppred.html
查询内容,输入 “GO45_HUMAN”
图形结果
2. 蛋白质二级结构预测
1. Chou-Fasman predictions: Empirical 2. Garnier, Osguthorpe and Robson (GOR): HMM 3. David T. Jones: PSSM 4. Frishman, Argos: Nearest neighbor methods 5. Sujun Hua: Support vector machine
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中
计算窗口(7-11) 相对权重值
权重值变化趋势 是否归一化
氨基酸标度
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
段定位;Accessible residues(1979)针对氨基酸溶剂可及 性定位;Chou & Fasman (1978)针对氨基酸二级结构疏 水性分析
主要选项/参数
序列在线提交形式:
• 如果分析SWISS-PORT和TrEMBL数据库中序列 – 直接填写Swiss-Prot/TrEMBL AC号(accession number)
aces/pepcoil.html
曲螺旋程序,同Coils类似
SOCKET server
http://www.lifesci.sussex.ac.uk/resea 一个分析蛋白质结构中卷
rch/woolfson/html/coiledcoils/socket/ 曲螺旋的工具,其输入数
server.html
AACompIdent PeptideMass
蛋白质理化性质分析
• Protparam 工具
http://www.expasy.org/tools/protparam.html 计算以下物理化学性质: • 相对分子质量 理论 pI 值 • 氨基酸组成 原子组成 • 消光系数 半衰期 • 不稳定系数 脂肪系数 • 总平均亲水性
1.蛋白质基本理化性质分析
蛋白质理化性质是蛋白质研究的基础
蛋白质的基本性质:
相对分子质量 氨基酸组成
等电点(PI) 消光系数
半衰期
不稳定系数
总平均亲水性 ……
实验方法:
• 相对分子质量的测定、等电点实验、沉降实验 • 缺点:费时、耗资
基于实验经验值的计算机分析方法
基于一级序列的组分分析 氨基酸亲疏水性等分析为高级结构预测提供参考 • Expasy 开发的针对蛋白质基本理化性质的分析:
蛋白质亲疏水性分析
• 疏水作用是蛋白质折叠的主要驱动力
• 分析蛋白质氨基酸亲疏水性是了解蛋白 质折叠的第一步
• 氨基酸疏水分析为蛋白质二级结构预测 提供佐证
• 可用于分析蛋白质相互作用位点-抗原位 点预测(预测准确率达56%)
• 是分析蛋白质跨膜区重要一步
17
蛋白质跨膜区分析
• α螺旋跨膜区主要是由20-30个疏水性氨基酸 (Leu、Ile、Val、Met、Gly、Ala等)组成
蛋白质亲疏水性分析 跨膜区结构预测 卷曲螺旋预测
翻译后修饰位点预测 蛋白质二级结构预测 蛋白质序列信号位点分析
蛋白质结构域分析 蛋白质三维结构模拟
蛋白质家族分析
ExPASy(Expert Protein Analysis System)Tools (http://expasy.org/tools/)
• PEPCOILhttp://bioweb.pasteur.fr/seqanal/interfaces/pepcoil.html
蛋白质卷曲螺旋预测工具
工具 Coils
网站
备注
http://www.ch.embnet.org/software/C 主流的预测螺旋卷曲工具
OILS_form.html
Compute pI/Mw http://expasy.org/tools/pi_tool.html
ProtParam
http://expasy.org/tools/protparam.html
PeptideMass SAPS
http://expasy.org/tools/peptide-mass.html
蛋白质卷曲螺旋分析
• COILS- http://www.ch.embnet.org/software/COILS_form.html
• COILS蛋白质卷曲螺旋预测方法基于Lupas算法,是目前主流的 卷曲区域预测算法
• 一般滑动窗口的大小采用7的倍数
选择滑动窗口大小
选择打分矩阵 和权重
选择输入格式,选择 “SwissProtID or AC”
常用蛋白质跨膜区域分析工具
工具 DAS
HMMTOP
SOSUI TMAP TMHMM TMpred
TopPred
网站 http://www.sbc.su.se/~miklos/DAS/
http://www.enzim.hu/hmmtop/
http://bp.nuap.nagoya-u.ac.jp/sosui/
备注
用 Dense Alignment Surface ( DAS ) 算 法 来 预 测无同源家族的蛋白跨膜区 由Enzymology研究所开发 的蛋白质跨膜区和拓扑结构 预测程序 由 Nagoya 大 学 开 发 一 个 具 有图形显示跨膜区的程序
基于多序列比对来预测跨膜 区的程序 基 于 HMM 方 法 的 蛋 白 质 跨 膜区预测工具 基于对TMbase数据库的统 计分析来预测蛋白质跨膜区 和跨膜方向
是一个位于法国的蛋白质拓 扑结构预测程序
TMHMM
蛋白质亲疏水性分析
• ProtScale工具
http://ca.expasy.org/tools/protscale.html • 氨基酸标度
– 表示氨基酸在某种实验状态下相对其他氨基酸在某些性 质的差异,如疏水性、亲水性等
• 收集56多个文献中提供的氨基酸标度 • 默认值以Hphob. Kyte & Doolittle做疏水性分析 • 特异性氨基酸标度,如Hopp & Woods(1981)针对抗原片
生物信息学
第9讲 蛋白质结构分析和预测
DNA sequence Protein sequence Protein structure Protein function
蛋白质序列分析主要内容
wenku.baidu.com
蛋白质序列分析
蛋白质一级序列
蛋白质二级结构 蛋白质超二级结构
蛋白质三级结构 蛋白质分类
蛋白质基本理化性质分析
Trp、Cys、Ala、Pro和Gly • 胞内-外分界区域-Tyr、Trp和Phe • 胞内末端-Lys和Arg
蛋白质卷曲螺旋域分析
• 两股或两股以上α螺旋相互缠绕而形成超螺旋结构 • 存在于多种天然蛋白质中,如转录因子、结构蛋
白、膜蛋白中,在生物体内执行着代谢调控、分 子运动、膜通道、分子识别等重要的生物功能,
主要参数/选项
• 序列在线提交形式:
– 直接贴入蛋白序列
– 填写SwissProt/TrEMBL/EMBL/EST的ID或AC
输出格式
最短和最长的跨膜螺旋疏水区长度
输入序列名(可选)
选择序列的格式
贴入protein.txt蛋白 质序列
输出结果
• 包含四个部分
– 可能的跨膜螺旋区 – 相关性列表
位置 分值 片段中点位置
• 典型的有亮氨酸拉链,存在7残基 重复结构(heptad repeat),以a,b, c,d,e,f,g位置表示,其中a和d 位置为疏水性氨基酸,而其他位置 残 基为亲水性
37
蛋白质卷曲螺旋域分析
• COILShttp://www.ch.embnet.org/software/COILS_form.html
<40 stable >40 unstable
蛋白质亲疏水性/跨膜区分析
(a)-Type I membrane protein (b)-Type II membrane protein (c)-Multipass transmembrane proteins (d)-Lipid chain-anchored membrane proteins (e)-GPI-anchored membrane proteins
Paircoil2 PEPCOIL
http://groups.csail.mit.edu/cb/paircoil 由 MIT大 学 开 发 的 基 于 残
2/paircoil2.html
基配对概率算法的预测工
具
http://bioweb.pasteur.fr/seqanal/interf 由EMBOSS维护的预测卷
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
功能域 用户自定义区段
点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果
氨基酸数目 相对分子质量
理论 pI 值 氨基酸组成
正/负电荷残基数
原子组成 分子式
总原子数 消光系数
半衰期
14
不稳定系数
脂肪系数 总平均亲水性
据格式为蛋白质结构数据
TRESPASSER http://comp.chem.nottingham.ac.uk/c 由Nottingham大学开发的
gi-bin/trespasser/trespasser.cgi
亮氨酸拉链结构识别工具
2ZIP
http://2zip.molgen.mpg.de/index.html 预测蛋白质序列中潜在的 亮氨酸拉链结构和卷曲螺 旋
亲疏水轮廓
预测的跨模螺旋区域
预测区域的螺旋示意图 平均疏水值
两种跨膜Helix
33
跨膜蛋白序列“边界”原则 -Landolt Marticorena et al., 1993
• 胞外末端-Asp、Ser和Pro • 胞外-内分界区域-Trp • 跨膜区-Leu、Ile、Val、Met、Phe、
可能的跨膜螺旋区
相关性列表
最优拓 扑结构
跨膜拓扑模型及图示
建议的跨膜拓扑模型
每一位置计算分值
• SOSUI工具:
- http://bp.nuap.nagoya-u.ac.jp/sosui/
• 以图形方式返回结果,需要Java Applet程序
输入氨基酸单字母 运行
预测的跨模螺旋区域
平均疏水值
两种跨膜Helix
主要选项/参数
序列在线提交形式: • 如果分析SWISS-PORT和TrEMBL数据库中序列
– 直接填写Swiss-Prot/TrEMBL AC号(accession number)
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将蛋白质序列 粘贴在搜索框中
– Protparam 工具 http://www.expasy.org/tools/protparam.html
相对分子质量 氨基酸组成 等电点(PI) 消光系数 半衰期 不稳定系数 总平均亲水性 ……
蛋白质理化性质分析工具
工具
AACompldent
网站
http://expasy.org/tools/aacomp/
• 亲水残基往往出现在疏水残基之间,对功能有 重要的作用
• 基于亲/疏水量和蛋白质膜区每个氨基酸的统计 学分布偏好性量
• TMpredhttp://www.ch.embnet.org/software/TMPRED_form.ht ml
• SOSUI- http://bp.nuap.nagoya-u.ac.jp/sosui/
http://www.isrec.isbsib.ch/software/SAPS_form.html
备注
利用未知蛋白质的氨基酸组 成确认具有相同组成的已知 蛋白 计算蛋白质序列的等电点和 分子量
对氨基酸序列多个物理和化 学参数(分子量、等电点、 吸光系数等)进行计算
计算相应肽段的pI和分子量
利用蛋白质序列统计分析方 法给出待测蛋白的物理化学 信息
功能域
用户自定义区段
所用氨基酸 标度信息
分析所用参 数信息
输出结果
图形结果
文本结果
序列
参数
每个位置 的得分
跨膜区分析
• TMpred工具:
http://www.ch.embnet.org/software/TMPRED_form.html
• 预测跨膜区和跨膜方向 • 依靠跨膜蛋白数据库Tmbase