蛋白质结构与功能预测
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
<40 stable >40 unstable
注意:ProtParam没有考虑蛋白质翻译后修饰、蛋白质多 聚体等情况,故用户在预测和分析此类特定蛋白质的基本 理化性质时需要仔细审视反馈结果。
14
练习一:ProtParam 预测蛋白质 基本理化性质
/tools/protparam.html 数据:C:\ZCNI\shixi4\protein.txt
• 依靠跨膜蛋白数据库TMbase • 预测跨膜区和跨膜方向
20
主要参数/选项
• 序列在线提交形式:
– 直接贴入蛋白序列
– 填写SwissProt/TrEMBL/EMBL/EST的ID或AC
输出格式
最短和最长的跨膜螺旋疏水区长度
输入序列名(可选) 选择序列的格式
贴入protein.txt蛋白 质序列
蛋白质三维结构模拟
4
蛋白质结构预测过程
蛋白质理化性质 和一级结构
ORF翻译 蛋白质序列
实验数据数据库搜索来自结构域匹配已知结构的 同源蛋白?
有
同源 建模
无 二级
结构预测
有
串线法
三维结构模型
可用的折 叠模型?
无
从头 预测
5
ExPASy (Expert Protein Analysis System) 主页 /
计算蛋白质序列的等电点和 分子量
/tools/protparam.html
/tools/peptide-mass.html http://www.isrec.isb-
sib.ch/software/SAPS_form.html
对氨基酸序列多个物理和化 学参数(分子量、等电点、 吸光系数等)进行计算
pred.html
构建多重序列比对
30
PredictProtein 工具简介
• PredictProtein – /
• 可以获得功能预测、二级结构、基序、二硫键结构、 结构域等许多蛋白质序列的结构信息。
• 该方法的平均准确率超过72%,最佳残基预测准确 率达90%以上。因此,被视为蛋白质二级结构预测 的标准。
6
课程安排
一、蛋白质理化性质分析
– 使用工具:ProtParam
二、跨膜区分析
– 使用工具:TMpred
三、二级结构分析
– 使用工具:PredictProtein
四、结构域分析
– 使用工具:InterProScan
五、蛋白质三级结构分析
– 使用工具:SWISS-MODEL/SWISS-PdbViewer
提供跨膜蛋白拓扑结构预测 和 蛋 白 profile 折 叠 结 构 识 别 工具
http://npsa-pbil.ibcp.fr/cgi-
可以比较各种分析方法得到
bin/npsa_automat.pl?page=npsa_sopma.h 的结果,也可输出 “一致性
tml
结果”
http://coot.embl.de/~fmilpetz/SSPRED/ss 基于数据库搜索相似蛋白并
Launcher HNN
Jpred
nnPredict NNSSP PREDATOR
蛋白质二级结构分析工具
网站
备注
包括了常见的蛋白质结构分
/
析程序入口,一般分析可以
以此服务器作为起点
http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=npsa_nn.html
• 胞外-内分界区:Trp(色氨酸) • 跨膜区:Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨
酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色 氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯 氨酸)和Gly(甘氨酸) • 胞内-外分界区:Tyr(络氨酸)、 Trp(色氨酸)和Phe(苯丙氨酸) • 胞内末端:Lys(赖氨酸)和Arg(精氨酸)
计算相应肽段的pI和分子量
利用蛋白质序列统计分析方 法给出待测蛋白的物理化学 信息
9
ProtParam 工具简介
基于蛋白质序列的组分分析
氨基酸亲疏水性等分析为高级结构预测提供参考
• Expasy 开发的针对蛋白质基本理化性质的分析:
– ProtParam 工具 /tools/protparam.html
18
常用蛋白质跨膜区域分析工具
工具 DAS
HMMTOP SOSUI TMAP
TMHMM TMpred TopPred
网站
备注
用 Dense Alignment Surface
http://www.sbc.su.se/~miklos/DAS/
(DAS)算法来预测无同源 家族的蛋白跨膜区
由Enzymology研究所开发的
练习二:TMpred 预测蛋白跨膜区
/software/TMPRED_form.html
数据:C:\ZCNI\shixi4\protein.txt
27
三、蛋白质二级结构预测
• 基本的二级结构 – α螺旋,β折叠, β转角,无规则卷曲(coils)以及 模序(motif)等蛋白质局部结构组件
网站 /
备注 提供多项蛋白质性质分析, 并有较好准确性
/~phiwww/prof/ 基于多重序列比对预测工具
/psipred/psiform. html
8
工具
AACompldent Compute pI/Mw
ProtParam PeptideMass
SAPS
蛋白质理化性质分析工具
网站
/tools/aacomp/
/tools/pi_tool.html
备注
利用未知蛋白质的氨基酸组 成确认具有相同组成的已知 蛋白
2
DNA Sequence
Protein Sequence
Protein Structure
Protein Function
3
蛋白质结构分析主要内容
蛋白质结构分析
蛋白质一级结构
蛋白质二级结构 蛋白质超二级结构 蛋白质三级结构
蛋白质基本理化性质分析 蛋白质亲疏水性分析 蛋白质跨膜区结构预测 蛋白质二级结构预测 (α螺旋,β折叠等) 蛋白质结构域分析
http://www.cbs.dtu.dk/services/TMHMM-2.0
基 于 HMM 方 法 的 蛋 白 质 跨 膜区预测工具
/software/TMPRED _form.html
基 于 对 TMbase 数 据 库 的 统 计分析来预测蛋白质跨膜区 和跨膜方向
• 分析方法: – 基于统计和机器学习方法进行预测
➢ Chou-Fasman算法 ➢ PHD算法 ➢ 多序列列线预测 ➢ 基于神经网络的序列预测 ➢ 基于已有知识的预测方法 (knowledge based method) ➢ 混合方法(hybrid system method)
28
工具 BCM Search
算法,还考虑到蛋白质结构 分类信息
http://bioweb.pasteur.fr/seqanal/interfaces/pre 预测时考虑了氨基酸残基间
dator-simple.html
的氢键
29
蛋白质二级结构分析工具(续)
工具 PredictProtein
Prof PSIpred
SOPMA SSPRED
测较好
/~nomi/nnpr 预测蛋白质序列中潜在的亮
edict.html
氨酸拉链结构和卷曲螺旋
http://bioweb.pasteur.fr/seqanal/interfaces/nns sp-simple.html
基于双层前反馈神经网络为
数据: C:\ZCNI\shixi4\protein.txt
7
一、蛋白质基本理化性质分析
蛋白质理化性质是蛋白质研究的基础
蛋白质的基本性质:
相对分子质量 氨基酸组成
等电点(pI) 消光系数
半衰期
不稳定系数
总平均亲水性 ……
实验方法:
• 相对分子质量的测定、等电点实验、沉降实验 • 缺点:费时、耗资
基于实验经验值的计算机分析方法
基于神经网络的分析工具,
含序列到结构过程和结构到 结构处理
基于Jnet神经网络的分析程序,
/~wwwjpred/submit.html
并 采 用 PSI-BLAST 来 构 建 序 列 Profile 进 行 预 测 , 对 于 序 列较短、结构单一的蛋白预
计算以下物理化学性质: •相对分子质量 •氨基酸组成 •等电点(pI) •消光系数 •半衰期 •不稳定系数 •总平均亲水性 ……
10
主要选项/参数
• 如果分析Swiss-Prot和TrEMBL数据库中序列
– 直接填写Swiss-Prot/TrEMBL AC号(accession number)
• 如果分析新序列:
http://www.enzim.hu/hmmtop/
蛋白质跨膜区和拓扑结构预
测程序
http://bp.nuap.nagoya-u.ac.jp/sosui/
由Nagoya大学开发一个具有 图形显示跨膜区的程序
http://bioinfo.limbo.ifm.liu.se/tmap/
基于多序列比对来预测跨膜 区的程序
proteins in water measured at 280 nm: Ext(Tyr) = 1490, Ext(Trp) = 5500, Ext(Cystine) = 125
Absorb(Prot) = E(Prot) / Molecular_weight
13
不稳定系数
脂肪系数 总平均亲水性
实习4:蛋白质结构与功能分析
阮陟
陈晓龙 胡杰峰 刘秋香
浙江加州国际纳米技术研究院(ZCNI)
实习课程内容
实习一
基因组数据注释和功能分析
基因组学
实习二
核苷酸序列分析
系
统
实习三
芯片的基本数据处理和分析
转录组学
生
物
实习四
蛋白质结构与功能分析
学
实习五 实习六
蛋白质组学数据分析 系统生物学软件实习
蛋白质组学
– 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
将protein.txt蛋白质序列 粘贴在文本框中
11
氨基酸数目 相对分子质量 理论 pI 值
氨基酸组成
返回结果
正/负电荷残基数
12
原子组成 分子式
总原子数 消光系数
半衰期
E(Prot) = Num(Tyr)*Ext(Tyr) + Num(Trp)*Ext(Trp) + Num(Cystine)*Ext(Cystine)
15
二、蛋白质跨膜区分析
(a)-Type I membrane protein
(b)-Type II membrane protein
(c)-Multipass transmembrane proteins
(d)-Lipid chain-anchored membrane proteins
(e)-GPI-anchored membrane proteins
16
蛋白质跨膜区特性
• 典型的跨膜螺旋区主要是由20~30个疏水性氨 基酸(Leu、Ile、Val、Met、Gly、Ala等)组 成;
• 亲水残基往往出现在疏水残基之间,对功能有 重要的作用;
• 基于亲/疏水量和蛋白质跨膜区每个氨基酸的统 计学分布偏好性。
17
跨膜蛋白序列“边界”原则
• 胞外末端:Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯 氨酸)
21
输出结果
• 包含四个部分
– 可能的跨膜螺旋区 – 相关性列表
位置 分值 片段中点位置 可能的跨膜螺旋区
相关性列表
22
最优拓 扑结构
跨膜拓扑模型及图示
建议的跨膜拓扑模型
每一位置计算分值
23
TMHMM
http://www.cbs.dtu.dk/services/TMHMM-2.0/
24
25
26
http://bioweb.pasteur.fr/seqanal/interfaces/top 是一个位于法国的蛋白质拓
pred.html
扑结构预测程序
19
TMpred 工具简介
• TMpred工具:
/software/TMPRED_form.html