蛋白质序列分析课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质序列分析
2005 《基因表达序列标签(EST) 数据分析手册》第八章
吴祖建等 2011 《生物信息学分析实践》 第五章
蛋白质序列分析
• 蛋白质序列结构信息
– 蛋白质序列的基本性质 分析
– 结构域分析及motif搜索 – 蛋白质二级结构 – 蛋白质三级结构
蛋白质序列分析
一 、蛋白质序列的基本性质分析
蛋白质序列分析
主要选项/参数
序列在线提交形式: • 如果分析SWISS-PORT和TrEMBL数据库中序列
– 直接填写Swiss-Prot/TrEMBL AC号(accession number)
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中
• TMHMM在区分可溶性蛋白和膜蛋白方面尤为见 长,常用于判定一个蛋白是否为膜蛋白。
贴入RGDVp8.txt蛋 白质序列
1. P8蛋白的1~405位氨基酸位于细胞膜表面 2. 406~425位氨基酸形成一个典型的跨膜螺旋区
蛋白质序列分析
信号肽预测
• 蛋白质合成后要运送到细胞中不同的部位,有的 蛋白质要通过内质网膜进入内质网腔内,最终成 为分泌蛋白。
• 理化性质分析 • 疏水性分析 • 跨膜区分析 • 信号肽预测 • Coil区分析 • 亚细胞定位
蛋白质序列分析
蛋白质理化性质分析
• Protparam 工具
计算以下物理化学性质: • 相对分子质量 理论 pI 值 • 氨基酸组成 原子组成 • 消光系数 半衰期 • 不稳定系数 脂肪系数 • 总平均亲水性
位点的-1位和-3位上多为中性的丙氨酸,该区域 也称为富含丙氨酸区域.
N HC
N端
C端
蛋白质序列分析
信号肽预测在线分析工具
名称 ChloroP
网址
说明 预测植物中叶绿体转运肽
LipoP NetNES
预测革兰氏菌中的信号肽酶I、 II的剪切位点
预测富含亮氨酸的核输出信号
SecretomeP SignalP
• 分泌蛋白的N端都有一段约15~35个氨基酸的疏水 性肽段,其功能是引导蛋白质多肽链穿过内质网 膜进入腔内,称为信号肽(signal peptide)。
• 按照氨基酸组成及其位置特征,可将信号肽分为4 大类:
1. 分泌信号肽
2. 脂蛋白信号肽
3. Pilin-like信号肽 4. 细菌素和细菌素信号肽
功能域
用户自定义区段
蛋白质序列分析
• 点击不同功能域或直接粘贴氨基酸序列的方式得到以下结果
• 蛋白质序列疏水区域分布预测图
图形结果
文本结果
序列
参数
每个位置的得分
蛋白质序列分析
跨膜区分析
• 膜蛋白不溶于水,分离纯化困难,不容易生长晶体, 很难确定其结构
• 膜蛋白跨膜区可能作为膜受体, 也可能是定位在膜 上的锚定蛋白或离子通道蛋白
蛋白质序列分析
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
功能域 用户自定义区段
蛋白质序列分析
点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果
氨基酸数目 相对分子质量
理论 pI 值 氨基酸组成
原子组成 分子式 总原子数
蛋白质序列分析
消光系数
半衰期 不稳定系数
Asp (D) -3.5 Gln (Q) -3.5
Gly (G) -0.4
Glu (E) -3.5
Thr (T) -0.7
Ser (S)
-0.8
Lys (K) -3.9 Arg (R) -4.5
蛋白质序列分析
主要选项/参数
序列在线提交形式:
• 如果分析SWISS-PORT和TrEMBL数据库中序列 – 直接填写Swiss-Prot/TrEMBL AC号(accession number)
脂肪系数 总平均亲水性
蛋白质序列分析
蛋白质疏水性分析
• ProtScale工具
• 氨基酸标度
– 表示氨基酸在某种实验状态下相对其他氨基酸在 某些性质的差异,如疏水性、亲水性等
• 收集50多个文献中提供的氨基酸标度 • 默认值为Hphob. Kyte & Doolittle,做疏水性
分析
20种氨基酸的疏水K-D标度
氨基酸 K-D标度 氨基酸 K-D标度
Ile (I)
4.5
Trp (W) -0.9
Val (V) 4.2
Tyr (Y) -1.3
Leu (L) 3.8 Phe (F) 2.8
Pro (P)
-1.6
His (H) -3.2
Cys (C) 2.5
Asn (N) -3.5
Met (M) 1.9 Ala (A) 1.8
MITOPROT
用多序列比对方法预测 跨膜区
跨膜蛋白数据库Tmbase 1.来源于Swiss-Prot数据库, 提供如跨膜结构区的
数量、位置及其侧翼序列等信息。
2.数据库下载地址:
蛋白质序列分析
跨膜区实例分析
• 使用TMHMM server 2.0对水稻瘤矮病毒 (RGDV)外层衣壳 P8蛋白进行跨膜区分析 。
• TMHMM基于隐马尔可夫模型预测,综合了跨膜 区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学 限制等性质,可对跨膜区及膜内外区进行整体预 测。
• 预测跨膜螺旋主要基于已知的跨膜螺旋信息, 应用 统计模型或神经网络方法
• 使用单一的预测软件准确性不太高, 综合不同的软 件预测结果并结合疏水性图, 可以获得较好的预测, 对于跨膜螺旋和膜向性预测准确率达80%~95%
蛋白质序列分析
跨膜区在线分析工具
名称 TMHMM Tmpred
TMP
网址
说明 判定是否是膜蛋白 预测跨膜片断
蛋白质序列分析
• 信号肽主要由三个domain组成:N-region、Hregin和C-region.
• N-region为正电荷区域,至少含有一个精氨酸(R) 或赖氨酸(K).
• H-region为疏水核,一般长为12~14个氨基酸. • C-region包含信号肽酶(SPase)的剪切位点,在剪切
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
氨基酸标度
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中
计算窗口(7-11) 相对权重值
权重值变化趋势
蛋白质序列分析百度文库
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
2005 《基因表达序列标签(EST) 数据分析手册》第八章
吴祖建等 2011 《生物信息学分析实践》 第五章
蛋白质序列分析
• 蛋白质序列结构信息
– 蛋白质序列的基本性质 分析
– 结构域分析及motif搜索 – 蛋白质二级结构 – 蛋白质三级结构
蛋白质序列分析
一 、蛋白质序列的基本性质分析
蛋白质序列分析
主要选项/参数
序列在线提交形式: • 如果分析SWISS-PORT和TrEMBL数据库中序列
– 直接填写Swiss-Prot/TrEMBL AC号(accession number)
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中
• TMHMM在区分可溶性蛋白和膜蛋白方面尤为见 长,常用于判定一个蛋白是否为膜蛋白。
贴入RGDVp8.txt蛋 白质序列
1. P8蛋白的1~405位氨基酸位于细胞膜表面 2. 406~425位氨基酸形成一个典型的跨膜螺旋区
蛋白质序列分析
信号肽预测
• 蛋白质合成后要运送到细胞中不同的部位,有的 蛋白质要通过内质网膜进入内质网腔内,最终成 为分泌蛋白。
• 理化性质分析 • 疏水性分析 • 跨膜区分析 • 信号肽预测 • Coil区分析 • 亚细胞定位
蛋白质序列分析
蛋白质理化性质分析
• Protparam 工具
计算以下物理化学性质: • 相对分子质量 理论 pI 值 • 氨基酸组成 原子组成 • 消光系数 半衰期 • 不稳定系数 脂肪系数 • 总平均亲水性
位点的-1位和-3位上多为中性的丙氨酸,该区域 也称为富含丙氨酸区域.
N HC
N端
C端
蛋白质序列分析
信号肽预测在线分析工具
名称 ChloroP
网址
说明 预测植物中叶绿体转运肽
LipoP NetNES
预测革兰氏菌中的信号肽酶I、 II的剪切位点
预测富含亮氨酸的核输出信号
SecretomeP SignalP
• 分泌蛋白的N端都有一段约15~35个氨基酸的疏水 性肽段,其功能是引导蛋白质多肽链穿过内质网 膜进入腔内,称为信号肽(signal peptide)。
• 按照氨基酸组成及其位置特征,可将信号肽分为4 大类:
1. 分泌信号肽
2. 脂蛋白信号肽
3. Pilin-like信号肽 4. 细菌素和细菌素信号肽
功能域
用户自定义区段
蛋白质序列分析
• 点击不同功能域或直接粘贴氨基酸序列的方式得到以下结果
• 蛋白质序列疏水区域分布预测图
图形结果
文本结果
序列
参数
每个位置的得分
蛋白质序列分析
跨膜区分析
• 膜蛋白不溶于水,分离纯化困难,不容易生长晶体, 很难确定其结构
• 膜蛋白跨膜区可能作为膜受体, 也可能是定位在膜 上的锚定蛋白或离子通道蛋白
蛋白质序列分析
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
功能域 用户自定义区段
蛋白质序列分析
点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果
氨基酸数目 相对分子质量
理论 pI 值 氨基酸组成
原子组成 分子式 总原子数
蛋白质序列分析
消光系数
半衰期 不稳定系数
Asp (D) -3.5 Gln (Q) -3.5
Gly (G) -0.4
Glu (E) -3.5
Thr (T) -0.7
Ser (S)
-0.8
Lys (K) -3.9 Arg (R) -4.5
蛋白质序列分析
主要选项/参数
序列在线提交形式:
• 如果分析SWISS-PORT和TrEMBL数据库中序列 – 直接填写Swiss-Prot/TrEMBL AC号(accession number)
脂肪系数 总平均亲水性
蛋白质序列分析
蛋白质疏水性分析
• ProtScale工具
• 氨基酸标度
– 表示氨基酸在某种实验状态下相对其他氨基酸在 某些性质的差异,如疏水性、亲水性等
• 收集50多个文献中提供的氨基酸标度 • 默认值为Hphob. Kyte & Doolittle,做疏水性
分析
20种氨基酸的疏水K-D标度
氨基酸 K-D标度 氨基酸 K-D标度
Ile (I)
4.5
Trp (W) -0.9
Val (V) 4.2
Tyr (Y) -1.3
Leu (L) 3.8 Phe (F) 2.8
Pro (P)
-1.6
His (H) -3.2
Cys (C) 2.5
Asn (N) -3.5
Met (M) 1.9 Ala (A) 1.8
MITOPROT
用多序列比对方法预测 跨膜区
跨膜蛋白数据库Tmbase 1.来源于Swiss-Prot数据库, 提供如跨膜结构区的
数量、位置及其侧翼序列等信息。
2.数据库下载地址:
蛋白质序列分析
跨膜区实例分析
• 使用TMHMM server 2.0对水稻瘤矮病毒 (RGDV)外层衣壳 P8蛋白进行跨膜区分析 。
• TMHMM基于隐马尔可夫模型预测,综合了跨膜 区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学 限制等性质,可对跨膜区及膜内外区进行整体预 测。
• 预测跨膜螺旋主要基于已知的跨膜螺旋信息, 应用 统计模型或神经网络方法
• 使用单一的预测软件准确性不太高, 综合不同的软 件预测结果并结合疏水性图, 可以获得较好的预测, 对于跨膜螺旋和膜向性预测准确率达80%~95%
蛋白质序列分析
跨膜区在线分析工具
名称 TMHMM Tmpred
TMP
网址
说明 判定是否是膜蛋白 预测跨膜片断
蛋白质序列分析
• 信号肽主要由三个domain组成:N-region、Hregin和C-region.
• N-region为正电荷区域,至少含有一个精氨酸(R) 或赖氨酸(K).
• H-region为疏水核,一般长为12~14个氨基酸. • C-region包含信号肽酶(SPase)的剪切位点,在剪切
• 如果分析新序列:
– 直接在搜索框中粘贴氨基酸序列
氨基酸标度
输入Swiss-Prot/TrEMBL AC号
打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中
计算窗口(7-11) 相对权重值
权重值变化趋势
蛋白质序列分析百度文库
输出结果
• 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段