蛋白质序列分析

合集下载

生物信息学实验报告3(三)蛋白质序列分析

生物信息学实验报告3(三)蛋白质序列分析

⽣物信息学实验报告3(三)蛋⽩质序列分析

(三)蛋⽩质序列分析

实验⽬的:掌握蛋⽩质序列检索的操作⽅法,熟悉蛋⽩质基本性质分析,了解蛋⽩质结构分析和预测。

实验内容:

1、检索SOX-21蛋⽩质序列,利⽤ProParam⼯具进⾏蛋⽩质的氨基酸组成、分⼦质量、等电点、氨基酸组成、原⼦总数及疏⽔性(ProtScale⼯具)等理化性质的分析。

2、利⽤PredictProtein、PROF、HNN等软件预测分析蛋⽩质的⼆级结构;利⽤Scan Prosite软件对蛋⽩质进⾏结构域分析。

3、利⽤TMHMM、TMPRED、SOSUI等⼯具对蛋⽩质进⾏跨膜分析;采⽤PredictNLS进⾏核定位信号分析;利⽤PSORT进⾏蛋⽩质的亚细胞定位预测;利⽤

CBS(http://www.cbs.dtu.dk/services/ProtFun/)⽹站⼯具预测蛋⽩的功能,将序列⽤Blocks、SMART、InterProScan、PFSCAN等搜索其保守序列的特征,进⾏motif 的结构分析。

4、利⽤Swiss-Model数据库软件预测该蛋⽩的三级结构,结果⽤蛋⽩质三维图象软件Jmol查看。CPHmodels 也是利⽤神经⽹络进⾏同源模建预测蛋⽩质结构的⽅法和⽹络服务器I-TASSER预测所选蛋⽩质的空间结构。

5、分析蛋⽩质的翻译后修饰:分析信号肽及其剪切位点: SignalIP http://www.cbs.dtu.dk/services/SignalP/;分析糖链连接点:分析O-连接糖蛋⽩,

NetOGlyc,http://www.cbs.dtu.dk/services/NetOGlyc/;分析N-连接糖蛋⽩,NetNGlyc,http://www.cbs.dtu.dk/services/NetNGlyc/。

蛋白质的序列分析及结构预测

蛋白质的序列分析及结构预测
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
精品课件
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
Breaking Proteins into Peptides
MPSERGTDIMRPAKID......
protein
GTDIMR PAKID
MPSER …… ……
HPLC To
MS/MS
peptides
精品课件
Mass Spectrometry
Matrix-Assisted Laser Desorption/Ionization
精品课件
Mass Spectra
H2O
GV
DD
L
K
57 Da =K‘G’ 99 Da = ‘V’ L
D
V
G
mass
0
• The peaks in the mass spectrum:
– Prefixand Suffix Fragments. – Fragments with neutral losses (-H2O, -

蛋白质序列分析

蛋白质序列分析

上一内容
下一内容
回主目录
返回
2019/4/2
第二节 氨基酸直接测序
氨基酸组成分析
二硫键裂解后,需要对每个多肽链中氨基酸的组成进行 测定;
将分离纯化后的多肽链样品分为两部分,一部分样品经 过完全水解,测定其氨基酸组成,并计算出氨基酸各种 残基的含量;另一部分样品则进行N-端或C-端测序。
上一内容
上一内容
下一内容
回主目录
返回
2019/4/2
第二节 氨基酸直接测序
肽段氨基酸序列的测定
2.影响Edman降解反应裂解率的因素 测序完成后,根据每个循环的产率得到起始产率 (initial yield),起始产率可估计蛋白质真实含量, 与氨基酸组成分析得到的含量相比,还可以推测N端 是否封闭; 根据每个循环的产率得到的重复产率(repetitive yield)可判断仪器是否正常运行。
上一内容
下一内容
回主目录
返回
2019/4/2
第二节 氨基酸直接测序
1953年,Frederick Sanger在对牛胰岛素研究中首先 提出氨基酸直接测序概念; 迄今为止,直接测序已阐明了几千种蛋白质的氨基酸 序列。
上一内容
下一内容
回主目录
返回
2019/4/2
第二节 氨基酸直接测序
返回
2019/4/2

蛋白质序列分析

蛋白质序列分析

信号肽剪切位点预测通过Y最大值(Y-score maximum)来判断,是否为分泌蛋白通过S平均值 (mean S-score)来判断,即若S平均值>0.5,则预 测为分泌蛋白,存在信号肽。 基于神经网络算法结果表明,GDF9蛋白具有信 号肽序列,最可能的剪切位点位于32和33位氨基酸 之间;基于HMM算法预测结果可知,GDF9蛋白存 在信号肽的可能性为0.985,第25-26位氨基酸为剪切 位点的可能性为0.335。综合两种算法可知,GDF9 蛋白可能含有信号肽,说明GDF9蛋白可能在跨膜运 输中起着信号识别作用;综合GDF9蛋白亚细胞定位 结果表明,剪切位点位于32-33位氨基酸,表明成熟 肽始于第33位氨基酸。
影响蛋白质结构的因素
蛋白质数据库
1. PDB数据库 2. MMDB数据库 3. SCOP数据库 4. DSSP数据库 5. Uniprot数据库 6. NCBI数据库
1. PDB数据库
蛋白质晶体结构资料数据库 (PDB , Protein Data Bank)是美国Brookhaven实 验室1971年建立的大分子结构数据库, 内容包括由全世界生物学家和生物化学 家上传的蛋白质或核酸的X光晶体衍射或 者NMR核磁共振结构数据,其维护由结 构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics, RCSB)负责。

蛋白质序列分析方法比较和性能评估

蛋白质序列分析方法比较和性能评估

蛋白质序列分析方法比较和性能评估

蛋白质是生物体内功能最为复杂且多样的分子之一,对于

深入了解蛋白质的结构、功能和相互作用等方面至关重要。蛋白质序列分析方法在质谱学、生物信息学等领域得到广泛应用,以帮助科研人员研究和解决与蛋白质相关的各种问题。本文将对常用的蛋白质序列分析方法进行比较和性能评估,以期提供科研人员选择合适的方法和工具的参考。

一、蛋白质序列分析方法概述

1.1 蛋白质序列比对

蛋白质序列比对是指将目标蛋白质序列与数据库中已知的

蛋白质序列进行比较,以发现序列间的相似性和结构域等信息。常见的蛋白质序列比对方法包括基于局部序列相似性的

BLAST(Basic Local Alignment Search Tool)和基于全局序列

相似性的Smith-Waterman算法。

1.2 蛋白质二级结构预测

蛋白质二级结构预测是指根据蛋白质的氨基酸序列预测其

二级结构(α-螺旋、β-折叠、无规卷曲等)。常用的预测方法

包括基于机器学习的PSIPRED和基于深度学习的CNFold。

1.3 蛋白质三维结构建模

蛋白质三维结构建模是指通过蛋白质的氨基酸序列预测其

三维结构,包括全原子模拟方法、基于比较模型和基于序列模型等。常见的工具有I-TASSER、SWISS-MODEL和ROSETTA等。

1.4 蛋白质功能注释

蛋白质功能注释是指对已知蛋白质序列进行功能预测和注释,以了解蛋白质在细胞内的作用和功能。常见的工具包括InterPro、SMART和Pfam等。

二、蛋白质序列分析方法比较和性能评估

2.1 准确性

准确性是评估蛋白质序列分析方法优劣的重要指标。对于

蛋白质序列分析

蛋白质序列分析

1(最可能的跨膜方式) 2 (备选的跨膜方式)
2、疏水性、跨膜区分析
ProtScale(疏水性分析) 第5~20位氨基酸残基,有一典型疏水区域。
TMHMM(跨膜区分析) 第2~27位之间有一跨膜区,由胞内到胞外。
TMpred(跨膜区分析) 第3~21位之间有一跨膜区,由胞内到胞外。
以上三个工具都可从 ExPASy 上找到。
蛋白质序列的基本性质分析是蛋白质序列分析 的基本方面,一般包括: 蛋白质的氨基酸组成 分子量 等电点(pI) 亲疏水性分析 跨膜区分析 信号肽分析
1、氨基酸组成、分子量、等电点等基本理化性质
假如我们测序得到一条家蝇defensin核酸序列。 首先,我们通过NCBI的ORF Finder来确认一
发现信号肽 (1~23)
N端可能在膜内
定位于细胞质
蛋白质序列分析
1、蛋白质序列检索 2、蛋白质序列比对 3、蛋白质基本性质分析 4、蛋白质功能预测 5、蛋白质结构预测
(四)、蛋白质功能预测
1、通过序列比对(如BLAST、FASTA)预测蛋 白质功能。(注意打分矩阵的选择)
近缘关系比对
远缘关系比对
defensin diptera
Protein
All: 242 点击索引号的链接便可得到相关 的蛋白序列,比如我从中选取了 十条(按蚊、伊蚊、果蝇等)。

蛋白质序列全局比对分析如何解析蛋白质功能和结构的多样性?

蛋白质序列全局比对分析如何解析蛋白质功能和结构的多样性?

蛋白质序列全局比对分析如何解析蛋白质功能和

结构的多样性?

蛋白质序列全局比对分析是一种重要的方法,它能够将不同蛋白质序列进行比对,并揭示它们的功能和结构的多样性。本文将详细论述蛋白质序列全局比对分析的原理和应用,以及它如何帮助我们解析蛋白质功能和结构的多样性。

1.全局比对分析的原理。

全局比对分析是将目标蛋白质序列与已知蛋白质序列进行比对,寻找相似性并推测功能和结构。该分析方法基于序列相似性和保守性的概念,通过算法和统计模型对序列进行比对和评分,以确定相似性和差异性的程度。全局比对分析可以识别序列之间的保守区域和变异区域,从而揭示蛋白质的功能和结构的多样性。

2.常用的全局比对方法。

常用的全局比对方法包括BLAST、ClustalW和MAFFT等。BLAST(基本局部比对搜索工具)是一种快速比对算法,通过预先建立的数据库进行比对,用于寻找相似的蛋白质序列。ClustalW是一种常用的多序列比对软件,它使用多种比对策略和算法,可以对多个蛋白质序列进行全局比对。MAFFT是一种基于多序列比对的高效方法,能够处理大规模蛋白质序列的比对任务。这些方法在全局比对分析中发挥着重要作用,帮助我们揭示蛋白质功能和结构的多样性。

3.功能和结构预测。

通过全局比对分析,我们可以推测蛋白质的功能和结构。在比对过程中,相似区域的保守性可以提示相同或类似的功能,而变异区域则可能对结构和功能的多样性贡献较大。此外,全局比对分析还可以揭示蛋白质中的结构域、功能位点和翻译后修饰等信息。通过结合其他生物信息学工具和实验验证,我们可以更深入地理解蛋白质功能和结构的多样性。

实验九 蛋白质序列分析

实验九 蛋白质序列分析

实验九、蛋白质序列分析(3学时)

目的:了解针对于蛋白质序列的分析内容与方法。熟悉蛋白质的网上分析服务器。

内容:预测蛋白质序列的物化特性;预测蛋白酶消化模式;预测跨膜结构以及卷曲螺旋(coiled coil)结构;预测蛋白质的翻译后修饰;发现蛋白质中的功能结构域;蛋白质结构域分析常用网站。

When you’re studying a protein, you turn yourself into an investigator.

也就是说,你希望在实验设计之前了解与此有关的任何信息。比如,蛋白质序列的分子量、等电点等基本物化特性,活化的蛋白质会起什么作用?它是否会在翻译后进行修饰?是否是个跨膜蛋白?是否有已知的3D结构?如果它是个酶,那么它的底物是什么?

当然相似性搜索也能够帮助你猜测蛋白质所包含的功能。如果你发现某处的一个蛋白质序列数据库(每个序列都经过了非常详细的研究与注释)中有与你的蛋白质序列非常相似的序列,你就可以说这条记录中的蛋白质特性有极大的可能也会出现在你的序列中。

如果你希望利用计算机做一些生物化学研究,这里有两个非常好的网上站点:

The ExPASy (Expert Protein Analysis System) server at www.expasy.ch (you can access to , which is the mirror server of ExPASy in China), with a specific page dedicated to protein analysis methods.

实验五蛋白质序列分析

实验五蛋白质序列分析
N端
H
C
C端
三 信号肽的预测
• 常用工具
– SignaIP( http://www.cbs.dtu.dk/services/SignalP/)
• 通过神经网络方法的组合 • 预测信号肽的位置及相应切点
19
人的内质网驻留蛋白信号肽预测 Q9BS26
输入序列的FASTA文件
人的内质网驻留蛋白信号肽预测
• 掌握基于序列同源性分析的蛋白质功能预 测。
2
(一)蛋白质基本理化性质分析
蛋白质理化性质是蛋白质研究的基础 蛋白质的基本性质: – 相对分子质量 氨基酸组成 – 等电点(PI) 消光系数 – 半衰期 不稳定系数 – 总平均亲水性 …… 实验方法: • 相对分子质量的测定、等电点实验、沉降实验 • 缺点:费时、耗资 基于实验经验值的计算机分析方法 软件 Bioedit 网络工具ProtParam, Compute PI
曲线颜色
C score: 剪切位点分值 S score: 信号肽分值 Y score: 综合剪切位点分值
此处C值最大;S值陡峭; Y值最高峰。预测为信号 肽剪切位点
文本结果,YES代表该蛋 白包含信号肽,剪切位点 位于29,30残基处
21
四 蛋白质亚细胞定位预测
• 亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位 预测基于如下原理: (1) 不同的细胞器往往具有不同的理化环境 , 它根据蛋白质的结构及表面理化特征 ,选择性容纳蛋白。 (2) 蛋白 质表面直接暴露于细胞器环境中 , 它由序列折叠过程决定 ,而后者 取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的 预测。 • 推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞

蛋白质序列分析

蛋白质序列分析

蛋白质序列数据库简介
常用数据库
常见的蛋白质序列数据库包括UniProt、NCBI的Protein Database (nr)等。这些数据库收录了大量的蛋白质序列及其 相关信息。
数据库特点
这些数据库通常提供分类、注释、检索等功能,用户可以根 据需要获取特定物种、特定功能或特定实验条件下的蛋白质 序列。
氨基酸组成与倾向性分析
不同的氨基酸在wenku.baidu.com级结构中的出现倾向性不同, 通过对氨基酸组成的分析,可以预测蛋白质的二 级结构。
能量最小化方法
基于物理化学原理,通过计算不同二级结构下的 能量状态,选择能量最低的结构作为预测结果。
蛋白质三级结构预测
同源建模法
基于已知的蛋白质结构数据库,通过寻找与目标蛋白质序列相似度 高的已知结构,构建目标蛋白质的三级结构模型。
基因注释法
根据目标蛋白质编码基因的注释信息,如基因本体(GO)注释、代谢通路注释等,推测 蛋白质的生物学功能。
蛋白质相互作用网络分析
通过分析目标蛋白质与其他蛋白质的相互作用关系,挖掘其在细胞生物学过程中的潜在功 能。例如,可以通过分析蛋白质复合物中的其他成员,或者通过蛋白质互作网络中的邻居 节点来推测目标蛋白质的功能。
多序列比对
将多个蛋白质序列进行比对,以寻找它们之间的保守区域和变异区域,从而推断 它们的功能和进化关系。常用的多序列比对工具包括ClustalW和MUSCLE等。

蛋白质序列分析

蛋白质序列分析

空间结构预测 1.蛋白质二级结构预测 蛋白质二级结构预测 例用SSPro4.0服务器预测 服务器预测 例用 http://scratch.proteomics.ics.uci.edu/
Coil无规则卷曲,Helixα螺旋,Extended β折叠。 无规则卷曲, 螺旋, 折叠。 无规则卷曲 螺旋 折叠 使用PORTER服务器预测 使用 服务器预测 http://distill.ucd.ie/porter/
5. Coil区分析 区分析 蛋白质中由2-7条 螺旋链相互缠绕形成类似麻花状结 蛋白质中由 条α螺旋链相互缠绕形成类似麻花状结 构的总称; 构的总称; 主要存在形式是2-5条相互缠绕形成的平行或反平行 主要存在形式是 条相互缠绕形成的平行或反平行 同寡聚体或异寡聚体; 同寡聚体或异寡聚体; 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、 动力蛋白、膜蛋白、酶等; 动力蛋白、膜蛋白、酶等; 七肽重复区。 七肽重复区。 例,使用COILS服务器分析 使用 服务器分析 http://www.ch.embnet.org/software/COILS_form.html
3. 跨膜区分析 蛋白质含有跨膜区提示它可能作为膜受体起作用, 蛋白质含有跨膜区提示它可能作为膜受体起作用,也 可能是定位在膜上的锚定蛋白或离子通道蛋白。 可能是定位在膜上的锚定蛋白或离子通道蛋白。 例,使用TMHMM Server v.2.0在线分析 使用 在线分析 http://www.cbs.dtu.dk/services/TMHMM/

6-蛋白质序列分析

6-蛋白质序列分析
分析的方法
确认预测的残基中的包埋面和外露面的序列是否与已 知蛋白质的模板结构相似
确认重要的氢键结合模式在预测β-折叠结构没有被 打乱
通过对已知结构的研究,在预测的结构中尽可能保留 与已知结构中残基性质相似(大小、极性、疏水性等) 的保守氨基酸
第三节 蛋白质的结构预测
1. 蛋白质序列的来源
空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸 罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小 但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。
3.模体搜索
模体是通过对一个蛋白质家族进行多序列比对检测出的 高度保守元件,常对应于一些结构域和功能域,模体搜 索是找到序列中一些关键的保守氨基酸。
蛋白质模体及结构域数据库
收集了蛋白质的保守结构域和功能域的特征序列;如PROSITE, Pfam,PRINTS,BLOCKS等
蛋白质结构数据库
以蛋白质的结构测量数据为主;如PDB等
蛋白质分类数据库
分为以序列比较为基础的序列分类数据库和以结构比较为基础的结 构分类数据库,如SCOP,CAHT,FSSP等
第一行为该区域出现的氨基酸,每一行为蛋白序列 中一个位置,在该位置对各种氨基酸的保守情况都给出 一个分值,分值越高表示出现概率越大
PROSITE 使用注意事项
Pattern主要可以用来预测某些生物活性位 点,如磷酸化位点、甲基化位点。profile 预测可靠性高,可以用来对新蛋白进行分 类和提供功能提示。

蛋白质序列分析技术的发展与应用

蛋白质序列分析技术的发展与应用

蛋白质序列分析技术的发展与应用蛋白质是生物体内的基本生物分子之一,是细胞结构和功能的

重要基础。蛋白质序列分析技术的发展与应用对于了解蛋白质的

结构和功能以及研究生物体的生命活动具有重要意义。

一、蛋白质序列分析技术的背景

在20世纪初,科学家们通过实验发现,蛋白质分子的性质和

结构与其氨基酸组成有密切关系。因此,为了更好地了解蛋白质

的性质和构成,科学家们开始研究蛋白质序列。

最初,科学家们使用酸水解、碱水解等方法来分析蛋白质的结

构和序列,但这些方法具有破坏性和低效率的缺点。20世纪50年代以后,随着高效液相色谱、质谱、光谱等技术的发展,蛋白质

序列分析技术得到了快速的发展和广泛的应用。尤其随着计算机

技术的不断进步,蛋白质序列的计算和分析变得更加高效、精确。

二、蛋白质序列分析技术的分类

目前,蛋白质序列分析技术可以分为两大类,即实验性质谱法和计算性质谱法。

实验性质谱法是指通过实验手段对蛋白质进行分析,得出其序列和结构信息。目前常用的实验性质谱法主要包括质谱、Edman 降解等技术。其中,质谱法是目前最常用的分析技术之一,它能够快速分析蛋白质组成和序列信息。质谱法通过将蛋白质裂解成小片段,然后通过分析这些小片段的分子质量和相对含量,来推断出蛋白质的序列和结构信息。

计算性质谱法是指利用计算机技术对蛋白质的序列和结构进行分析。根据蛋白质序列的物理化学性质和结构特征,通过计算来预测蛋白质的结构和功能等信息。计算性质谱法可以通过大量的蛋白质序列数据和生物信息学方法进行分析,较之实验性质谱法具有更高的效率和准确性。

蛋白质序列测序序列

蛋白质序列测序序列

蛋白质序列测序序列

蛋白质序列测序是确定蛋白质分子中氨基酸残基顺序的过程。通过测序,可以获得蛋白质的完整氨基酸序列,这对于理解蛋白质的结构、功能和进化关系至关重要。

蛋白质序列测序的主要方法包括:

1. 化学测序法:这是一种传统的测序方法,通过使用化学试剂对蛋白质进行水解和衍生,然后通过色谱或电泳技术分离和鉴定氨基酸残基。

2. 质谱法:质谱法是一种基于质量分析的测序方法。通过将蛋白质碎片化,并测量碎片的质量,可以确定氨基酸残基的顺序。

3. 核酸测序法:对于一些含有核酸序列的蛋白质,如核糖核酸酶,可以通过核酸测序的方法来确定蛋白质序列。

4. 生物信息学方法:利用生物信息学工具和数据库,可以通过比对已知蛋白质序列来推测未知蛋白质的序列。

蛋白质序列测序的结果通常以氨基酸序列的形式表示,其中每个氨基酸用其单字母缩写表示。例如,一段典型的蛋白质序列可能是"MLEKFQNIVL"。

蛋白质序列测序对于蛋白质研究具有重要意义。它可以帮助我们了解蛋白质的结构和功能、研究蛋白质-蛋白质相互作用、探索蛋白质家族的进化关系以及开发新的药物和生物技术。

蛋白质序列分析

蛋白质序列分析
蛋白质序列分析
? GPSRYIV…
本章内容 •引言 引言 •蛋白质基本性质预测 蛋白质基本性质预测 •蛋白质二级结构预测 蛋白质二级结构预测 •蛋白质三级结构预测 蛋白质三级结构预测 •蛋白质功能预测 蛋白质功能预测
引言
由于用X光晶体衍射和NMR核磁共振技术测定蛋白 由于用X光晶体衍射和NMR核磁共振技术测定蛋白 NMR 质的三维结构, 质的三维结构,以及用生化方法研究蛋白质的功 能效率不高,无法适应蛋白质序列数量飞速增长 能效率不高, 的需要. 的需要. 蛋白质三级结构的信息对了解构效关系、 蛋白质三级结构的信息对了解构效关系、蛋白质 改造以及基于结构的药物设计都是非常必需。 改造以及基于结构的药物设计都是非常必需。 理论基础: Anfinsen假说 除了核糖核酸酶以外, 假说: 理论基础: Anfinsen假说:除了核糖核酸酶以外, 很多其它的蛋白质也能自动折叠成活性状态; 很多其它的蛋白质也能自动折叠成活性状态; 分子 伴侣在蛋白质折叠过程中起帮助作用. 伴侣在蛋白质折叠过程中起帮助作用
TGREASE: FASTA工具包中的程序 工具包中的程序, 3. TGREASE:是FASTA工具包中的程序,分析蛋白质 序列的疏水性。 序列的疏水性。这个程序延序列计算每个残基位 点的移动平均疏水性,并给出疏水性-序列曲线, 点的移动平均疏水性,并给出疏水性-序列曲线, 用这个程序可以发现膜蛋白的跨膜区和高疏水性 区的明显相关性。也可以用Bioedit Bioedit。 区的明显相关性。也可以用Bioedit。 SAPS:蛋白质序列统计分析, 4. SAPS:蛋白质序列统计分析,对提交的序列给出 大量全面的分析数据,包括氨基酸组成统计、 大量全面的分析数据,包括氨基酸组成统计、电 荷分布分析、电荷聚集区域、高度疏水区域、 荷分布分析、电荷聚集区域、高度疏水区域、跨 膜区段等等。 膜区段等等。 SAPS网址 网址: SAPS网址: http://www.isrec.isb-sib.ch/software/SAPS_form.html

蛋白质序列分析

蛋白质序列分析

Asp (D) -3.5
Ala (A) 1.8
Gln (Q) -3.5
Gly (G) -0.4
Glu (E) -3.5
Thr (T) -0.7
Lys (K) -3.9
Ser (S)
-0.8
Arg 精选课件ppt (R)
-4.5
10
蛋白质序列分析
主要选项/参数
序列在线提交形式:
• 如果分析SWISS-PORT和TrEMBL数据库中序列 – 直接填写Swiss-Prot/TrEMBL AC号(accession number)
N
N端
HC
精选课件ppt
C端
21
蛋白质序列分析
信号肽预测在线分析工具
名称 ChloroP
http:///
网址
说明 预测植物中叶绿体转运肽
LipoP NetNES
http:/// http:///
预测革兰氏菌中的信号肽酶I、 II的剪切位点
预测富含亮氨酸的核输出信号
SecretomeP SignalP
蛋白质序列分析
2005 《基因表达序列标签(EST) 数据分析手册》第八章
吴祖建等 2011 《生物信息学分析实践》 第五章
蛋白质序列分析
• 蛋白质序列结构信息
– 蛋白质序列的基本性质 分析
– 结构域分析及motif搜索 – 蛋白质二级结构 – 蛋白质三级结构
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质序列、性质、功能和结构分析

基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL

检索。

1、疏水性分析

ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。

2、跨膜区分析

蛋白质跨膜区域分析的网络资源有:

TMPRED:/software/TMPRED_form.html

PHDhtm:

http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html

MEMSAT: ftp://

3、前导肽和蛋白质定位

一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。

蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk

/services/SignalP/或其二版网址

http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用

e-mail进行批量蛋白质序列信号肽分析的方案

(http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。

蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

氨基酸;③羟基氨基酸(特别是丝氨酸)含量较高;④有形成两亲(即有亲水又有疏水部分)α-螺旋结构的能力。和信号肽与跨膜区结构一样,蛋白质的亚细胞定位也和其功能密切相关,蛋白质亚细胞定位分析可通过如下网址进行:http://predict. /nnpsl/nnpsl_mult.cgi。

4、卷曲螺旋分析

另外一个能够直接从序列中预测的功能motif是α-螺旋的卷曲螺旋(coiled- coils)排列方式。在这种结构中,两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构。卷曲螺旋在多种蛋白质中存在,如转录因子的亮氨酸拉链结构及肌球蛋白等。相关生物信息学资源如下:

Coiled-coil:

/depts/biol/units/coils/coilcoil.html

COILS: /software/COILS_form.html

EpitopeInfo: /Links.htm

5、蛋白质功能预测

蛋白质序列分析的一般流程如下图。

图1 蛋白质序列分析的一般流程

(1)基于序列同源性分析的蛋白质功能预测

至少80个氨基酸长度范围内具有25%以上的序列一致性才提示可能的显著性意义。未知功能序列对库检索的一般分析策略如下:

①和运行Blastp程序的服务器(/blast/)连接;

②将目的序列粘贴到序列输入框中,选择BLOSUM62记分矩阵运行BlastP 程序。NCBI的BlastP程序要求输入格式为FASTA格式,其他一些网站则要求纯序列格式;

③如果BlastP检测到了高度同源的序列,将有可能提示目的序列的生物学功能;

④如查BlastP未能获得有意义的结果,试用FASTA

(/fasta3/)。虽然FASTA比BlastP慢,但有时可获得有意义的结果;

⑤如果FASTA和BlastP均未能获得有意义的结果,则需采用完全的Smith- Waterman算法对库搜索。例如用EBI的BLITZ程序

(/bic_sw/)。此类程序能发现低同源性(如20%~25%)的蛋白质序列之间的匹配情况,此种情况在近似算法中会被丢掉。

在调整记分矩阵的同时,也可调整数据库。典型情况下使用的是非冗余的蛋白质序列数据库 SWISS-PROT和PDB数据库。如用BlastP程序也可检索OWL综合性蛋白质序列数据库。OWL综合性蛋白质序列数据库网址:

/bsm/dbbrowser/OWL/owl_blast.html。

(2)基于motif、结构位点、结构功能域数据库的蛋白质功能预测

motif数据库PROSITE: /prosite/。在对数据库PROSITE查询时,可联网到:/tools /scnpsit1.html,将目的序列粘贴到输入框中,点击“search”即可。

数据库PROSITE是由专家根据生物学知识审编的SWISS-PROT蛋白质序列中有生物学意义的位点(sites)、模式(patterns)和轮廓(profiles)的数据库,包括酶活性位点、辅因子结合位点、二硫键位点等。此库可以帮助确定新的蛋白质序列是否属已知的家族。其网址为:

/prosite/、

/ftp/databases/prosite/。

profile数据库(蛋白质序列结构特征谱数据库)有以下几种:

BLOCKS: /blocks/;

/blocks_search.html

PFAM: /Software/Pfam/

PFAM-A:

PRINTS: /dbbrowser/PRINTS/

PRINTS-S:

/bsm/dbbrowser/PRINTS/PRINTS.html

ProDom: http://www.toulouse.inra.fr/prodom.html

http://protein.toulouse.inra.fr/prodom/prodom.html

http://protein.toulouse.inra.fr/prodom/blast_form.html

ProDomCG: http://www.toulouse.inra.fr/prodom.html

相关文档
最新文档