-蛋白质序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 蛋白质序列分析
第一节 蛋白质数据库
1.数据库的分类
▪ 蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级, 依据这种结构层次,将蛋白质数据库分为:
▪ 蛋白质序列数据库
➢ 以蛋白质的序列为主,并赋予相应的注释;如PIR-PSD、SWISSPROT/TrEMBL, NCBI等
▪ 蛋白质模体Leabharlann Baidu结构域数据库
▪ MotifScan
➢ 使用PROSITE 以及pfam 中的profile 对蛋白进行搜索。
▪ PRATT
➢ 用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序 列,生成共有的pattern。
▪ PROSITE还提供一些可以下载到本地运行的程序
➢ 如ps_scan,但需要安装perl 运行环境。Pftools 同样是可以本地运 行 的 工 具 , 可 以 搜 索 PROSITE 中 的 profile , 也 可 以 构 建 用 户 自 己 的 profile.
➢ 因此,是一个有效的序列分析数据库。
PROSITE中涉及的序列模式
➢ 酶的催化位点 ➢ 配体结合位点 ➢ 金属离子结合位点 ➢ 二硫键、小分子或者蛋白质结合区域等 ➢ PROSITE还包括由多序列比对构建的序列特征谱
(profile),能更敏感地发现序列中的信息。
Pfam(蛋白质家族序列比对以及HMM模式数据库)
(CATH Protein Structure Classification)
() ▪ FSSP 基于蛋白质结构-结构比对的折叠分类
(Fold classification based on Structure-Structure alignment of Proteins)
()
6. 数据库的利用
第二节 蛋白质序列分析及结构预测策略
蛋白质的结构预 测必须基于一定 的序列基础和实 验证据,因此必 须尽可能搜集一 切有关这个蛋白 质可能的理化性 质和其它特性。
1. 基本流程 ▪ 实验数据
➢ 蛋白质序列
▪ 理化特性分析
➢ 跨膜区、等电点、亲水性、疏水性、 酶切特性、电荷等
▪ 数据库检索
➢ 多序列比对、结构域搜索
▪ 蛋白质数据库都具备三种功能
➢ 数据的注释(annotation)
所有提交到数据库的数据都要由作者或数据库管理人员进 行注释方能发布;
➢ 数据的检索(search)
数据经注释之后,访问者可以通过数据库网页上提供的搜 索引擎进行搜索,找到自己所需的蛋白质信息;
➢ 数据的生物信息分析(analysis)
4. 蛋白质结构数据库PDB ()
PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物 大分子结构数据,主要是蛋白质结构数据
5. 蛋白质分类数据库
▪ SCOP蛋白质结构分类数据库
(Structural Classification of Protein database) ()
▪ CATH蛋白质结构数据库
▪ 蛋白的功能位点是与其三维结构紧密相关 的,局部区域符合某种pattern不能保证一 定会具有对应的性质,要根据实际情况, 谨慎对待pattern 预测结果。
PROSITE 工具
▪ ScanProsite
➢ 搜索蛋白序列是否含PROSITE数据库中存有的模式或是功能位点;搜 索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库PDB中 含有该模式的蛋白,可察看其三维结构。
2.同源搜索
▪ 新序列最常用的分析,就是与已知的序列等数据库进行比对,找到 同源的蛋白质序列或相似性较高的序列。
▪ 二级结构预测
➢ 如有PDB中同源体 ➢ 蛋白质折叠识别 ➢ 折叠家族分析 ➢ 序列与结构比对 ➢ 比较建模
▪ 三级结构预测 ▪ 三维蛋白模型
蛋白质序列分析及结构预测的基本流程
1.序列特征的初步分析
▪ 理化特性的预测 ▪ 修饰位点的预测 ▪ 是否为跨膜蛋白或片段 ▪ 是否包含螺旋卷曲结构 ▪ 是否还有低复杂度序列等等
➢ 收集了蛋白质的保守结构域和功能域的特征序列;如PROSITE, Pfam,PRINTS,BLOCKS等
▪ 蛋白质结构数据库
➢ 以蛋白质的结构测量数据为主;如PDB等
▪ 蛋白质分类数据库
➢ 分为以序列比较为基础的序列分类数据库和以结构比较为基础的结 构分类数据库,如SCOP,CAHT,FSSP等
2. 蛋白质序列数据库
数字表示氨基酸个数。 ➢ [AC]-x-V-x(4)-{ED}This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
PROSITE- profile 示例
➢Profile 为对保守区域每一位置氨基酸保守情况 进行打分构建的权重矩阵。
3. 蛋白质模体及结构域数据库
PROSITE蛋白质家族和结构域数据库( )
➢ PROSITE数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型,
➢ 能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋 白质序列属于哪个蛋白质家族,
➢ 即使在蛋白质序列相似性很低的情况下,可以通过搜索隐 含的功能结构模体(motif)来鉴定
访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供 的生物信息分析工具对蛋白质序列的未知数据进行预测, 如预测蛋白质的理化性质,预测蛋白质的二级结构,多重序 列比对等等。
PROSITE 内容
▪ PROSITE 主要保存两类信息:
模式(pattern)和谱(profile,权重矩阵)。 ➢ 模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列。 ➢ 例如酪氨酸激酶磷酸化位点模式 ➢ [RK]-x(2)-[DE]-x(3)-Y 或 [RK]-x(3)-[DE]-x(2)-Y 其中扩号表示扩号中的各种氨基酸均可,X表示任意氨基酸,小扩号中的
第一行为该区域出现的氨基酸,每一行为蛋白序列 中一个位置,在该位置对各种氨基酸的保守情况都给出 一个分值,分值越高表示出现概率越大
PROSITE 使用注意事项
▪ Pattern主要可以用来预测某些生物活性位 点,如磷酸化位点、甲基化位点。profile 预测可靠性高,可以用来对新蛋白进行分 类和提供功能提示。
第一节 蛋白质数据库
1.数据库的分类
▪ 蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级, 依据这种结构层次,将蛋白质数据库分为:
▪ 蛋白质序列数据库
➢ 以蛋白质的序列为主,并赋予相应的注释;如PIR-PSD、SWISSPROT/TrEMBL, NCBI等
▪ 蛋白质模体Leabharlann Baidu结构域数据库
▪ MotifScan
➢ 使用PROSITE 以及pfam 中的profile 对蛋白进行搜索。
▪ PRATT
➢ 用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序 列,生成共有的pattern。
▪ PROSITE还提供一些可以下载到本地运行的程序
➢ 如ps_scan,但需要安装perl 运行环境。Pftools 同样是可以本地运 行 的 工 具 , 可 以 搜 索 PROSITE 中 的 profile , 也 可 以 构 建 用 户 自 己 的 profile.
➢ 因此,是一个有效的序列分析数据库。
PROSITE中涉及的序列模式
➢ 酶的催化位点 ➢ 配体结合位点 ➢ 金属离子结合位点 ➢ 二硫键、小分子或者蛋白质结合区域等 ➢ PROSITE还包括由多序列比对构建的序列特征谱
(profile),能更敏感地发现序列中的信息。
Pfam(蛋白质家族序列比对以及HMM模式数据库)
(CATH Protein Structure Classification)
() ▪ FSSP 基于蛋白质结构-结构比对的折叠分类
(Fold classification based on Structure-Structure alignment of Proteins)
()
6. 数据库的利用
第二节 蛋白质序列分析及结构预测策略
蛋白质的结构预 测必须基于一定 的序列基础和实 验证据,因此必 须尽可能搜集一 切有关这个蛋白 质可能的理化性 质和其它特性。
1. 基本流程 ▪ 实验数据
➢ 蛋白质序列
▪ 理化特性分析
➢ 跨膜区、等电点、亲水性、疏水性、 酶切特性、电荷等
▪ 数据库检索
➢ 多序列比对、结构域搜索
▪ 蛋白质数据库都具备三种功能
➢ 数据的注释(annotation)
所有提交到数据库的数据都要由作者或数据库管理人员进 行注释方能发布;
➢ 数据的检索(search)
数据经注释之后,访问者可以通过数据库网页上提供的搜 索引擎进行搜索,找到自己所需的蛋白质信息;
➢ 数据的生物信息分析(analysis)
4. 蛋白质结构数据库PDB ()
PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物 大分子结构数据,主要是蛋白质结构数据
5. 蛋白质分类数据库
▪ SCOP蛋白质结构分类数据库
(Structural Classification of Protein database) ()
▪ CATH蛋白质结构数据库
▪ 蛋白的功能位点是与其三维结构紧密相关 的,局部区域符合某种pattern不能保证一 定会具有对应的性质,要根据实际情况, 谨慎对待pattern 预测结果。
PROSITE 工具
▪ ScanProsite
➢ 搜索蛋白序列是否含PROSITE数据库中存有的模式或是功能位点;搜 索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库PDB中 含有该模式的蛋白,可察看其三维结构。
2.同源搜索
▪ 新序列最常用的分析,就是与已知的序列等数据库进行比对,找到 同源的蛋白质序列或相似性较高的序列。
▪ 二级结构预测
➢ 如有PDB中同源体 ➢ 蛋白质折叠识别 ➢ 折叠家族分析 ➢ 序列与结构比对 ➢ 比较建模
▪ 三级结构预测 ▪ 三维蛋白模型
蛋白质序列分析及结构预测的基本流程
1.序列特征的初步分析
▪ 理化特性的预测 ▪ 修饰位点的预测 ▪ 是否为跨膜蛋白或片段 ▪ 是否包含螺旋卷曲结构 ▪ 是否还有低复杂度序列等等
➢ 收集了蛋白质的保守结构域和功能域的特征序列;如PROSITE, Pfam,PRINTS,BLOCKS等
▪ 蛋白质结构数据库
➢ 以蛋白质的结构测量数据为主;如PDB等
▪ 蛋白质分类数据库
➢ 分为以序列比较为基础的序列分类数据库和以结构比较为基础的结 构分类数据库,如SCOP,CAHT,FSSP等
2. 蛋白质序列数据库
数字表示氨基酸个数。 ➢ [AC]-x-V-x(4)-{ED}This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
PROSITE- profile 示例
➢Profile 为对保守区域每一位置氨基酸保守情况 进行打分构建的权重矩阵。
3. 蛋白质模体及结构域数据库
PROSITE蛋白质家族和结构域数据库( )
➢ PROSITE数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型,
➢ 能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋 白质序列属于哪个蛋白质家族,
➢ 即使在蛋白质序列相似性很低的情况下,可以通过搜索隐 含的功能结构模体(motif)来鉴定
访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供 的生物信息分析工具对蛋白质序列的未知数据进行预测, 如预测蛋白质的理化性质,预测蛋白质的二级结构,多重序 列比对等等。
PROSITE 内容
▪ PROSITE 主要保存两类信息:
模式(pattern)和谱(profile,权重矩阵)。 ➢ 模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列。 ➢ 例如酪氨酸激酶磷酸化位点模式 ➢ [RK]-x(2)-[DE]-x(3)-Y 或 [RK]-x(3)-[DE]-x(2)-Y 其中扩号表示扩号中的各种氨基酸均可,X表示任意氨基酸,小扩号中的
第一行为该区域出现的氨基酸,每一行为蛋白序列 中一个位置,在该位置对各种氨基酸的保守情况都给出 一个分值,分值越高表示出现概率越大
PROSITE 使用注意事项
▪ Pattern主要可以用来预测某些生物活性位 点,如磷酸化位点、甲基化位点。profile 预测可靠性高,可以用来对新蛋白进行分 类和提供功能提示。