蛋白质的序列分析及结构预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
1. 蛋白质序列信息的获取
(1) 直接测序 (2) 翻译编码的DNA序列 ORF Finder (3)在数据库中搜索 • 运用ID 号、入口号、条目号等搜索。 • 运用关键词搜索 • 其他方式搜索。如可以通过引用序列的文献、
序列的作者、序列提交的日期等进行搜索。
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数 据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序 列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
1. 蛋白质序列信息的获取
(1)直接测序
e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry,
即用串联质谱仪测序
串联质谱及其作用
• 两个或更多的质谱连接在一起,称为串联质谱。
•最简单的串联质谱(MS|MS)由两个质谱串联而成, 其中第一个质量分析器(MS1)将离子预分离或加 能量修饰,由第二级质量分析器(MS2)分析结果。
串联质谱仪的组合方式:
(1) 磁分析器-静电分析器-磁分析器 (2) 静电分析器-磁分析器-静电分析器 (3) 三重四极滤质器质谱仪 (4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串 联质谱有空间串联和时间串联两种方式。
优点:
• 可以避免底物分子产生的干扰,大大降低背景噪音。 • 其次,可使分子离子通过与反应气的碰撞来产生断裂。 • 因此能提供更多的结构信息,所以串联质谱特别适合 于复杂组分体系且干扰严重的样品中低含量组分分析测 定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵 敏度。
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
蛋白质的序列分析及结构预测
Fra Baidu bibliotek
DNA sequence Protein sequence Protein structure Protein function
一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、 分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点 和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、 序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库 ( www.expasy.org/prosite/ )
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由RCSB 维护和注释。
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
1. 蛋白质序列信息的获取
(1) 直接测序 (2) 翻译编码的DNA序列 ORF Finder (3)在数据库中搜索 • 运用ID 号、入口号、条目号等搜索。 • 运用关键词搜索 • 其他方式搜索。如可以通过引用序列的文献、
序列的作者、序列提交的日期等进行搜索。
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数 据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序 列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
1. 蛋白质序列信息的获取
(1)直接测序
e.g. Protein Sequencing and Identification by Tandem Mass Spectrometry,
即用串联质谱仪测序
串联质谱及其作用
• 两个或更多的质谱连接在一起,称为串联质谱。
•最简单的串联质谱(MS|MS)由两个质谱串联而成, 其中第一个质量分析器(MS1)将离子预分离或加 能量修饰,由第二级质量分析器(MS2)分析结果。
串联质谱仪的组合方式:
(1) 磁分析器-静电分析器-磁分析器 (2) 静电分析器-磁分析器-静电分析器 (3) 三重四极滤质器质谱仪 (4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串 联质谱有空间串联和时间串联两种方式。
优点:
• 可以避免底物分子产生的干扰,大大降低背景噪音。 • 其次,可使分子离子通过与反应气的碰撞来产生断裂。 • 因此能提供更多的结构信息,所以串联质谱特别适合 于复杂组分体系且干扰严重的样品中低含量组分分析测 定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵 敏度。
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
蛋白质的序列分析及结构预测
Fra Baidu bibliotek
DNA sequence Protein sequence Protein structure Protein function
一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、 分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点 和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、 序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库 ( www.expasy.org/prosite/ )
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由RCSB 维护和注释。
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。