蛋白质序列1解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
② MotifScan 用于查找未知序列中所有可能的已知结构组 件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
3 .1 蛋白质数据库介绍
特征:
这些数据库种类有差别, 但内部是相互联系的, 每个 数据库都有指针指向其他数据库, 而且数据库之间的序列
以及相应的结构是共享的, 同一种蛋白质依次会出现在不
同的数据库, 这样的数据沟通有助于更深层地挖掘蛋白质 的内在生物信息, 这些数据库是融序列信息的索取、处理、 存储、输出于一身的。
3.1.1 蛋白质序列数据库
1. PIR(protein information resource, PIR)和PSD (protein sequence database, PSD)
PIR 的建立源于20 世纪60 年代Margaret O . Dayhoff 从 事的蛋白质进化关系的研究工作, 起初的想法是通过对蛋白 质序列信息资源全面、高质、合理的编制来协助计算生物 学以及基因组学的研究。 现在PIR 由美国国家生物医学研究基金支助, 隶属于 Georgetown 大学医学中心。由PIR、MIPS ( Munich Information Center for Protein Sequence,MIPS) 以及 JIPSD( Japan International protein Sequence Database , JIPSD) 协作建立并维护的PIR 国际蛋白质序 列数据库( PSD) , 它是目前国际上最大的公共蛋白质序列 数据库。
1986 年, 现在由瑞士生物信息研究所(Swiss Institute of Bioinformatics, SIB) 和欧洲生物信息研究所( European
Bioinformatics Institute, EBI) 共同维护。
来自百度文库
它是ExPASy 网站的一部分, 数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注 释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位 点和区域、二级结构、四级结构、与其他序列的相似性、序
列残缺与疾病的关系、序列变异体等信息。
3.1.2 模体以及结构域数据库
1. 模体数据库 (1)PROSITE 蛋白质家族及结构域数据库 ( www.expasy.org/prosite/ ) PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征 属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋 白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通 过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序 列分析数据库。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
功能:
随着网络资源的日益丰富, 蛋白质数据库不论其数据 为何种形式, 都具备3 种功能:
第一、对数据的注释功能。所有提交到数据库的数据都 要由作者或数据库管理人员进行注释方能发布。
第二、对数据的检索功能。数据经注释之后, 访问者就可 以通过数据库网页上提供的搜索引擎进行搜索, 找到自己 所需的蛋白质信息。 第三、对数据的生物信息分析功能。访问者一旦找到感 兴趣的蛋白质, 就可以运用数据库提供的生物信息分析工 具对蛋白质序列的未知数据进行预测, 如预测蛋白质的理 化性质, 预测蛋白质的二级结构, 多重序列比对, 等等, 因 此通过网上资源对蛋白质的生物信息做出比较完整的分 析是可以做到的。
蛋白质序列分析
王兴平
内容
3 .1 蛋白质数据库介绍
3 .2 蛋白质序列分析
3 .3 蛋白质序列分析及结构预测策略
3 .4 一级结构的预测
3 .5 二级结构预测方法
3 .6 其他序列分析工具
3 .7 三级结构预测
3 .8 蛋白质家族分析
3 .1 蛋白质数据库介绍
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结 构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些 数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释;
蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数 据库主要收集了蛋白质的保守结构域和功能域的特征序列;
蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质 的结构测量数据为主; 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中 又有以序列比较为基础的序列分类数据库以及以结构比较 为基础的结构分类数据库之分。
3.1.2 模体以及结构域数据库
(1)PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ )
同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包含
PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中
已提交的序列模式;
网址:http://pir.georgetown.edu/pirwww 课堂演示,网页 及认识数据库内容。
3.1.1 蛋白质序列数据库
2. SWISS-PROT/ TrEMBL数据库( www.expasy.org/swissprot )
SWISS-PROT 数据库是经注释的蛋白质数据库, 始建于
3.1.1 蛋白质序列数据库
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分
类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将
GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而 成的蛋白质序列、发表的文献中的序列和用户直接提交的
序列。
以PIR-PSD 为基础, PIR 还衍生出PIRNREF、iPROClass 以及其他PIR 辅助数据库, 为基因组学和蛋白质组学提供 了从序列到结构直至功能的完整分析工具。