PIR蛋白质序列数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
5
PIR提供三种类型的检索服务:
一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息和蛋白质家族 信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索等。
体系(ontology)(PRO)信息。
其他重要的蛋白质序列数据库
• PRINTS • Pfam
PRINTS
• PRINTS (http://www.bioinf.manchester.ac.uk/dbbrowser/PRI NTS/index.php)是蛋白基序指纹图综合数据库,每个指 纹图都是使用数据扫描程序ADSP或VISTAS序列分析软 件包反复优化后定义的。数据库中有两种类型指纹图,根 据指纹图的复杂性分为简单和复合指纹图:简单指纹图基 本上是单一的基序,而复合指纹图包含多个基序。
22
• 2. iProClass-蛋白质知识整合数据库
• iProClass(http://pir.georgetown.edu/iproclass/)
提供来自90多个生物学数据库的大量整合数据,包
括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描
述和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括: 功能、转导通路、相互作用、家族分类、基因和基 因组、功能注释标准体系(ontology)、文献和分
6
PIR主要数据库:
• • • • 1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合 数据库 • 5PIR-NREF-非冗余的蛋白质参考资料数据 库
(http://pir.georgetown.edu)
UniProt数据库的构成
• UniProt数据库
UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES)
19
1.UniProt知识库(UniProtKB)
• UniProt知识库是一个专家级的数据库,它 可以通过与其它资源进行交互查找的方式 为用户提供一个有关目的蛋白质的全面的 综合信息。UniProtKB包括两个组成部分: UniProtKB/Swiss-Prot UniProtKB/TrEMBL。
蛋白质搜索 网站搜索
G00016
主页的导航条有五大类:
Abrout PIR:对网站的历史、 发展、 刊物等的介绍; Databases:包括Proclass、 Pirsf、PIR—PSD、 PIR— NREF 、Uniprot等数据库集合; Search/Analysis:对蛋白质序 列分析的多种途径; Dowload:网站提供的蛋白质序 列; Support:一些帮助及其它连接.
类学信息。使用iProClass还可以检索ID图谱、蛋白
质词典和相关序列。
• 3. PIRSF-蛋白质家族分类系统 PIRSF
(http://pir.georgetown.edu/pirsf/)分类
系统概要论述家族的特征,如家族名称、
分类分布、分级和功能域结构,以及家族
成员,包括功能、结构、传导通路、功能
2
PIR的概念
• PIR是一个集成了关于蛋白质功能预测数据 的公共资源的数据库,其目的是支持基因 组/蛋白质组研究。PIR与其他组织合作, 共同构成了PIR-国际蛋白质序列数据库 (PSD)——一个主要的已预测的蛋白质数 据库,包括250,000个蛋白。
3
PIR的功能
• 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 • 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 • 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。
PIR 蛋白质序列数据库
(http://pir.georgetown.edu)
PIR的产生
• PIR(Protein Information resouce,蛋白质 数据库)的出现先于核酸数据库。在1960 年左右,Dayhoff和其同事们搜集了当时所 有已知的氨基酸序列,编著了《蛋白质序 列与结构图册》。从这本图册中的数据, 演化为后来的蛋白质信息资源数据库。
瑞士生物信息研究所(Swiss Institute of Bioinformatics)
• UniProt协会(UniProt Consortium)编辑、制作 的一个信息资源,旨在为从事现代生物研究的科研 人员提供一个有关蛋白质序列及其相关功能方面的 广泛的、高质量的并可免费使用的共享数据库。
18
20
UniProtKB/Swiss-Prot
• UniProtKB/Swiss-Prot主要收录人工注释的序列 及其相关文献信息和经过计算机辅助分析的序列。 • 在UniProtKB中,注释包括
蛋白质功能 酶学特性 生物学意义的相关结构域及位点 翻译后修饰情况 亚细胞定位 组织特异性 发育阶段特异性 结构、相互作用 剪接异构体 相关疾病信息的注释 。
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋
白质中的域可以了解蛋白质的功能。
• Pfam数据库(http://pfam.sanger.ac.uk/)是一
二、功能注释
Uniprot中一个蛋白质的例子
http://www.uniprot.org/uniprot/P10962
三、序列特征
Uniprot中一个蛋白质的例子
http://www.uniprot.org/uniprot/P10962
四、蛋白质结构域组成和蛋白质家族
Uniprot中一个蛋白质的例子
注释标准体系(ontology)和家族分类。
利用这些信息可以获得蛋白质的准确功能 或预测的功能和该蛋白质所属家族成员共 有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(http://pir.georgetown.edu/iprolink/)提供
有关注释内容的文献、蛋白质名称词典和其他有助于文献
21
UniProtKB/TrEMBL
• UniProtKB/TrEMBL收录的则是高质量的经计算 机分析后进行自动注释和分类的序列。计算机辅 助注释使用的是Spearmint规则,而人工注释依 据的则是蛋白质家族规则,包括HAMAP家族规 则(HAMAP family rules)、RuleBase规则、 PIRSF分类命名规则以及位点规则。 UniProtKB/TrEMBL还收录了所有EMBL-Bank/ GenBank/DDBJ核酸序列数据库中的编码序列的 翻译后蛋白质序列和来自拟南芥信息资源库 (TAIR)、SGD和人类Ensembl数据库中序列 的翻译后蛋白质序列。
http://www.uniprot.org/uniprot/P10962
五、其他特征:结构、参与的蛋白质互作
挖掘的人文语言处理技术开发的信息、数据库校正、蛋白 质名称标记和功能注释标准体系(ontology)。使用
iProLINK可以获得描述蛋白质记录的文本文献资源,在
UniProtKB记录(生物词典)中加入蛋白质或基因命名的 图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋
白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标准
通用蛋白质资源库 UniProt
• 是一个集中收录蛋白质资源并能与其它资源相互联 系的数据库,也是目前为止收录蛋白质序列目录最 广泛、功能注释最全面的一个数据库。
欧洲生物信息学研究所(European BioinformatiBiblioteka Baidus Institute)
美国蛋白质信息资源(Prontein Information Resource)
8
9
蛋白质一般信息
交叉引用文献
10
相关蛋白质家族信息
11
点击此处
12
此处链接 UniProt databases.
13
在UniProt database搜 索s中的结果
14
蛋白质基本信息
蛋白质家族信息
15
16
Entry name 标题/序列名称 序列物种来源拉 丁名(常用名) 记录注册、修改日期 注册号及参考来源 物种分类型 序列长度 序列顺序 文献发表作者/刊名/发 表时间/文章名/文献数 据库记录号 17
个大的蛋白质域家族集合,每个家族是用多序列
比对和隐马模型(HMMs)分析结果的代表。
Uniprot中一个蛋白质的例子
http://www.uniprot.org/uniprot/P10962
一、基本信息
Uniprot中一个蛋白质的例子
http://www.uniprot.org/uniprot/P10962