蛋白质序列数据库
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ The UniProt Archive (UniParc) stores all publicly available protein sequences, containing the history of sequence data with links to the source databases.
2 作者
▪ 数据或文章的作者是系统联系相关数据和科学研究的关键 因素;
▪ GenBank数据库的作者的输入全称姓和名的首字母
3 文章
▪ 最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺省 是期刊文献
▪ 文章也可出现在书、手稿及电子期刊上。 ▪ 期刊名、年份、文章的首页以及文章作者的姓
4 专利权
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
▪ 2个大写字母(分:基因信息号,核酸序列和蛋白质序列均有gi号; ▪ gi的来源:由源数据库提供;序列仅当其完整地被提交公
共数据库处理后,才最终达到一个序列号和一个gi号; ▪ 位置:在VERSION行中,版本号,gi号 ▪ 修改记录时,新记录与原先记录不同时(哪怕是一个碱基
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
wwwebiacukinterpro点击interproscan进入序列搜索2将要分析的序列粘贴在空白框然后选择获取结果方式interactive点击submitjob按钮3按窗口提示读取结入相关链接进行进一步分析interprointerpro在线分析未知蛋白质序列功能在线分析未知蛋白质序列功能基因分类协会geneontologyconsortiumgoc整合了现有数据库生物信息资源建立了基因分类数据库thegeneontologygoc基因分类协会goc建立了可控的动态词汇系统它从分子功能molecularfunction生物过程biologicalprocess和细胞组分cellularcomponent3个不同分类角度建立了3棵分类树对已经分类到树上的同源蛋白质序列赋予蛋白质特定的术语名称和go编号goc各成员提供其蛋白质数据库中已分类的蛋白编号和go号对照表是对未知蛋白序列进行分类的参照和标准目前genebank和swissprot已有60多万条蛋白序列具有go号即它们定位于go的分类树上
▪ 它链接、收集了如HUGO,SWISS-PORT,Genbank, PubMed,OMIM,HGMD,Unigene等五十多个数据库, 提供有关人类、果蝇、小鼠等基因的相关信息,以及多种 遗传性疾病、癌症、转基因资料
▪ 它对所有数据库的信息进行了科学地分类整理,形成了一 个关于基因及其产物的生物学和医学信息的电子百科全书
▪ The extensive cross-references, functional and feature annotations and literaturebased evidence attribution enable scientists to analyse proteinsand query acrossdatabases.
该数据库采用SwissPro数据库格式,其数据 来源于:
▪ EMBL核酸序列数据库(或GenBank、DDBJ)中所有编 码序列经计算机程序自动翻译的蛋白质
▪ 从文献中查到的 ▪ 或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋
白质序列
TrEMBL数据库分两部分: SP-TrEMBL和 REM-TrEMBL
不同),产生新的gi号,但序列号不变;
2 生物序列(BIOSEQ)
▪ 生物序列:一个简单的、连续的核酸或蛋白质分子; ▪ 至少有一个序列辨识器(SeqID); ▪ 包含DNA、RNA或蛋白质分子的物理信息、注释信息(如
特定区域的生物特征)和描述信息(如该分子是从某个组 织中获得的)。
4 序列注释(SEQ-ANNOT)
▪ UniProt databases continue to grow in size and in availability of information. Recent and upcoming changes to database contents, formats, controlled vocabularies and services are described.
d. SWISS-PROT中尽可能减少冗余序列
e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。
f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2 TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
▪ Link out
P53基因的OMIM检索结果:
(2)GeneCards
▪ GeneCards数据库是由以色列Weizmann科学研究所 (Weizmann Institute of Science)和Crown人类基因组 中心(Crown Human Genome Center)建立和维护的
二 疾病相关基因数据库
(1)OMIM:
▪ OMIM(Online Mendelian Inheritance in Man) 是美国Jonhs Hopkins大学Dr. Victor A. McKusick 等人建立和编辑的有关人类基因和遗传病目录的 电子版。
▪ 于本世纪60年代创立,旨在为临床医师和遗传病 研究工作者提供服务。
▪ 由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
▪ 是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照
▪ UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整 合在一起,是目前国际上最全面的蛋白质信息库。
综上所述,蛋白质序列数据库种类多且各有特色,因 此,用户在分析蛋白质序列时,应根据实际情况,尽可能 选择几个不同的数据库,并对结果加以比较。
The Universal Protein Resource (UniProt)
a. Locus名称:
▪ 兼有唯一辨识器、功能记忆以及序列的组织源等功能; ▪ Locus出现在GenBank中的Locus行以及DDBJ记录和EMBL的ID行; ▪ GenBank中已不再作为有用的名称,只是为了和老数据格式兼容
b. 序列号:
▪ GenBank、DDBJ和EMBL具有,以保证序列的相对稳定 性和专一性;
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
▪ TheUniProt Reference Clusters (UniRef) speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical.
▪ 它的智能化的导航系统,使用户能方便地查找感兴趣的内 容。它还提供了几十个镜像站,与很多的研究所、医院、 基因中心等链接,便于用户进一步查找相关信息。
三 NCBI数据库的数据模型
数据库模型:
是研究人员输入序列、查询序列、进行序列比对的根 本,也是数据库管理人员管理数据的总则。
NCBI数据模型包括:
序列数据和相关的注释。
作用:NCBI模型能轻易地从已公布的DNA序列文献影射到
基因所在的染色体--编码蛋白--蛋白质三维结构等。
(一) NCBI数据模型的文献
1 出版物: ▪ 出版物是连接不同结构和不同内容数据库的桥梁; ▪ 出版物是数据库记录的基本注释,也是最好的注释,发
表文章比数据库中的记录包含了更完整和更详细的信息。
UniProtKB/Swiss-Prot protein knowledgebase release 55.1 statistics
UniProtKB/TrEMBL PROTEIN DATABASE RELEASE 38.1 STATISTICS
Search by citation
SWISS-PROT的特点
▪ The UniProt Knowledgebase (UniProtKB), comprising the manually annotated UniProtKB/Swiss-Prot section and the automatically annotated UniProtKB/TrEMBL section, is the preeminent storehouse of protein annotation.
▪ 如果是专利序列,在文献的出处又多了专利文献; ▪ NCBI支持与美国专利局合作开发的完整的专利引
用程序。
5 Medline 和 PubMed UIDs
PUID 和MUID:PubMed唯一识别器和Medline唯一识别器
(二) NCBI数据模型的序列
1 序列识别器(SEQIDS):
GenBank、DDBJ和EMBL核酸蛋白数据库共用一套序列号
序列注释:是对序列注释的一个自包含集,也指向 特定生物序列、特定位置的信息。
信息形式:一个特征表、一类序列比对或一类序列 的图表。
a. 序列特征(Seq-feat):所有特征的一般信息,如编码区、 mRNA剪切等;
b. 序列比对:亲缘关系、序列的同源性比较; c. 序列图表:GC含量、表层能或覆盖序列长度的精确性等
▪ Provides a central resource on protein sequences and functional annotation with three database components, each addressing a key need in protein bioinformatics.
第7章 蛋白质序列数据库
一、常用的蛋白质数据库
▪ SWISS-PROT ▪ TrEMBL ▪ PIR-PSD ▪ UniPro
1 SWISS-PROT
▪ 由瑞士日内瓦大学医学生化系于1978年创建,后来与欧洲 分子生物学实验室合作,由瑞士生物信息学研究所 (Swiss Institute of Bioinformatics,SIB)和欧洲生物信 息学研究所(EBI)共同维护和管理。
▪ OMIM包含大量的及时更新的有关人类基因及其 突变序列数据和遗传病的临床特征等信息和相关 参考文献。
OMIM数据库基本信息
▪ MIM----概述、表型、 基因型、诊断、 临床处理、 群体遗传学、 动物模型、 参考文献、 临床表征、 编辑史等.
▪ Eztrez gene ----分类、 参考序列、蛋白质等
▪ SP-TrEMBL中的条目将最终被归并到SwissProt 数据库中;
▪ Rem-TrEMBL包含目前不打算并入SWISS-PROT 的蛋白质序列
包括免疫球蛋白、T细胞受体、人工设计合成蛋白 质序列、小肽、专利序列、假基因和截断了的蛋白质等。
3 PIR-PSD
▪ 蛋白质信息资源-国际蛋白质序列数据库 (the Protein Information ResourceInternational Protein Sequence Database, PIR-PSD
2 作者
▪ 数据或文章的作者是系统联系相关数据和科学研究的关键 因素;
▪ GenBank数据库的作者的输入全称姓和名的首字母
3 文章
▪ 最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺省 是期刊文献
▪ 文章也可出现在书、手稿及电子期刊上。 ▪ 期刊名、年份、文章的首页以及文章作者的姓
4 专利权
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
▪ 2个大写字母(分:基因信息号,核酸序列和蛋白质序列均有gi号; ▪ gi的来源:由源数据库提供;序列仅当其完整地被提交公
共数据库处理后,才最终达到一个序列号和一个gi号; ▪ 位置:在VERSION行中,版本号,gi号 ▪ 修改记录时,新记录与原先记录不同时(哪怕是一个碱基
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
wwwebiacukinterpro点击interproscan进入序列搜索2将要分析的序列粘贴在空白框然后选择获取结果方式interactive点击submitjob按钮3按窗口提示读取结入相关链接进行进一步分析interprointerpro在线分析未知蛋白质序列功能在线分析未知蛋白质序列功能基因分类协会geneontologyconsortiumgoc整合了现有数据库生物信息资源建立了基因分类数据库thegeneontologygoc基因分类协会goc建立了可控的动态词汇系统它从分子功能molecularfunction生物过程biologicalprocess和细胞组分cellularcomponent3个不同分类角度建立了3棵分类树对已经分类到树上的同源蛋白质序列赋予蛋白质特定的术语名称和go编号goc各成员提供其蛋白质数据库中已分类的蛋白编号和go号对照表是对未知蛋白序列进行分类的参照和标准目前genebank和swissprot已有60多万条蛋白序列具有go号即它们定位于go的分类树上
▪ 它链接、收集了如HUGO,SWISS-PORT,Genbank, PubMed,OMIM,HGMD,Unigene等五十多个数据库, 提供有关人类、果蝇、小鼠等基因的相关信息,以及多种 遗传性疾病、癌症、转基因资料
▪ 它对所有数据库的信息进行了科学地分类整理,形成了一 个关于基因及其产物的生物学和医学信息的电子百科全书
▪ The extensive cross-references, functional and feature annotations and literaturebased evidence attribution enable scientists to analyse proteinsand query acrossdatabases.
该数据库采用SwissPro数据库格式,其数据 来源于:
▪ EMBL核酸序列数据库(或GenBank、DDBJ)中所有编 码序列经计算机程序自动翻译的蛋白质
▪ 从文献中查到的 ▪ 或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋
白质序列
TrEMBL数据库分两部分: SP-TrEMBL和 REM-TrEMBL
不同),产生新的gi号,但序列号不变;
2 生物序列(BIOSEQ)
▪ 生物序列:一个简单的、连续的核酸或蛋白质分子; ▪ 至少有一个序列辨识器(SeqID); ▪ 包含DNA、RNA或蛋白质分子的物理信息、注释信息(如
特定区域的生物特征)和描述信息(如该分子是从某个组 织中获得的)。
4 序列注释(SEQ-ANNOT)
▪ UniProt databases continue to grow in size and in availability of information. Recent and upcoming changes to database contents, formats, controlled vocabularies and services are described.
d. SWISS-PROT中尽可能减少冗余序列
e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。
f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2 TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
▪ Link out
P53基因的OMIM检索结果:
(2)GeneCards
▪ GeneCards数据库是由以色列Weizmann科学研究所 (Weizmann Institute of Science)和Crown人类基因组 中心(Crown Human Genome Center)建立和维护的
二 疾病相关基因数据库
(1)OMIM:
▪ OMIM(Online Mendelian Inheritance in Man) 是美国Jonhs Hopkins大学Dr. Victor A. McKusick 等人建立和编辑的有关人类基因和遗传病目录的 电子版。
▪ 于本世纪60年代创立,旨在为临床医师和遗传病 研究工作者提供服务。
▪ 由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
▪ 是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照
▪ UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整 合在一起,是目前国际上最全面的蛋白质信息库。
综上所述,蛋白质序列数据库种类多且各有特色,因 此,用户在分析蛋白质序列时,应根据实际情况,尽可能 选择几个不同的数据库,并对结果加以比较。
The Universal Protein Resource (UniProt)
a. Locus名称:
▪ 兼有唯一辨识器、功能记忆以及序列的组织源等功能; ▪ Locus出现在GenBank中的Locus行以及DDBJ记录和EMBL的ID行; ▪ GenBank中已不再作为有用的名称,只是为了和老数据格式兼容
b. 序列号:
▪ GenBank、DDBJ和EMBL具有,以保证序列的相对稳定 性和专一性;
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
▪ TheUniProt Reference Clusters (UniRef) speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical.
▪ 它的智能化的导航系统,使用户能方便地查找感兴趣的内 容。它还提供了几十个镜像站,与很多的研究所、医院、 基因中心等链接,便于用户进一步查找相关信息。
三 NCBI数据库的数据模型
数据库模型:
是研究人员输入序列、查询序列、进行序列比对的根 本,也是数据库管理人员管理数据的总则。
NCBI数据模型包括:
序列数据和相关的注释。
作用:NCBI模型能轻易地从已公布的DNA序列文献影射到
基因所在的染色体--编码蛋白--蛋白质三维结构等。
(一) NCBI数据模型的文献
1 出版物: ▪ 出版物是连接不同结构和不同内容数据库的桥梁; ▪ 出版物是数据库记录的基本注释,也是最好的注释,发
表文章比数据库中的记录包含了更完整和更详细的信息。
UniProtKB/Swiss-Prot protein knowledgebase release 55.1 statistics
UniProtKB/TrEMBL PROTEIN DATABASE RELEASE 38.1 STATISTICS
Search by citation
SWISS-PROT的特点
▪ The UniProt Knowledgebase (UniProtKB), comprising the manually annotated UniProtKB/Swiss-Prot section and the automatically annotated UniProtKB/TrEMBL section, is the preeminent storehouse of protein annotation.
▪ 如果是专利序列,在文献的出处又多了专利文献; ▪ NCBI支持与美国专利局合作开发的完整的专利引
用程序。
5 Medline 和 PubMed UIDs
PUID 和MUID:PubMed唯一识别器和Medline唯一识别器
(二) NCBI数据模型的序列
1 序列识别器(SEQIDS):
GenBank、DDBJ和EMBL核酸蛋白数据库共用一套序列号
序列注释:是对序列注释的一个自包含集,也指向 特定生物序列、特定位置的信息。
信息形式:一个特征表、一类序列比对或一类序列 的图表。
a. 序列特征(Seq-feat):所有特征的一般信息,如编码区、 mRNA剪切等;
b. 序列比对:亲缘关系、序列的同源性比较; c. 序列图表:GC含量、表层能或覆盖序列长度的精确性等
▪ Provides a central resource on protein sequences and functional annotation with three database components, each addressing a key need in protein bioinformatics.
第7章 蛋白质序列数据库
一、常用的蛋白质数据库
▪ SWISS-PROT ▪ TrEMBL ▪ PIR-PSD ▪ UniPro
1 SWISS-PROT
▪ 由瑞士日内瓦大学医学生化系于1978年创建,后来与欧洲 分子生物学实验室合作,由瑞士生物信息学研究所 (Swiss Institute of Bioinformatics,SIB)和欧洲生物信 息学研究所(EBI)共同维护和管理。
▪ OMIM包含大量的及时更新的有关人类基因及其 突变序列数据和遗传病的临床特征等信息和相关 参考文献。
OMIM数据库基本信息
▪ MIM----概述、表型、 基因型、诊断、 临床处理、 群体遗传学、 动物模型、 参考文献、 临床表征、 编辑史等.
▪ Eztrez gene ----分类、 参考序列、蛋白质等
▪ SP-TrEMBL中的条目将最终被归并到SwissProt 数据库中;
▪ Rem-TrEMBL包含目前不打算并入SWISS-PROT 的蛋白质序列
包括免疫球蛋白、T细胞受体、人工设计合成蛋白 质序列、小肽、专利序列、假基因和截断了的蛋白质等。
3 PIR-PSD
▪ 蛋白质信息资源-国际蛋白质序列数据库 (the Protein Information ResourceInternational Protein Sequence Database, PIR-PSD