PIR蛋白质序列数据库

合集下载

分子生物学数据库---计算生物学的摇篮

分子生物学数据库---计算生物学的摇篮

分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。

人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。

在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。

针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。

在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。

随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。

在此背景下,计算生物学和生物信息学应运而生。

计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。

总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。

PIR-PSD 蛋白质序列数据库

PIR-PSD 蛋白质序列数据库

PIR的产生
PIR(Protein Information resouce, 蛋白质数据库)的出现 先于核酸数据库。在 1960年左右,Dayhoff (1925 - 1983)和其 同事们搜集了当时所有 已知的氨基酸序列,编 著了《蛋白质序列与结 构图册》。从这本图册 中的数据,演化为后来 的蛋白质信息资源数据 库
谢谢观赏
Make Presentation much more fun
PIR是由美国国家生物医学 基金会(NBRF)于1984年 建立,位于乔治敦大学。
PIR是一个集成了关于蛋白 质功能预测数据的公共资 源的数据库,其目的是支 持基因组/蛋白质组研究。 PIR与其他组织合作,共同 构成了PIR-国际蛋白质序 列数据库(PSD).
发展至今日830,000条非冗余蛋白质序列, 提供了36,000多PIR蛋白质超家族, 145,000多蛋白质家族,4,000多蛋白质 结构域,13,000多模体和555,000多相 似的蛋白质聚类信息。
PIR的功能
目的: 帮助研究者鉴别和解释蛋白质序列信息,
研究分子进化、功能基因组。
它是一个全面的、经过注释的、非冗余的蛋白质序 列数据库。
所有序列数据都经过整理,超过99%的序列已按蛋 白质家族分类,一半以上还按蛋白质超家族进行了 分
除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达 、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
蛋白质一般信息
交叉引用文献
相关蛋白质家族信息
点击此处
此处链接 UniProt databases.

蛋白质研究数据库

蛋白质研究数据库

一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。

3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。

6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。

聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。

常用生物数据库 外显子、内含子、mRNA、CDS

常用生物数据库 外显子、内含子、mRNA、CDS

常用生物数据库核酸序列数据库主要有GenBank, EMBL, DDBJ等.蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。

外显子、内含子、mRNA、CDS1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模四种dNTP 半保留复制需要一样四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上的T改为U外,其他一样翻译mRNA 3个碱基决定一个氨基酸20种游离的氨基酸2.mRNA(messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。

3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。

编码区则转录为mRNA并最终翻译成蛋白质。

外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。

实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。

分子生物学相关数据库

分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。

因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。

核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。

蛋白质数据库

蛋白质数据库

蛋白质数据库1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。

这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。

所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。

PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。

每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。

PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

2. SWISS-PROTSWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。

数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

3. PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。

蛋白质序列数据库

蛋白质序列数据库
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
▪ UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整 合在一起,是目前国际上最全面的蛋白质信息库。
综上所述,蛋白质序列数据库种类多且各有特色,因 此,用户在分析蛋白质序列时,应根据实际情况,尽可能 选择几个不同的数据库,并对结果加以比较。
The Universal Protein Resource (Uபைடு நூலகம்iProt)
属性。
5 序列描述:
是在生物和(或)生物文献的上下文中描述一个生 物序列或生物序列集;
生物源(BioSource)-来源生物的信息; 分子信息(MolInfo)--描述器指示分子类型,如基因,
mRNA,EST,肽链信息。
蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振 技术测定蛋白质的三维结构、用生化方法 研究蛋白质功能的效率不高,无法适应由 基因组测序所带来的蛋白质序列数量飞速 增长的需要,近年来,许多科学家致力于 用理论计算的方法预测蛋白质的三维结构 和功能,提高蛋白质功能研究的效率,并 取得了一定的成果。
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。

蛋白质数据库及其结构预测攻略

蛋白质数据库及其结构预测攻略

蛋白质数据库及其结构预测攻略一、蛋白质结构层次一般情况下,蛋白质的结构分为4 个层次:▪初级结构——氨基酸序列;▪二级结构——а螺旋(alpha-helix),β折叠(β-sheets),β转角,无规则卷曲(random coil)▪三级结构——三维结构,由模体(motif)和结构域(domain)组成;▪四级结构——亚基之间的互作。

二、蛋白质数据库:1. 蛋白质一级数据库1.1序列数据库:UniProt包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和PIR,分为三个层次:第一层叫UniParc,收录了所有UniProt 数据库子库中的蛋白质序列,量大,粗糙。

第二层是UniRef,他归纳了UniProt 几个主要数据库并且是将重复序列去除后的数据库。

第三层是UniProtKB,他有详细注释并与其他数据库有链接,分为Swiss-Prot(最有用的)和TrEMBL。

1.2蛋白质结构数据库PDBPDB存储生物大分子3D 结构。

这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。

只有通过实验方法获得的3D 结构才会被收入其中。

PDB文件是一堆数字字母,那是每个原子的坐标,一般用用可视化软件VMD打开,免费的,这里不作具体说明。

2. 蛋白质二级数据库2.1结构域家族Pfam数据库Pfam 主页上的搜索工具可以查找某条序列上有哪些结构域。

2.2结构分类数据库CATHCATH是四种结构分类层次的首字母。

根据PDB编号搜索,可以获得各层次具体的结构分类信息以及各种结构相关分析信息、聚类分析。

2.3结构分类数据库SCOP2在搜集、整理、分析PDB数据中已知的蛋白质三维结构的基础上,详细描述了一直结构的蛋白质在结构、进化事件与功能类型三个方面的关系,主要依赖人工验证。

三、蛋白质结构研究1.二级结构1.1已知PDB-输入检索号-sequence- view sequence& DSSP image1.2未知预测网址如下:输入氨基酸序列,等待大概半小时。

生物信息学蛋白质数据库

生物信息学蛋白质数据库
物质过程
蛋白质
The Central Dogma
生物信息学 (Bioinformatics)
是由生物学和信息科学交 叉融合形成的。包含生物 信息的获取、处理、存储、 发布、分析和解释等各个 方面,它综合运用数学、 生物学、计算机、信息科 学等诸多学科的理论方法 及国际互联网,阐明和解 释大量数据所包含的生物 学意义。
生物信息学的重要组成:
1. 数据库 (DataBase)
《Nucleic Acids Research》杂 志每年的第一期中详细介绍最新 版本的各种数据库。到2013年共 有1512个数据库。
1. 检索工具 (Retrieve Tool)
1. 分析软件 (Analysis Software)
利用在线工具和离线工具分析功 能和结构
5.美国国家生物医学基金会
(National Biomedical Research Foundation, NBRF) 数据库:PIR
6.布鲁克黑文国家实验室
(Brookhaven national laboratory) 数据库:PDB
7. 桑格研究所
(Wellcome Trust Sanger Institute) 数据库:PFAM
SRS FASTA
3.日本国立遗传学研究所
National Institute of Genetics,NIG
DNA Data Bank of Japan(DDBJ),日本DNA数据库 是日本遗传学各方面研究的中心研究机构及生命科学所有
领域的研究基地。(亚洲) 工具:
DBGET SEARCH KEGG
• TREMBL – Translation of mRNAs (RefSeq), UniGene, open reading frames (ORFs) and predicted genes from genomes – Automatic annotations

生物学的数据格式

生物学的数据格式

生物学的数据格式生物学的数据格式多种多样,这主要是由于生物学的多样性和复杂性。

以下是几种常见的生物学数据格式:1. FASTA格式:这是一种用于表示核酸序列或蛋白质序列的文本格式。

每个序列都以“>”符号开始,后面跟着序列的描述信息。

然后是序列本身,每个字符代表一个碱基或氨基酸。

2. FASTQ格式:与FASTA格式类似,FASTQ也用于表示核酸序列,但还包含测序质量信息。

每个read由@符号开始,然后是序列名称,接下来是测序的碱基序列,最后是一个+符号,后面跟着测序质量信息。

3. GFF/GTF格式:这是一种用于表示基因组注释信息的格式。

它包含了基因组上的特征位置和类型信息,如启动子、外显子、内含子等。

4. BED格式:这是一种用于表示基因组位置信息的格式,常用于基因组学研究中。

它包含了基因组上的位置信息,如染色体、起始位置、结束位置等。

5. PIR格式:这是一种早期的蛋白质序列格式,用于表示蛋白质序列信息。

6. SWISS-PROT格式:这是一种标准的蛋白质序列数据库格式,包含了蛋白质的序列信息和注释信息。

7. GenBank格式:这是一种用于表示核酸序列的格式,包含了序列信息和注释信息。

它是NCBI的主要核酸序列数据库格式。

8. PDB格式:这是一种用于表示蛋白质三维结构的格式,由蛋白质数据银行(Protein Data Bank)维护。

9. VCF格式:这是一种用于表示基因组变异信息的格式,常用于遗传学和基因组学研究中。

它包含了基因组上的变异位点和相关信息。

以上是一些常见的生物学数据格式,每种格式都有其特定的用途和特点。

在实际应用中,根据需要选择合适的数据格式进行存储和交流。

生物信息学二级数据库及数据库的格式

生物信息学二级数据库及数据库的格式

..125
Homo. Sapiens Medline4,. gluco- transcriptional TGT..
......
Corticoid regulator, ..
receptor
Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。
2 EMBL序列格式
• The European Molecular Biology Laboratory(EMBL)序列 条目与GenBank类似,通过大量信息来描述每个序列。该 信息组织成一个个字段,每个字段有一个标识符。这些标 识符缩写成两个字母,某些字段还有次级字段。每行序列 后面的数字显示片断的位置。
BASE COUNT count of A, C, G, T and other symbols
ORIGIN
text indicating start of sequence
1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc
51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg
Prosite的网址:
/prosite/
3、蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址:
http://www.cmbi.kun.nl/gv/dssp/
source range of sequence, source organism
misc_signal range of sequence, type of function or signal

PIR蛋白质序列数据库

PIR蛋白质序列数据库
6
bioinformatics
bioinformatics
三个子数据库
7
网站搜索 蛋白质搜索
G00016
主页的导航条有五大类: 主页的导航条有五大类:
bioinformatics
Abrout PIR:对网站的历史、 :对网站的历史、 发展、 刊物等的介绍; 发展、 刊物等的介绍; Databases:包括Proclass、 :包括 、 Pirsf、PIR—PSD、 PIR— 、 、 NREF 、Uniprot等数据库集合; 等数据库集合; 等数据库集合 Search/Analysis:对蛋白质序 : 列分析的多种途径; 列分析的多种途径; Dowload:网站提供的蛋白质序 : 列; Support:一些帮助及其它连接. :一些帮助及其它连接
Protein Information resouce
bioinformatics
bioinformatics
3
PIR的功能 的功能
• 目的: 目的: 帮助研究者鉴别和解释蛋白质序列信息, 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 研究分子进化、功能基因组。 • 它是一个全面的、经过注释的、非冗余的蛋白 它是一个全面的、经过注释的、 质序列数据库。 质序列数据库。 • 所有序列数据都经过整理,超过99%的序列已 所有序列数据都经过整理,超过 的序列已 按蛋白质家族分类, 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。 族进行了分类。
14
bioinformatics
蛋白质基本信息
蛋白质家族信息
15
bioinformatics
16
Entry name 标题/序列名称 标题 序列名称 序列物种来源拉 丁名(常用名) 丁名(常用名) bioinformatics 记录注册、 记录注册、修改日期 注册号及参考来源 物种分类型 序列长度 序列顺序 文献发表作者/刊名 发 文献发表作者 刊名/发 刊名 表时间/文章名 文章名/文献数 表时间 文章名 文献数 据库记录号 17

第03讲蛋白质数据库

第03讲蛋白质数据库
of Protein
PIR
PIR-PSD是第一个国际蛋白质序列数据库,它从‘Atlas
Sequence and Structure’发展而来。
PIR-PSD是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
‘SwissProt数据库’
由瑞士日内瓦大学生物化学系与1978年创建,之后与EMBL合作,由
(H)序列的矛盾、变化等。
‘SwissProt数据库’
SwissProt数据库的特征
④ 最小冗余:尽量将相关的数据归并,降低数据库的冗余程度。如果不同 来源的原始数据有矛盾,则在相应序列特征表中加以注释。 ⑤ 与其它数据库的连接:对于每一个登录项,有许多指向其它数据库相关 数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到生物大分子结构数据库PDB的索引等
UniProt
UniProt是一个集中收录蛋白质资源并能与其它资源
相互联系的数据库,也是目前为止收录蛋白质序列 目录最广泛、功能注释最全面的一个数据库。
UniProt数据库的四大组成
UniProt数据库的四大组成
UniProt针对不同的用户,UniProt分三个层次: (1) UniProt Knowledgebase (UniProtKB)( UniProt知 识库) 包含蛋白质序列、功能、分类、交叉引用等信 息存取中心。由部分组成: ① UniProtKB/Swiss-Prot ② UniProtKB/TrEMBL ③ PIR-PSD (2) UniProt Reference Clusters (UniRef) ( UniProt 参考资料库):将相近的或者密切相关的蛋白质序列整 合为单个记录,加快检索速度。 (3) UniProt Archive (UniParc) ( UniProt档案):记 录了最完整的信息,反映了所有蛋白质序列的历史。

蛋白质常用数据库一文看懂!

蛋白质常用数据库一文看懂!

蛋白质常用数据库|一文看懂!蛋白质数据库是指专门存储蛋白质相关信息的数据库。

它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。

蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。

蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。

这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。

下面是笔者总结的常用蛋白质数据库及网址,供大家参考。

⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。

蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。

包括蛋白3D结构、基本信息、实验数据、参考文献等。

①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。

它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。

②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。

它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。

③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。

④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。

蛋白质序列PIR和PDB使用方法

蛋白质序列PIR和PDB使用方法

随着核酸数据库不断发展以及数据库的建立,蛋白质序列、结构、功能不断引起人们的重视,生命科学的研究中蛋白质的研究显得尤为重要,一系列的蛋白质序列数据随之产生,数据库也在研究蛋白质的过程中有着不可或缺的地位。

本文主要通过实验说明蛋白质序列数据库PIR及蛋白质结构数据库PDB的使用方法,返回结果的含义,以及如何下载数据和批量下载数据。

由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。

蛋白质序列数据库的雏形可以追溯到60年代。

60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。

时至今日,国际上已建立了许多关于生物分子的数据库,主要包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、生物大分子结构数据库等。

这些数据库均为公共数据库,由特定的组织维护、以及发布相关序列信息,供生物研究学者使用,称为生物研究中的必要工具之一,随着科学技术的发展,这些数据库不断壮大,也为研究人员提供了大量有用的数据。

本文主要通过课程实验,展示蛋白质序列数据库PIR及蛋白质结构数据库PDB的相关使用方法。

本论蛋白质序列数据库PIR介绍1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。

与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。

蛋白质生物信息学-数据库

蛋白质生物信息学-数据库
详细描述
Pfam数据库由英国生物化学物理研究所(European Bioinformatics Institute,EBI) 维护,利用隐马尔可夫模型(Hidden Markov Model,HMM)进行蛋白质序列分析 ,将序列划分为不同的家族。Pfam数据库提供了丰富的注释信息和可视化的家族结构
图。
外,Pfam数据库还提供了丰富的注释信息 ,有助于深入了解蛋白质家族的特性和进化
关系。
InterPro数据库在蛋白质功能预测中的应用
总结词
InterPro数据库整合了多种蛋白质序列和结构信息,为 预测蛋白质功能提供了全面的资源。
详细描述
InterPro数据库将多个蛋白质数据库(如SWISS-PROT 、Pfam等)进行整合,提供了一个统一的查询平台。通 过比对InterPro数据库,可以同时获取多个数据库中的 注释信息,从而更全面地了解蛋白质的结构和功能。此 外,InterPro数据库还提供了功能域、跨膜结构等更深 入的信息,有助于更准确地预测蛋白质的功能。
云计算平台将提供更灵活、可扩展的计算资源, 支持蛋白质生物信息学数据库的高效运行和数据 共享。
人工智能和机器学习
人工智能和机器学习技术将被应用于蛋白质生物 信息学数据库,以自动提取有价值的信息,提高 数据分析的准确性和效率。
数据库在蛋白质生物信息学中的重要性和应用前景
蛋白质结构预测
数据库中存储的蛋白质序列和结构信息,可用于预测蛋白质的三维 结构,有助于理解蛋白质的功能和相互作用。
选择合适的查询方式
根据需要选择合适的查询方式,如 简单查询或复合查询。
使用适当的关键词
选择与主题相关的关键词进行查询 ,避免使用过于宽泛或模糊的关键 词。
筛选结果

第三章 蛋白质数据库

第三章  蛋白质数据库
36
/
PIR数据库特点是:全面的、经过注释的、非冗余 的蛋白质序列数据库,包括了来自几十个完整基因 组的蛋白质序列。所有序列数据都经过整理,超过 99%的序列已按蛋白质家族分类,一半以上还按蛋 白质超家族进行了分类。
1、PIRSF:蛋白质分类
PIRSF将蛋白质家族归为三类:
2、Gene
3、肽酶数据库
MEROPS /
第二节 蛋白质结构数据库
一、蛋白质结构数据库PDB • 早在序列数据库诞生之前的70年代,蛋白质结构数
据库(Protein Data Bank,简称PDB)就已经问世。 PDB数据库原来由美国Brookhaven国家实验室负责 维护和管理。 • 1998年,由美国国家科学基金委员会、能源部和卫 生研究院资助,成立了结构生物学合作研究协会 (Research Collaboratory for Structural Bioinformatics ,RCSB)。PDB数据库改由RCSB管理。
3.16 MG2+
ENDMDL
空行
亚基结束
相关化合物 CONECT
1179 746 1184 1195 1203
有关记录
版权 *MASTER
40 0 0 0 0 0 0 62930 2 0 29
版权拥有者
结束符 *END
空行
文件结束
二、结构浏览器
1、RasMol和基于RasMol的浏览器
2、MMDB浏览器:Cn3D
二硫键
LINK
O1 DDA 1 C3 DDL 2
残基间化学键
连接键注释 HYDBND
N LEU 10 AO3* NDP 501
氢键
SLTBRG
O GLU 10 NZ LYS 115

蛋白质序列数据库

蛋白质序列数据库
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
d. SWISS-PROT中尽可能减少冗余序列
e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。
f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2 TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
▪ 由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
▪ 是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照

蛋白质数据库介绍

蛋白质数据库介绍

SWISS-PROT或TrEMBL /sprotPIRMIPSJIPID已经和ExPASy 三、蛋白质二级结构预测网站(数据库)4始建于基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。

数据库包括两个数据库文件:数据文件Prosite5蛋白质二级结构构象参数数据库DSSP6蛋白质家族数据库FSSP7同源蛋白质数据库HSSP在前面已经述说过了。

第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。

序列之间的关系,生物学模式方面起着相当重要的作用。

多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,法建立在某个数学或生物学模型之上。

因此,正如我们不能对双序列比对的结果得出果也没有绝对正确和绝对错误之分,相似性关系以及它们的生物学特征。

我们称比对前序列中残基的位置为绝对位置。

置Ⅰ相对位置。

显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。

绝对位置是序列本身固有的属性,也就比对过程赋予它的属性。

算法复杂性多序列比对的计算量相当可观,时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用(的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。

这样算法复杂性就变成了(例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。

颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。

用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。

多序列比对程序的另一个重要用途是定量估计序列间的关系,关系。

关系。

相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处2同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。

其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2
PIR的概念
• PIR是一个集成了关于蛋白质功能预测数据 的公共资源的数据库,其目的是支持基因 组/蛋白质组研究。PIR与其他组织合作, 共同构成了PIR-国际蛋白质序列数据库 (PSD)——一个主要的已预测的蛋白质数 据库,包括250,000个蛋白。
3
PIR的功能
• 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 • 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 • 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。
蛋白质搜索 网站搜索
G00016
主页的导航条有五大类:
Abrout PIR:对网站的历史、 发展、 刊物等的介绍; Databases:包括Proclass、 Pirsf、PIR—PSD、 PIR— NREF 、Uniprot等数据库集合; Search/Analysis:对蛋白质序 列分析的多种途径; Dowload:网站提供的蛋白质序 列; Support:一些帮助及其它连接.
PIR 蛋白质序列数据库
()
PIR的产生
• PIR(Protein Information resouce,蛋白质 数据库)的出现先于核酸数据库。在1960 年左右,Dayhoff和其同事们搜集了当时所 有已知的氨基酸序列,编著了《蛋白质序 列与结构图册》。从这本图册中的数据, 演化为后来的蛋白质信息资源数据库。
22
• 2. iProClass-蛋白质知识整合数据库
• iProClass(/iproclass/)
提供来自90多个生物学数据库的大量整合数据,包
括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描
述和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括: 功能、转导通路、相互作用、家族分类、基因和基 因组、功能注释标准体系(ontology)、文献和分
/uniprot/P10962
五、其他特征:结构、参与的蛋白质互作
8
9
蛋白质一般信息
交叉引用文献
10
相关蛋白质家族信息
11
点击此处
12
此处链接 UniProt databases.
13
在UniProt database搜 索s中的结果
14
蛋白质基本信息
Байду номын сангаас
蛋白质家族信息
15
16
Entry name 标题/序列名称 序列物种来源拉 丁名(常用名) 记录注册、修改日期 注册号及参考来源 物种分类型 序列长度 序列顺序 文献发表作者/刊名/发 表时间/文章名/文献数 据库记录号 17
通用蛋白质资源库 UniProt
• 是一个集中收录蛋白质资源并能与其它资源相互联 系的数据库,也是目前为止收录蛋白质序列目录最 广泛、功能注释最全面的一个数据库。
欧洲生物信息学研究所(European Bioinformatics Institute)
美国蛋白质信息资源(Prontein Information Resource)
20
UniProtKB/Swiss-Prot
• UniProtKB/Swiss-Prot主要收录人工注释的序列 及其相关文献信息和经过计算机辅助分析的序列。 • 在UniProtKB中,注释包括
蛋白质功能 酶学特性 生物学意义的相关结构域及位点 翻译后修饰情况 亚细胞定位 组织特异性 发育阶段特异性 结构、相互作用 剪接异构体 相关疾病信息的注释 。
瑞士生物信息研究所(Swiss Institute of Bioinformatics)
• UniProt协会(UniProt Consortium)编辑、制作 的一个信息资源,旨在为从事现代生物研究的科研 人员提供一个有关蛋白质序列及其相关功能方面的 广泛的、高质量的并可免费使用的共享数据库。
18
注释标准体系(ontology)和家族分类。
利用这些信息可以获得蛋白质的准确功能 或预测的功能和该蛋白质所属家族成员共 有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(/iprolink/)提供
有关注释内容的文献、蛋白质名称词典和其他有助于文献
二、功能注释
Uniprot中一个蛋白质的例子
/uniprot/P10962
三、序列特征
Uniprot中一个蛋白质的例子
/uniprot/P10962
四、蛋白质结构域组成和蛋白质家族
Uniprot中一个蛋白质的例子
21
UniProtKB/TrEMBL
• UniProtKB/TrEMBL收录的则是高质量的经计算 机分析后进行自动注释和分类的序列。计算机辅 助注释使用的是Spearmint规则,而人工注释依 据的则是蛋白质家族规则,包括HAMAP家族规 则(HAMAP family rules)、RuleBase规则、 PIRSF分类命名规则以及位点规则。 UniProtKB/TrEMBL还收录了所有EMBL-Bank/ GenBank/DDBJ核酸序列数据库中的编码序列的 翻译后蛋白质序列和来自拟南芥信息资源库 (TAIR)、SGD和人类Ensembl数据库中序列 的翻译后蛋白质序列。
挖掘的人文语言处理技术开发的信息、数据库校正、蛋白 质名称标记和功能注释标准体系(ontology)。使用
iProLINK可以获得描述蛋白质记录的文本文献资源,在
UniProtKB记录(生物词典)中加入蛋白质或基因命名的 图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋
白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标准
6
PIR主要数据库:
• • • • 1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合 数据库 • 5PIR-NREF-非冗余的蛋白质参考资料数据 库
()
Pfam
• 蛋白质一般是由一个或多个功能区域组成,这些 功能区域通常称作域(domain)。在不同的蛋白 质中不同的域以不同的组合出现,导致在自然界 发现多种多样组成成分的蛋白质。识别出现在蛋
白质中的域可以了解蛋白质的功能。
• Pfam数据库(/)是一
4
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。
5
PIR提供三种类型的检索服务:
一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息和蛋白质家族 信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索等。
体系(ontology)(PRO)信息。
其他重要的蛋白质序列数据库
• PRINTS • Pfam
PRINTS
• PRINTS (/dbbrowser/PRI NTS/index.php)是蛋白基序指纹图综合数据库,每个指 纹图都是使用数据扫描程序ADSP或VISTAS序列分析软 件包反复优化后定义的。数据库中有两种类型指纹图,根 据指纹图的复杂性分为简单和复合指纹图:简单指纹图基 本上是单一的基序,而复合指纹图包含多个基序。
UniProt数据库的构成
• UniProt数据库
UniProt知识库(UniProtKB) UniProt档案(UniParc) UniProt参考资料库(UniRef) UniProt元基因组学 环境微生物序列数据库(UniMES)
19
1.UniProt知识库(UniProtKB)
• UniProt知识库是一个专家级的数据库,它 可以通过与其它资源进行交互查找的方式 为用户提供一个有关目的蛋白质的全面的 综合信息。UniProtKB包括两个组成部分: UniProtKB/Swiss-Prot UniProtKB/TrEMBL。
个大的蛋白质域家族集合,每个家族是用多序列
比对和隐马模型(HMMs)分析结果的代表。
Uniprot中一个蛋白质的例子
/uniprot/P10962
一、基本信息
Uniprot中一个蛋白质的例子
/uniprot/P10962
类学信息。使用iProClass还可以检索ID图谱、蛋白
质词典和相关序列。
• 3. PIRSF-蛋白质家族分类系统 PIRSF
(/pirsf/)分类
系统概要论述家族的特征,如家族名称、
分类分布、分级和功能域结构,以及家族
成员,包括功能、结构、传导通路、功能
相关文档
最新文档