蛋白质数据库

合集下载

蛋白质数据库使用说明

蛋白质数据库使用说明

引言:蛋白质数据是生物信息学领域中非常重要的资源之一,它提供了大量关于蛋白质序列、结构、功能以及相互作用等方面的信息。

本文旨在介绍如何使用蛋白质数据库,帮助用户更好地利用这一资源进行研究。

概述:蛋白质数据库是一个集成了许多蛋白质信息的在线资源,用户可以通过搜索、浏览、等方式获取所需的信息。

其中,常用的蛋白质数据库包括NCBI、UniProt、PDB等。

这些数据库提供了丰富的蛋白质数据,并且不断更新以满足用户需求。

正文内容:1.数据库搜索功能1.1.关键词搜索1.1.1.输入蛋白质名称1.1.2.输入序列片段1.1.3.输入关键词1.2.高级搜索选项1.2.1.提供更精确的搜索结果1.2.2.支持过滤和排序功能1.2.3.可以根据相关字段进行搜索2.数据库浏览功能2.1.蛋白质分类2.1.1.按物种分类2.1.2.按功能分类2.1.3.按家族分类2.2.数据表格浏览2.2.1.查看蛋白质基本信息2.2.2.查看蛋白质序列2.2.3.查看蛋白质结构2.3.数据图谱浏览2.3.1.查看蛋白质相互作用网络2.3.2.查看蛋白质结构域分布2.3.3.查看蛋白质功能注释3.数据库功能3.1.蛋白质序列数据3.1.1.全部序列3.1.2.特定物种的序列3.2.蛋白质结构数据3.2.1.已解析的蛋白质结构3.2.2.蛋白质结构预测结果3.3.蛋白质相互作用数据3.3.1.已验证的相互作用数据3.3.2.预测的相互作用数据4.数据库工具与资源4.1.序列比对工具4.1.1.BLAST4.1.2.PSIBLAST4.2.结构预测工具4.2.1.SWISSMODEL4.2.2.Phyre24.3.功能注释资源4.3.1.GeneOntology4.3.2.InterPro4.4.数据库交互接口4.4.1.提供API接口4.4.2.支持数据提交与5.数据库更新与维护5.1.数据更新频率5.2.数据质量保证5.3.用户反馈与支持5.4.数据库版本与历史记录总结:蛋白质数据库为研究人员提供了丰富的蛋白质信息资源,通过搜索、浏览、等功能,用户可以轻松地获取需要的数据。

蛋白质研究数据库

蛋白质研究数据库

一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。

3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。

6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。

聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。

生物信息学 第4章 蛋白质序列数据库

生物信息学 第4章 蛋白质序列数据库



ftp:///sequin/
EMBL数据库

EMBL建立于1980年,EMBL核苷序列数据库(http:// /embl/)是欧洲主要的核苷序列收集单位,欧洲生物 信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库

EMBL: European Molecular Biology Laboratory EBI: European Bioinformatics Institute
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以 及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。

EMBL数据库
DDBJ数据库

日本DNA数据库(DDBJ: www.ddbj.nig.ac.jp )是在亚洲唯一 的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据 库,并且发放给数据提交者国际认证的核酸序列编号。 由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和 GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时 候都享有相同数据。
/nuccore/221078348?report=fasta

Genbank格式
Genbank格式
Genbank格式
Genbank格式
电子提交序列到Genbank

两种主要的电子提交途径
1、互联网交互方式的提交 2、软件提交,Sequin


DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据 和发放编号给任何其他国家的研究者。
DDBJ数据库
INSDC

1998年,GenBank、EMBL和DDBJ共同成立了国际 核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进 行交换共享,保证数据信息的完整与同步,每两个 月更新一次版本。 /

基因及蛋白质数据库的构建与应用

基因及蛋白质数据库的构建与应用

基因及蛋白质数据库的构建与应用随着生命科学技术的不断发展和进步,基因及蛋白质数据库在科学研究和医学领域的作用愈发重要。

本文将从数据库的构建、分类和应用三个方面进行讲解。

一、基因及蛋白质数据库的构建构建基因及蛋白质数据库的过程主要包括以下几个步骤:1. 采集、整理数据。

对于已经发表的基因及蛋白质相关的论文、文献资料和相关数据库信息等进行采集和整理,从而建立一个完整的信息资源库。

2. 数据库建立和优化。

根据采集的数据和相关技术要求,选择合适的数据库软件,进行数据库建立和优化,使它能够方便有效地存储和检索数据。

3. 数据录入、整合。

将采集的数据进行规范化处理,并将其录入到数据库中,实现数据的整合和统一管理。

4. 数据质量检查和维护。

对于数据进行质量检查、修正和维护,确保数据的可靠性和准确性。

二、基因及蛋白质数据库的分类按照功能和数据类型的分类,基因及蛋白质数据库一般分为以下几种:1. 基因结构和序列数据库。

包括生物物种基因组的测序结果、基因和基因间的区域序列、基因的功能等。

2. 蛋白质序列和结构数据库。

包括蛋白质序列、二级结构、比较模型、同源模型等信息。

3. 基因表达数据库。

主要包括基因表达调控、启动子、编码和序列间调控因素等信息。

4. 基因特定数据库。

如免疫学数据库、药物基因相互作用数据库等,为特定研究领域的数据提供了支持。

三、基因及蛋白质数据库的应用基因及蛋白质数据库在许多领域中都有着重要的应用价值。

1. 科研领域。

利用基因及蛋白质数据库,研究人员可以快速获取和跟踪特定基因或蛋白质的信息,挖掘并分析相关信息,进一步研究其功能和调节机制,从而探索新的基因和蛋白质功能以及治疗某些疾病的方法。

2. 医学领域。

基因及蛋白质数据库是研究疾病发生发展机制的重要工具。

医学研究人员可以通过基因及蛋白质数据库对特定基因或蛋白质进行深入研究,了解其功能及其与疾病的关系,从而探索新的诊断、预防和治疗方法。

3. 生物制药领域。

蛋白质数据库

蛋白质数据库

蛋⽩质数据库
⼀、蛋⽩质数据库
》序列数据库:Uniprot (蛋⽩质序列和具有综合功能注释⽬录的中⼼资源库)
PIR (提供蛋⽩质序列数据和分析⼯具)
》结构数据库:PDB (实验测定的⽣物⼤分⼦三维结构)
MMDB
》模体及结构域数据库:PROSITE (蛋⽩质序列功能位点数据库)
Pfom (使⽤基于隐马模型的多序列⽐对对蛋⽩质进⾏家族分类) 》蛋⽩质分类数据库:SCOP (提供已知结构蛋⽩质间的结构和进化关系信息)
CAHT
HSSP
DSSP
⼆、蛋⽩质组数据库
》SWEISS PROT 2DE PAGE / neXtProt / PaxDb / PeptideAtlas / PRIDE
涉及不同⽣物、不同器官、组织、细胞的蛋⽩质图谱数据
三、蛋⽩质互作组数据库
》HPRD / DIP / INTERACT
四、综合型数据库
》ExPASy。

蛋白质组科学数据库建设及应用

蛋白质组科学数据库建设及应用

蛋白质组科学数据库建设及应用在科技的海洋中,蛋白质组科学数据库如同一艘巨轮,承载着人类对生命奥秘的探索。

它的建设与应用,不仅是科学研究的重要工具,更是推动生物医学发展的强大引擎。

首先,我们要明确蛋白质组科学数据库的重要性。

它就像是一座巨大的图书馆,里面收藏着关于蛋白质的各种信息。

这些信息包括蛋白质的结构、功能、相互作用等等,对于科学家来说,它们是研究生命现象的关键线索。

没有这些信息,科学家们就像是在黑暗中摸索,难以取得突破性的进展。

因此,建设一个全面、准确、易用的蛋白质组科学数据库,对于推动科学研究具有重要意义。

然而,建设这样一个数据库并非易事。

它需要大量的数据收集、整理和分析工作。

这就像是在一片茫茫大海中寻找宝藏,需要耐心和毅力。

同时,随着科学技术的发展,新的研究成果不断涌现,数据库也需要不断更新和维护。

这就像是一场永无止境的战斗,需要我们持续投入精力和资源。

那么,如何建设一个优秀的蛋白质组科学数据库呢?我认为可以从以下几个方面着手:首先,加强数据的收集和整理。

我们需要建立一个完善的数据收集体系,确保数据的全面性和准确性。

同时,我们还需要进行数据清洗和整理,去除重复和错误的信息,提高数据的质量。

其次,优化数据库的设计和结构。

一个好的数据库应该具有良好的用户体验,方便用户查询和使用。

我们可以借鉴其他优秀数据库的经验,结合蛋白质组科学的特点,设计出更加人性化的界面和功能。

再次,加强数据库的维护和更新。

随着研究的深入和技术的发展,新的数据会不断产生。

我们需要及时将这些新数据纳入数据库,保持数据的时效性。

同时,我们还需要注意数据库的安全性和稳定性,防止数据丢失或泄露。

最后,加强与其他数据库的合作与交流。

蛋白质组科学并不是孤立的研究领域,它与其他学科有着密切的联系。

通过与其他数据库的合作与交流,我们可以共享资源、互补优势,共同推动科学的进步。

当然,建设一个优秀的蛋白质组科学数据库只是第一步。

如何将其应用于实际研究中,发挥其最大的价值,才是我们更应该关注的问题。

蛋白质数据库使用说明

蛋白质数据库使用说明

蛋白质数据库使用说明蛋白质数据库使用说明概述本文档提供了蛋白质数据库使用说明,包括数据库访问方式、数据搜索和分析方法等。

通过阅读本文档,用户将了解如何有效地利用蛋白质数据库进行蛋白质相关研究。

1. 数据库访问方式1.1 网站访问蛋白质数据库可以通过网站进行访问。

用户需要在浏览器中输入数据库的网址,并使用提供的用户名和密码进行登录。

一旦登录成功,用户将可以浏览数据库中的蛋白质信息。

1.2 API接口蛋白质数据库通常也提供了API接口,用户可以通过编程方式获取和操作数据库中的数据。

通过API接口,用户可以实现自动化的数据获取和分析。

2. 数据搜索2.1 关键词搜索用户可以通过关键词搜索来查找与特定蛋白质相关的信息。

在数据库的搜索框中输入关键词,数据库将返回与关键词相关的蛋白质条目。

2.2 高级搜索蛋白质数据库通常也提供了高级搜索功能,用户可以使用更复杂的搜索方式来满足特定需求。

高级搜索功能包括使用逻辑运算符、指定搜索范围等。

3. 数据分析3.1 蛋白质比对用户可以使用蛋白质数据库中的比对工具来进行蛋白质比对分析。

比对工具可以帮助用户找到在不同蛋白质序列之间的相似性和差异性。

3.2 功能注释蛋白质数据库还提供了功能注释工具,可以帮助用户预测蛋白质的功能。

用户可以根据数据库中的注释信息来了解蛋白质的功能和作用。

4. 数据蛋白质数据库通常也提供数据功能,用户可以将数据库中的数据到本地进行进一步的分析和处理。

功能可以提供多种格式的数据文件,如文本文件、Excel文件等。

附件本文档没有涉及附件。

法律名词及注释本文档没有涉及法律名词及注释。

常用的生物数据库(二)

常用的生物数据库(二)

常用的生物数据库(二)引言概述:生物数据库是生物信息学领域的重要工具,可以帮助研究人员存储、管理和共享生物数据。

本文将介绍常用的生物数据库(二),以便研究人员更好地利用这些资源进行生物学研究。

正文内容:一、蛋白质相互作用数据库1. STRING数据库:提供蛋白质相互作用预测和注释功能。

2. IntAct数据库:收集整理蛋白质相互作用数据,提供数据检索和分析工具。

3. BioGRID数据库:整合多种物种的蛋白质相互作用数据,并提供丰富的功能注释。

二、基因组数据库1. GenBank数据库:包含大量的序列数据,包括基因组、转录本和蛋白质序列等。

2. ENSEMBL数据库:集成了各种生物信息学工具,提供全面的基因组注释信息。

3. UCSC数据库:基于人类基因组构建的浏览器,提供详细的基因组注释和可视化功能。

三、表达谱数据库1. GEO数据库:收集了大量的基因表达谱数据,可进行数据检索和分析。

2. ArrayExpress数据库:包含了来自各种高通量技术的表达谱数据,提供数据下载和分析工具。

3. TCGA数据库:整合了多种癌症的基因表达数据,可进行差异表达和生存分析等研究。

四、突变数据库1. dbSNP数据库:记录了常见的单核苷酸多态性(SNP)数据,是研究遗传变异的重要资源。

2. COSMIC数据库:专注于癌症相关的突变数据,包含了大量的突变谱系和功能注释信息。

3. ClinVar数据库:整合了与人类疾病相关的遗传变异数据,提供临床相关的注释信息。

五、药物数据库1. DrugBank数据库:收录了大量的药物信息,包括结构、作用机制和药理学数据等。

2. PubChem数据库:提供了大量的小分子化合物数据,可进行化学结构搜索和药物筛选等研究。

3. ChEMBL数据库:整合了化合物活性数据和药物靶点信息,可用于药物发现和优化。

总结:生物数据库为生物学研究提供了丰富的数据资源和分析工具。

蛋白质相互作用数据库、基因组数据库、表达谱数据库、突变数据库和药物数据库是常用的生物数据库之一。

蛋白质数据库使用说明

蛋白质数据库使用说明

蛋白质数据库使用说明1.高级查询 (1)2.限定词说明 (1)3.显示格式说明 (2)3.1.Summary显示格式 (2)3.2.FASTA显示格式 (3)3.3.SwissProt显示格式 (4)4.数据下载流程 (5)5.数据提交 (6)6.附录 (6)6.1.蛋白质研究的历史 (6)6.2.蛋白质组学与生物信息学 (7)2009年10月16日1.高级查询在首页上点击“数据库”按钮,选择“蛋白数据库”进入蛋白质数据库主页。

在蛋白质主页的左侧栏点击“高级检索”,进入如下图的高级检索页面:蛋白质数据库的高级检索可以最多使用三个限定词来进行更精确的检索,三个限定词之间可以用“AND”和“OR”相连接,其中“AND”表示查询的结果中必须包含它所连接的两个关键词,“OR”表示查询的结果中至少包含它所连接的关键词中的一个。

在左侧的限定词框中可以选择的限定词包括:CAC、AC、Entry Name、Description、Tax ID、Organism、Keywords、Gene Name、Organelle、Length以及Molecular Weight等十一个限定词。

其中Length和Molecular Weight可以进行范围查询。

2.限定词说明蛋白质数据库中相关的限定词说明如下:限定词描述CAC国内用户提交的数据编号AC SwissProt的序列或记录唯一的接收编号Entry Name录入名Description描述Tax ID物种分类号Organism与蛋白质有关的物种的学名和通用名Keywords与其它数据库专用词汇有关的索引名词Gene Name基因的标准名和通用名Organelle细胞器官Length序列的总长度Molecular Weight蛋白质的分子量,单位为道尔顿(Da)3.显示格式说明蛋白质数据库的查询结果有三种显示结果:Summary、FASTA和SwissProt。

3.1.Summary显示格式Summary格式显示了蛋白质条目的摘要信息,主要有两部分组成:1)蛋白质的名称,AC号以及来源物种2)对蛋白质的简要描述信息,如该组成该蛋白质的亚基和生物功能等3.2.FASTA显示格式FASTA格式第一行显示信息包括蛋白质录入名、AC号以及来源物种。

第03讲蛋白质数据库

第03讲蛋白质数据库
of Protein
PIR
PIR-PSD是第一个国际蛋白质序列数据库,它从‘Atlas
Sequence and Structure’发展而来。
PIR-PSD是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
‘SwissProt数据库’
由瑞士日内瓦大学生物化学系与1978年创建,之后与EMBL合作,由
(H)序列的矛盾、变化等。
‘SwissProt数据库’
SwissProt数据库的特征
④ 最小冗余:尽量将相关的数据归并,降低数据库的冗余程度。如果不同 来源的原始数据有矛盾,则在相应序列特征表中加以注释。 ⑤ 与其它数据库的连接:对于每一个登录项,有许多指向其它数据库相关 数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到生物大分子结构数据库PDB的索引等
UniProt
UniProt是一个集中收录蛋白质资源并能与其它资源
相互联系的数据库,也是目前为止收录蛋白质序列 目录最广泛、功能注释最全面的一个数据库。
UniProt数据库的四大组成
UniProt数据库的四大组成
UniProt针对不同的用户,UniProt分三个层次: (1) UniProt Knowledgebase (UniProtKB)( UniProt知 识库) 包含蛋白质序列、功能、分类、交叉引用等信 息存取中心。由部分组成: ① UniProtKB/Swiss-Prot ② UniProtKB/TrEMBL ③ PIR-PSD (2) UniProt Reference Clusters (UniRef) ( UniProt 参考资料库):将相近的或者密切相关的蛋白质序列整 合为单个记录,加快检索速度。 (3) UniProt Archive (UniParc) ( UniProt档案):记 录了最完整的信息,反映了所有蛋白质序列的历史。

蛋白质常用数据库一文看懂!

蛋白质常用数据库一文看懂!

蛋白质常用数据库|一文看懂!蛋白质数据库是指专门存储蛋白质相关信息的数据库。

它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。

蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。

蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。

这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。

下面是笔者总结的常用蛋白质数据库及网址,供大家参考。

⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。

蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。

包括蛋白3D结构、基本信息、实验数据、参考文献等。

①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。

它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。

②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。

它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。

③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。

④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。

蛋白质生物信息学-数据库

蛋白质生物信息学-数据库
详细描述
Pfam数据库由英国生物化学物理研究所(European Bioinformatics Institute,EBI) 维护,利用隐马尔可夫模型(Hidden Markov Model,HMM)进行蛋白质序列分析 ,将序列划分为不同的家族。Pfam数据库提供了丰富的注释信息和可视化的家族结构
图。
外,Pfam数据库还提供了丰富的注释信息 ,有助于深入了解蛋白质家族的特性和进化
关系。
InterPro数据库在蛋白质功能预测中的应用
总结词
InterPro数据库整合了多种蛋白质序列和结构信息,为 预测蛋白质功能提供了全面的资源。
详细描述
InterPro数据库将多个蛋白质数据库(如SWISS-PROT 、Pfam等)进行整合,提供了一个统一的查询平台。通 过比对InterPro数据库,可以同时获取多个数据库中的 注释信息,从而更全面地了解蛋白质的结构和功能。此 外,InterPro数据库还提供了功能域、跨膜结构等更深 入的信息,有助于更准确地预测蛋白质的功能。
云计算平台将提供更灵活、可扩展的计算资源, 支持蛋白质生物信息学数据库的高效运行和数据 共享。
人工智能和机器学习
人工智能和机器学习技术将被应用于蛋白质生物 信息学数据库,以自动提取有价值的信息,提高 数据分析的准确性和效率。
数据库在蛋白质生物信息学中的重要性和应用前景
蛋白质结构预测
数据库中存储的蛋白质序列和结构信息,可用于预测蛋白质的三维 结构,有助于理解蛋白质的功能和相互作用。
选择合适的查询方式
根据需要选择合适的查询方式,如 简单查询或复合查询。
使用适当的关键词
选择与主题相关的关键词进行查询 ,避免使用过于宽泛或模糊的关键 词。
筛选结果

第三章 蛋白质数据库

第三章  蛋白质数据库
36
/
PIR数据库特点是:全面的、经过注释的、非冗余 的蛋白质序列数据库,包括了来自几十个完整基因 组的蛋白质序列。所有序列数据都经过整理,超过 99%的序列已按蛋白质家族分类,一半以上还按蛋 白质超家族进行了分类。
1、PIRSF:蛋白质分类
PIRSF将蛋白质家族归为三类:
2、Gene
3、肽酶数据库
MEROPS /
第二节 蛋白质结构数据库
一、蛋白质结构数据库PDB • 早在序列数据库诞生之前的70年代,蛋白质结构数
据库(Protein Data Bank,简称PDB)就已经问世。 PDB数据库原来由美国Brookhaven国家实验室负责 维护和管理。 • 1998年,由美国国家科学基金委员会、能源部和卫 生研究院资助,成立了结构生物学合作研究协会 (Research Collaboratory for Structural Bioinformatics ,RCSB)。PDB数据库改由RCSB管理。
3.16 MG2+
ENDMDL
空行
亚基结束
相关化合物 CONECT
1179 746 1184 1195 1203
有关记录
版权 *MASTER
40 0 0 0 0 0 0 62930 2 0 29
版权拥有者
结束符 *END
空行
文件结束
二、结构浏览器
1、RasMol和基于RasMol的浏览器
2、MMDB浏览器:Cn3D
二硫键
LINK
O1 DDA 1 C3 DDL 2
残基间化学键
连接键注释 HYDBND
N LEU 10 AO3* NDP 501
氢键
SLTBRG
O GLU 10 NZ LYS 115

pdb数据库名词解释

pdb数据库名词解释

pdb数据库名词解释
PDB(Protein Data Bank) 是一个蛋白质数据库,它包含了世界上大部分已知蛋白质的三维结构数据。

这些数据是由 X 光晶体衍射、NMR 等技术手段获得的,包括蛋白质分子的原子坐标、空间结构等信息。

PDB 数据库是一个关键性的资源,对于结构生物学、药物设计等领域具有重要的意义。

PDB 数据库所使用的文件格式称为“.pdb”,是一种二进制文件格式。

在 PDB 文件中,蛋白质分子的原子坐标、空间结构等信息被存储在文件的头部信息部分,而其它相关信息,如蛋白质序列、注释等则存储在文件的数据部分。

PDB 数据库的用法有多种,用户可以根据自身需求使用 PDB 数据库中的数据,例如通过查询蛋白质序列、结构信息等方式来研究蛋白质分子的结构与功能。

此外,PDB 数据库还支持用户自定义注释、模型等操作,用户可以通过这些操作来提高自己的研究水平。

需要注意的是,PDB 数据库中的数据一般是收费的,但也有一些免费的数据可以使用。

同时,由于 PDB 数据库中的数据量庞大,用户需要根据自己的需求来有选择地使用,以免浪费不必要的资源。

实用蛋白质谱分析数据库

实用蛋白质谱分析数据库

实用蛋白质谱分析数据库1. GPMdbGPMdb全称为Global Proteome Machine Database。

这是一个持续更新的大型数据库,包含许多被质谱鉴定过的蛋白质质谱数据。

网站链接:网站界面很简单,可以通过搜索蛋白、基因名称,或者motif等,加上对应的种属即可获得有关这个蛋白的质谱鉴定数据,包括肽段序列,翻译后修饰等等。

这个数据库可以提供最直接的质谱数据参考,非常实用!!2. EBI PRIDE ArchiveEBI PRIDE Archive是一个shotgun proteomics 质谱研究数据库,主要包括shotgun蛋白组学相关质谱数据,蛋白多肽鉴定,翻译后修饰等质谱鉴定信息。

能够为shotgun proteomics研究提供一些相关参考依据。

网站链接:/pride/archive/3. Human Proteome MapHuman Proteome Map是一个指示蛋白质在各部分组织中的分布表达量的数据库。

蛋白质在各个组织中的表达量的数据均基于质谱研究数据。

因此,这个数据库可以为研究组织中某一蛋白的表达量提供一定的参考。

网站链接:4. UniProtUniProt 是一个包含蛋白序列,修饰,功能注释,研究文献,蛋白的亚细胞定位,以及相关疾病等的数据库。

UniProt 在研究蛋白质功能以及与其它蛋白的关系等方面提供了很全面的信息,可以使我们以最快的速度了解一个蛋白最重要的研究发现,并查找到具体研究的文献。

网站链接:5. MaConDaMaConDa的全称为The Mass spectrometry Contaminants Database。

这是一个质谱鉴定污染物数据库,由伯明翰大学开发。

数据库的数据资料大多来源于许多已发表的质谱鉴定文献和质谱公司。

这个数据库能够为分析质谱数据的可信度提供极大的帮助。

网站链接:6. UnimodUnimod 是一个包含了已知蛋白质翻译后修饰以及蛋白分子量的数据库。

蛋白质序列数据库

蛋白质序列数据库
▪ PIR-PSD的另一个重要特征是其对蛋白质超家族 的分类,提供序列的等级聚类信息,揭示序列间 的进化关系。
4 UniPro
▪ 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI) 和瑞士生物信息学研究所(SIB)合作,于2002年共同组 建世界蛋白质资源(the Universal Protein Resource, UniPro)。
d. SWISS-PROT中尽可能减少冗余序列
e. 与其它30多个数据库建立了交叉引用,其 中包括核酸序列数据库、蛋白质序列数据 库和蛋白质结构数据库等。
f. 利用序列检索系统(SRS)可以方便地检 索SWISS-PROT和其它EBI的数据库。
2 TrEMBL
TrEMBL数据库建于1995年,意为 “Translation from EMBL”。
a. 所有序列条目都经过有经验的分子生物学家和蛋白 质化学家通过计算机工具并查阅有关文献资料仔细核 实。
b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献
信息、注释、蛋白质序列等(如:Acetyltransferase)。
3D structure
c. 蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸 化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片 层)、四级结构(如同聚体和异聚体)、与其它蛋白质序 列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和 变异体等信息。
▪ 由蛋白质信息资源(PIR)、慕尼黑蛋白质序 列信息中心(MIPS)和日本国际蛋白质序列 数据库(JIPID)共同维护, PIR是最早的数 据库,现已并入UniProt Knowledgebase
▪ 是一个全面的、非冗余的、经过专家注释的公共 蛋白质序列数据库。PIR-PSD收集已发表的蛋白 质序列、来源、参考文献和特征信息等,她的注 释中还包括一些原始递交记录中没有的相关信息, 如在遗传图谱的位置、内含子位置、以及和其他 序列、结构、基因组和引文数据库(如Medline、 PDB和TIGR等)的相互参照

蛋白质数据库介绍

蛋白质数据库介绍

SWISS-PROT或TrEMBL /sprotPIRMIPSJIPID已经和ExPASy 三、蛋白质二级结构预测网站(数据库)4始建于基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。

数据库包括两个数据库文件:数据文件Prosite5蛋白质二级结构构象参数数据库DSSP6蛋白质家族数据库FSSP7同源蛋白质数据库HSSP在前面已经述说过了。

第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。

序列之间的关系,生物学模式方面起着相当重要的作用。

多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,法建立在某个数学或生物学模型之上。

因此,正如我们不能对双序列比对的结果得出果也没有绝对正确和绝对错误之分,相似性关系以及它们的生物学特征。

我们称比对前序列中残基的位置为绝对位置。

置Ⅰ相对位置。

显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。

绝对位置是序列本身固有的属性,也就比对过程赋予它的属性。

算法复杂性多序列比对的计算量相当可观,时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积,用(的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。

这样算法复杂性就变成了(例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。

颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。

用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。

多序列比对程序的另一个重要用途是定量估计序列间的关系,关系。

关系。

相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处2同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。

其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。

uniprot数据库的主要内容

uniprot数据库的主要内容

uniprot数据库的主要内容UniProt数据库是世界上最大的蛋白质数据库,它是由世界著名的蛋白质信息学会联合维护的,是生物信息学家和生物药学研究者在研究蛋白质活性方面的一个重要数据库。

它涵盖了基因组、转录组、蛋白质组等多方面的知识,提供了蛋白质的基本结构组成、功能活性、交互作用等方面的声明与数据库的查询服务。

UniProt数据库包括4个不同的模块:UniProtKB、UniParc、UniRef和UniMes,每个模块都具有独特的功能。

UniProtKB模块是最大的,它是一个蛋白质的全面数据库,包括蛋白质的基本结构、功能活性、交互作用以及疾病相关基因等,可以提供蛋白质的参考标准信息。

UniParc模块是数据库中蛋白质序列的记录模块,其主要功能是记录蛋白质序列,方便他人引用。

UniRef模块主要是提供蛋白质优化等功能,它可以帮助研究者进行结构性分析和比较,以提高蛋白质结构的理解能力。

最后,UniMes模块收集来自多个信息源的全球蛋白质实验数据,以及关于蛋白质的结构和功能的文献。

UniProt数据库一直在持续更新,它有助于研究者和生物学家获取最新的蛋白质知识和信息,以帮助他们开发新的药物和技术。

UniProt数据库的准确性和可靠性非常高,在很多生物学和医学领域,都被广泛使用。

此外,UniProt还与多家生物信息服务公司合作,提供深入的生物学应用支持,以帮助研究者更好地利用UniProt数据库中的信息。

总之,UniProt数据库是一个详尽且全面的蛋白质数据库,具有精准的数据查询服务,能够帮助生物学家和药学研究者更有效地研究和开发蛋白质的功能活性。

UniProt数据库也是一个交互友好的社区,可以使用户更好地了解数据库中的信息以及使用数据库中的数据进行研究。

蛋白质数据库中序列缺失的原因

蛋白质数据库中序列缺失的原因

蛋白质数据库中序列缺失的原因
蛋白质数据库中序列缺失的原因主要有以下几种:
1.测序不完全:
测序技术的限制:早期或低成本的测序方法可能无法覆盖基因组的所有区域,导致部分蛋白质编码区段未能被成功测序。

序列组装难题:在从原始测序数据构建参考基因组的过程中,重复序列、高GC含量区域或复杂结构区域可能导致序列拼接困难,进而产生缺失。

2.实验设计与样本制备:
样本纯化不足或降解:蛋白质样品在提取、纯化过程中可能出现丢失,或者因样品保存条件不佳导致蛋白质降解,使得某些片段无法检测到。

技术灵敏度限制:质谱分析或其他定量蛋白质组学技术对于低丰度蛋白或短肽段的检测能力有限,可能遗漏某些蛋白质序列信息。

3.生物信息学处理:
数据过滤和注释错误:在数据分析阶段,对测序数据进行质量控制时,低质量序列可能会被剔除;同时,在预测蛋白质编码序列时,由于软件算法的问题,某些真实的开放阅读框(ORFs)可能未被正确识别。

4.生物学因素:
变异和可变剪接:生物体中可能存在遗传变异,包括单核苷酸多态性(SNPs)、插入缺失突变(Indels)等,影响
蛋白质编码。

另外,mRNA剪接过程中的可变剪接现象也可能导致不同的蛋白质亚型,其中某些亚型的信息在数据库中未记录。

5.功能未知区域:
对于一些蛋白质,其功能不明或结构复杂的区域可能难以通过现有技术得到完整的表征。

综上所述,蛋白质数据库中序列缺失是多种技术和生物学因素共同作用的结果,随着科技的发展,这些缺失将有望随着更全面、更深入的研究而逐步填补。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录1、蛋白质数据库PPI - JCB 蛋白质与蛋白质相互作用网络•Swiss-Prot - 蛋白质序列注释数据库•Kabat - 免疫蛋白质序列数据库•PMD - 蛋白质突变数据库•InterPro - 蛋白质结构域和功能位点•PROSITE - 蛋白质位点和模型•BLOCKS - 生物序列分析数据库•Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] •PRINTS - 蛋白质 Motif 数据库•ProDom - 蛋白质结构域数据库 (自动产生)•PROTOMAP - Swiss-Prot蛋白质自动分类系统•SBASE - SBASE 结构域预测数据库•SMART - 模式结构研究工具•STRING - 相互作用的蛋白质和基因的研究工具•TIGRFAMs - TIGR 蛋白质家族数据库•BIND - 生物分子相互作用数据库•DIP - 蛋白质相互作用数据库•MINT - 分子相互作用数据库•HPRD - 人类蛋白质查询数据库•IntAct - EBI 蛋白质相互作用数据库•GRID - 相互作用综合数据库•PPI - JCB 蛋白质与蛋白质相互作用网络2、蛋白质三级结构数据库•PDB - 蛋白质数据银行•BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库•SWISS-MODEL Repository - 自动产生蛋白质模型的数据库•ModBase - 蛋白质结构模型数据库•CATH - 蛋白质结构分类数据库•SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia]•Molecules To Go - PDB数据库查询•BMM Domain Server - 生物分子模型数据库•ReLiBase - 受体/配体复合物数据库 [镜像: USA]•TOPS - 蛋白质拓扑图•CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))•HSSP - 蛋白质二级结构数据库•MutaProt - PDB数据库中点突变的比较•SWISS-3DIMAGE - 蛋白质和其他生物分子的三维图像•BioImage - 生物图像数据库 (包含生物大分子图像) 3、蛋白质组数据库和链接•2-D胶数据库以及与2-D胶相关的数据库•蛋白质组链接4、与核酸相关的数据库•EMBL - EMBL核酸序列数据库 (EBI)•Genbank - GenBank核酸序列数据库 (NCBI)•DDBJ - 日本DNA数据库•dbEST - dbEST(表达序列标签)数据库 (NCBI)•dbSTS - dbSTS(序列标签位点)数据库 (NCBI)•AsDb - 异常剪切数据库•ACUTS - DNA非转录保守序列数据库•密码子数据库•EPD - 真核生物启动子数据库•HOVERGEN - 颈椎动物同源基因数据库•IMGT - 免疫遗传学数据库 [镜像: EBI]•ISIS - 内含子序列信息•RDP - 核糖体数据库•gRNAs db - gRNA数据库•PLACE - 植物DNA顺势调控元件数据库•PlantCARE - 植物中DNA顺势调控组件数据库•ssu rRNA - 欧洲核糖体RNA数据库-小核糖体•lsu rRNA - 欧洲核糖体RNA数据库-大核糖体•5S rRNA - 5S核糖体RNA数据库•tmRNA Website - tmRNA站点•tmRDB - tmRNA数据库•tRNA - tRNA剪切( Bayreuth大学)•uRNA db•RNA editing - RNA剪切位点•RNAmod db - RNA修饰数据库•TelDB - 多介质端粒数据库•MPDB - 分子探针数据库•VectorDB - 载体序列数据库5、糖类•FCCA - 糖类论坛•GlycoSuiteDB - 多聚糖数据库•Monosacharide browser - Space filling Fischer projection for monosaccharides•Thorkild's lectin page - 凝集素通道6、特殊物种数据库:人类:•OMIM - 孟德尔遗传在线--人类•GENATLAS - 人类基因图集•GeneClinics - 医学基因学库•GDB - 基因组数据库•GeneCards - 人类基因整合信息数据库•UDB - 人类基因图谱数据库•Ensembl人类基因组浏览器•UCSC人类基因组工作草图•TIGR HGI - TIGR人类基因组索引•Hs UniGene - GenBank中的人类转录本•STACK - 序列标签比对• - 人类基因预测•GenLink - 人类基因组资源数据库•GeneLynx - 人类基因组•HUGE - 人类未知基因-大型蛋白质反转录得到的cDNA (KIAA...)•HUNT - 人类异常转录本•CGAP - 癌症基因组解剖学•MGC - 哺乳动物基因•SCDb - 干细胞数据库•Homophila - 人类疾病基因与果蝇基因对比数据库•Human Protein Atlas - 人类正常组织蛋白质与癌细胞蛋白质表达与位点的比较•Chr at Rutgers - Rutgers的人类染色体信息•Chr at Sanger - Sanger Center的人类染色体信息•Chr Swiss-Prot list - Swiss-Prot的染色体信息脊椎动物:•OMIA - 孟德尔遗传在线--动物•MGI - 小鼠基因组学信息 [镜像: Australia]•Ensembl小鼠基因组浏览器•TIGR MGI - TIGR小鼠基因索引•Mm UniGene - GenBank 中的小鼠转录本(EST clusters) •MGC - 哺乳动物基因•Mouse gene knockouts db - 小鼠基因敲除数据库•RGD - 大鼠基因组数据库•RatMAP - 大鼠基因组数据库•TIGR RGI - TIGR大鼠基因组数据库•Rn Unigene - GenBank 中的大鼠转录本(EST clusters) •BOVMAP - 牛基因数据库 (法国)•DGP - 狗基因数据库•MIS - 孟德尔遗传--羊•Ark-Cat - 猫基因组数据库•Ark-Chicken - 鸡基因组数据库•Ark-Cow - 奶牛基因组数据库•Ark-Deer - 鹿基因组数据库•Ark-Horse - 马基因组数据库•Ark-Pig - 猪基因组数据库•Ark-Sheep - 绵羊基因组数据库•Ark-Turkey - 火鸡基因组数据库•FishBase -鱼类综合信息系统•Fugu genome project - 河豚基因组•Fugu - HGMP 河豚数据•- Ensembl 河豚基因组浏览器•Medakafish - Mekada fish (Oryzias latipes) server •Ark-Tilapia - 罗飞鱼基因组数据库•Ark-Salmon - 大马哈鱼基因组数据库•The fish net - 斑马鱼基因组数据库•Ensembl斑马鱼基因组浏览器线粒体和叶绿体:•GOBASE - 细胞器基因组数据库•MitoDat - 孟德尔遗传和线粒体数据库• C.caldarium - 蓝藻纲PK1菌株叶绿体基因组昆虫•Drosophila Swiss-Prot list - Swiss-Prot中的果蝇链接•FlyBase - 果蝇遗传数据库和分子数据库•BDGP - Berkeley果蝇基因组项目•FlyView - 果蝇图像数据库•Homophila - 人类疾病与果蝇基因对照数据库•蚊子基因组学•AnoDB - 疟蚊数据库•Ensembl蚊子基因组浏览器7、人类突变数据库•HGMD - 人类基因突变数据库•SVD - EBI序列变异数据库•GeneDis - 人类遗传病数据库8、特殊基因和蛋白质数据库•Allergens in Swiss-Prot - Swiss-Prot中过敏反应的命名与索引•Allergome - 过敏症反应分子数据库•Aminoacyl-tRNA synthetases in Swiss-Prot - Swiss-Prot 中氨基化tRNA合成酶列表9、转录后修饰数据库•DSDBASE - 二硫化物数据库 (数据来源于三级结构数据库) •GlycoSuiteDB - 多聚糖结构数据库•LIPID MAPS - 脂类代谢及路径10、系统发生学数据库•COG - 全基因组中编码的蛋白质的系统发生学分类方法•EGO - 真核生物基因分类方法•InParanoid - 真核生物分类11、芯片数据库•ArrayExpress - EBI中芯片数据•ExpressDB - 酵母菌和大肠杆菌表达数据库•GeneX - 基因表达工程12、专利数据库•DPD - DNA专利数据库•Ag Patents - USDA收录的农业工艺专利•Esp@cenet - 欧洲专利事务所专利信息数据库 (世界范围内)13、参考文献(目录数据库)•PubMed Medline server - PubMed查询•AGRICOLA - NAL农业查询数据库•Article@INIST - 科技信息数据库•Korean Journals Abstract db - 韩国杂志摘要数据库•SeqAnalRef - 序列分析文献14、字典, 读物, 课程 ,命名法•BioABACUS - 缩写词•BioTech's life science dictionary生物科技及生命科学字典•DCB - 细胞生物学字典(Julian Dow编写)15、生物软件数据库及目录•CLC Free Workbench - 可在Linux, MacOS X and Windows操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•CLC Protein Workbench - 可在Linux, MacOS X and Windows 操作系统上运行的,对DNA、RNA和蛋白质进行算法分析的软件•BioCatalog - EBI的生物目录16、生命科学资源•Biofind - 生物科技工业信息、评论及新闻•Bioinformatik.de - 生物信息学网页目录17、生物杂志和发行人•生物杂志主页:Swiss-Prot journals list - Swiss-Prot杂志列表• - 电子出版物目录• - 电子期刊目录18、发行人•Allen Press, Inc. - Allen出版社•AMA - 美国医学联合出版物•ACS - 美国化工协会出版物19、生物信息学杂志和通讯•BioInformer - EBI通讯•NCBI Newsletter -NCBI通讯•PDB Quaterly Newsletter - PDB通讯20、基因组通讯•Human Genome Project Information - 人类基因组计划•FGN - 真菌遗传学•Rice Genome Newsletter - 水稻基因组21、其他•IJC - 化学杂志•Plant Gene Register - 植物基因注册22、生物商业杂志•BioCentury - 生物世纪•BioWorld Online - 生物世界•Drug Discovery and Development - 药物发现和发展•GEN - 基因工程新闻23、综合性科学杂志•Nature•New Scientist•La Recherche•Science•Scientific American24、生物学研究机构•APS - 美国缩氨酸社区•ASCB - 美国细胞生物学社区•ASHG - 美国人类遗传学社区25、计算生物学服务器主页欧洲:•EBI - 欧洲生物信息学协会•EMBnet - 欧洲分子生物信息学网•EMBL - EMBL计算生物学机构美国和加拿大:•NCBI - 美国生物学信息中心•ABCC - NCI高级生物医学计算中心•ACGT - Oklahoma大学基因组技术中心亚洲•APBioNet - 亚太生物信息网•BIC-JNU - Jawaharlal Nehru大学生物信息学中心•DIC - Pune (印度)大学生物信息澳洲•APBioNet - 亚太生物信息网•ANGIS - 澳大利亚国家遗传信息服务中心•ANU - 澳大利亚国大学生物信息学研究组•APAF - 澳大利亚蛋白质组分析工具26、其他•HUJI - 耶路撒冷Hebrew大学基因组学和生物信息学服务中心•Weizmann Bioinfo/BCU - Weizmann计算生物学和生物信息学研究协会•SANBI - 南非生物信息学研究协会27、生物公司和制药公司•美国药物研究和制造商目录•Bioportfolio - 生物技术企业•Affymetrix, Inc. - Affymetrix公司28、生物信息公司•Aborygen•Accelrys, Inc•AlgoNomics NV t29、其他链接其他医学查询•HON - 基于网络的健康服务• - 药物网络指南•MedWeb - 医学链接其他科学查询•GPSDB - 基因和蛋白质同义词数据库•Chemcyclopedia Online - 商业化学试剂数据库。

相关文档
最新文档