常用的生物数据库 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

转载)分子生物学相关数据库
综合数据库：
Entrez
由NCBI开发的一个数据库检索系统，它综合了下述各大数据库的信息，包括核酸、蛋白以及Medline文摘数据库，在这三个数据库中建立了非常完善的联系。

因此，可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息，详见NCBI(美国国立生物技术信息中心) 简介。

EBI
欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部，位于英国Hinxton的Wellcome Trust Genome Campus。

EBI维护和发布的数据库：
üEMBL核酸数据库、欧洲原始核酸数据资源库
üSwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]
üTrEMBL(SwissProt的附属数据库，由EMBL数据库编码序列翻译而来的蛋白质序列数据库)
ü分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]
ü放射杂交数据库(Radiation Hybrid database,RHdb)
ü其他组织合作产生的分子生物学数据库：EBI还提供网络服务，通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据，同时也提供数据库和序列相似性的搜索工具。

核酸数据库：
GenBank
GenBank是NIH的基因序列数据库，由美国国立卫生研究院全国生物技术信息中心（NCBI）建立并维护，是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7)，GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献，是世界上的权威序列数据库。

GenBank每条数据包含对序列的精确描述，序列来源生物的科学名称及树状分类，以及特征数据栏，提供序列的蛋白编码区和具有特殊生物学意义的位点，如转录单位(transcription units)、突变或修饰位点(sites of mutationsormodifications)及重复序列(repeats），还提供特定序列编码的蛋白质序列。

参考文献还给出其在MEDLINE上的特定标识号。

EMBL-EBI
欧洲分子生物学实验室(EuropeanMolecularBiology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg的核心实验室，及三个位于德国Hamburg，法国Grenoble及英国Hinxton的研究分部，是欧洲最重要和最核心的分子生物学基础研究和教育培训机构。

.
EMBL-DNA数据库于1982年由EMBL建立，为欧洲最主要的核酸序列数据库，与美国的
GenBank及日本的DDBJ共同组成全球性的国际DNA数据库。

EBI即现在的欧洲生物信息研究所，是EMBL在英国Hinxton的分部，主要负责建立EMBL－DNA数据库，可进行核苷酸序列检索及序列相似性查询。

目前此数据库由其分支机构—EBI（the European Bioinformatics Institute，欧洲生物情报研究所）维护。

DDBJ
日本DNA数据库DDBJ(DNA Data Bank of Japan)，于1984年建立，是世界三大DNA数据库之一，与NCBI的GenBank，EBI的EMBL数据库共同组成国际DNA数据库，每日交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议。

DDBJ 主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列，数据库通过WWW环球网，匿名FTP，e-mail或Gopher 方式为广大研研究人员服务。

蛋白数据库：
ExPASy
ExPASy 是由位于瑞士日内瓦的Swiss Institute of Bioinformatics 所建立，为全世界最重要的蛋白质资料库之一，也是GCG 最主要的蛋白质资料来源。

主要内容包括蛋白质序列，构造及2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 的多个重要资料库，以及蛋白质序列和构造工具，FTP Server 和相关讯息。

有许多用于分析上所需的工具，包括蛋白质功能预测、序列搜寻及比对，二级，三级和四级结构的预测等等。

ExPASy Proteomics tools包括Protein identification tools ，Protein characterization tools，以及Sequence analysis tools三大部分，具体有：
üAldente：利用肽指纹图谱来辨别蛋白质。

üRasmol：观看生物分子3D微观立体结构的软件，可以旋转，以多个模式观看，并可以存成普通图形文件。

üMolMol：将PDB等格式的蛋白质文件通过微调，存成普通的图形文件。

üCLUSTALW：用来对蛋白质序列进行多序列比较的工具。

多序列比较在分子生物学中是一个及基本方法，用来发现序列特征，进行蛋白质分类，证明序列见得同源性，帮助预测序列二级结构与三级结构，确定PCR引物，以及分子进化分析。

üFasta3：在internent上有许多的在线FASTA 查找服务，查找某数据库中的同源序列，也可下载后离线使用。

üBLAST：在数据库中查找某一序列的类似序列，目前在internet上有许多的在线查找BLAST程序。

专门用于查找各大数据库中与用户提交序列类似的序列，分别为blastp,blastn,blastx,tblastn,tblastn.
üVMD: 用来显示生物分子的微观立体结构，可以利用内建的功能，做出动画效果。

üSwiss-PdbViewer：是一个界面友好的应用程序，使用方便，可以同时分析几个蛋白质的PDB文件，可以将几个蛋白质叠加起来用来分析结构类似性，比较活性位点或其他有关位点，通过菜单操作与直观的图形，可以很容易获得氢键，角度，原子距离，氨基酸突
变等数据。

üAstex Viewer：三维分子显示控件，用来在网页中以及office各个软件的文件中，VB，VC应用程序中显示三维分子，支持许多标准的三维分子格式。

üPHYLIP：进行进化树分析，可以分析DNA与蛋白质序列，限制位点等，可以绘制进化树，程序含有多种选项可以精确控制与分析。

üTREE PUZZLE：核酸序列，蛋白质序列相似性分析以及进化树构建工具，根据序列数据的最大相似性来构建进化树，可对大量数据进行快速分析构建，程序还包含多个统计测试。

üFindMod：预测潜在的蛋白质翻译后修饰和蛋白质中潜在的单氨基酸替换.
üFindPept：综合分子量的信息、化学修饰，翻译后修饰等其他信息共同来鉴定蛋白
üGlycoMod：预测可能的oligosaccharide结构.
üSWISS-MODEL：一个自动的蛋白质建模服务,如果一个3维结构未知的蛋白质的序列和已知三维结构的蛋白质的序列有很近的相似关系,那么就可以使用这个工具来构建这个蛋白的3维模型.
üProtParam：计算一个蛋白质序列的理化参数例如氨基酸残基位置,等电点,原子位置等
üScanProsite：输入序列或SWISS-PROT 编号即可，能够得到超过50 种待测蛋白的特征。

可沿序列计算每个残基位点的移动平均疏水性，并给出疏水性-序列曲线。

PDB/RCSB (Protein Database)
Protein Data Bank (PDB)是美国RCSB (Reserach Collaborotory for Structural Bioinformatics；由Rutger大学、位于UCSD之San Diego Supercomputer Center及National Institute of Standards and Technology所组成)所维持的蛋白质数据库，收集了包括以x-ray diffraction及NMR取得之生物大分子3D结构信息。

在2002年9月，它包含有16823种蛋白，761种蛋白核酸complex，1089种核酸及18种碳水化合物的3D结构(图二)。

PIR亦自PDB选取部分结构成立NRL-3D数据库，使用A TLAS这种multi-database information retrieval program进行搜寻大分子序列数据。

PDB 除了有自行开发之软件外，亦可连接至主要之crystallograph, NMR, modeling and simulation 软件/网站。

SWISS-PROT
SWISS-PROT 数据库是最齐全的注释精炼的蛋白序列库，建立于1986年，1987年起由日内瓦大学(University of Geneva)医学生物化学系和EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。

是欧洲最主要的蛋白序列数据库，世界两大蛋白序列数据库之一。

SWISS-PROT由EMBL核苷酸序列库翻译而来，附件TrEMBL数据库含有126,995条蛋白质序列，包括34,178,645个氨基酸残基。

每条蛋白质序列条目按照各种数据行的格式书写排列。

PIR
PIR（Protein Identification Resource）为PIR-International 这个大分子序列资料收集中心所维持的蛋白质序列鉴定数据库。

由美国国家生物医学研究基金会（National Biomedical Research Foundation)维护。

是美国最主要的蛋白序列数据库，为世界两大蛋白序列数据库之一。

此中心包括National Biomedical Research Foundation (NBRF) 的Protein Information Resource
(PIR)，日本的Japan International Protein Information Database及Martinscried Institute for Protein Sequence (MIPS)。

搜寻之程序可自NBRF-PIR数据库网页取得。

文章引用自：
评论(0) 阅读(33) 圈子编辑打印有奖举报
前一篇：<转载>蛋白质的结构预测01
后一篇：生物信息与网络资源。