分子生物学数据库

合集下载

分子生物学数据库---计算生物学的摇篮

分子生物学数据库——计算生物学的摇篮1995年，嗜血杆菌的基因组DNA信息被破解，它具有1700感染基因，人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱；随后在1996年，酵母基因组DNA全部的6300个基因被测序出来，为后续的研究提供了极大的方便；1998年，人类获得了第一个多细胞生物——线虫的基因组，了解到它含有19100个基因，其中1/3基因与哺乳动物的相似，这预示了我们可以将线虫当作一种模式生物；1999年，果蝇的基因组信息被破解，它有13600个基因，虽然果蝇的拥有的细胞数是线虫的1000被，体积也比线虫大，但是它具有的基因数却少于线虫，这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的，而有些基因却在转录和翻译过程中编码了多个蛋白质；2000年，荠菜的基因组DNA被测序出来，它有25500个基因，许多基因都具有重复序。

人类基因组计划启动与1990年，到2003年，99.9%的人类基因都被精确地绘图，这其中也含有大量的冗余序列。

在获得了如此多的核算信息后，大量的蛋白质信息也随之可以获得，蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。

针对上面提到的大量信息，如果用传统的方法来收集、存储、分析，将会是一个浩大的工程，并且，在这旷日持久的工程中，很可能漏掉了许多重要的、未知的信息。

在美国最初提出人类基因组计划时，成立了一个由42位专家组成的生物信息研究小组，专门处理获得的相关信息。

随着信息的积累，生物学的发展，以及数学、物理、计算机科学的不断渗入，用计算机作为手段，参考数学、统计学、物理等学科的研究方式，将会大大降低人类的工作量，同时更系统，更全面，更快速，更准确的分析已有的数据。

在此背景下，计算生物学和生物信息学应运而生。

计算生物学和生物信息学都属于基于基因组学的交叉学科，二者之间没有一个严格的界限。

总的来讲，计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题，这些问题常常需要海量的数据，计算和分析。

生物信息学第三章分子生物信息数据库

同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
二次数据库的种类
3. 以具有特殊功能的蛋白质为基础：
免疫球蛋白数据库Kabat 蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础：
蛋白质二级结构构象参数数据库DSSP 已知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白数据库HSSP
二次数据库 1. 容量小，更新速度较慢，可以不用大型商
业数据库软件支持。 2. 许多二次库的开发基于Web浏览器。其优
点是使用方便，使用者不需要有丰富的计算机专业知识。
DBCat
由法国生物信息研究中心Infobiogen建立维护。 DBCat（Database Catalog，生物信息数据库目录）
搜集了500多个数据库的名称、内容、数据格式、联系地址、网址等详细信息。 DBCat按DNA、RNA、蛋白质、基因图谱、结构、文献等分类，其中大部分数据库可以免费下载。
MetaBase
MetaBase是一个生物学数据库清单，目前收集了1799个不同的数据库，可直接输入数据库名称进行搜索，也可以浏览目录。
计算机数据管理技术广泛应用
分子生物学数据库建立并不断发展，成为相关研究的主要数据来源和数据
交换手段。
➢计算机网络的发展和互联网在全球的普及，为分子生物信息数据库的利用开辟了广阔的前景。
➢测序中心和生物学家得到的各种生物学数据都可以通过互联网直接向国际数据中心递交。
分子生物信息数据库的种类
The databases are described in a semistructured way by using templates and entries can carry various user comments and annotations.

第二章生物分子数据库

51
SWISS-PROT
52
格式
53
54
Tools
55
Uniprot
/
2002年，PIR将PIR-PSD、Swiss-Prot及
TrEMBL三个蛋白质序列数据库统一为
UniprotKB数据库（protein
knowledgebase),将全世界的蛋白质序列及
研究的分析成果，对从事相关领域的研究人员具有重要的参考作用。
1998 年底GDB 主节点移至加拿大多伦多儿
童医院生物信息超级计算中心BiSC。GDB 的
审读和维护仍在美国霍普金斯大学JHU。
24
GDB数据库是人类基因图谱数据库，目的在于支持构建人类基因图谱和测序。
目前GDB包含对下述三种对象的描述：
2LEV
67
MMDB(Molecular Modeling Database)
分子模型MMDB 是NCBI所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示（Cn3D)、结构分析和结构比较工具。
68
二、蛋白质结构分类数据库
蛋白质结构分类是蛋白质结构研究的一个重要方向。是三维结构数据库的重要组成部分。
蛋白质结构分类可以在不同层次，包括折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。
类似于动、植物学上分类的“门、纲、目、科、属、种”。
69
SCOP数据库 SCOP数据库（Structural Classification of Proteins）是基于 Web 的蛋白质结构数据库分类、检索和分析系统。

分子生物学数据库

• 三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交从生物医学杂志收录已发表的序列资料
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的

（2）最小冗余
• 尽量将相关的数据归并，降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。
（3）与其它数据库的连接
对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。
（4）WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作（基于3W服务器）
（1）序列查询最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。
如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引，也返回相应的链接

分子生物学相关数据库

分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统，它综合了下述各大数据库的信息，包括核酸、蛋白以及Medline 文摘数据库，在这三个数据库中建立了非常完善的联系。

因此，可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息，详见NCBI(美国国立生物技术信息中心) 简介。

EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部，位于英国Hinxton 的Wellcome Trust Genome Campus。

EBI维护和发布的数据库：✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库，由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库：EBI还提供网络服务，通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据，同时也提供数据库和序列相似性的搜索工具。

核酸数据库：GenBankGenBank是NIH的基因序列数据库，由美国国立卫生研究院全国生物技术信息中心（NCBI）建立并维护，是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7)，GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献，是世界上的权威序列数据库。

生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科，其中包含了关于生命现象的各种研究。

对于生命科学的研究，特别是在分子水平上进行的研究，需要大量的数据支持。

这些数据包括分子序列、蛋白质结构、代谢途径等等。

为了有效地管理这些数据，生命科学中广泛应用了各种数据库。

本文将介绍生命科学中最常用的5个数据库。

1. GenBankGenBank是全球最大的分子生物学数据库，包含了全球各地实验室提交的DNA和RNA序列。

它由美国国家生物技术信息中心（NCBI）维护。

GenBank包含了数十亿条序列记录，其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。

与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。

GenBank还包含了元数据，如物种和菌株的信息、文献引用以及序列的提交日期。

2. PubMedPubMed是美国国家医学图书馆（NLM）维护的一个生命科学文献数据库，包括了生命科学、医学和健康相关的数百万篇论文。

PubMed提供了对文献的全文搜索和存储，使科学家在查找特定话题时更加方便。

除了搜索全文的功能，PubMed还提供了很多额外的服务，如翻译摘要、相关文章推荐、绘制图表等。

3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台，专门用于处理各种生命科学的数据。

Ensembl已经成为了全球最大的基因组数据库之一，包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。

Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。

4. Protein Data Bank (PDB)蛋白质数据银行（PDB）是一个三维蛋白结构数据库，由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。

PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析，包括了大多数已知的蛋白质家族和酶。

NCBI分子生物学数据库应用简介

Nucleotide 包含： • 所有的核苷酸及蛋白质序列 • 与之相关的生物学信息 • 参考文献
二 . Genome
即基因组数据库，提供了多种基因组、完全染色体、临近序列图谱以及一体化基因物理图谱。
三. Structures
即结构数据库或称分子模型数据库〔MMDB〕，包含来自 X 线晶体学和三维结构的实验数据。 MMDB 的数据从 PDB〔Protein Data Bank〕获得。
3. 向GenBank递交数据
GenBank数据的一个主要来源是通过作者直接递交；目前许多期刊也希望刊登的文章中的DNA或氨基酸序列能在发表前输入数据库。
NCBI为此设计了方便、快捷的数据递交软件：
BankIt: 直接通过WWW进行简便、快捷的递交。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件，可输入有关数据的详细资料。
四. Taxonomy
即生物学门类数据库，可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
五. PopSet
包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。
六. OMIM
孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。该数据库包括原文信息、图片和参考信息，同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
…………..
2. BLAST相似性检索系统
BLAST 〔Basic Local Alignment Search Tool〕
是用于序列相似性检索的一个重要数据库，是区分基因和基因特征的工具。该软件能在15秒内完成整个DNA数据库的序列检索。

分子生物学信息中心及其数据库

分子生物学信息中心及其数据库生物分子数据库可以分成一级数据库和二级数据库两大类：一级数据库：数据库中的数据直接来源于实验获得的原始资料，只经过简单的归类整理和注释。

二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

世界上主要的分子生物学信息中心与它们的数据库介绍：现阶段建立的分子数据库种类繁多，内容广泛；并且随着网络技术的普及，分子生物学信息系统大都实现了网络化；数据库中的信息量也呈爆炸性的增长；数据库的相关数据操作算法也不断增加。

随着分子生物学实验的高速增长和分子生物学及相关领域研究人员迅速获得最新实验数据，迫切需要建立一些生物分子的数据库。

1、欧洲分子生物学实验室EMBL欧洲分子生物学实验室EMBL（The European Molecular Biology Laboratory）于1974年由欧洲14个国家加上亚洲的以色列共同建立，包括一个核心实验室——德国的Heidelberg实验室，三个研究分部——德国的Hamburg，法国的Grenoble及英国的Hinxton。

由于有开发和创新的良好的学术氛围，已发展成欧洲最重要和核心的分子生物学基础研究机构。

其研究主要集中在以下几个方面：-生化实用技术质谱分析（Mass Spectrometry）等。

-细胞生物学（Cell Biology），研究细胞膜上蛋白和脂肪的分布系统，包括膜运输、微管网络、细胞核及细胞周期，焦点是Rab 蛋白。

-细胞生物物理（Cell Biophysics）重点是理论创新和实际应用的结合研究，尤其是光学显微镜的完善使用。

-分化（Differentiation）集中研究果蝇的早期发育。

-基因表达（Gene Expression）,研究基因信息传递到蛋白质信息的过程，尤其是核糖体合成在整个细胞生命过程中的重要作用。

-结构生物学（Structure Biology），在过去9年中建立了cDNA 测序技术，生物计算，蛋白工程、晶体学、电子显微镜（EM）及核磁共振（NMR），研究分子是肌肉巨型蛋白分子Titin。

ncbi分子生物学数据库网络生物医学

NCBI分子生物学数据库网络生物医学1. 引言生物医学研究的进展离不开大量的数据资源和分析工具的支持。

NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。

它提供了多个分子生物学数据库，这些数据库存储了大量的生物信息学数据，并提供了丰富的分析工具，以帮助科学家进行生物医学研究。

本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。

2. NCBI基因数据库2.1 GenBankGenBank 是全球最大的基因序列数据库之一，它存储了大量的DNA和RNA序列数据。

研究者可以通过GenBank访问到已被发表的基因序列数据，以及一些未发表的序列数据。

这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。

2.2 RefSeqRefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。

与GenBank不同，RefSeq仅收录了经过验证且与蛋白质对应的基因序列，这使得研究者可以更加准确地进行基因结构和功能的研究。

RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。

2.3 dbSNPdbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。

这些多态性位点是基因组中常见的变异，对于人类疾病的研究和个体之间的遗传差异分析非常重要。

dbSNP收集了来自各种来源的单核苷酸多态性数据，包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。

3. NCBI蛋白质数据库3.1 UniProtUniProt 是全球最大的蛋白质序列和注释数据库。

它整合了来自不同来源的蛋白质序列数据和相关的注释信息。

UniProt 提供了蛋白质序列、结构、功能、亚细胞定位和表达等方面的详细信息，帮助研究者理解蛋白质的结构和功能。

第03章分子生物数据库

EBI数据库网页---Europe
NCBI数据库网页---America
DDBJ数据库---Japan
1. 共同特点
• 三个数据库中的数据基本一致，仅在数据格三个数据库中的数据基本一致仅在数据格基本一致，式上有所差别，对于特定的查询，式上有所差别，对于特定的查询，三个数据库的响应结果一样。同步更新。的响应结果一样。同步更新。 • 这三个数据库是综合性的DNA和RNA序列数据这三个数据库是综合性的DNA RNA序列数据 DNA和每条记录代表一个单独、连续、库，每条记录代表一个单独、连续、附有注释 DNA或RNA片段片段。的DNA或RNA片段。
一级数据库只经过简单的归类、直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。整理和注释。一级核酸数据库：GenBank数据库、EMBL数据库、一级核酸数据库：数据库、数据库、数据库数据库 DDBJ数据库数据库一级蛋白质序列数据库：一级蛋白质序列数据库：SWISS-PROT库、PIR库库库一级蛋白质结构数据库：一级蛋白质结构数据库：PDB数据库数据库二级数据库在一级数据库、实验数据和理论分析的基础上，在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，针对特定的应用目标特定的应用目标，不同的研究内容和需要，针对特定的应用目标，对生物学知识和信息的进一步整理建立的数据库。建立的数据库知识和信息的进一步整理建立的数据库。人类基因组图谱库GDB、转录因子和结合位点库人类基因组图谱库、 TRANSFAC、蛋白质序列功能位点数据库、蛋白质序列功能位点数据库Prosite等。等
LOCUS
GenBank中DNA序列条目中序列条目
LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM

NCBI分子生物学数据库网络生物医学教学

基因map view
向下找
15显示结果
(四) EST (表达序列标签数据库)
expressed sequence tags
• 得到的部分 cDNA序列,长度一般为200～500bp
• 表达序列标签(EST)在基因组作图、克隆基因、新基因的识别、蛋白质组研究等许多方面具有重要的用途. <<生物技术通讯>>2003年第14卷第01 期，题目：表达序列标签及其应用作者: 陈红歌, 贾新成,本文介绍了E用.
可直接进行交互访问使用。通过相关链
接，Entrez将这些数据库有机地结合在一起，可以进行序列、结构、生物分类及文献数据的相关交叉检索。
注意
All Databases 在NCBI主页）的搜索框中（输入presenilin 1）搜索的结果是一致的。
二、数据库资源
(一) Nucteotide (核苷酸序列数据库)
Protein数据库中提供的 “Blink”(BLAST Link)链接为Entrez所有蛋白序列在Blast数据库中的结果显示。它与 “Related Sequences”链接不同， Related Sequences链接显示了相似序列文献的题目，而Blink链接则显示其图形的信息，图中不仅显示了该蛋白序列的主要信息，还
(七) PopSet (种群组数据库)
该数据库收录来自种群研究、种系发生研究或突变研究的数据。包括核酸和蛋白质序列数据库
(八) OMIM (人类孟德尔遗传数据库)
该数据库收集了人类基因与遗传疾病的各种信息，包括原文、图片和参考信息，同事还可以链接到Entre系统的Medline数据库中相关文献和序
• 所有已知的核苷酸序列 • 与之相关的生I物L6 学信息 • 参考文献

分子生物学数据库

分子生物学数据库陈成一、国内的一些有针对性的数据库BIOSINO我国的核酸序列公共数据库更像是一个论坛，有一些提问，互动等功能，信息的筛选也不是特别的严格。

但是规模较小0条记录可以看出网站的维护和使用都不怎么频繁。

其他许多网站也没有明显的巨大差距。

二、国内的一些大型数据库中国知网大部分高校已经购买了它的资源，是国内较权威、全面的数据库。

主要是文献下载，不针对我们实验过程中对数据遇到问题时的解答。

冀鼎觉SciFinderSciFinder使用简介SciFinder Scholar是美国化学学会（ACS）旗下的化学文摘服务社CAS （Chemical Abstract Service）所出版的《Chemical Abstract》化学文摘的在线版数据库学术版。

其内容涵盖应用化学、化学工程、普通化学、物理、生物学、生命科学、医学、聚合体学、材料学、地质学、食品科学和农学等诸多领域。

SciFinder是可以与交大图书馆相连的，在找到文献时，可以直接连接到交大图书馆进行检索帮助。

下面以检索Molecular Dynamics为例简单解释其使用。

在登进SciFinder之后会进入检索界面。

上图即为SciFinder的文献检索界面，可以对文件类型，语言，作者等信息作初步筛选。

除此之外也可以看到左面可以选择对作者，公司，杂志，专利进行直接检索。

在搜索之后会出现题目和内容相关两种文献分类，如我们选择内容相关Molecular dynamics，点进Get Reference。

这是检索完成的结果。

我们可以看到，在Reference字样之后又Getsubstances等字样，我们可以通过这些选项获取选定文献中相关的物质、反应、相关的引用及被引用等。

在右侧可以看到Analysis 以及Refine选项。

现在显示的是Analysis中的Journal Name选项，可以看到对于MD来说，JCP, JPC, Biochemistry, JACS等杂志具有较多的信息。

生物信息学第三章分子生物信息数据库

HGMP-RC
英国基因组图谱资源中心（Human Genome Mapping Project Resource Center, HGMP-RC）
搜集世界各地基因组中心、基因组数据库、基因组图谱、基因组实验材料、基因突变，以及生物公司、实验规程、网络教程等几百个网址。

生物信息学第三章分子生物信息数据库
主要内容
一．分子生物信息数据库简介 ✓ 二．序列数据库 ✓ 三．基因组数据库 ✓ 四．结构数据库 ✓ 五．二次数据库 ✓ 六．数据库查询和数据库搜索 ✓
一、分子生物信息数据库简介
分子生物学领域的大规模、高通量、自动化研究
实验数据可靠、完整，及时实现信息资源共享
/wiki/Main_Page
MetaBase
MetaBase is a user-contributed list of all the biological databases available on the internet.
Currently there are 1,799 entries, each describing a different database.
两类数据库的特点：
一次数据库
1. 数据量大，更新速度快，用户面广
2. 需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
例如，欧洲生物信息学研究所用Oracle数据库软件管理、维护核酸数据库EMBL；基因组数据库GDB的管理运行基于Sybase数据库管理系统。
两类数据库的特点：
1. 基因组数据库
2. 核酸和蛋白质一级结构（序列）数
据库
3. 生物大分子（主要是蛋白质）空间
结构数据库
4. 二次数据库

第二章生物分子数据库

GenBank数据库所包含的常用子库数据库所包含的常用子库表达序列标记数据库dbEST 表达序列标记数据库dbEST (/dbEST/）
包括了不同生物的表达序列标签（Expressed Sequence Tags， EST ）序列数据及其它相关信息，主要是从大量不同组织和器官得到的DNA的5‘或3’端序列，一般长60～500bp左右。该数据库的数据量已经占了GenBank核酸数据总量的50％以上，并且有快速递增趋势。
序列标签位点数据库dbSTS 序列标签位点数据库dbSTS （/dbSTS/））
包含了基因组短标记序列（ Sequence Tagged Sites ，STS）的组成和定位信息。 STS在基因组中是惟一存在的一段特异性序列，长度一般在200-300bp间。
生物分子数据库的类型
(1) 一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。 (2)二级数据库对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的，更便于生物学家的使用。
2.2 核酸序列数据库
2.2.1 国际上权威的核酸序列数据库（1）美国生物技术信息中心（National Center for Biotechnology Information， NCBI）的GenBank序列数据库 /Web/Genbank/index.html （2）欧洲分子生物学实验室(European Molecular Biology Laboratories, EMBL) 核酸数据库 http://www.embl-heidelberg.de （3）日本遗传研究所的(DNA Data Bank of Japan, DDBJ)数据库 http://www.ddbj.nig.ac.jp/

第二章、生物分子数据库

（3）数据库的复杂程度不断增加；
（4）数据库网络化；
（5）面向应用；
（6）先进的软硬件配置。
6
一、分子生物信息数据库简介
7
二、各大类主要数据库介绍
基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库蛋白质结构分类数据库功能数据库生物信息学数据库导航系统
8
二、各大类主要数据库介绍
基因组数据库
基因组数据库的主体是模式生物基因组数据库，其中主要有世界各国人类基因组研究中心，测序中心构建的各种人类的基因组数据库。还有模式生物基因组数据库，如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组数据库也纷纷上网。
基因组信息资源除了基因组本身信息外，还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因的调控与表达、放射杂交、基因图谱等各种数据库
27
（三）DDBJ数据库
28
二、各大类主要数据库介绍
蛋白质序列数据库
1、PIR（Protein Information Resource） /
由美国生物医学基金会NBRF（National Biomedical Research Foundation）于1984 年建立的。 •目的是帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组，进行生物信息学分析。
第二章分子生物信息数据库
1
简介
第一节分子生物信息数据库第二节核酸与蛋白质序列格式转换
2
第一节、分子生物信息数据库
一、分子生物信息数据库简介二、各大类主要数据库介绍
3
一、分子生物信息数据库简介
生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据

分子生物学中常用数据库

分子生物学中常用数据库综合数据库：来源：/news/science/article/90048.html生物信息学网址链接：http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue：/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal：/esignal/信号传导系统蛋白的结构域预测工具，凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP：http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具，适合定位于非胞质位置的蛋白质Emotif：/emotif-search/结构域预测工具，由于其用motif电子学习的方法产生结构域模型，故预测效果比Prosite好Ematrix：/ematrix/是用Matrix的方法创建的结构域数据库，可与emotif互相印证。

其速度快，可快速搜索整个基因组InterPro：/InterProScan/EBI提供的服务，用图形的形式表示出搜索的结构域结果TRRD：http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。

但不会用Protscale：/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性（Kyte&Doolittle）、抗原性（Hopp&Woods）等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断，其概念比Domain小PROSITE：/tools/scanprosite/是专门搜索蛋白质Motif的数据库，其中signature seqs是最重要的motif信息B. Domain：若干motif可形成一个Domain，每个Domain形成一个球形结构，Domain与Domain之间通常像串珠一样相连Pfam：可以搜索某段序列中的Domain，并以图形化表示出来。

分子生物学数据库和软件

大肠杆菌（Escherichia coli）基因-蛋白两维凝胶数据库。
G-蛋白结合受体数据库(G-protein--coupled receptor database)。
MIM 人类孟德尔遗传学数据库（Mendelian Inheritance in Man Database）。
放射杂交体数据库(The Radiation Hybrid Database)。
美国菌种保藏中心，又称美国模式菌种收集中心(ATCC)，是位于马里兰洲洛克菲勒的一家私营的，非赢利性组织。目前它可以提供以下物品：细胞系（3000种）；细菌和噬菌体（15000种）；动植物病毒（2500种）；原生动物 1200种以及重组物品等。
细胞与分子生物学在线（Cell and Molecular Biology Online）。提供了大量与之有关的资料与链接。
30M，(Gene MicroArray Pathway Profiler)的缩写，将基因表达微阵列数据进行分析并图形化显示软件，以图形形式显示以体现生物学途径或者是基因的分组，。
57M，TIGR推出的微阵列分析软件包之一。MicroArray DAta Manager的缩写，微阵列数据管理器，用来将数据输入为交互数据库格式，并对数据进行管理。JAVA语言编写。，PDF格式，700K，，PPT格式，。。
PIR（Protein Identification Resource）蛋白序列鉴定数据库，由美国国家生物医学研究基金会（National Biomedical Research Foundation)维护。是美国最主要的蛋白序列数据库，为世界两大蛋白序列数据库之一。
Brookhaven蛋白序列三维立体结构数据库。
。专门设计用于微矩阵的数据库，在支持Perl语言的Web服务器上使用。使用帮助见。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

陈成
一、国内的一些有针对性的数据库
BIOSINO
我国的核酸序列公共数据库
更像是一个论坛，有一些提问，互动等功能，信息的筛选也不是特别的严格。

但是规模较小
0条记录可以看出网站的维护和使用都不怎么频繁。

其他许多网站也没有明显的巨大差距。

二、国内的一些大型数据库
中国知网
大部分高校已经购买了它的资源，是国内较权威、全面的数据库。

主要是文献下载，不针对我们实验过程中对数据遇到问题时的解答。

冀鼎觉SciFinder
SciFinder使用简介
SciFinder Scholar是美国化学学会（ACS）旗下的化学文摘服务社CAS（Chemical Abstract Service）所出版的《Chemical Abstract》化学文摘的在线版数据库学术版。

其内容涵盖应用化学、化学工程、普通化学、物理、生物学、生命科学、医学、聚合体学、材料学、地质学、食品科学和农学等诸多领域。

/products/scifinder/
SciFinder是可以与交大图书馆相连的，在找到文献时，可以直接连接到交大图书馆进行检索帮助。

下面以检索Molecular Dynamics为例简单解释其使用。

在登进SciFinder之后会进入检索界面。

上图即为SciFinder的文献检索界面，可以对文件类型，语言，作者等信息作初步筛选。

除此之外也可以看到左面可以选择对作者，公司，杂志，专利进行直接检索。

在搜索之后会出现题目和内容相关两种文献分类，如我们选择内容相关Molecular dynamics，点进Get Reference。

这是检索完成的结果。

我们可以看到，在Reference字样之后又Getsubstances等字样，我们可以通过这些选项获取选定文献中相关的物质、反应、相关的引用及被引用等。

在右侧可以看到Analysis以及Refine选项。

现在显示的是Analysis中的Journal Name选项，可以看到对于MD来说，JCP, JPC, Biochemistry, JACS等杂志具有较多的信息。

除此之外，还有对作者，公司的分析，为我们对相关内容的行业情况的了解提供了方便。

Refine即对相关文献进行提炼，即对标题，语言等选项进行选择。

如图为对选中的文献进行refine，选择出是中文的文献。

Explore Reference模块大致就是如此。

除此之外的对物质及反应的搜索模块Explore Substances和Explore Reactions的界面类似，同样十分友好，大家可以自行探索。

刘士毅UCSC Genome Bioinformatics UCSC Genome Bioinformatics /
5100809083 刘士毅
这是一个非常常用的基因搜索工具，包含了许许多多实验室最新的测序结果。

这是基因搜索界面，可以定位想要搜索的基因的位置
进到如上界面时我们可以通过界面看到所有不同结果（左列）在基因区域的分布
而在这里我们可以选择想要在界面显示的序列，每个父项都可以展开，每个父项都有许多的子项供选择
彭思杰IntAct
链接：/intact/
介绍：EBI下的一个蛋白质互作信息数据库，里面包含了模式生物以及常见生物的蛋白质互作信息。

除了通过搜索查找蛋白质互作的信息，IntAct还提供了一些tools：Proviz和Validator，前者用于图形可视化，后者未使用过，所以不是很清楚。

这两个软件以及数据库的资料都可以免费在ftp中进行下载。

如上图就是IntAct的一个搜索结果界面。

里面包括了参与反应的两个分子以及反应类型等信息，左上角也提供了各种格式的结果下载，可以进行批量下载。

沈方舟InterPro
InterPro：/interpro/
简介：
InterPro
是大型综合生物信息学数据库EMBL－EBI 下属的一个数据库，该
数据库的功能是蛋白质序列分析与分类，该数据库通过多种特征将蛋白质按家族分类并且预测域（domain）和功能性位点。

InterPro 可以提供域、蛋白质家族及位点的相关信息。

数据库使用：
1. 网页搜索：
如下图所示，直接搜索ID 可以得到ID 的相关信息，包括综述、相关蛋白质、域组织、通路与相互作用、物种、结构、文献和交叉引用。

InterPro 支持搜索的ID 除了其自身数据库的ID，还可以用pfam（蛋白质域数据库）或GO（基因注释）的ID 进行搜索。

除此之外，InterPro 还支持关键字搜索，如下图所示，搜索关键字的结果一
般会有许多结果。

从图中左侧可以看出InterPro 所包含的信息有四种，包括蛋白质家族、域、蛋白质重复和位点。

另外右上的show
more
data 可以链接到EMBL
－EBI 以获取更多的相关信息。

最后，作为作为蛋白质序列分析的数据库，InterPro 也支持直接分析蛋白质序列，下图是序列搜索结果的页面。

除了在网页上搜索外，要获得更多的数据可以登陆其FTP 进行下载。

石逸飞Manet数据库
Manet数据库的介绍
Manet数据库很小，它的的特点是提供定性和定量的生物系统中分子相互作用的网络。

而且，这个数据库对蛋白结构的进化非常感兴趣，事实上，这正是这个数据库一开始建立的目的，那就是查找某个代谢的酶的祖先和代谢本身的进化途径。

而现在，这个网站和多个知名的生物代谢网络网站都有合作，比如KEGG和SCOP，对于文献中每一个蛋白或者酶，都提供KEGG的具体说明。

目前它的引用文献只有九篇。

其网址是。

张少博CAZY数据库
全称：Carbohydrate-Active enZYmes databases
链接：/
是一个专门用来收集，研究碳水化合物活性酶的基因组，结构生化信息的数据库。

是一个专门领域研究的人比较常用的数据库。

目前，有5个大的家族在数据库中。

使用比较简单。

对每一个大家族的信息很详细，而且分类做的很好。

每一个大的家族下的一个小的家族为例，对这些分类也很做的很详细，分为了细菌，真菌，有结构的酶。

而且每个酶都提供了基因，结构的链接（到ｇｅｎｂａｎｋ，ｕｎｉｐｒｏｔ，ｐｄｂ等数据库）
这个数据库虽然只是专门针对一个大类的酶做的，但是，分类很详细，而且包含的信息也更多，而且对于研究同一家族的酶的研究者来说会很有帮助。

杨佳蓓Protein lounge
/Default.aspx
这是一个涵盖了代谢途径，蛋白质，siRNA等的数据库。

部分代谢途径数据还是对外开放的。

这个数据库的特色在于他提供了相关的图片和视频，让用户更清晰地看到代谢途径的过程。

图片如下：（可能详细信息需要注册）
视频如下：（开放免费）
视频的相关介绍以及其他链接。

姚翔宇OMIM
1.Database introduction which is not included in the class
OMIM is the abbreviation of Online Mendelian Inheritance in Man /
e.g enter the disorder of human or illness of your interest such as alzheimer
you get 338 hits around this topic
choose search result id #104300 as an example to illustrate what the database has Phenotype Gene Relationships
4p14-p13 is the location of the gene and phenotype is late-onset Alzheimer disease
Clinical Synopsis
A number of sign is used with this entry because of evidence that familial Alzheimer disease-1 is caused by mutation in the gene encoding the amyloid precursor protein(APP,104760)on chromosome 21q.。

分子生物学数据库

分子生物学数据库---计算生物学的摇篮

生物信息学第三章分子生物信息数据库

第二章 生物分子数据库

分子生物学数据库

分子生物学相关数据库

生命科学中最常用的5个数据库介绍

NCBI分子生物学数据库应用简介

分子生物学信息中心及其数据库

ncbi分子生物学数据库网络生物医学

第03章 分子生物数据库

NCBI分子生物学数据库网络生物医学教学

分子生物学数据库

生物信息学第三章分子生物信息数据库

第二章 生物分子数据库

第二章、生物分子数据库

分子生物学中常用数据库

分子生物学数据库和软件

第二章生物分子数据库

第03章分子生物数据库

第二章生物分子数据库