生物信息学第二章分子生物信息数据库

合集下载

生物信息学(课堂PPT)

生物信息学(课堂PPT)

• 总之,信息源的特点是:
– 自治的 (autonomous)
数据集成
– 分布式的 (distributed) – 异构的 (heterogeneous)
Data Integration
2021/3/29
4
一、 生物信息学数据库
生物信息学数据库的种类
❖ 分子生物信息数据库种类繁多。归纳起来, 大体可以分为4个大类:
酵母菌Yeast ——CYGD数据库
http://mips.gsf.de/genre/proj/yeast/index.jsp
线虫 Caenorhabditis elegans ——AceDB数据库

/genome.shtml
的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负
责亚洲等),然后来自各地的所有信息汇总在一起,3
个数据库的数据共享并向世界开放,故这3个数据库又
被称为公共序列数据库(Public Sequence Database)。
所以从理论上说,这3个数据库所拥有的DNA序列数据
是完全相同的。你可以从中选择一个你喜欢的数据库;
2021/3/29
11
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立。该 中心隶属于美国国家医学图书馆,位于美国国家卫生 研究院(NIH)内。
EMBL:欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre),主要位于英国剑桥Cambridge和德国汉堡 Hamburg。
KEYWORDS .

生物信息数据库

生物信息数据库

22 November 2010
3
Database Growth
• Exponential growth in sequence data • Not much growth in sequence size • Expect exponential growth in annotation information What are we to do with all this data?
二级数据库包括:
由上述三类数据库和文献资料为基础构建的数据库。
10
分子生物信息数据库
11
三、基因组数据库 (genome databases)
基因组数据库的主体是模式生物基因组数据 库,此外基因组信息资源还包括染色体、基因 突变、遗传疾病、分类学等各种数据库。
GDB —— 人类(Homo sapiens)基因组 数据库 AceDB —— 线虫 (Caenorhabditis elegans) 基因组数据库
12
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:
(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、 易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、 contig 图谱、集成图谱,所有这些图谱都可以被直观 地显示出来; (3)人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。
38
常用分子生物信息学数据库-2
数据库名称 EMEST SWISS-PROT TREMBL DSSP FSSP SBASE HUMREP CPGISLE TRANSFAC YPD KABATP PROSITEDOC 数据库内容 EMBL数据库中EST部分 蛋白质序列 EMBL翻译所得蛋白质序列 蛋白质二级结构参数 已知空间结构蛋白质家族 蛋白质结构域序列 人类基因组中重复序列 CpG岛序列 转录因子 酵母基因组 免役球蛋白蛋白质序列 蛋白质功能位点文献摘要

生物分子数据库

生物分子数据库
n NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产 物序列 /entrez
n PIR 蛋白质序列信息资源库(美、德)
n
PPT文档演模板
生物分子数据库
蛋白质结构数据库
n PDB Protein DataBank,美国Brookhaven国家实验室管理生 物大分子三维空间结构原子坐标数据库 /pdb/
1. 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
n DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp
整合平台:Entrez 综合数据库
序列通过正式递交进入数据库 未正式发表文献以前,数蛋白质序列数据库
n SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测 及其他功能
PPT文档演模板
生物分子数据库
三、 生物信息数据库检索
n 集成检索系统: n Entrez系统(整合库)美国生物技术信息中心研制 n
n SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发 /
n 中国生物信息网
n 北京大学生物信息中心 中国生物技术信息网 /
n 中国科学院(上海文献中心)
n /tushug/
生物分子数据库
PPT文档演模板
2020/11/26

生物信息数据库ppt课件

生物信息数据库ppt课件
UniRef100、UniRef90和UniRef50三个子库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的Accession表示,例:
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置

生物数据库介绍

生物数据库介绍

GenPept Sequence Records (which contain the amino acid translations from GenBank/EMBL/DDBJ records that have a coding region feature annotated on them)
各种登录号(索引号)的类型(续) Type of Record Protein Sequence Records from PRF RefSeq Nucleotide Sequence Records Sample Accession Format A series of digits (often six or seven) followed by a letter, e.g.:1901178A Two letters, an underscore bar, and six digits, e.g.: mRNA records (NM_*):NM_000492 genomic DNA contigs (NT_*):NT_000347 complete genome or chromosome (NC_*):NT_000907 genomic region (NG_*):NG000019 Two letters (NP), an underscore bar, and six digits, e.g.:NP_000483
生物信息学数据库的分类:
生物信息学数据库
一级数据库
二级数据库
一级数据库
直接来源于实验获得的原始数据(DNA序
列、蛋白质序列、蛋白质结构等),只经 过简单的归类、整理和注释。
一级核酸数据库(3):GenBank数据库、EMBL数
据库、DDBJ数据库 一级蛋白质序列数据库(2):SWISS-PROT库、PIR 蛋白信息数据库 一级蛋白质结构数据库(1):PDB数据库

第二章 生物分子数据库

第二章 生物分子数据库
51
SWISS-PROT
52
格式
53
54
Tools
55
Uniprot
/
2002年,PIR将PIR-PSD、Swiss-Prot及
TrEMBL三个蛋白质序列数据库统一为
UniprotKB数据库(protein
knowledgebase),将全世界的蛋白质序列及
研究的分析成果,对从事相关领域的研究人员 具有重要的参考作用。
1998 年底GDB 主节点移至加拿大多伦多儿
童医院生物信息超级计算中心BiSC。GDB 的
审读和维护仍在美国霍普金斯大学JHU。
24
GDB数据库是人类基因图谱数据库,目的在于支持构建 人类基因图谱和测序。
目前GDB包含对下述三种对象的描述:
2LEV
67
MMDB(Molecular Modeling Database)
分子模型MMDB 是NCBI所开发的生物信息数据 库集成系统Entrez的一个部分,数据库的内容包 括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子 结构,MMDB具有许多附加的信息,如分子的生 物学功能、产生功能的机制、分子的进化历史等 。 还提供生物大分子三维结构模型显示(Cn3D)、 结构分析和结构比较工具。
68
二、蛋白质结构分类数据库
蛋白质结构分类是蛋白质结构研究的一个重要方向。 是三维结构数据库的重要组成部分。
蛋白质结构分类可以在不同层次,包括折叠类型、 拓扑结构、家族、超家族、结构域、二级结构、超 二级结构等。
类似于动、植物学上分类的“门、纲、目、科、 属、种”。
69
SCOP数据库 SCOP数据库(Structural Classification of Proteins)是基于 Web 的蛋白质结构数据库分类、检索和分析系统。

分子生物学数据库

分子生物学数据库

• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的

(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接

生物分子数据库

生物分子数据库
生物信息学数据库 Bioinformatics database
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
踏实肯干,努力奋斗。2020年10月19 日下午8 时48分 20.10.1 920.10. 19
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2 020年1 0月19 日星期 一下午8 时48分 50秒20 :48:502 0.10.19
严格把控质量关,让生产更加有保障 。2020 年10月 下午8时 48分20 .10.192 0:48October 19, 2020
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
二、生物信息学数据库种类
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
Nucleic Acids Research 杂志
这两个数据库让科学家检索和观看结构,从 结构上查找特定蛋白质的相似蛋白质,并且辨 认功能位点。

生物信息学知识点总结分章

生物信息学知识点总结分章

生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。

生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。

生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。

生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。

第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。

生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。

常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。

生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。

第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。

常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。

序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。

第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。

常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。

结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。

生物分子数据库

生物分子数据库
数据及大分子模式(MMDB)等其他生物信 息数据库检索 PubMed书目文献数据
Entrez生命科学搜索引擎
Entrez 跨库检索
功能栏
核酸序列检索
检索字段限制
分子类型 选择
序列片段 限定
基因位置 限定
数据更新 日期限定
序列存取号 基因定义
数据库标识符
代码 物种来源
参考文献 专业评论
特性
碱基数
原序列复制 后,可到 BLAST中 进行相似性
ቤተ መጻሕፍቲ ባይዱ对本
2. BLAST 序列相似性检索
Basic Local Alignment SearchTool
是核酸和蛋白质序列的局部对准相似 性检索工具
序列相似性检索
Blast是为从相同和不同的有机体中,提供对 比核酸或蛋白质序列,寻找相似性序列片断的 工具。
由美国Johns Hopkins大学建立。现也属 NCBI集成系统中的一个库。它主要报道人 类基因和遗传缺陷相关疾病的文字信息、 图片和参考文献,被称为人类基因及其相 关疾病与遗传特征的百科全书
例: 查找与疾病相关的基因 通过OMIM寻找疾病基因信息,通过染色体
定位找到疾病基因。 如:查找角化过度症(营养不良性神经病)
Nucleic Acids Research 杂志
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库

生物信息学主要内容

生物信息学主要内容

第二章:生物分子数据库1.生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。

初(一)级数据库贮存原始的生物数据,如DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等。

二级数据(衍生数据库)是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD 和蛋白质一般结构或功能模体(motif)数据库PROSITE。

2.核酸数据库:(1)DNA 序列构成了初级数据库的主体部分。

目前国际上有3个主要的DNA序列公共数据库:EMBL,GenBank(NCBI)和DDBJ。

这3个大型数据库于1988 年达成协议,组成合作联合体。

它们每天交换信息,并对数据库DNA 序列记录的统一标准达成一致。

每个机构负责收集来自不同地理分布的数据,然后来自各地的所有信息汇总在一起,3 个数据库共同享有并向世界开放,故这3 个数据库又被称为公共序列数据库。

所以从理论上说,这3 个数据库所拥有的DNA 序列数据是完全相同的。

(2)第二个主要的初级数据源来自各种基因组计划。

一些基因组计划已经完成,如真核生物酵母, 原肠生物和3个原核生物流感嗜血杆菌、和大肠杆菌等。

这些计划的大部分信息在EMBL中均可找到。

3.核酸序列数据库格式:(1)每个序列由被称为平面文件的文本记录代表;(2)GenBank/GenPept (useful for scientists);FASTA (the simplest format);ASN.1 (抽象语法符号)& XML (useful for programmers)(3)EMBL和GenBank数据库的主要内容和格式:序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)【header,feature table,sequence】4.蛋白质数据库:(1)蛋白质序列数据库:SWISS-PROT 和PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL 和GenBank 数据库上均建立了镜像 (mirror) 站点。

第二章生物分子数据库PPT课件

第二章生物分子数据库PPT课件
蛋白质序列数据库
1、PIR(Protein Information Resource)
2020/12/12
32
二、各大类主要数据库介绍 蛋白质序列数据库
2、SWISS-PROT (/swissprot/ 曾经的网址)
/
3、 TrEMBL (/trembl/index.html 曾经的网 址) /
TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT
数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ 核酸数 据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列 尚未集成到SWISS-PROT 数据库中。
人类基因组图谱(包括细胞遗传图谱、连接图谱、
放射性杂交图谱、content contig图谱和综合图谱
等);人类基因组内的变异(包括突变和多态性,加上
等位基因频率数据)。
2020/12/12
11
二、各大类主要数据库介绍 基因组数据库
2020/12/12
12
二、各大类主要数据库介绍 基因组数据库
2020/12/12
2020/12/12
22
(一)Genbank
2020/12/12 23
(一)Genbank
2020/12/12
24
(二)EMBL
EMBL核酸序列数据库由欧洲生物信息 学研究所(EBI)维护的核酸序列数据构成,由 于与Genbank和DDBJ的数据合作交换,它也 是一个全面的核酸序列数据库。该数据库由 Oracal数据库系统管理维护,查询检索可以通 过因特网上的序列提取系统(SRS)服务完成。
13
二、各大类主要数据库介绍 基因组数据库
2020/12/12

(生物信息学)CH3生物信息数据库及主要网上资源

(生物信息学)CH3生物信息数据库及主要网上资源
发展趋势
未来生物信息数据库的发展将更加注重数据的整合、标准化和共享,同时也会更加注重数据的隐私和 安全问题。此外,随着人工智能和机器学习技术的发展,生物信息数据库将更加智能化和自动化。
02
常用生物信息数据库
GenBank数据库
总结词
全球最大的开放存取生物序列数据库
详细描述
GenBank数据库由美国国家生物技术信息中心(NCBI)维 护,包含了全球范围内的基因组序列、质粒序列、EST序列、 RNA序列等,是生物信息学领域最常用的数据库之一。
04
生物信息数据库分析工具
BLAST软件
强大的序列比对工具
BLAST(Basic Local Alignment Search Tool)是一种用于在数据库中搜索与给定序列相似的序列的工具。它被广泛应用于生物 信息学领域,用于序列比对、基因组注释和功能基因组学研究。BLAST通过局部序列比对算法,能够快速地搜索和比对基因组、 蛋白质和EST等数据库中的序列。
MEGA软件
进化遗传学分析工具
MEGA(Molecular Evolutionary Genetics Analysis)是一个用于进化遗传学分析的工具,
它支持多种数据格式,包括DNA、蛋白质和 氨基酸序列。MEGA提供了多种进化遗传学 分析方法,如分子进化遗传学分析、系统发 育重建和物种进化研究等。它还支持多种算 法和统计方法,帮助研究人员深入了解物种
功能检索
总结词
通过输入蛋白质的功能或活性,查找具有相似功能的蛋白质。
详细描述
功能检索是利用蛋白质的功能信息进行查找的一种方式,用户可以根据已知的蛋白质功能信息,在数据库中找到 具有相似功能的其他蛋白质。
结构检索
总结词

第二章 生物分子数据库

第二章  生物分子数据库

GenBank数据库所包含的常用子库 数据库所包含的常用子库 表达序列标记数据库dbEST 表达序列标记数据库dbEST (/dbEST/)
包括了不同生物的表达序列标签(Expressed Sequence Tags, EST ) 序列数 据及其它相关信息,主要是从大量不同组织和器官得到的DNA的5‘或3’端 序列,一般长60~500bp左右。该数据库的数据量已经占了GenBank核酸数据 总量的50%以上,并且有快速递增趋势。
序列标签位点数据库dbSTS 序列标签位点数据库dbSTS (/dbSTS/) )
包含了基因组短标记序列( Sequence Tagged Sites ,STS)的组成和定位信 息。 STS在基因组中是惟一存在的一段特异性序列,长度一般在200-300bp间。
生物分子数据库的类型
(1) 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过 简单的归类整理和注释。 (2)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级 数据库、实验数据和理论分析的基础上针对特定的应用 目标而建立的,更便于生物学家的使用。
2.2 核酸序列数据库
2.2.1 国际上权威的核酸序列数据库 (1)美国生物技术信息中心(National Center for Biotechnology Information, NCBI)的GenBank序列数据库 /Web/Genbank/index.html (2)欧洲分子生物学实验室(European Molecular Biology Laboratories, EMBL) 核酸数据库 http://www.embl-heidelberg.de (3)日本遗传研究所的(DNA Data Bank of Japan, DDBJ)数据库 http://www.ddbj.nig.ac.jp/

2、分子生物信息数据库_New

2、分子生物信息数据库_New
1时间性2注释3数据质量4集成性1数据库的更新速度不断加快数据量呈指数增长趋势2数据库使用频率增长更快3数据库的复杂程度不断增加swissprot4数据库网络化5面向应用6先进的软硬件配置染色体核酸蛋白质基因组图谱dna序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库基因组作图序列测定结构测定二分子生物信息数据库种类生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理分类的结果是在一级数据库实验数据和理论分析的基础上针对特定的应用目标而建立的来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划19771977年年最早获得的生物基因组全序列是噬菌体最早获得的生物基因组全序列是噬菌体5353kbkb101112gdbgdb美国加拿大1990年johnhopkins大学建立后由加拿大儿童医院生物信息中心管理
26
除了蛋白质序列数据之外, 除了蛋白质序列数据之外,PIR还包含以下 还包含以下 信息: 信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; 蛋白质名称、蛋白质的分类、蛋白质的来源; 蛋白质名称 (2)关于原始数据的参考文献; 关于原始数据的参考文献; 关于原始数据的参考文献 (3)蛋白质功能和蛋白质的一般特征,包括基因 蛋白质功能和蛋白质的一般特征, 蛋白质功能和蛋白质的一般特征 表达、翻译后处理、活化等; 表达、翻译后处理、活化等;
31
(1)注释 )
在SWISS-PROT中,数据分为核心数据和注释两大类。
核心数据包括: 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述)
32
Identification,序列的标识符行; Accession number,登录号行; Date,创建和更新日期行;
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学第二章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 二.序列数据库 三.基因组数据库 四.结构数据库 五.二次数据库 六.数据库查询和数据库搜索
2020/8/1
六、数据库查询和数据库搜索
➢数据库查询(database query):对序 列、结构以及各种二次数据库中的注释 信息进行关键词匹配查找。
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
Cn3D
2020/8/1
“human insulin”
2020/8/1
Entrez系统的辅助功能
Structures PDB三维结构数据库
Genomes OMIM
已经完成和正在进行的模式生物基因组信息 人类遗传疾病和遗传缺失在线数据库
Taxonomy 系统分类信息 LocusLinks 基因关联信息
PopSet
具有亲缘关系的种群之间核酸序列同源性比 对结果
literature databases /sites/gquery
数据库搜索的任务和目的
1.任务 发现序列之间的相似性 辨别序列之间的差异
2.目的 相似序列 相似的结构和功能 判别序列之间的同源性 推测序列之间的进化关系
2020/8/1
1、核苷酸碱基和氨基酸残基代码
➢在实际DNA序列数据库中,由于序列测 定的原因,个别碱基可能无法确定,称 为歧义碱基,通常用A、T、C、G之外 的字母表示。✓
例如,在SWISS-PROT输入关键词 insulin,即可找出该数据库所有胰岛素 或和胰岛素相关的序列条目(entry)。
2020/8/1
➢数据库搜索(database search):通 过特定的序列相似性比对算法,找出核 酸或蛋白质序列数据库中与检测序列具 有一定程度相似性的序列。
例如,给定一个胰岛素氨基酸残基序列 ,通过在SWISS-PROT数据库中检索, 找出与其有一定相似性的序列。
① 限定查询范围(Limits) ② 预览查询结果(Preview/Index)不列
出具体查询结果,只列出查询到的序列 的条目数 ③ 查看查询记录(History) ④ 操作剪贴板(Clipboard)
2020/8/1
Entrez系统的特点
• 把序列、结构、文献、基因组、系统分 类等不同类型的数据库有机地结合在一 起,通过超文本链接,用户可以从一个 数据库直接转入另一个数据库。此外, 把数据库和应用程序结合在一起。
2020/8/1
SRS系统的特点
① 统一的用户界面 ② 高效的查询功能 ③ 灵活的指针链接 ④ 方便的程序接口 ⑤ 开放的管理模式 ⑥ 同一的开发平台
2020/8/1
(二)数据库搜索
➢新测定的碱基序列或氨基酸序列,往往需 要通过数据库搜索,找出具有一定相似性 的同源序列,以推测未知序列可能属于哪 个家族,具有哪些生物学功能。
➢数据库搜索的基础是序列的相似性比对, 即序列比对( alignment)。
2020/8/1
➢检测序列(probe sequence):新测定 的、希望通过数据库搜索确定其性质或 功能的序列。
➢目标序列(subject sequence):通过 数据库搜索得到的和检测序列具有一定 相似性的序列。
2020/8/1
• SRS是欧洲各国主要生物信息中心必备 的数据库查询系统。
• SRS已经发展为商业软件,学术单位可 以免费使用。
2020/8/1
• 与Entrez不同,SRS是一个开放的数据 库查询系统,即不同的SRS查询系统可 以根据需要安装不同的数据库。目前, 共有300多个数据库安装在世界各地的 SRS服务器上。
2020/8/1
课后作业 2
• 如何了解斑马鱼ATF4基因的最新研究进展? • 目前生物信息学有 2
• 如何了解牛ADRB3基因的最新研究进展 ?
• 目前生物信息学有哪些研究热点?
2020/8/1
(一)数据库查询系统
2、 SRS
• SRS (sequence retrieval system)是 EBI开发的数据库查询工具。
2020/8/1
❖在生物信息学中,数据库搜索是专门针对 核酸和蛋白质序列数据库而言的,其搜索 的对象不是注释信息,而是序列信息。
❖显然,数据库查询和数据库搜索是两个截 然不同的概念,它们所要解决的问题、所 采用的方法和得到的结果均不相同。
2020/8/1
(一)数据库查询系统
1、Entrez 由美国NCBI开发,用于对文献摘要
➢蛋白质序列由20种氨基酸残基组成,分 别用20个英文字母表示。✓
2020/8/1
碱基代码 G A T (U) C R (A or G) Y (C or T or U) M (A or C) K (G or T) S (C or G) W (A or T) H (A or C or T) B (G or T or C) V (A or C or G) D (G or T or A) N (A or T or C or G)
中文含义 鸟嘌呤 腺嘌呤 胸腺嘧啶(尿嘧啶) 胞嘧啶 嘌呤 嘧啶 腺嘌呤或胞嘧啶(氨基) 鸟嘌呤或胸腺嘧啶 强相互作用碱基 弱相互作用碱基 非鸟嘌呤 非腺嘌呤 非胸腺嘧啶/尿嘧啶 非胞嘧啶 不确定
、序列、结构和基因组等数据库进行关 键词查询,找出相关的一个或几个数据 库条目(entry) 。
2020/8/1
Entrez数据库查询系统提供的数据库
数据库名称 数据库内容
PubMed GenBank
生物医学文献MedLine摘要 核酸序列
Proteins
SWISS-PROT、PIR以及GenBank翻译得 到的蛋白质序列
英文含义 Guanine Adenine Thymine (Uracil) Cytosine Purine Pyrimidine Amino Ketone Strong interaction Weak interaction Not G (H after G) Not A (B after A) Not T/U (V after U) Not C (D after C) Any
相关文档
最新文档