医学生物信息基础 第7讲 数据库(简)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、数据库的产生
生物分子信息处理流程
实验 数据 信息 知识
收集
表示 分析 刻画特征 比较
建模 推理
应用 基因工程 蛋白质设
计 疾病诊断 疾病治疗 开发新药
生物信息学对知识和信息进行总结与提炼。 在此过程中,形成了知识数据库、数据分 析算法以及各种各样的计算机软件。
❖生物分子数据库应满足5个方面的需求
数据库
一个数据库记录(entry)一般由两部分组成: 1. 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释(annotation)
注释中信息与相应序列数据同样重要和有应用价值
数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面
C) 蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库,DSSP的网址: http://www.cmbi.kun.nl/gv/dssp/
FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP的网址:http://www2.emblebi.ac.uk/dall/fssp/
1. 核酸序列数据库
在各种生物信息数据中,最为重要的还是 DNA序列数据。
目前主要有三大核酸序列数据库: * 欧洲生物信息学研究所(EBI)EMBL数据库, * 美国国家生物技术信息中心NCBI的
GenBank数据库 * 日本国立遗传学研究所的 DDBJ 数据库。
NIH
Entrez
•Submissions •Updates
GenBank 负责美洲, DDBJ 则负责亚洲。
BioSino 数据库
是中国自主开发的核酸序列公共数 据库,发表我国各基因研中心提供的 核酸序列,并接受我国核酸序列的注 册登记,由中国科学院上海生
最基本
生
蛋白质序列数据
物
分
子
生物分子结构数据
信
息
生物分子功能数据
直观 复杂
广义上讲,生物信息学数据库主要分为两 大类,包括基本数据库和二级数据库。
基本数据库主要包括原始数据,例如DNA 序列、蛋白质序列和蛋白质结构等信息。
二级数据库则主要是对基本数据库进行分析、 提炼加工后而形成,旨在使得基本数据库使 用 , 例 如 , 真 核 生 物 启 动 子 数 据 (eukaryotic promoter database,EPD)和蛋白质序列库的 共 同 结 构 和 功 能 基 序 数 据 库 (PROSITE database)等。
数据库的动态更新: 1. 不断增加 2. 不断修正
不同的分析方法产生不同应用范围的二级数据 库,这类数据库在实践中往往更受重视。但是,如 果要采用新的算法进行数据分析,那就必须从基本 数据库出发进行考虑。
二级数据库也被用来进一步分析以形成新的数据 库。
一个典型数据库记录通常包括两部分:原始(序列) 数据和对这些数据进行的生物学意义的注释。这些 注释和原始(序列)数据具有同等重要性。
人类基因组计划获得了大量的基因组序列数 据,然而由于对这些数据进行生物学功能的注释 远远落后自动测序仪每天所产生的大量序列数据, 所以当进行序列同源性分析得到与这类缺乏注释 的数据相关的信息时,其信息的可用性则受到一 定的影响。
• 使用数据库时还必须注意到不同的数据 库在原始数据和序列注释方面的侧重点不 同,而序列注释方面的更新是个大问题, 因为信息更新很快,有的注释信息还存在 一些错误。
NCBI GenBank
EMBL
•Submissions •Updates
CIB
NIG
getentry
DDBJ
•Submissions •Updates
EBI
SRS
EMBL
这三大数据库虽然具有各不同的数据记 录格式,但是对于核酸序列均采用了相同的 记录标准,同时每天收集都交换数据以达到 数据的更新和一致。从地域角度而占, EMBL 主要负责收集欧洲的数据,
– 包含所有已知的核酸序列和蛋白质序列,以及相关的文献 著作和生物学注释。
– 美国国立生物技术信息中心(NCBI)建立和维护
• EMBL核酸序列数据库
– 由欧洲生物信息学研究所(EBI)维护
– 通过因特网上的序列提取系统(SRS)服务完成查询检索。
• DDBJ数据库
– 日本国立遗传学研究所维护
– 与Genbank和EMBL核酸库合作交换数据。使用主页上 SRS工具进行数据检索和序列分析
主要数据库
• 基因图谱数据库 • 核酸序列数据库 • 蛋白质序列数据库 • 大分子结构数据库等 • 国际著名的生物信息中心
– NCBI National Center for Biotechnology Information (US) – EBI European Bioinformatics Institute (EU) – HGMP Human Genome Mapping Project Resource Centre (UK ) – ExPASy Expert of Protein Analysis System (Switzerland ) – CMBI Centre of Molecular and Biomolecule (The Netherlands) – ANGIS National Genome Information Service (Australia) – NIG National Institute of Genetics (Japan) – BIC National Bioinformatics Centre (Singapore)
1982年,第一个核酸序列数据库GenBank(Los Alamos) ——1982年,606条序列,长度680,338bp ——2004年,约43,322,756条序列,长度约7.11010bp
2005: International sequence databases exceed 100 gigabases !
生物分子数据的收集与管理
核酸 序列 数据库
蛋白质 序列 数据库
EMBL GenBank
DDBJ SWISS-PROT
PIR
蛋白质 结构 数据库
ห้องสมุดไป่ตู้
PDB
(一) 核酸序列数据库
• 美国生物技术信息中心 GenBank
http://www.ncbi.nlm.nih.gov/Genbank/
• 欧洲分子生物学实验室 EMBL
医学生物信息基础 第7讲 数据库(简)
第一节 引言
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
一、生物信息学数据库产生 背景
大量产生 • 人类基因组计划(破译人类的遗传密码) • 大规模基因测序:
每年2亿多个DNA序列碱基测定,>100亿. • 大型计算机的数据处理能力:数万亿次/秒 • 因特网的发展
FSSP网址:http://www2.embl-ebi.ac.uk/dall/fssp
建立分子生物信息数据库的流程图
染色体
基因组图谱
基因组 数据库
生
基因组作图
核酸
DNA序列
物
信
核酸序列
息
数据库
学
二 级 数 据
序列测定
数
库
据
蛋白质序列
蛋白质序列 库
数据库
复
工
合
蛋白质 结构测定
具
数
据
蛋白质结构
库
蛋白质结构
《Nucleic Acids Research》杂志
四、生物信息学主要数据库分类
Bioinformatics database
2008年 生物信息学数据库总数已超过1 000个。 每年增加100多个。
相关数据库及其主要分类
1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10.蛋白组资源 11.其他分子生物学数据库 12.细胞器官数据库 13.植物数据库 14.免疫学数据库
(例如:GDB、AceDB、SCOP、CATH等都已 经具有
二级数据库的特色) A) 基因组信息二级数据库 B) 蛋白质序列二级数据库 C) 蛋白质结构二级数据库
A) 基因组信息二级数据库
E. coli基因组数据库Colibri
德国Pastear研究所建立。 除具有浏览、检索、搜寻功能外,还 对环状基因组实现可视化。
• 对于第二部密码,目前则只能用统计学的方 法进行分析
• 无论是第一部遗传密码,还是第二部遗传密 码,都隐藏在大量的生物分子数据之中。
二、广为应用,迫切需要
生物分子数据是宝藏,生物信息数据库是金矿, 等待我们去挖掘和利用。
随着生物信息学 (Bioinformatics)发展, 通过检索数据库进行核酸序列同源性检索,电 子基因定位、电子延伸、电子克隆和电子表达 以及蛋白质功能分析、基因鉴定等方面起到了 重要作用,已成为人们认识生物个体生长发育、 繁殖分化、遗传变异、疾病发生、衰老死亡等 生命过程的有力工具。
B) 蛋白质序列二级数据库 Prosite (蛋白质序列功能位点数据库) 90年代由瑞典生物信息学研究所SIB负责维护。 基于对蛋白质家族中同源序列多重序列比对得到 的保守区域,这些区域通常与生物学功能相关。数 据库包括两个数据库文件:数据文件Prosite;说明 文件PrositeDoc。
Prosite网址:http://cn.expasy.org/prosite
ColiBri网址:http://genolist.mirror.edu.cn/Colibri
TransFac (真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。 包括顺式调控位点、基因、转录因子、细胞来源、
分类和调控位点核苷酸分布6个子库。
TransFac网址:http://transfac.mirror.edu.cn
http://www.embl-heidelberg.de
• 日本国立遗传研究所的 DDBJ
http://www.ddbj.nig.ac.jp/searches-e.htm
核酸序列数据库
软件和数据库
全球数据已实现同步化
Global data synchronization
• Genbank
Public free Available via Internet
❖(1)时间性 ❖(2)注释 ❖(3)支撑数据 ❖(4)数据质量 ❖(5)集成性
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快 数据量呈指数增长趋势
(2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
《Nucleic Acids Research》 每年第一期为数据库专辑 《Database issue》
生物信息学数据库 网络化资源共享化
生物分子数据及其关系
第一部 遗传密码
第二部 遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
生命体系千姿 百态的变化
生物信息重要
维持生命活 动的机器
• 第一部遗传密码已被破译,但对密码的转录 过程还不清楚,对大多数DNA非编码区域 的功能还知之甚少
生物信息学数据库的分类
(一)按生物分子种类、结构和功能分类 • 核酸序列数据库 • 蛋白质序列数据库 • 蛋白质结构数据库 • 基因组数据库
(二)按生物信息是否经过加工提炼分类
• 一级数据库
• 二级数据库 • 专家库 • 整合数据库
•生物分子数据类型——
按生物分子种类、结构和功能分类
DNA序列数据
❖生物分子数据库
一级数据库
❖数据库中的数据直接来源于实验获得的原 始数据,只经过简单的归类整理和注释
二级数据库
❖对原始生物分子数据进行整理、分类的结 果,是在一级数据库、实验数据和理论分 析的基础上针对特定的应用目标而建立的 。
二级数据库简介
二级数据库的形式:大多以web界面为基础, 具有文字信息、表格、图形、图表等方式显 示数据库内容; 一级数据库与二级数据库之间并无明确的界限。
数据库格式简介
历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成:
文字注释 内容(序列,……)
五、生物信息学基本数据库
分子生物学三种重要的核心数据库 • 核酸序列数据库, GenBank为代表
• 蛋白质序列数据库,SWISS-PROT为代 表
• 生物大分子结构数据库,PDB为代表