2019精选医学第二章、生物分子数据库.ppt
生物数据库介绍
Protein Sequence Records from SWISS-PROT and PIR
All are six characters: Character/Format 1 [O,P,Q] 2 [0-9] 3 [A-Z,0-9] 4 [A-Z,0-9] 5 [A-Z,0-9] 6 [0-9] e.g.: P12345 and Q9JJS7
第二章 生物数据库介绍
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
本章目的:介绍储存这些数据的数据库,以及从这些数据库中获取需要的信息的方法。
数据库(database)是存储在某种存储介质上的相关数 据的有组织的集合。 存储生物大分子信息数据的数据库称为分子生物学数据 库(molecular biology database),也称生物信息学数据 库(bioinformatics database)。 数据库,特别是分子生物学数据库,具有三个特征: (1)数据库是可以检索的,即具有检索(index)功能; (2)数据库应该是定时更新的,即不断有新版内容发布 (release);(3)数据库是交叉引用的(crossreferenced),特别是在互联网时代,数据库应该通过超链 接(hyperlinks)与其他数据库相连。
二级数据库
在一级数据库、实验数据和理论分析的基
础上,针对不同的研究内容和需要,对生 物学知识和信息的进一步整理得到的数据 库,旨在使基本数据库更加便于使用。 人类基因组图谱库GDB、转录因子和结合 位点库TRANSFAC、蛋白质序列功能位点 数据库Prosite等。
生物信息学数据库
一级数据库
What is an accession number?
分子生物医学PPT课件
研究生物体所有基因的组成、结构、 功能及相互关系的科学。
包括DNA测序技术、生物信息学分析 技术、基因编辑技术等。
基因组学的研究内容
包括基因组的测序、组装、注释、比 较基因组学等。
人类基因组计划及意义
人类基因组计划的目标
01
测定人类基因组的全部DNA序列,解读其中包含的遗传信息。
人类基因组计划的意义
疾病预测和诊断价值
疾病预测
通过分析生物标志物的变化,可 以预测疾病的发生和发展趋势。
疾病诊断
生物标志物可以作为疾病诊断的客 观指标,提高诊断的准确性和可靠 性。
个体化医疗
根据生物标志物的差异,可以为患 者制定个体化的治疗方案,提高治 疗效果。
04
细胞信号传导与调控机 制
细胞信号传导途径和受体类型
分子生物医学PPT课 件
contents
目录
• 分子生物医学概述 • 基因与基因组学 • 蛋白质组学与生物标志物 • 细胞信号传导与调控机制 • 免疫系统与免疫治疗策略 • 分子诊断技术与应用 • 生物信息学在分子生物医学中应用
01
分子生物医学概述
定义与发展历程
定义
分子生物医学是研究生物大分子 及其相互作用在生命过程中的作 用机制和调控规律的学科。
智能化发展
临床应用拓展
结合人工智能、大数据等技术,实现自动 化、智能化的分子诊断流程,提高诊断效 率。
随着分子诊断技术的不断成熟和成本的降 低,其在临床上的应用将更加广泛,包括 早期筛查、个性化治疗等领域。
07
生物信息学在分子生物 医学中应用
生物信息学基本概念和方法
生物信息学定义
利用计算机科学、数学和统计学等方法研究生物 信息的科学。
生物信息数据库ppt课件
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
生物分子信息数据库
第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
医学分子生物学 PPT课件
14
分子医学(molecular medicine):
由于分子生物学渗透进入生物学和医学 的每一分支领域,全面推动了生命科学和医 学的各个方面的发展,如疾病的发病机理研 究、疾病的诊断和治疗,使医学进入了一个 崭新的时代。
2019/9/11
15
☻遗传性状改变或治疗疾病
可能从某一生物体的基因组中分离出某一特定 功能基因,导入到另一种生物的基因组。
人类基因组计划(human genome project, HGP)
美国科学家、诺贝尔奖获得者Dulbecco R于1986年在美国 《 Science 》杂志上发表的短文中率先提出,并认为这是加快癌 症研究进程的一条有效途径。
主要的目标是绘制遗传连锁图、物理图、转录图,并完成人 类基因组全部核苷酸序列测定。测出人体细胞中24条染色体上全 部30亿对核苷酸的序列,把所有人类基因都明确定位在染色体上, 破译人类的全部遗传信息。
1872年,他又在鲑鱼精子 细胞核中发现了大量的这类 物质。由于这类物质都是从 细胞核中提取出来的,而且 又是酸性,故称其为核酸 (nucleic acid)。
Friedeich Miescher
2019/9/11
21
自核酸被发现以来的相当长时期内, 对它的生物学功能几乎毫无所知。 1928 年(Frederick Griffith)以后,核酸功能 研究取得了重大进展。
2019/9/11
8
现代分子生物学的建立
1950年,Astbury在一次讲演中首 先使用 “分子生物学”这一术语, 用 以说明它是研究生物大分子的化学和 物理学结构。
2019/9/11
9
DNA双螺旋结构模型的建立
罗沙琳德·弗兰克林 (Rosalind Franklin,
第二章生物分子数据库PPT课件
1、PIR(Protein Information Resource)
2020/12/12
32
二、各大类主要数据库介绍 蛋白质序列数据库
2、SWISS-PROT (/swissprot/ 曾经的网址)
/
3、 TrEMBL (/trembl/index.html 曾经的网 址) /
TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT
数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ 核酸数 据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列 尚未集成到SWISS-PROT 数据库中。
人类基因组图谱(包括细胞遗传图谱、连接图谱、
放射性杂交图谱、content contig图谱和综合图谱
等);人类基因组内的变异(包括突变和多态性,加上
等位基因频率数据)。
2020/12/12
11
二、各大类主要数据库介绍 基因组数据库
2020/12/12
12
二、各大类主要数据库介绍 基因组数据库
2020/12/12
2020/12/12
22
(一)Genbank
2020/12/12 23
(一)Genbank
2020/12/12
24
(二)EMBL
EMBL核酸序列数据库由欧洲生物信息 学研究所(EBI)维护的核酸序列数据构成,由 于与Genbank和DDBJ的数据合作交换,它也 是一个全面的核酸序列数据库。该数据库由 Oracal数据库系统管理维护,查询检索可以通 过因特网上的序列提取系统(SRS)服务完成。
13
二、各大类主要数据库介绍 基因组数据库
2020/12/12
第二章 分子数据库
第二章 分子数据库生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。
初级数据库贮存原始的生物数据,如DNA序列,由晶体衍射(Crystallography)获得的蛋白质结构等。
二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD和蛋白质一般结构或功能模体(motif)数据库PROSITE。
一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。
注释中包含的信息与相应的序列数据同样重要和有应用价值,这一点值得注意。
在基因组规模上的测序过程便产生了注释问题。
对于那些从自动测序仪中出来的序列,我们往往只知道它们来自何种细胞类型,而其它方面却知之甚少。
如果你在确定一段未知蛋白质序列的功能,发现一个与之匹配的序列,但该序列却没有任何有关功能的信息时,你的研究工作便很难为继了。
不同的数据库的注释质量差异很大,因为一个数据库往往要在数据的完整性和注释工作量之间寻找一个平衡点。
一些数据库提供的序列数据很广,但这必影响序列的注释;相反,一些数据库数据面较窄,但它提供了非常全面的注释。
数据库记录的注释工作是一个动态过程,新的发现不断被补充进去,所以,本书中用到的一些注释信息可能很快便被更新了。
在所有的生物信息数据库中总会有一小部分的记录(包括原始序列数据和注释)是不正确的,这是一个无法避免的事实。
第一节 初级数据库一.DNA数据库DNA序列构成了初级数据库的主体部分。
目前国际上有3个主要的DNA序列数据库(表 2.1):欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥),GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),该中心隶属于美国家医学图书馆,位于美国家卫生研究院(NIH)内]和日本DNA数据库(DNA Databank of Japan,DDBJ)。
医学分子生物学PPT课件
基因组特点
基因组具有高度的复杂性 和多样性,同时不同生物 之间的基因组存在显著的 差异。
基因表达调控机制
基因表达概念
基因表达是指基因转录成mRNA并翻 译成蛋白质的过程。
表观遗传学调控
表观遗传学调控是指通过DNA甲基化、 组蛋白修饰等方式对基因表达进行调 控,但不改变DNA序列本身。
基因表达调控
生物体通过多种机制对基因表达进行 精确调控,包括转录水平调控、转录 后水平调控和翻译水平调控等。
05
蛋白质组学研究方法及应 用
蛋白质组学概念及研究内容
蛋白质组学定义
研究生物体或特定细胞类型中所有蛋 白质的科学,包括蛋白质表达、结构、 功能和相互作用等方面。
蛋白质组学研究内容
包括蛋白质表达谱、蛋白质翻译后修饰、 蛋白质相互作用网络等。
蛋白质分离纯化技术
双向凝胶电泳
利用蛋白质的等电点和分子量差 异进行分离,具有高分辨率和高
数据库资源搜索策略
数据库类型
包括核酸序列数据库、蛋白质序列 数据库、结构数据库、基因组数据 库等。
搜索策略
根据研究目的和数据类型,选择合 适的数据库和搜索工具,制定有效 的搜索策略,以获取准确、全面的 数据资源。
序列比对和注释方法
序列比对
通过比较两个或多个生物分子序列的相似性和差异性,来推断它们的结构、功 能和进化关系。常用的序列比对方法包括全局比对和局部比对。
程。
microRNA
通过与mRNA结合,抑 制翻译过程或促进 mRNA降解。
表观遗传调控
通过DNA甲基化、组蛋 白修饰等方式,调控基
因表达。
异常情况对生理功能影响
1 2
转录和翻译异常 导致蛋白质合成异常,影响细胞功能和代谢。
医学分子生物学ppt完整版
通过蛋白质组学技术可以筛选疾病相关的生物标志物,为疾病的早期诊
断和治疗提供新的思路和方法。
06
基因诊断与治疗
基因诊断的原理与方法
原理
基因诊断是基于DNA或RNA水平上的检测,通过检测特定基因序列的存在、缺失或变异,来判 断个体是否携带某种疾病相关的基因。
方法
包括聚合酶链式反应(PCR)、基因测序、基因芯片技术等。这些方法可以检测基因突变、基 因多态性、基因表达水平等,为疾病的早期诊断和预后评估提供依据。
基因编辑技术的发展与挑战
发展
基因编辑技术是一种能够在DNA水平上对基因进行精确编辑的技术,包括CRISPRCas9系统、TALENs和ZFNs等。这些技术的发展为基因治疗提供了新的手段和思路。
挑战
基因编辑技术虽然具有巨大的潜力,但也面临着许多挑战,如安全性问题、伦理问 题等。此外,基因编辑技术的效率和准确性也需要进一步提高和完善。
基因表达的调控
研究基因表达在时间和空间上的调控机制, 包括转录因子、表观遗传学修饰等。
分子生物学与医学的关系
疾病发生的分子基础
分子生物学可以揭示疾病发生的分子 机制,为疾病的预防、诊断和治疗提
供理论依据。
药物设计与研发
分子生物学的发展促进了药物设计与 研发领域的进步,使得药物更加具有
针对性和有效性。
基因治疗的策略与应用
策略
基因治疗是通过向患者体内导入正常的基因或修复患者体内有缺陷的基因,以 达到治疗疾病的目的。根据导入基因的方式不同,基因治疗可分为体外基因治 疗和体内基因治疗。
应用
目前基因治疗已经在多种疾病中进行了尝试,如遗传性疾病、感染性疾病、恶 性肿瘤等。虽然取得了一些成果,但仍存在许多挑战和问题需要解决。
第二章 生物分子数据库
GenBank数据库所包含的常用子库 数据库所包含的常用子库 表达序列标记数据库dbEST 表达序列标记数据库dbEST (/dbEST/)
包括了不同生物的表达序列标签(Expressed Sequence Tags, EST ) 序列数 据及其它相关信息,主要是从大量不同组织和器官得到的DNA的5‘或3’端 序列,一般长60~500bp左右。该数据库的数据量已经占了GenBank核酸数据 总量的50%以上,并且有快速递增趋势。
序列标签位点数据库dbSTS 序列标签位点数据库dbSTS (/dbSTS/) )
包含了基因组短标记序列( Sequence Tagged Sites ,STS)的组成和定位信 息。 STS在基因组中是惟一存在的一段特异性序列,长度一般在200-300bp间。
生物分子数据库的类型
(1) 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过 简单的归类整理和注释。 (2)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级 数据库、实验数据和理论分析的基础上针对特定的应用 目标而建立的,更便于生物学家的使用。
2.2 核酸序列数据库
2.2.1 国际上权威的核酸序列数据库 (1)美国生物技术信息中心(National Center for Biotechnology Information, NCBI)的GenBank序列数据库 /Web/Genbank/index.html (2)欧洲分子生物学实验室(European Molecular Biology Laboratories, EMBL) 核酸数据库 http://www.embl-heidelberg.de (3)日本遗传研究所的(DNA Data Bank of Japan, DDBJ)数据库 http://www.ddbj.nig.ac.jp/
第二章、生物分子数据库
(3)数据库的复杂程度不断增加 ;
(4)数据库网络化 ;
(5)面向应用;
(6)先进的软硬件配置。
6
一、分子生物信息数据库简介
7
二、各大类主要数据库介绍
基因组数据库 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 蛋白质结构分类数据库 功能数据库 生物信息学数据库导航系统
8
二、各大类主要数据库介绍
基因组数据库
基因组数据库的主体是模式生物基因组数据库,其中 主要有世界各国人类基因组研究中心,测序中心构建的 各种人类的基因组数据库。还有模式生物基因组数据库, 如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组 数据库也纷纷上网。
基因组信息资源除了基因组本身信息外,还包括染色 体、基因突变、遗传疾病、分类学、比较基因组、基因 的调控与表达、放射杂交、基因图谱等各种数据库
27
(三)DDBJ数据库
28
二、各大类主要数据库介绍
蛋白质序列数据库
1、PIR(Protein Information Resource) /
由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984 年建立的。 •目的是帮助研究者鉴别和解释蛋白质序列信息,研究 分子进化、功能基因组,进行生物信息学分析。
第二章 分子生物信息数据库
1
简介
第一节 分子生物信息数据库 第二节 核酸与蛋白质序列格式 转换
2
第一节、分子生物信息数据库
一、分子生物信息数据库简介 二、各大类主要数据库介绍
3
一、分子生物信息数据库简介
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
《生物分子数据库》幻灯片
果,是在一级数据库、实验数据和理论分 析的根底上针对特定的应用目标而建立的
❖常用的生物分子数据库
❖三大核酸序列数据库: G enba n k 、 E MBL 、 DDBJ
❖特殊类型的核酸序列数据库:非编码RNA数据 库〔ncRNA〕、表达序列标签数据库〔dbEST 〕、miRNA、tRNAdb
第三节 蛋白质数据库
• 随着分子生物学的发展,人们获得了越来越多关 于蛋白质序列、结构和功能的信息。世界各国的 生物学家和计算机科学家合作利用这些信息构建 了蛋白质序列数据库、蛋白质三维结构数据库、 蛋白质组数据库(二维凝胶电泳数据库)、信号 传导及蛋白质-蛋白质相互作用相关数据库、 DNA和蛋白质相互作用数据库等蛋白质相关数据 库。
• 欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室 (EMBL)的一部分,EMBL-EBIEMBL-EBI的许多数据库是 生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序 列)、Ensemble(基因组)、ArrayExpress(基于微阵列 的基因表达数据)、UniProt(蛋白质序列)、InterPro (蛋白家族、域和基序)、Reactome(传导通路)和 ChEBI(小分子),新的资源帮助研究者不仅了解构成生物 体的分子部件,还了解这些部件是如何组合构成系统的。
SRS集成检索系统
• SRS快速文本检索窗口
• SRS检索结果页面显示的检索结果
• SRS蛋白质记录详细内容页面
三、DDBJ数据库
• 日本DNA数据库DDBJ(DNA Data Bank of Japan),于 1984年建立,与NCBI的GenBank,EBI的EMBL数据库共 同组成国际DNA数据库。他们开发了SQmateh工具,用来 搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了 简便且易操作的SOAP(simple object aeeess protoco1) 服务器。DDBJ主要收集来自日本研究者获得的序列数据, 但也收集数据和发放编号给任何其他国家的研究者。
第二章 生物数据库介绍_PPT幻灯片
BLAST:最基本的局部序列比对排列搜索工具,是常用 的序列相似性查询工具,主要包括核酸序列的比对,蛋 白质序列的比对等
OMIM:关于人类基因和遗传疾病的分类数据库,收集 了已知的人类基因以及由于这些基因突变而导致的遗传 疾病
FEATURES:序列特性表,详细描述序列的特性
ORIGIN :碱基序列字段,给出序列中的碱基组成,以// 结束
EMBL(The European Molecular Biology Laboratory):欧洲分子生物学实验室
1974年由欧洲14个国家加上亚洲的以色列共同发起建 立,现在由欧洲30个成员国政府支持组成
从1979年开始建设,1982年正式运行
GenBank数据库包含了所有已知的核酸序列 和蛋白质序列,以及与它们相关的文献著 作和生物学解释
主要目标:收集世界范围内已发表和自行 投送的核苷酸序列以及相关的文献资料, 为大规模的核苷酸序列数据建立档案
NCBI:National Center for Biotechnology Information,美国国家生物技术信息中心
核酸序列数据库 蛋白质序列数据库
基因组数据库 结构数据库:主要指蛋白质三维空间结构数据库 功能数据库:主要指蛋白质和核酸功能注释的数据库 由上述3类数据库和文献资料为基础构建的二次数据库
一次数据库的数据量大,更新速度快,用户面广, 通常需要高性能的计算机服务器、大容量的磁盘 空间和专门的数据库管理系统支撑;
DDBJ (DNA Data Bank of Japan),日本DNA数据 库,于1984年建立
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)数据库使用频率增长更快,接近500%;
(3)数据库的复杂程度不断增加 ;
(4)数据库网络化 ;
(5)面向应用;
2019/7/4
(6)先进的软硬件配置。
6
一、分子生物信息数据库简介
2019/7/4
7
二、各大类主要数据库介绍
基因组数据库 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 蛋白质结构分类数据库 功能数据库 生物信息学数据库导航系统
2019/7/4
19
二、各大类主要数据库介绍
核酸序列数据
核酸序列是了解生物体结构、功能、发育和进化的出发
点。国际上权威的核酸序列数据库有三个,分别是
美国生物技术信息中心( NCBI )的GenBank
欧洲分子生物学实验室的EMBL-Bank
日本遗传研究所的DDBJ
三个组织相互合作,各数据库中的数据基本一致,仅在
2019/7/4
8
二、各大类主要数据库介绍
基因组数据库
基因组数据库的主体是模式生物基因组数据库,其中 主要有世界各国人类基因组研究中心,测序中心构建的 各种人类的基因组数据库。还有模式生物基因组数据库, 如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组 数据库也纷纷上网。
基因组信息资源除了基因组本身信息外,还包括染色 体、基因突变、遗传疾病、分类学、比较基因组、基因 的调控与表达、放射杂交、基因图谱等各种数据库
人类基因组图谱(包括细胞遗传图谱、连接图谱、
放射性杂交图谱、content contig图谱和综合图谱
等);人类基因组内的变异(包括突变和多态性,加上
等位基因频率数据)。
2019/7/4
11
二、各大类主要数据库介绍 基因组数据库
2019/7/4
12
二、各大类主要数据库介绍 基因组数据库
2019/7/4
第二章
分子生物信息数据库
2019/7/4
1
简介
第一节 分子生物信息数据库
第二节 核酸与蛋白质序列格式 转换
2019/7/4
Hale Waihona Puke 2第一节、分子生物信息数据库
一、分子生物信息数据库简介 二、各大类主要数据库介绍
2019/7/4
3
一、分子生物信息数据库简介
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
和处理基因组图谱数据。
GDB的目标是构建关于人类基因组的百科全书,
除了构建基因组图谱之外,还开发了描述序列水平的
基因组内容的方法,包括序列变异和其它对功能和表
2019/7/4 型的描述
10
二、各大类主要数据库介绍
基因组数据库
(一) GDB The GDB Human Genome Database
它是由美国国立生物技术信息中心(NCBI)建立和维护的。 它的数据直接来源于测序工作者提交的序列;由测序中心 提交的大量EST序列和其它测序数据;以及与其它数据机 构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据 库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据 库的数据同步。
13
二、各大类主要数据库介绍 基因组数据库
2019/7/4
14
二、各大类主要数据库介绍
基因组数据库
(二)人类基因组数据库Ensembl
/ Ensembl 试图跟踪所有人类基因组的序列片段,并将
序列片段组装成单个长序列,进而分析这些经过组装的 DNA 序列,搜索其中的基因,发现生物学家或医学工作者 感兴趣的特征。
Genbank的数据可以从NCBI的FTP服务器上免费下载完整
数据格式上有所差别,对于特定的查询,三个数据库的响
应结果一样。
这三个数据库是综合性的DNA 和RNA序列数据库,其数
据来源于众多的研究机构和核酸测序小组,来源于科学文
献。用户可以通过各种方式将核酸序列数据提交给这三个
数据库系统。
2019/7/4
20
(一)Genbank
Genbank库包含了所有已知的核酸序列和蛋白质序列,以 及与它们相关的文献著作和生物学注释。
Ensembl 包括所有公开的基因组DNA 序列,如人类基 因组、小鼠和大鼠基因组等。通过注释形成的关于序列的 特征。基因就是一种特征,基因或者是通过实验发现的, 或者是通过Ensembl 的程序预测的。
Ensembl 所用的基因预测程序为GenScan。其他的特 2019/征7/4 包括单核苷酸多态性(SNP)、重复序列与其它序列高15
2019/7/4
建立生物分子数据库
4
一、分子生物信息数据库简介
生物分子数据库应满足5个方面的主要 需求
(1)时间性
(2)注释
(3)支撑数据
(4)数据质量
(5)集成性
2019/7/4
5
一、分子生物信息数据库简介
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快,
数据量呈指数增长趋势;
2019/7/4
9
二、各大类主要数据库介绍 基因组数据库
(一) GDB The GDB Human Genome Database
/
于1990年由美国JOHNS HOPKINS大学建立,现 在由加拿大儿童医院生物信息学中心负责管理。
基因组数据库(GDB)为人类基因组计划(HGP)保存
/
目前GDB中有:人类基因组区域(包括基因、克隆、 amplimers PCR 标记、断点breakpoints、细胞遗 传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、 contigs和重复序列);
度相似(或同源)的序列。
二、各大类主要数据库介绍
基因组数据库
(二)人类基因组数据库Ensembl
2019/7/4
16
二、各大类主要数据库介绍
基因组数据库
(二)人类基因组数据库Ensembl
2019/7/4
18
二、各大类主要数据库介绍 基因组数据库
(三)其他基因组数据库
1、EcoGene 大肠杆菌(E.coli)K-12的序列 / 2、MITOMAP人类线粒体基因组 / 3、 SGD 酵母基因组数据库 /Saccharomyces