生物信息学 第三章 生物信息数据库及其信息检索 ppt课件
合集下载
生物信息学课堂ppt课件
它是一门理论概念与实践应用并重的学科 ❖ bioinformatics这一名词在1991年左右才在文献中出现,还
只是出现在电子出版物的文本中。
5
产生 生物信息学的
❖ 20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都 极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求 一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。 而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解 释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对 这些数据的分析工作。
❖ 基因组时代--基因寻找和识别、网络数据库系统的 建立、交互界面的开发;
❖ 后基因组时代--大规模基因组分析、蛋白质组分析。
8
重要性 生物信息学的
❖ 生物信息学不仅是一门学科,更是一种重要的研究开发工具。 ❖ 从科学的角度来讲,生物信息学是一门研究生物和生物相关
系统中信息内容与信息流向的综合系统科学。只有通过生物 信息学的计算处理,人们才能从众多分散的生物学观测数据 中获得对生命运行机制的系统理解。 ❖ 从工具的角度来讲,生物信息学几乎是今后所有生物(医药) 研究开发所必需的工具。只有根据生物信息学对大量数据资 料进行分析后,人们才能选择该领域正确的研发方向。 ❖ 生物信息学不仅具有重大的科学意义,而且具有巨大的经济 效益。它的许多研究成果可以较快地产业化,成为价值很高 的产品。
分析(主要研究内容) 应用(多个领域)
主要由数据库、计算机网络和应用软件三大部分构成
2
定义
❖ 收集、维护、传播、分析以及利用在分子生物学研究中获得的大量数据。
生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学
只是出现在电子出版物的文本中。
5
产生 生物信息学的
❖ 20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都 极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求 一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。 而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解 释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对 这些数据的分析工作。
❖ 基因组时代--基因寻找和识别、网络数据库系统的 建立、交互界面的开发;
❖ 后基因组时代--大规模基因组分析、蛋白质组分析。
8
重要性 生物信息学的
❖ 生物信息学不仅是一门学科,更是一种重要的研究开发工具。 ❖ 从科学的角度来讲,生物信息学是一门研究生物和生物相关
系统中信息内容与信息流向的综合系统科学。只有通过生物 信息学的计算处理,人们才能从众多分散的生物学观测数据 中获得对生命运行机制的系统理解。 ❖ 从工具的角度来讲,生物信息学几乎是今后所有生物(医药) 研究开发所必需的工具。只有根据生物信息学对大量数据资 料进行分析后,人们才能选择该领域正确的研发方向。 ❖ 生物信息学不仅具有重大的科学意义,而且具有巨大的经济 效益。它的许多研究成果可以较快地产业化,成为价值很高 的产品。
分析(主要研究内容) 应用(多个领域)
主要由数据库、计算机网络和应用软件三大部分构成
2
定义
❖ 收集、维护、传播、分析以及利用在分子生物学研究中获得的大量数据。
生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学
生物信息学数据库检索
– PRINTS(Protein motif fingerprint database)
/dbbrowser/PRINTS/
• 结构域数据库(families,domains,regions,sites)
– Pfam /
– 国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格 式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构
• 蛋白质结构分类数据库SCOP /scop/
– 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系
第十九页,共99页。
第十九页,编辑于星期一:二十三点 五十分。
二、结构数据库(核酸)
• 核酸结构数据库(NDB,
/)
– 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可 通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和 PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索, 结果包含核酸结构的简要信息和图片
第十一页,共99页。
第十一页,编辑于星期一:二十三点 五十分。
主要内容
• 生物信息学数据库类型
– 序列数据库 – 结构数据库 – 功能数据库 – 其它专业数据库
• 生物信息学数据库的检索
– 检索方法概述 – 检索实践和案例
第十二页,共99页。
第十二页,编辑于星期一:二十三点 五十分。
一、序列数据库
第四页,共99页。
第四页,编辑于星期一:二十三点 五十分。
大规模组学研究
• 上世纪90年代初启动人类基因组计划,短时间 内产生海量生物学数据
• 随着基因组计划进行,多种相关高通量研究 逐渐开展起来
/dbbrowser/PRINTS/
• 结构域数据库(families,domains,regions,sites)
– Pfam /
– 国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格 式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构
• 蛋白质结构分类数据库SCOP /scop/
– 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系
第十九页,共99页。
第十九页,编辑于星期一:二十三点 五十分。
二、结构数据库(核酸)
• 核酸结构数据库(NDB,
/)
– 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可 通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和 PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索, 结果包含核酸结构的简要信息和图片
第十一页,共99页。
第十一页,编辑于星期一:二十三点 五十分。
主要内容
• 生物信息学数据库类型
– 序列数据库 – 结构数据库 – 功能数据库 – 其它专业数据库
• 生物信息学数据库的检索
– 检索方法概述 – 检索实践和案例
第十二页,共99页。
第十二页,编辑于星期一:二十三点 五十分。
一、序列数据库
第四页,共99页。
第四页,编辑于星期一:二十三点 五十分。
大规模组学研究
• 上世纪90年代初启动人类基因组计划,短时间 内产生海量生物学数据
• 随着基因组计划进行,多种相关高通量研究 逐渐开展起来
第三章生物信息数据库
部分生物基因组计划网址
老鼠(Mouse) /mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl 猪(Pig) /pigmap/pigbase/pigbase.html 羊(Sheep) 鸡(Chicken) /chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.ht ml 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http://www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees)
2、蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究 所(EBI)合作维护; 在EMBL和GenBank数据库上均建立了镜像站点;
SWISSPROT
到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等
PIR (Protein Information Resource)
生物信息数据库ppt课件
UniRef100、UniRef90和UniRef50三个子库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的Accession表示,例:
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
UniRef90_O70405
36
UniParc UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据
44
显示分子结构(RasMol , ChemView )
45
四. 基因组数据库
46
基因组数据库 收集某些生物整个基因组序列的数据库 基因组计划
➢ Human Genome Project ➢ C. elegans Project 从GenBank中选择同一物种的核酸信息组成的二级库
47
16
17
INSDC 1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会
(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信
64
氨基酸代码
65
GenBank数据格式 (1)
GenInfo Identifier
子库类型
66
GenBank数据格式 (2)
67
GenBank数据格式 (3)
68
GenBank子库类型
69
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 //
2
生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快
数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
生物信息学检索系统PPT课件
搜索 ▪ 序列分子量搜索 ▪ 区域搜索 ▪ 通配符搜索
7
8
9
10
11
12
2. SRS
▪ SRS(Sequence Retrieval System) 是EMBL研制的一个基于WEB的查询系 统,是目前生物信息界应用最为广泛的数 据库系统。
▪ SRS在中国的镜像站点建立在北京大学 生物信息中心。
3
Entrez
4
/Entrez/
5
Entrez的查询方式
➢快速查询 ➢限定查询 ➢其他查询方式
批处理查询 交叉引用的信息查询 E-mail查询
6
Entrez基本查询功能
▪ 主题词(Subject)搜索 ▪ 短语(phrase)搜索 ▪ 文献作者(Authous)搜索 ▪ 序列独特识别信息(Unique Identifiers)
14
15
16
SRS与ENTREZ的区别
布林逻辑运算 结果信息量 查询速度
NCBI AND,OR,BUT 小
快
SRS &, I, !
大
慢
17
18
19
20
21
22
学习总结
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
三、数据库检索工具简介Βιβλιοθήκη ▪ Entrez ▪ SRS
1
1、Entrez
/gquery/gquery.fcgi
Entrez的特点
▪ 链接的数据库多 ▪ 使用方便 ▪ 实际匹配、相近匹配、查询结果按匹配
程度排列
2
7
8
9
10
11
12
2. SRS
▪ SRS(Sequence Retrieval System) 是EMBL研制的一个基于WEB的查询系 统,是目前生物信息界应用最为广泛的数 据库系统。
▪ SRS在中国的镜像站点建立在北京大学 生物信息中心。
3
Entrez
4
/Entrez/
5
Entrez的查询方式
➢快速查询 ➢限定查询 ➢其他查询方式
批处理查询 交叉引用的信息查询 E-mail查询
6
Entrez基本查询功能
▪ 主题词(Subject)搜索 ▪ 短语(phrase)搜索 ▪ 文献作者(Authous)搜索 ▪ 序列独特识别信息(Unique Identifiers)
14
15
16
SRS与ENTREZ的区别
布林逻辑运算 结果信息量 查询速度
NCBI AND,OR,BUT 小
快
SRS &, I, !
大
慢
17
18
19
20
21
22
学习总结
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
三、数据库检索工具简介Βιβλιοθήκη ▪ Entrez ▪ SRS
1
1、Entrez
/gquery/gquery.fcgi
Entrez的特点
▪ 链接的数据库多 ▪ 使用方便 ▪ 实际匹配、相近匹配、查询结果按匹配
程度排列
2
生物信息学(东南大学版)精选ppt
09.04.2020
41
遗传连锁图:通
过计算连锁的遗
传标志之间的重
组频率,确定它
配子
们的相对距离,
一般用厘摩(cM,
即每次减数分裂
的重组
频率为1%)
表示。
末 期 II
晚 期 II
中 期 II
间期 前期 I
同源染色体 形成配对
中期 I
前 期 II
晚期 I 发生交换
09.04.2020
42
物理图谱
5、《生物信息学手册》 郝柏林 中科院物理所 上海科学技术出版社
6、《简明生物信息学》 钟扬 复旦大学 高等教育出版社
09.04.2020
2
http://
编号
第一章 第二章 第三章 第四章 第五章 第六章 第七章 第八章
第九章
第十章
09.04.2020
网上资源
名称
书稿(word)
生物信息学引论 分子生物学基础
破译遗传语言、识别基因 预测蛋白质结构和功能 认识生物界信息存贮和传递的本质 研究药物作用机制和开发新药
09.04.2020
31
第二节 生物信息学的发展历史
生物科学和 技术的 发展
人类基因组 计划的 推动
生物信息学 基本思想的产生
二十世纪 50年代
09.04.2020
生物信息学 的迅速发展
09.04.2020
生物体生长发育的本质就是遗 传信息的传递和表达
17
DNA通过自我复制,在生物体的繁衍过 程中传递遗传信息
基因通过转录和翻译,使遗传信息在生物 个体中得以表达,并使后代表现出与亲代 相似的生物性状。
基因控制着蛋白质的合成
生物信息学 NCBI数据库PPT
线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan
酵母 Stanford, MIPS
大肠杆菌 WISC
DNA结构数据库
CUTG (Codon Usage Tabulated from GenBank, 密码子使用频度表) [日]
EPD (Eukaryotic Promotor Database, 真核生物启动子数据库) [欧]
7
2、我 的 实 验 室
简单重复序列
简单重复序列(Simple Sequence Repeats, SSRs)也称微卫星序列(Microsatellites)或短串联 重复序列(Short Tandem Repeats,STRs),是由 1-6个碱基对组成的串联重复DNA片段。SSRs在 真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。
12
13
14
NCBI数据库
1、国外的重要生物信息中心 2、NCBI介绍
15
1、国外重要生物信息中心
16
NCBI
• 美国国家生物技术信息中心(National Center for Biotechnology Information)
• 前身是NIH所属的一个研究所的计算生物学 研究室,1988年独立为NCBI,形式上属于国家 医学图书馆(National Library of Medicine/NLM)
21
DDBJ homepage
22
22
国际核苷酸序列数据库联盟
• International Nucleotide Sequence Database Collaboration (INSDC)包括
– GenBank
生物信息学基础第三章
编辑操作定义函数w,它表示“代价(cost)”或“权 重(weight)”。
对字母表中的任意字符a、b,定义
w (a, a) = 0
w (a, b) = 1
a b
w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数来评价编辑操作
p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
2、编辑距离(Edit Distance)
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
?
反向互补序列
RNA发夹式二级结构
3、通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
实例
序 列
→ 2→
→ 序列1 →
自我比较
→ 序列1 →
→ 1→
序 列
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
Match(C, C)
Match(A, A)
Match(A, A)
Match(C, C)
Match(C, C)
Replace(A, T)
Insert( -, T)
Delete(C, -)
Match(A, A)
Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果
对字母表中的任意字符a、b,定义
w (a, a) = 0
w (a, b) = 1
a b
w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数来评价编辑操作
p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
2、编辑距离(Edit Distance)
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
?
反向互补序列
RNA发夹式二级结构
3、通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
实例
序 列
→ 2→
→ 序列1 →
自我比较
→ 序列1 →
→ 1→
序 列
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
Match(C, C)
Match(A, A)
Match(A, A)
Match(C, C)
Match(C, C)
Replace(A, T)
Insert( -, T)
Delete(C, -)
Match(A, A)
Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果
生物信息学课件3
29
不确定长度间隔
PHYLIP序列格式
例子
5 15 Sequence1 Sequence2 Sequence3 Sequence4 Sequence5
agctggcttaaggcc tcggactagagaatc gggacattacga--t gaataactag-gact ag--gata---gaag
“-”表示间隔
26
多序列FASTA
>sequence1, E. coli ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgcta gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc >sequence2, B. subtilis ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgcta gctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc >sequence3, B. natto ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgcta gctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc
《生物信息学》PPT课件
➢ 对某一基因分析其mRNA序列和蛋白质序列特点,设 计一对RT-PCR引物并说明选择这对引物的理由;写 出克隆此基因编码区的研究策略和技术路线(pGEM-T 克隆载体及pcDNA3.1表达载体)。
完整版课件ppt
8
数据库
数据库格式:EMBL格式,GenBank格式, ASN.1格式,PIR/CODATA格式
生物信息学
生物信息学概述 生物信息数据库及其应用
完整版课件ppt
1
生物信息学(bioinformatics)是生物学与计算 机科学以及应用数学等学科相互交叉而形成 的一门学科。它通过对生物学实验数据的获 得、加工、存储、检索与分析,进而达到揭 示数据所蕴含的生物学意义的目的。
完整版课件ppt
2
生物信息学与生物计算
★ 各种数据库的建立和管理 ★ 数据库接口和检索工具的研制 ★ 研究新算法,发展方便适用的程序
完整版课件ppt
3
生物信息学与生物实验
★ 实验数据是生物信息学的基础 ★ 生物信息学的指导作用
完整版课件ppt
4
算法 图形学 图像识别 人工智能 数据库 统计学 计算机模拟 信息理论 语言学 机器人学 软件工程 计算机网络
完整版课件ppt
25
重要生物信息学中心简介
NIH:National Institute of Health NCBI:National Center of Biotechnology Institute NLM:National Library of Medicine / GenBank, Unigene , Refseq, dbSNP, OMIM
完整版课件ppt
32
完整版课件ppt
33
完整版课件ppt
完整版课件ppt
8
数据库
数据库格式:EMBL格式,GenBank格式, ASN.1格式,PIR/CODATA格式
生物信息学
生物信息学概述 生物信息数据库及其应用
完整版课件ppt
1
生物信息学(bioinformatics)是生物学与计算 机科学以及应用数学等学科相互交叉而形成 的一门学科。它通过对生物学实验数据的获 得、加工、存储、检索与分析,进而达到揭 示数据所蕴含的生物学意义的目的。
完整版课件ppt
2
生物信息学与生物计算
★ 各种数据库的建立和管理 ★ 数据库接口和检索工具的研制 ★ 研究新算法,发展方便适用的程序
完整版课件ppt
3
生物信息学与生物实验
★ 实验数据是生物信息学的基础 ★ 生物信息学的指导作用
完整版课件ppt
4
算法 图形学 图像识别 人工智能 数据库 统计学 计算机模拟 信息理论 语言学 机器人学 软件工程 计算机网络
完整版课件ppt
25
重要生物信息学中心简介
NIH:National Institute of Health NCBI:National Center of Biotechnology Institute NLM:National Library of Medicine / GenBank, Unigene , Refseq, dbSNP, OMIM
完整版课件ppt
32
完整版课件ppt
33
完整版课件ppt
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因组数据。
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTCACTGAGCCTGATAGCCTGATAGCCG
结构数据库(蛋白质) PDB( ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库() 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。
结构数据库(核酸) NDB核酸结构数据库() 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the
AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能, 可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库( ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
大规模组学实验
大量零碎数据
海量组学数据
数据收集整理
数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
模式生物与基因测序
Ureaplasma urealyticum
Bacillus subtilis
Drosophila melanogaster
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
plasmids viruses bacteria fungi plants alga inesects
mollusks bony fish amphibians
reptilesbirds Nhomakorabeamammals
104
105
106
107
108
109
1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI ( ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
基因组序列数据库: Genome Database(GDB)数据库 () 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和
Sanger研究所联合开发。 UCSC Genome Browser () 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTCACTGAGCCTGATAGCCTGATAGCCG
结构数据库(蛋白质) PDB( ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库() 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。
结构数据库(核酸) NDB核酸结构数据库() 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the
AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能, 可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库( ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
大规模组学实验
大量零碎数据
海量组学数据
数据收集整理
数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
模式生物与基因测序
Ureaplasma urealyticum
Bacillus subtilis
Drosophila melanogaster
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
plasmids viruses bacteria fungi plants alga inesects
mollusks bony fish amphibians
reptilesbirds Nhomakorabeamammals
104
105
106
107
108
109
1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI ( ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
基因组序列数据库: Genome Database(GDB)数据库 () 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和
Sanger研究所联合开发。 UCSC Genome Browser () 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基