生物信息学数据库检索PPT课件
合集下载
生物信息学 第三章 生物信息数据库及其信息检索 ppt课件
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其它专业数据库
Google vs Baidu
他可以更厉害!甚至超过windows、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
大规模组学实验
大量零碎数据
海量组学数据
数据收集整理
数据存储、注释
检索查询
数据库
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
生物信息学课堂ppt课件
❖ 20世纪50年代末 数学模型、统计学方法和计算机处理宏观生物学数据。 数量分类学、数学生态。
❖ 1987年,这一学科被正式命名为“生物信息学”(bioinformatics)。 此后,其内涵随着研究的深入和现实需要的变化而几经更迭。
❖ 应用于分子生物学:分子生物学数据库、蛋白质结构分析与预测。
❖ 1995年,在美国人类基因组计划第一个五年总结报告中,给出了一 个较为完整的生物信息学定义
❖ 基因组时代--基因寻找和识别、网络数据库系统的 建立、交互界面的开发;
❖ 后基因组时代--大规模基因组分析、蛋白质组分析。
8
重要性 生物信息学的
❖ 生物信息学不仅是一门学科,更是一种重要的研究开发工具。 ❖ 从科学的角度来讲,生物信息学是一门研究生物和生物相关
系统中信息内容与信息流向的综合系统科学。只有通过生物 信息学的计算处理,人们才能从众多分散的生物学观测数据 中获得对生命运行机制的系统理解。 ❖ 从工具的角度来讲,生物信息学几乎是今后所有生物(医药) 研究开发所必需的工具。只有根据生物信息学对大量数据资 料进行分析后,人们才能选择该领域正确的研发方向。 ❖ 生物信息学不仅具有重大的科学意义,而且具有巨大的经济 效益。它的许多研究成果可以较快地产业化,成为价值很高 的产品。
加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目
的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息
生物信息学课件PPT
核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱 氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷 酸都有一个碱基对,也就是A、T、C、G
• 核苷酸
2021/3/10
10
DNA序列比对
• 发现同源性、相似性
• 序列同源性:从某一共同祖先经过趋异进化而形成的不同序列 • 序列相似性:指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸
12
递归(Recursion)
• 在计算机程序设计中如何理解F(x)=ax+b • 编程计算N! f(n) = n*f(n-1) n>1 • 编程计算斐波那契数列
1, 1, 2, 3, 5, 8 ...... n
f(n) = f(n-1)+f(n-2) n>2
2021/3/10
13
动态规划
• 问:斐波那契数列当n=5时,结果是多少? x=50呢?x=100呢?
随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学
的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,
人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基
2对021、/3遗/10传密码子等术语都是生物信息学需要着重研究的地方。
3
数据与信息
• 数据是人们为了反映客观世界而记录下来的可鉴别的各种符号,而信息则是 使用者对数据有目的的加工,从而对接收者的行为或思想产生影响,而不同 接收者对于相同数据可能存在不同的解释和理解。
• 核苷酸
2021/3/10
10
DNA序列比对
• 发现同源性、相似性
• 序列同源性:从某一共同祖先经过趋异进化而形成的不同序列 • 序列相似性:指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸
12
递归(Recursion)
• 在计算机程序设计中如何理解F(x)=ax+b • 编程计算N! f(n) = n*f(n-1) n>1 • 编程计算斐波那契数列
1, 1, 2, 3, 5, 8 ...... n
f(n) = f(n-1)+f(n-2) n>2
2021/3/10
13
动态规划
• 问:斐波那契数列当n=5时,结果是多少? x=50呢?x=100呢?
随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学
的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,
人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基
2对021、/3遗/10传密码子等术语都是生物信息学需要着重研究的地方。
3
数据与信息
• 数据是人们为了反映客观世界而记录下来的可鉴别的各种符号,而信息则是 使用者对数据有目的的加工,从而对接收者的行为或思想产生影响,而不同 接收者对于相同数据可能存在不同的解释和理解。
dbSNP数据库PPT课件
期待
我们期待DBSNP数据库在未来能够进一步加强与其他生物信 息学数据库的整合与共享,促进数据资源的整合与利用,为 科研人员提供更加全面、便捷的数据服务,推动生命科学领 域的研究与发展。
THANKS FOR WATCHING
感谢您的观看
总结DBSNP数据库的重要性和价值
01
总结
DBSNP数据库是一个重要的生物信息学数据库,为科研人员提供了丰
富的单核苷酸多态性(SNP)数据,对于基因组学、遗传学和医学研究
具有重要意义。
02
重要性
DBSNP数据库收录了大量SNP数据,覆盖了全球范围内不同人群的遗
传变异信息,为研究人类基因组多样性、疾病易感基因定位和药物研发
数据上传
DBSN数据库支持用户上传自己的数据,但需要遵循一定的格式和 规范,并经过审核后才能被数据库收录。
数据共享
通过数据上传和分享,用户可以与其他研究者共享数据,促进学术 交流和合作。
04 DBSNP数据库的数据管 理
数据存储和管理
数据库架构
01
DBSN数据库采用分布式架构,将数据分散存储在多个节点上,
目的和目标
阐述本PPT课件的目的,即帮助听众 了解DBSNP数据库的基本知识和应 用。
明确本PPT课件的目标,即帮助听众 掌握DBSNP数据库的使用方法和技巧 ,提高听众在实际工作中的效率。
我们期待DBSNP数据库在未来能够进一步加强与其他生物信 息学数据库的整合与共享,促进数据资源的整合与利用,为 科研人员提供更加全面、便捷的数据服务,推动生命科学领 域的研究与发展。
THANKS FOR WATCHING
感谢您的观看
总结DBSNP数据库的重要性和价值
01
总结
DBSNP数据库是一个重要的生物信息学数据库,为科研人员提供了丰
富的单核苷酸多态性(SNP)数据,对于基因组学、遗传学和医学研究
具有重要意义。
02
重要性
DBSNP数据库收录了大量SNP数据,覆盖了全球范围内不同人群的遗
传变异信息,为研究人类基因组多样性、疾病易感基因定位和药物研发
数据上传
DBSN数据库支持用户上传自己的数据,但需要遵循一定的格式和 规范,并经过审核后才能被数据库收录。
数据共享
通过数据上传和分享,用户可以与其他研究者共享数据,促进学术 交流和合作。
04 DBSNP数据库的数据管 理
数据存储和管理
数据库架构
01
DBSN数据库采用分布式架构,将数据分散存储在多个节点上,
目的和目标
阐述本PPT课件的目的,即帮助听众 了解DBSNP数据库的基本知识和应 用。
明确本PPT课件的目标,即帮助听众 掌握DBSNP数据库的使用方法和技巧 ,提高听众在实际工作中的效率。
生物信息学数据库——文检论文检索课件PPT
http://www.cshq.ac.cn,http://www.lifescience.org.cn/tus hug/
2020/10/22
复旦大学图书馆文献检索教研室
二.生物信息学数据库种类:
《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
至2010年,精选的生物信息学数据库总数已 达1230个。
复旦大学图书馆文献检索教研室
生物信息学相关分析工具
BLAST 序列相似性对比
PRIMER 引物设计
蛋白质结构预测数据库 (EMBL)根据已知蛋白 质序列,预测同族二级、三维等结构
蛋白质功能预测数据库 (EMBL )根据已知蛋白 质序列,预测蛋白质功能
2020/10/22
复旦大学图书馆文献检索教研室
2020/10/22
复旦大学图书馆文献检索教研室
核酸序列数据库
内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释 国际核酸序列委员会协作组: GenBank美国基因数据银行
http://.ncbi.nlm.nih.gov/
Embl 欧洲分子生物实验室 http://.ebi.ac.uk/embl.html
2020/10/22
复旦大学图书馆文献检索教研室
课件:第8章 生物信息数据库的查询与搜索
BLAST Report
Header Body
Footer
Header
Body: Graphical Overview
Body: One-line summaries
Alignments Views - pairwise
[# set by -v]
Footer
BLOSUM matrix gap penalties
FASTA: ktup;
寻找完全匹配的长度为ktup的 words
基因组数据库: C. elegans Project
蛋白组数据库: SWISS-2DPAGE
代谢组数据库: MetaCyc
疾病数据库: OMIM
药物与分子设计数据库: DrugBank
分析与记录方式数据库: PubMed
2.生物信息数据库的字符匹配查询
第八章 生物信息数据库的查询与搜索
目录
1.生物信息数据库的介绍 2.生物信息数据库的字符匹配查询 3.生物信息数据库的相似性搜索
1.生物信息数据库的介绍
核酸序列数据库:Genbank
核酸序列数据库: EMBL-Bank
核酸序列数据库: DDBJ
蛋白质序列数据库: SWISS-PROT
结构数据库: PDB
[# set by -v]
10.0 is the E value Effective search space = mn = length of query x db length threshold score (f) = 11 cut-off parameters
常用生物信息学数据库(第一讲)
常用生物信息学数据库
生物信息学基础入门
第一讲常用生物信息学数据库(1学时)•生物信息学的简介、发展和应用
•常用生物信息学数据库的概况
•NCBI、UCSC数据库的介绍和使用
第二讲癌症相关数据库(1学时)
•癌症相关数据库的概况
•TCGA数据库的介绍和使用
•TCGA数据的下载和解读
•TCGA数据的在线分析工具
第三讲基因功能富集分析(1学时)
•基因本体数据库GO及注释
•生物学通路KEGG及注释
•基因功能富集分析
第四讲基因调节网络分析(1学时)
•蛋白互作、转录因子调节关系数据库的介绍和使用
•非编码RNA调节网络数据库的介绍和使用
•基因网络图的展示、Cytoscape软件的介绍和使用
第五讲基于公共数据库进行课题研究的案例分析(1.5学时)•实例讲解GEO数据的下载、处理和分析
•实例讲解TCGA数据的下载、处理和分析
这节课的主要内容
•生物信息学的概念
•生物信息学发展的背景
•生物信息学的发展阶段
•生物信息学的研究领域
•常用生物医学数据库
•NCBI: Gene、GEO
•UCSC: Genome Browser、Table Browser
生物信息学的概念
生物信息学(bioinformatics),是在生命科学的研究中,利用计算机科学、信息技术、应用数学以及统计学方法对生物信息进行采集、处理、存储、传播、
分析和解释的学科。
生物信息学发展的背景
•人类基因组计划( human genome project, HGP)是由美国科学家Robert Sinsheimer 于1985年5月率先提出(但是当时美国NIH不感兴趣)。
生物信息学(东南大学版)精选ppt
9
Bioinformatics
生物分子
数据
+
计算机 计算
09.04.2020
10
2、生物分子信息
分子
生物信息的载体
细胞
09.04.2020
存贮、复制、传递和表达 遗传信息的系统
11
生物信息学主要研究两种信息载体
– DNA分子 – 蛋白质分子
09.04.2020
12
09.04.2020
13
Protein Machines
一对紧密 相邻的标志
中心粒
一对相邻 较远的标志
染色体图
细菌人工染色体 (80~300 kb)
酵母人工染色体 (数百~ 2000 kb)
1998 年完成了具有52,000个序列标签位点(STS),并覆
盖人类基因组大部分区域的连续克隆系的物理图谱。
09.04.2020
44
序列图谱
随着遗传图谱和物理图谱的完成,测序 就成为重中之重的工作。DNA序列分析 技术是一个包括制备DNA片段化及碱基 分析、DNA信息翻译的多阶段的过程。 通过测序得到基因组的序列图谱
09.04.2020
数据量
生物信息学任务
11.5百万条序列 125.0 亿个碱基
分离编码与非编码区域 识别内含子与外显子 基因产物预测 基因功能注释 基因调控信息分析
Bioinformatics
生物分子
数据
+
计算机 计算
09.04.2020
10
2、生物分子信息
分子
生物信息的载体
细胞
09.04.2020
存贮、复制、传递和表达 遗传信息的系统
11
生物信息学主要研究两种信息载体
– DNA分子 – 蛋白质分子
09.04.2020
12
09.04.2020
13
Protein Machines
一对紧密 相邻的标志
中心粒
一对相邻 较远的标志
染色体图
细菌人工染色体 (80~300 kb)
酵母人工染色体 (数百~ 2000 kb)
1998 年完成了具有52,000个序列标签位点(STS),并覆
盖人类基因组大部分区域的连续克隆系的物理图谱。
09.04.2020
44
序列图谱
随着遗传图谱和物理图谱的完成,测序 就成为重中之重的工作。DNA序列分析 技术是一个包括制备DNA片段化及碱基 分析、DNA信息翻译的多阶段的过程。 通过测序得到基因组的序列图谱
09.04.2020
数据量
生物信息学任务
11.5百万条序列 125.0 亿个碱基
分离编码与非编码区域 识别内含子与外显子 基因产物预测 基因功能注释 基因调控信息分析
生物信息学 NCBI数据库PPT
如: (A)n、 (ACG)n、(ATCG)、(ACCCTT)n
8
简单重复序列与人类疾病
• 简单重复序列是广泛分布在人类基因 组中的,尽管其中很多功能都不太清 楚,但是既然存在总有它存在的意义。 下面总结了一些人类基因组中由于 SSR扩增或变异所引起的相关疾病
9
10
我们实验是近几年发的文章
11
7
2、我 的 实 验 室
简单重复序列
简单重复序列(Simple Sequence Repeats, SSRs)也称微卫星序列(Microsatellites)或短串联 重复序列(Short Tandem Repeats,STRs),是由 1-6个碱基对组成的串联重复DNA片段。SSRs在 真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。
• 是重要的测序中心 • 1992年建立 • 1995年参与完成首次全基因组测序(流感嗜血
杆菌) • 拥有世界最大的cDNA数据库之一 • http://www.tigr.org/
24
基因图谱数据库
RHdb (辐射杂交; 人、鼠),GDB (人类),GeneMap (人类; NCBI)
生物医学文献数据库
线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan
酵母 Stanford, MIPS
8
简单重复序列与人类疾病
• 简单重复序列是广泛分布在人类基因 组中的,尽管其中很多功能都不太清 楚,但是既然存在总有它存在的意义。 下面总结了一些人类基因组中由于 SSR扩增或变异所引起的相关疾病
9
10
我们实验是近几年发的文章
11
7
2、我 的 实 验 室
简单重复序列
简单重复序列(Simple Sequence Repeats, SSRs)也称微卫星序列(Microsatellites)或短串联 重复序列(Short Tandem Repeats,STRs),是由 1-6个碱基对组成的串联重复DNA片段。SSRs在 真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。
• 是重要的测序中心 • 1992年建立 • 1995年参与完成首次全基因组测序(流感嗜血
杆菌) • 拥有世界最大的cDNA数据库之一 • http://www.tigr.org/
24
基因图谱数据库
RHdb (辐射杂交; 人、鼠),GDB (人类),GeneMap (人类; NCBI)
生物医学文献数据库
线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan
酵母 Stanford, MIPS
《生物信息学》PPT课件
❖ 生物信息学(bioinformatics)是80年代末随着人类 基因组计划(Human genome project)的启动而兴 起的一门新的交叉学科。它涉及生物学、数学、计 算机科学和工程学,依赖于计算机科学、工程学和 应用数学的基础,依赖于生物实验和衍生数据的大 量储存。生物信息学不只是一门为了建立、更新生 物数据库及获取生物数据而联合使用多项计算机科 学技术的应用性学科,也不仅仅是只限于生物信息 学这一概念的理论性学科。事实上,它是一门理论 概念与实践应用并重的学科。
❖ 应用于分子生物学:分子生物学数据库、蛋白质结 构分析与预测。
❖ 人类基因组计划(human genome project, HGP): 1990年启动,10年时间完成草图(3x10e9个碱基 对,2.91x10e9并对30,000多个基因进行了注释)。
❖ 越来越多的微生物和其他模式生物也完成了全基因
Bioinformatics
编辑ppt
1
绪论
❖ 1. 什么是生物信息学?
❖ 2. 生物信息学的产生
❖ 3. 生物信息学发展过程
❖ 4. 生物信息学的基本方法
❖ 5. 生物信息学的研究内容
❖ 6. 生物信息学的应用
wk.baidu.com
❖ 7. 基因组信息学的首要任务
❖ 8. 生物信息学的重要研究课题
❖ 9. 生物信息学的商业价值
生物信息数据库
人工智能与机器学习应用
随着人工智能和机器学习技术的发展,如何利用这些技术挖掘生物信息数据的潜在价值成为新的研究热 点。未来可以借助这些技术实现更精准的疾病预测、药物设计和个性化医疗等应用。
THANKS
感谢观看
DDBJ
DNA数据银行(DDBJ)是日本的一个国际性生物信息学中心,与GenBank和EMBL-EBI共同 构成了国际核苷酸序列数据库协作组织(INSDC)。DDBJ收录了各种生物的基因组序列及 其注释信息,并提供了一系列分析工具和服务。
03
转录组数据库
转录组测序原理与技术
转录组测序原理
基于高通量测序技术,对特定组织或 细胞在某一发育阶段或功能状态下转 录出来的所有RNA进行测序,包括 mRNA和非编码RNA。
代表性转录组数据库介绍
GEO(Gene Expression …
由美国国家生物技术信息中心(NCBI)维护的公共数据库,收录了 各种高通量基因表达数据,包括转录组测序数据。
ArrayExpress
由欧洲生物信息学研究所(EMBL-EBI)维护的数据库,专注于收录 基因表达数据,包括转录组测序数据和基因芯片数据。
美国国家生物技术信息中心(NCBI)维护的GenBank数据库是国际上最重要的基因组数据 库之一,收录了各种生物的基因组序列及其注释信息。
EMBL-EBI
欧洲分子生物学实验室(EMBL)的欧洲生物信息学研究所(EBI)维护了一系列生物信息学 数据库,其中包括EMBL核苷酸序列数据库、Ensembl基因组浏览器和Gene Expression Atlas等,提供了丰富的基因组数据和注释信息。
随着人工智能和机器学习技术的发展,如何利用这些技术挖掘生物信息数据的潜在价值成为新的研究热 点。未来可以借助这些技术实现更精准的疾病预测、药物设计和个性化医疗等应用。
THANKS
感谢观看
DDBJ
DNA数据银行(DDBJ)是日本的一个国际性生物信息学中心,与GenBank和EMBL-EBI共同 构成了国际核苷酸序列数据库协作组织(INSDC)。DDBJ收录了各种生物的基因组序列及 其注释信息,并提供了一系列分析工具和服务。
03
转录组数据库
转录组测序原理与技术
转录组测序原理
基于高通量测序技术,对特定组织或 细胞在某一发育阶段或功能状态下转 录出来的所有RNA进行测序,包括 mRNA和非编码RNA。
代表性转录组数据库介绍
GEO(Gene Expression …
由美国国家生物技术信息中心(NCBI)维护的公共数据库,收录了 各种高通量基因表达数据,包括转录组测序数据。
ArrayExpress
由欧洲生物信息学研究所(EMBL-EBI)维护的数据库,专注于收录 基因表达数据,包括转录组测序数据和基因芯片数据。
美国国家生物技术信息中心(NCBI)维护的GenBank数据库是国际上最重要的基因组数据 库之一,收录了各种生物的基因组序列及其注释信息。
EMBL-EBI
欧洲分子生物学实验室(EMBL)的欧洲生物信息学研究所(EBI)维护了一系列生物信息学 数据库,其中包括EMBL核苷酸序列数据库、Ensembl基因组浏览器和Gene Expression Atlas等,提供了丰富的基因组数据和注释信息。
生物信息学课件3
“-”表示间隔
26
多序列FASTA
>sequence1, E. coli ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgcta gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc >sequence2, B. subtilis ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgcta gctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc >sequence3, B. natto ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgcta gctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcaggga gcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc
《生物信息学》PPT课件
53
完整版课件ppt
54
完整版课件ppt
55
完整版课件ppt
56
完整版课件ppt
57
完整版课件ppt
58
完整版课件ppt
59
重要生物信息学中心简介
NIG:National Institute of Genetics DDBJ: DNA Data Bank of Japan http://www.ddbj.nig.ac.jp
完整版课件ppt
32
完整版课件ppt
33
完整版课件ppt
34
完整版课件ppt
35
完整版课件ppt
36
完整版课件ppt
37
完整版课件ppt
38
完整版课件ppt
39
重要生物信息学中心简介
NIH:National Institute of Health NCBI:National Center of Biotechnology Institute NLM:National Library of Medicine http://www.ncbi.nlm.nih.gov/ GenBank, Unigene , Refseq, dbSNP, OMIM
EMBL识别标志: GenBank识别字:
ID
LOCUS
AC
ACCESSION
17第九章-生物信息数据库检索
GenBank主页
(二)GenBank数据的获取
– 1.Entrez检索 – 是NCBI生物信息数据库集成检索系统,
可以获取以下6类生物信息数据。
• (1)文献及其相关信息; • (2)健康相关信息; • (3)基因组相关信息; • (4)基因相关信息; • (5)蛋白质相关信息; • (6)化学相关信息。
(三)生物信息学中心资源导航
– 一些著名的生物信息学中心不仅自己建立和 维护大量的生物信息数据库,而且一般在网 上提供资源导航,如NCBI、EBI等。
《Nucleic Acids Research》设立的一个数据库目录
第二节 核酸序列数据库
一、GenBank
(一)概述
– GenBank是由美国国家生物技术信息中心 (NCBI)管理和维护的综合性公共核酸序 列数据库,收录了所有已知的核酸序列和蛋 白质序列,以及相关的文献和生物学注释。
3.TXSearch(Taxonomy Retrieval):
是一种根据生物分类学的分类名称作为关键 词进行检索的检索途径。
DDBJ检索与分析页面
第三节 蛋白质数据库
一、蛋白质序列数据库
(一)PIR • 蛋白质信息资源(PIR)是由美国国家生物
医学研究基金会(NBRF)于1984年创建的 一个综合性公共生物信息学资源。
– 2.BLAST序列相似性搜索
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
组学数据库分类
• 一级数据库:通过收集组学数据构建的数 据库
• 二级和三级数据库:对一级数据库数据进 一步分析、归纳和整理,目的性和实用性
– TRANSFAC:转录因子和结合位点数据库 – SMART、pFam数据库:收录了可能的蛋白质
结构域信息,并提供了特定算法工具
7
生物信息学数据库的地位和作用
大规模组学研究
• 上世纪90年代初启动人类基因组计划,短 时间内产生海量生物学数据
• 随着基因组计划进行,多种相关高通量研 究逐渐开展起来
– 基于表达序列标签(EST)和DNA微阵列的高 通量转录组研究
– 基于生物质谱的蛋白质组表达谱和修饰谱研究 – 基于酵母双杂交等技术的高通量蛋白质-蛋白质
相互作用组研究 – 代谢组等相关的组学研究
• 研究目标是发展和利用先进计算技术解决生物 学难题
2
生物信息学数据库
• 大量生物学数据的存储和利用离不开数据 库
• 用于结构化存储生物数据,以便进一步对 数据进行分析和利用
3
数据库的数据来源
• 两大主要来源
– 经典的生物医学研究:大量生物医学科 研工作者根据自己的兴趣开展的个别研 究
– 大规模组学研究:代表性工作是大规模 人类基因组学和蛋白质组学研究
3. Protein sequence databases
蛋白质序列数据库
4. Structure Databases
结构数据库
5. Genomics Databases (non-vertebrate) 基因组数据库(非脊椎动物)
6. Metabolic and Signaling Pathways 代谢和信号通路
生物信息学数据库
信息检索教研室 薛晓芳
2010年11月2日
1
生物信息学概念
• 生物信息学是对生物学数据进行收集、处理、 存储、检索和分析的一门交叉学科
• 研究生物信息的采集、处理、存储、传布、分 析和解释等各个方面,通过综合数学、计算机 科学和生物学的工具与技术来揭示大量而复杂 的生物数据所赋有的生物学奥秘
将国际上生物学数据库归纳为14类 (http://www.oxfordjournals.org/nar/databas e/c/)
9
10
《核酸研究》的14类数据库
1. Nucleotide Sequence Databases
核酸序列数据库
2. RNA sequence databases
RNA序列数据库
• UCSC Genome Browser,加州大学圣克鲁兹分校 建立,包括各种脊椎和无脊椎动物,以及主要模式 生物的基因组数据 http://genome.ucsc.edu/
15
一、序列数据库(核酸)
• GenBank、EMBL、DDBJ http://www.ncbi.nlm.nih.gov/Genbank, http://www.ebi.ac.uk/embl/, http://www.ddbj.nig.ac.jp/
14
一、序列数据库(基因组)
• Genome Database(GDB)数据库 • Ensembl,由EMBL - EBI和Sanger研究所联合开
发,对后生动物基因组的自动注释和维护 http://www.ensemblgenomes.org/
– 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要 依据已测序获得的基因组序列,定位所有已知基因,并预测未知 新基因,同时为这些基因提供功能、疾病相关特征等方面的注释 信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测 方法的限制,该系统整合了多种预测方法,并提供了各种预测方 法结果的下载
12
主要内容
• 生物信息学数据库类型
– 序列数据库 – 结构数据库 – 功能数据库 – 其它专业数据库
• 生物信息学数据库的检索
– 检索方法概述 – 检索实践和案例
13
一、序列数据库
• 主要收录核酸和蛋白质序列数据 • 包括由基因组计划产生的基因组及其表达
序列,由基因组序列所推测的编码和非编 码核酸和蛋白质序列,以及个别生物学实 验中测序获得的核酸和蛋白质序列
– 三个数据库每天互相交换数据 – GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自
主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、 蛋白结构和结构域等信息
• 各种专业核酸数据库
– 非冗余参考序列数据库RefSeq – 密码子使用数据库Codon Usage Database CUTG – 基因可变剪接数据库ASDB – 转录因子数据库TRANSFAC
11. Other Molecular Biology Databases 其他分子生物学数据库
12. Organelle databases
细胞器数据库
13. Plant databases
பைடு நூலகம்
植物数据库
14. Immunological databases
免疫学数据库
11
常用分类类型
• 序列数据库 • 结构数据库 • 功能数据库 • 其它专业数据库
经典生物医学实验 大量零碎数据 数据收集整理
大规模组学实验 海量组学数据 数据存储、注释
检索查询
数据库 理论分析
生物学研究
生物医学应用 8
生物信息学数据库类型
• 核酸研究(Nucleic Acids Research)杂志 • 每年第一期为生物信息学数据库专刊,收录
最主要的生物学相关数据库 • 2010年的核酸研究杂志提供的数据库列表
7. Human and other Vertebrate Genomes 人和其他脊椎基因组
8. Human Genes and Diseases
人基因和疾病
9. Microarray Data and other Gene Expression Databases
10. Proteomics Resources微阵列和其他基因表达数据库蛋白质组资源
4
经典生物医学研究
• 针对某较小领域开展深入研究,采集的生 物学数据
• 对大量零碎的生物学数据,进一步收集、 整理和利用,对推动生物医学的研究有重 要意义
– 最具代表性的是KEGG数据库,该数据库整理 收录了大量代谢网络(PATHWAY)的研究成 果,描绘了生物体内代谢网络涉及的各种分子 及关系
5
组学数据库分类
• 一级数据库:通过收集组学数据构建的数 据库
• 二级和三级数据库:对一级数据库数据进 一步分析、归纳和整理,目的性和实用性
– TRANSFAC:转录因子和结合位点数据库 – SMART、pFam数据库:收录了可能的蛋白质
结构域信息,并提供了特定算法工具
7
生物信息学数据库的地位和作用
大规模组学研究
• 上世纪90年代初启动人类基因组计划,短 时间内产生海量生物学数据
• 随着基因组计划进行,多种相关高通量研 究逐渐开展起来
– 基于表达序列标签(EST)和DNA微阵列的高 通量转录组研究
– 基于生物质谱的蛋白质组表达谱和修饰谱研究 – 基于酵母双杂交等技术的高通量蛋白质-蛋白质
相互作用组研究 – 代谢组等相关的组学研究
• 研究目标是发展和利用先进计算技术解决生物 学难题
2
生物信息学数据库
• 大量生物学数据的存储和利用离不开数据 库
• 用于结构化存储生物数据,以便进一步对 数据进行分析和利用
3
数据库的数据来源
• 两大主要来源
– 经典的生物医学研究:大量生物医学科 研工作者根据自己的兴趣开展的个别研 究
– 大规模组学研究:代表性工作是大规模 人类基因组学和蛋白质组学研究
3. Protein sequence databases
蛋白质序列数据库
4. Structure Databases
结构数据库
5. Genomics Databases (non-vertebrate) 基因组数据库(非脊椎动物)
6. Metabolic and Signaling Pathways 代谢和信号通路
生物信息学数据库
信息检索教研室 薛晓芳
2010年11月2日
1
生物信息学概念
• 生物信息学是对生物学数据进行收集、处理、 存储、检索和分析的一门交叉学科
• 研究生物信息的采集、处理、存储、传布、分 析和解释等各个方面,通过综合数学、计算机 科学和生物学的工具与技术来揭示大量而复杂 的生物数据所赋有的生物学奥秘
将国际上生物学数据库归纳为14类 (http://www.oxfordjournals.org/nar/databas e/c/)
9
10
《核酸研究》的14类数据库
1. Nucleotide Sequence Databases
核酸序列数据库
2. RNA sequence databases
RNA序列数据库
• UCSC Genome Browser,加州大学圣克鲁兹分校 建立,包括各种脊椎和无脊椎动物,以及主要模式 生物的基因组数据 http://genome.ucsc.edu/
15
一、序列数据库(核酸)
• GenBank、EMBL、DDBJ http://www.ncbi.nlm.nih.gov/Genbank, http://www.ebi.ac.uk/embl/, http://www.ddbj.nig.ac.jp/
14
一、序列数据库(基因组)
• Genome Database(GDB)数据库 • Ensembl,由EMBL - EBI和Sanger研究所联合开
发,对后生动物基因组的自动注释和维护 http://www.ensemblgenomes.org/
– 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要 依据已测序获得的基因组序列,定位所有已知基因,并预测未知 新基因,同时为这些基因提供功能、疾病相关特征等方面的注释 信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测 方法的限制,该系统整合了多种预测方法,并提供了各种预测方 法结果的下载
12
主要内容
• 生物信息学数据库类型
– 序列数据库 – 结构数据库 – 功能数据库 – 其它专业数据库
• 生物信息学数据库的检索
– 检索方法概述 – 检索实践和案例
13
一、序列数据库
• 主要收录核酸和蛋白质序列数据 • 包括由基因组计划产生的基因组及其表达
序列,由基因组序列所推测的编码和非编 码核酸和蛋白质序列,以及个别生物学实 验中测序获得的核酸和蛋白质序列
– 三个数据库每天互相交换数据 – GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自
主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、 蛋白结构和结构域等信息
• 各种专业核酸数据库
– 非冗余参考序列数据库RefSeq – 密码子使用数据库Codon Usage Database CUTG – 基因可变剪接数据库ASDB – 转录因子数据库TRANSFAC
11. Other Molecular Biology Databases 其他分子生物学数据库
12. Organelle databases
细胞器数据库
13. Plant databases
பைடு நூலகம்
植物数据库
14. Immunological databases
免疫学数据库
11
常用分类类型
• 序列数据库 • 结构数据库 • 功能数据库 • 其它专业数据库
经典生物医学实验 大量零碎数据 数据收集整理
大规模组学实验 海量组学数据 数据存储、注释
检索查询
数据库 理论分析
生物学研究
生物医学应用 8
生物信息学数据库类型
• 核酸研究(Nucleic Acids Research)杂志 • 每年第一期为生物信息学数据库专刊,收录
最主要的生物学相关数据库 • 2010年的核酸研究杂志提供的数据库列表
7. Human and other Vertebrate Genomes 人和其他脊椎基因组
8. Human Genes and Diseases
人基因和疾病
9. Microarray Data and other Gene Expression Databases
10. Proteomics Resources微阵列和其他基因表达数据库蛋白质组资源
4
经典生物医学研究
• 针对某较小领域开展深入研究,采集的生 物学数据
• 对大量零碎的生物学数据,进一步收集、 整理和利用,对推动生物医学的研究有重 要意义
– 最具代表性的是KEGG数据库,该数据库整理 收录了大量代谢网络(PATHWAY)的研究成 果,描绘了生物体内代谢网络涉及的各种分子 及关系
5