第01讲生物信息学概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定义二:生物信息学特指数据库类的工作,包括持 久稳固的在一个稳定的地方提供对数据的支持 (1994)
定义三:采用信息科学技术,对各种生物信息(包 括核酸、蛋白质等)的收集、加工、储存、分析、 解释的一门学科。
收集、加工、储存:计算机科学家 分析、解释:生物学家
三、生物信息学发展简史
(一)前基因组时代的生物信息学Βιβλιοθήκη Baidu
起源于20世纪70-80年代。这一阶段的主要成 就包括核酸和蛋白质序列的初步分析、生物学数据 库的建立以及检索工具的开发。例如Dayhoff的替 换矩阵、Neelleman和Wunsch的序列比对及GenBank (由美国国立生物技术信息中心建立和维护的核酸 与蛋白质序列数据库)等大型数据库的建立,形成 了生物信息学的雏形。
翻译
RNA
蛋白 质
2020/9/18
4
2020/9/18
DNA 前体RNA
mRNA
多肽链
生命机器的执行者--蛋白质
蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认 的假设),蛋白质结构的信息隐含在蛋白质序列之中。
2020/9/18
DNA分子和蛋白质分子都含有进化信息
(二)基因组时代的生物信息学
以基因组计划的实施为标志的基因组时代(1990年至2001 年)是生物信息学成为一个较完整的新兴学科并得到高速 发展的时期。这一时期生物信息学确立了自身的研究领域 和学科特征,成为生命科学的热点学科和重要前沿领域之 一。
这一阶段的主要成就包括大分子序列以及表达序列标签 (expressed sequence tag,EST)数据库的高速发展、 BLAST(basic local alignment search tool)和FASTA (fast alignment)等工具软件的研制和相应新算法的提 出、基因的寻找与识别、电子克隆(in silico cloning) 技术等,大大提高了管理和利用海量数据的能力。
分
子
信
生物分子结构数据
息
2020/9/18
生物分子功能数据
直观 复杂
生物分子数据及其关系
第一部 遗传密码
第二部 遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
2020/9/18
生命体系千姿百 态的变化
维持生命活 动的机器
9
第一部遗传密码已被破译,但对密码的转录过程还不清楚, 对大多数DNA非编码区域的功能还知之甚少
1967: Dayhoff研制出蛋白质序列图集,即后来著名的蛋白 质 信息源PIR;
1970: Needleman和Wunsch提出了著名的序列比对算法,是生物 信息学发展中最重要的贡献;
1978: Gingeras等人研制了核酸序列中酶切位点识别程序; 1981:Doolittle提出了关于序列模式的概念; 1986: 日本核酸序列数据库DDBJ诞生; 1986: 蛋白质数据库SWISS-PROT诞生; 1988: 美国国家生物技术信息中心NCBI诞生; 1988: 成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生
20世纪90年代
人类基因组计划开始 (Human Genome Project, HGP)
人类基因组计划带来了
生物信息学
人类基因组计划
(HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘
由美国NIH和能源部提出和带头,美、英、德、 法、日、中共同参与的国际合作项目。 完成人全部24(22+X+Y)条染色体中3.2×109个碱基 对的序列测定,主要任务包括做图(遗传图谱、 物理图谱以及转录图谱的绘制)、测序和基因识 别,其根本任务是解读和破译生物体的生老病死 以及与疾病相关的遗传信息。
遗传信息的载体——DNA
遗传信息的载体主要是DNA
控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达 DNA通过自我复制,在生物体的繁衍过程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物个体中得以表达, 并使后代表现出与亲代相似的生物性状
转录
DNA
基因组(Genome): 包含细胞或生物体全套的 遗传信息的全部遗传物质 包括: 细胞核基因组DNA 细胞质(线粒体、叶绿体) 基因组DNA
人类基因组:3.2×109 bp 18
人类自然科学史上的 3 大计划
曼哈顿原子 弹计划
阿波罗登 月计划
人类基因组计划
At the White House on June 26, Francis Collins (r), Director of the National Human Genome Research Institute, President Clinton, and J. Craig Venter, President of Celara Genomics, lauded the thousands of scientists who contributed to the genome sequence.
第一章:生物信息学简介
什么是生物信息? 什么是生物信息学? 生物信息学的发展历史及人类基因组计划 生物信息学的主要研究内容
一. 生物信息
细胞
染色体
核酸
蛋白质结 构与功能
生物分子信息
生物分子至少携带着三种信息 遗传信息 与功能相关的结构信息 进化信息
生物分子信息的特征 生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
对于第二部密码,目前则只能用统计学的方法进行分析。 破译“第二遗传密码”:即折叠密码(folding code), 从蛋白质的一级结构得到立体结构,即可直接从基因推测其 编码蛋白质所对应的生物学功能。破解折叠密码被列为“21 世纪的生物学”的重要课题。
生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用
2020/9/18
二、生物信息学的概念
Bioinformatics,生物 + 信息 + 学 --新兴的交叉学科
Mathematical sciences
Computer sciences
Life sciences
定义一:生物信息学是一门收集、分析遗传数据以 及分发给研究机构的新学科 (1987)
通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白, 可以发现由于基因复制而产生的分子进化证据。
通过比较来自于不同种属的同源蛋白质,即直系同源蛋 白质,可以分析蛋白质甚至种属之间的系统发生关系, 推测它们共同的祖先蛋白质。
2020/9/18
7
生物信息数据类型
DNA序列数据
最基本 生
物
蛋白质序列数据
定义三:采用信息科学技术,对各种生物信息(包 括核酸、蛋白质等)的收集、加工、储存、分析、 解释的一门学科。
收集、加工、储存:计算机科学家 分析、解释:生物学家
三、生物信息学发展简史
(一)前基因组时代的生物信息学Βιβλιοθήκη Baidu
起源于20世纪70-80年代。这一阶段的主要成 就包括核酸和蛋白质序列的初步分析、生物学数据 库的建立以及检索工具的开发。例如Dayhoff的替 换矩阵、Neelleman和Wunsch的序列比对及GenBank (由美国国立生物技术信息中心建立和维护的核酸 与蛋白质序列数据库)等大型数据库的建立,形成 了生物信息学的雏形。
翻译
RNA
蛋白 质
2020/9/18
4
2020/9/18
DNA 前体RNA
mRNA
多肽链
生命机器的执行者--蛋白质
蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认 的假设),蛋白质结构的信息隐含在蛋白质序列之中。
2020/9/18
DNA分子和蛋白质分子都含有进化信息
(二)基因组时代的生物信息学
以基因组计划的实施为标志的基因组时代(1990年至2001 年)是生物信息学成为一个较完整的新兴学科并得到高速 发展的时期。这一时期生物信息学确立了自身的研究领域 和学科特征,成为生命科学的热点学科和重要前沿领域之 一。
这一阶段的主要成就包括大分子序列以及表达序列标签 (expressed sequence tag,EST)数据库的高速发展、 BLAST(basic local alignment search tool)和FASTA (fast alignment)等工具软件的研制和相应新算法的提 出、基因的寻找与识别、电子克隆(in silico cloning) 技术等,大大提高了管理和利用海量数据的能力。
分
子
信
生物分子结构数据
息
2020/9/18
生物分子功能数据
直观 复杂
生物分子数据及其关系
第一部 遗传密码
第二部 遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
2020/9/18
生命体系千姿百 态的变化
维持生命活 动的机器
9
第一部遗传密码已被破译,但对密码的转录过程还不清楚, 对大多数DNA非编码区域的功能还知之甚少
1967: Dayhoff研制出蛋白质序列图集,即后来著名的蛋白 质 信息源PIR;
1970: Needleman和Wunsch提出了著名的序列比对算法,是生物 信息学发展中最重要的贡献;
1978: Gingeras等人研制了核酸序列中酶切位点识别程序; 1981:Doolittle提出了关于序列模式的概念; 1986: 日本核酸序列数据库DDBJ诞生; 1986: 蛋白质数据库SWISS-PROT诞生; 1988: 美国国家生物技术信息中心NCBI诞生; 1988: 成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生
20世纪90年代
人类基因组计划开始 (Human Genome Project, HGP)
人类基因组计划带来了
生物信息学
人类基因组计划
(HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘
由美国NIH和能源部提出和带头,美、英、德、 法、日、中共同参与的国际合作项目。 完成人全部24(22+X+Y)条染色体中3.2×109个碱基 对的序列测定,主要任务包括做图(遗传图谱、 物理图谱以及转录图谱的绘制)、测序和基因识 别,其根本任务是解读和破译生物体的生老病死 以及与疾病相关的遗传信息。
遗传信息的载体——DNA
遗传信息的载体主要是DNA
控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达 DNA通过自我复制,在生物体的繁衍过程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物个体中得以表达, 并使后代表现出与亲代相似的生物性状
转录
DNA
基因组(Genome): 包含细胞或生物体全套的 遗传信息的全部遗传物质 包括: 细胞核基因组DNA 细胞质(线粒体、叶绿体) 基因组DNA
人类基因组:3.2×109 bp 18
人类自然科学史上的 3 大计划
曼哈顿原子 弹计划
阿波罗登 月计划
人类基因组计划
At the White House on June 26, Francis Collins (r), Director of the National Human Genome Research Institute, President Clinton, and J. Craig Venter, President of Celara Genomics, lauded the thousands of scientists who contributed to the genome sequence.
第一章:生物信息学简介
什么是生物信息? 什么是生物信息学? 生物信息学的发展历史及人类基因组计划 生物信息学的主要研究内容
一. 生物信息
细胞
染色体
核酸
蛋白质结 构与功能
生物分子信息
生物分子至少携带着三种信息 遗传信息 与功能相关的结构信息 进化信息
生物分子信息的特征 生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
对于第二部密码,目前则只能用统计学的方法进行分析。 破译“第二遗传密码”:即折叠密码(folding code), 从蛋白质的一级结构得到立体结构,即可直接从基因推测其 编码蛋白质所对应的生物学功能。破解折叠密码被列为“21 世纪的生物学”的重要课题。
生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用
2020/9/18
二、生物信息学的概念
Bioinformatics,生物 + 信息 + 学 --新兴的交叉学科
Mathematical sciences
Computer sciences
Life sciences
定义一:生物信息学是一门收集、分析遗传数据以 及分发给研究机构的新学科 (1987)
通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白, 可以发现由于基因复制而产生的分子进化证据。
通过比较来自于不同种属的同源蛋白质,即直系同源蛋 白质,可以分析蛋白质甚至种属之间的系统发生关系, 推测它们共同的祖先蛋白质。
2020/9/18
7
生物信息数据类型
DNA序列数据
最基本 生
物
蛋白质序列数据