科学前沿 生物信息学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析方面有着重要的应用。与隐马尔科夫模型相关 的技术是马尔科夫链(Markov Chain)
2020/1/29
18
2、机器学习与模式识别技术
机器学习
– 机器学习是模拟人类的学习过程,以计算机为工具获 取知识、积累经验
1、遗传算法采用随机搜索方法,具有自适应能力和便于并 行计算
2、神经网络的理论是基于人脑的结构,其目的是揭示一个 系统是如何向环境学习的,这一种方法被称为联接主义。
2020/1/29
4
生物信息学主要研究两种信息载体: (1)DNA分子
相关资料:
①遗传信息的载体主要是DNA
②控制生物体性状的基因是一系列DNA片段
③生物体生长发育的本质就是遗传信息的传递和表达
(2)蛋白质分子
2020/1/29
相关资料:
①蛋白质功能取决于蛋白质的空间结构 ②蛋白质结构决定于蛋白质的序列(这是目前基本共 认的假设),蛋白质结构的信息隐含在蛋白质序列之 中
5
2、生物信息学的目标和任务
收集和管理生物分子数据
数据分析和挖掘
开发分析工具和实用软件
生物分子序列比较工具 基因识别工具 生物分子结构预测工具 基因表达数据分析工具
2020/1/29
3、生物信息学研究意义
认识生物本质
-了解生物分子信息的组织和结构,破译基因组信 息,阐明生物信息之间的关系。
多重序列比对研究的是多个序列的共性。序列的多重比对可 用来搜索基因组序列的功能区域,也可用于研究一组蛋白质 之间的进化关系。
2020/1/29
12
发现同源分子
2020/1/29
13
3、 基因组序列分析
遗传语言分析 基因组结构分析 基因识别 基因功能注释 基因调控信息分析 基因组比较
模式识别
– 模式识别是机器学习的一个主要任务。模式是对感兴 趣客体定量的或者结构的描述,而模式识别就是利用 计算机对客体进行鉴别,将相同或者相似的客体归入 同种类别中
– 模式识别主要有两种方法:
根据对象的统计特征进行识别,
根据对象的结构特征进行识别
2020/1/29
百度文库19
3、分子模型化技术
2020/1/29
17
1、数学统计方法
生物活动常常以大量、重复的形式出现,既受到内 在因素的制约,又受到外界环境的随机干扰。因此
概率论和数学统计是现代生物学研究中一种常用的 分析方法
数据统计、因素分析、多元回归分析是生物学研究 必备的工具
隐马尔科夫模型(Hidden Markov Models)在序列
改变生物学的研究方式
-改变传统研究方式,引进现代信息学方法
在医学上的重要意义
-为疾病的诊断和治疗提供依据 -为设计新药提供依据
2020/1/29
7
第二节 生物信息学的发展历史
生物科学和 技术的 发展
人类基因组 计划的 推动
生物信息学 基本思想的产生
生物信息学 的迅速发展
2020/1/29
8
2020/1/29
14
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热 点和重点
目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基
础上寻找相关基因,分析基因的功能
所用方法主要有:
– 相关分析方法 – 模式识别技术中的层次式聚类方法 – 人工智能中的自组织映射神经网络 – 主元分析方法
的诞生
2020/1/29
3
第一节 引言
1、生物信息学概念
生物信息学指对基因组研究中的相关生物分子信息的获取、加 工、存储、分配、分析和解释。
①对海量数据的收集、整理与服务 ②从中发现新的规律
具体来说,生物信息学是把基因组DNA序列信息作为源头,找到基因组序列 中代表蛋白质和RNA基因的编码区,同时阐明基因组中大量存在的非编码区的信 息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上归纳、整理与基因 组遗传信息释放及调控相关的转录普和蛋白质普的数据,从而认识生物有机体 的代谢、发育、分化、进化规律。
生物信息学简介
2020/1/29
云南民族大学附属中学
李开敬
第一节 引言
目录
第二节 生物信息学的发展历史
第三节 目前生物信息学主要研究内容
第四节 生物信息学所用的方法和技术
2020/1/29
2
第一节 引言
1、生物信息学概念
生物数据的激增 (每15个月翻一番)
生物学家
数学家
计算机 科学家
生物信息学 (bioinfomatics)
分子模型化(Molecular modeling)是利用计算机 模拟分子结构、研究分子之间相互作用的一种技术
基因组 数据库
EMBL GenBank
DDBJ
蛋白质 序列 数据库
SWISS-PROT PIR
蛋白质
PDB
结构
2020/1/29
数据库
11
2、 数据库搜索及序列比较
搜索同源序列在一定程度上就是通过序列比较寻找相似序列
序列比较的一个基本操作就是比对(Alignment),即将两 个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应 等同或者置换关系进行对比排列,其结果是两个序列共有的 排列顺序,这是序列相似程度的一种定性描述
发展历史
20世纪50年代,生物信息学开始孕育
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来
20世纪70年代,生物信息学的真正开端
20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息 分析方法
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库
20世纪90年代后 ,HGP(人类基因组计划)促进生物信息学的迅速发展
2020/1/29
9
第三节 目前生物信息学主要研究内容
1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测
2020/1/29
10
1、 生物分子数据的收集与管理
2020/1/29
15
5、蛋白质结构预测
蛋白质的生物功能由蛋白质的结构所决定 ,蛋白 质结构预测成为了解蛋白质功能的重要途径。
蛋白质结构预测分为:
-二级结构预测 -空间结构预测
2020/1/29
16
第四节 生物信息学所用的方法和技术
1、数学统计方法 2、机器学习与模式识别技术 3、分子模型化技术 4、生物分子的计算机模拟
2020/1/29
18
2、机器学习与模式识别技术
机器学习
– 机器学习是模拟人类的学习过程,以计算机为工具获 取知识、积累经验
1、遗传算法采用随机搜索方法,具有自适应能力和便于并 行计算
2、神经网络的理论是基于人脑的结构,其目的是揭示一个 系统是如何向环境学习的,这一种方法被称为联接主义。
2020/1/29
4
生物信息学主要研究两种信息载体: (1)DNA分子
相关资料:
①遗传信息的载体主要是DNA
②控制生物体性状的基因是一系列DNA片段
③生物体生长发育的本质就是遗传信息的传递和表达
(2)蛋白质分子
2020/1/29
相关资料:
①蛋白质功能取决于蛋白质的空间结构 ②蛋白质结构决定于蛋白质的序列(这是目前基本共 认的假设),蛋白质结构的信息隐含在蛋白质序列之 中
5
2、生物信息学的目标和任务
收集和管理生物分子数据
数据分析和挖掘
开发分析工具和实用软件
生物分子序列比较工具 基因识别工具 生物分子结构预测工具 基因表达数据分析工具
2020/1/29
3、生物信息学研究意义
认识生物本质
-了解生物分子信息的组织和结构,破译基因组信 息,阐明生物信息之间的关系。
多重序列比对研究的是多个序列的共性。序列的多重比对可 用来搜索基因组序列的功能区域,也可用于研究一组蛋白质 之间的进化关系。
2020/1/29
12
发现同源分子
2020/1/29
13
3、 基因组序列分析
遗传语言分析 基因组结构分析 基因识别 基因功能注释 基因调控信息分析 基因组比较
模式识别
– 模式识别是机器学习的一个主要任务。模式是对感兴 趣客体定量的或者结构的描述,而模式识别就是利用 计算机对客体进行鉴别,将相同或者相似的客体归入 同种类别中
– 模式识别主要有两种方法:
根据对象的统计特征进行识别,
根据对象的结构特征进行识别
2020/1/29
百度文库19
3、分子模型化技术
2020/1/29
17
1、数学统计方法
生物活动常常以大量、重复的形式出现,既受到内 在因素的制约,又受到外界环境的随机干扰。因此
概率论和数学统计是现代生物学研究中一种常用的 分析方法
数据统计、因素分析、多元回归分析是生物学研究 必备的工具
隐马尔科夫模型(Hidden Markov Models)在序列
改变生物学的研究方式
-改变传统研究方式,引进现代信息学方法
在医学上的重要意义
-为疾病的诊断和治疗提供依据 -为设计新药提供依据
2020/1/29
7
第二节 生物信息学的发展历史
生物科学和 技术的 发展
人类基因组 计划的 推动
生物信息学 基本思想的产生
生物信息学 的迅速发展
2020/1/29
8
2020/1/29
14
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热 点和重点
目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基
础上寻找相关基因,分析基因的功能
所用方法主要有:
– 相关分析方法 – 模式识别技术中的层次式聚类方法 – 人工智能中的自组织映射神经网络 – 主元分析方法
的诞生
2020/1/29
3
第一节 引言
1、生物信息学概念
生物信息学指对基因组研究中的相关生物分子信息的获取、加 工、存储、分配、分析和解释。
①对海量数据的收集、整理与服务 ②从中发现新的规律
具体来说,生物信息学是把基因组DNA序列信息作为源头,找到基因组序列 中代表蛋白质和RNA基因的编码区,同时阐明基因组中大量存在的非编码区的信 息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上归纳、整理与基因 组遗传信息释放及调控相关的转录普和蛋白质普的数据,从而认识生物有机体 的代谢、发育、分化、进化规律。
生物信息学简介
2020/1/29
云南民族大学附属中学
李开敬
第一节 引言
目录
第二节 生物信息学的发展历史
第三节 目前生物信息学主要研究内容
第四节 生物信息学所用的方法和技术
2020/1/29
2
第一节 引言
1、生物信息学概念
生物数据的激增 (每15个月翻一番)
生物学家
数学家
计算机 科学家
生物信息学 (bioinfomatics)
分子模型化(Molecular modeling)是利用计算机 模拟分子结构、研究分子之间相互作用的一种技术
基因组 数据库
EMBL GenBank
DDBJ
蛋白质 序列 数据库
SWISS-PROT PIR
蛋白质
PDB
结构
2020/1/29
数据库
11
2、 数据库搜索及序列比较
搜索同源序列在一定程度上就是通过序列比较寻找相似序列
序列比较的一个基本操作就是比对(Alignment),即将两 个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应 等同或者置换关系进行对比排列,其结果是两个序列共有的 排列顺序,这是序列相似程度的一种定性描述
发展历史
20世纪50年代,生物信息学开始孕育
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来
20世纪70年代,生物信息学的真正开端
20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息 分析方法
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库
20世纪90年代后 ,HGP(人类基因组计划)促进生物信息学的迅速发展
2020/1/29
9
第三节 目前生物信息学主要研究内容
1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测
2020/1/29
10
1、 生物分子数据的收集与管理
2020/1/29
15
5、蛋白质结构预测
蛋白质的生物功能由蛋白质的结构所决定 ,蛋白 质结构预测成为了解蛋白质功能的重要途径。
蛋白质结构预测分为:
-二级结构预测 -空间结构预测
2020/1/29
16
第四节 生物信息学所用的方法和技术
1、数学统计方法 2、机器学习与模式识别技术 3、分子模型化技术 4、生物分子的计算机模拟