生物信息学及其发展历史

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.4 基因组演化与物种演化
尽管已经在分子演化方面取得了许多重要的成就,但 仅仅依靠某些基因或者分子的演化现象,就想阐明物种 整体的演化历史似乎不太可靠。例如,智人与黑猩猩之 间有98%-99%的结构基因和蛋白质是相同的,然而表 型上却具有如此巨大的差异,这就不能不使我们联想到 形形色色千差万别的建筑楼群,它们的外观如此不同, 但基础的部件组成却是几乎一样的,差别就在于这些基 础部件的组织方式不同,这就提示我们基因组整体组织 方式而不仅仅是个别基因在研究物种演化历史中的重要 作用。由于基因组是物种所有遗传信息的储藏库,从根 本上决定着物种个体的发育和生理,因此,从基因组整 体结构组织和整体功能调节网络方面,结合相应的生 理表征现象,进行基因组整体的演化研究,将是揭示 物种真实演化历史的最佳途径。
http://www.biosino.org/bioinformatics/。
第三节 生物信息学主要研究内容
生物信息学主要研究内容
1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测
1、 生物分子数据的收集与管理
EMBL
1.3 基因组整体功能及其调节网络的系统把握
把握生命的本质,仅仅掌握基因组中部分基 因的表达调控是远远不够的,因为生命现象是 基因组中所有功能单元相互作用共同制造出来 的。基因芯片技术由于可以监测基因组在各种 时间断面上的整体转录表达状况,因此成为该 领域中一项非常重要和关键的实验技术,对该 技术所产生的大量实验数据进行高效分析,从 中获得基因组运转以及调控的整体系统的机制 或者是网络机制,便成了生物信息学在该领域 中首先要解决的问题。
1.2 非蛋白编码区生物学意义的分析
非蛋白编码区约占人类基因组的95%,其生物 学意义目前尚不是很清楚,但从演化观点来看, 其中必然蕴含着重要的生物学功能,由于它们并 不编码蛋白,一般认为,它们的生物学功能可能 体现在对基因表达的时空调控上。
对非蛋白编码区进行生物学意义分析的策略有
两种,一种是基于已有的已经为实验证实的所有 功能已知的DNA元件的序列特征,预测非蛋白编 码区中可能含有的功能已知的DNA元件,从而预 测其可能的生物学功能,并通过实验进行验证; 另一种则是通过数理理论直接探索非蛋白编码区 的新的未知的序列特征,并从理论上预测其可能 的信息含义,最后同样通过实验验证。
通过比较相似的蛋白质序列,如肌红 蛋白和血红蛋白,可以发现由于基因复 制而产生的分子进化证据。
通过比较来自于不同种属的同源蛋白质, 即直系同源蛋白质,可以分析蛋白质甚 至种属之间的系统发生关系,推测它们 共同的祖先蛋白质。
生物分子数据类型
DNA序列数据
最基本

蛋白质序列数据



生物分子结构数据
生物分子
数据
+
计算机 计算
2、生物分子信息
分子 细胞
生物信息的载体
存贮、复制、传递和表达 遗传信息的系统
生物信息学主要研究两种信息载体
DNA分子 蛋白质分子
Protein Machines
From the Cell to Protein Machines
生物分子至少携带着三种信息
20世纪80年代以后,出现一批生物信息服务机 构和生物信息数据库
20世纪90年代后 ,HGP促进生物信息学的迅速 发展
关于生物信息学发展历程中的重要大事, 请参见下面两个网站的介绍:
http://www.ncbi.nlm.nih.gov/Education /BLASTinfo/milestones.html、
概念(狭义)
生物分子信息的获取、存贮、分析和利用
分子生物信息学 Molecular
Bioinformatics
生物 分子数据
获取 挖掘
深层次 生物学知识
由于当前生物信息学发展的主要推动 力来自分子生物学,生物信息学的研究 主要集中于核苷酸和氨基酸序列的存储、 分类、检索和分析等方面,所以目前生 物信息学可以狭义地定义为:将计算机 科学和数学应用于生物大分子信息的获 取、加工、存储、分类、检索与分析, 以达到理解这些生物大分子信息的生物 学意义的交叉学科。
基因控制着蛋白质的合成
转录
DNA
翻译
RNA
蛋白 质
基因的DNA序列








蛋白质序列
DNA 前体RNA mRNA
多肽链
(2)蛋白质的结构决定其功能
蛋白质功能取决于蛋白质的空间结构
蛋白质结构决定于蛋白质的序列(这是 目前基本共认的假设),蛋白质结构的 信息隐含在蛋白质序列之中。
(3) DNA分子和蛋白质分子 都含有进化信息
对于第二部密码,目前则只能用统计学的方法进行分 析
无论是第一部遗传密码,还是第二部遗传密码,都隐 藏在大量的生物分子数据之中。
生物分子数据是宝藏, 生物信息数据库是金矿, 等待我们去挖掘和利用。
生物分子信息的特征
生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系
3、生物信息学的发展历史
第二节 生物信息学及其发展历史
1、生物信息学的概念
生物信息学(Bioinformatics) 这一名词的来由
八十年代末期,林华安博士认识到将计算机科学与生 物学结合起来的重要意义,开始留意要为这一领域构思 一个合适的名称。起初,考虑到与将要支持他主办一系 列生物信息学会议的佛罗里达州立大学超型计算机计算 研究所的关系,他使用的是“CompBio”;之后,又将其 更改为兼具法国风情的“bioinformatique”,看起来似乎 有些古怪。因此不久,他便进一步把它更改为“bioinformatics(或bio/informatics)”。但由于当时的电子 邮件系统与今日不同,该名称中的-或/符号经常会引起许 多系统问题,于是林博士将其去除,今天我们所看到的 “bioinformatics”就正式诞生了,林博士也因此赢得了 “生物信息学之父”的美誉。
多重序列比对研究的是多个序列的共性。序列 的多重比对可用来搜索基因组序列的功能区域, 也可用于研究一组蛋白质之间的进化关系。
发现同源分子
3、 基因组序列分析
遗传语言分析——天书 基因组结构分析 基因识别 基因功能注释 基因调控信息分析 基因组比较
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热 点和重点


生物分子功能数据
直 观
复杂
第一部 遗传密码
第二部 遗传密码?
DNA 核酸序列
蛋白质 氨基酸序列
蛋白质 结构
蛋白质 功能
最基本的 生物信息
生命体系千姿 百态的变化
生物分子数据及其关系
维持生命活 动的机器
第一部遗传密码已被破译,但对密码的转录过程还不 清楚,对大多数DNA非编码区域的功能还知之甚少
1995年,在美国人类基因组计 划(HGP)第一个五年总结报告 中给出了一个较为完整的生物信息 学的定义:生信息学是包含生物信 息的获取、处理、贮存、分发、分 析和解释的所有方面的一门学科, 它综合运用数学、计算机科学和生 物学的各种工具进行研究,目的在 于了解大量的生物学意义。
Bioinformatics
预测准确率超过70%的第一个软件是基于神经网络的 PHD系统
空间结构预测
在空间结构预测方面,比较成功的理论 方法是同源模型法
该方法的依据是:相似序列的蛋白质倾 向于折叠成相似的三维空间结构
运用同源模型方法可以完成所有蛋白质 10-30%的空间结构预测工作
第四节 生物信息学当前的主要任务
纵观当今生物信息学界的现 状,可以发现,大部分人都 把注意力集中在基因组、蛋 白质组、蛋白质结构以及与 之相结合的药物设计上
1. 基因组
1.1 新基因的发现
通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区, 也就是通俗所说的“电子克隆”;通过计算分 析从基因组DNA序列中确定新基因编码区,经过 多年的积累,已经形成许多分析方法,如根据 编码区具有的独特序列特征、根据编码区与非 编码区在碱基组成上的差异、根据高维分布的 统计方法、根据神经网络方法、根据分形方法 和根据密码学方法等。
目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能
所用方法主要有:
相关分析方法 模式识别技术中的层次式聚类方法 人工智能中的自组织映射神经网络 主元分析方法
基因芯片
层次式聚类
二 维 电 泳 图
5、蛋白质结构预测
2、蛋白质组
基因组对生命体的整体控制必须通过它所表达的全部 蛋白质来执行,由于基因芯片技术只能反映从基因组到 RNA的转录水平上的表达情况,由于从RNA到蛋白质还有 许多中间环节的影响,因此仅凭基因芯片技术我们还不 能最终掌握生物功能具体执行者——蛋白质的整体表达 状况;
因此,近几年在发展基因芯片的同时,人们也发展了 一套研究基因组所有蛋白质产物表达情况——蛋白质组 研究技术,从技术上来讲包括二维凝胶电泳技术和质谱 测序技术。通过二维凝胶电泳技术可以获得某一时间截 面上蛋白质组的表达情况,通过质谱测序技术就可以得 到所有这些蛋白质的序列组成。这些都是技术实现问题, 最重要的就是如何运用生物信息学理论方法去分析所得 到的巨量数据,从中还原出生命运转和调控的整体系统 的分子机制。
遗传信息 与功能相关的结构信息 进化信息
(1)遗传信息的载体——DNA
遗传信息的载体主要是DNA
控制生物体性状的基因是一 系列DNA片段
生物体生长发育的本质就是遗 传信息的传递和表达
DNA通过自我复制,在生物体的繁衍过 程中传递遗传信息
基因通过转录和翻译,使遗传信息在生物 个体中得以表达,并使后代表现出与亲代 相似的生物性状。
生物科学和 技术的 发展
人类基因组 计划的 推动
生物信息学 基本思想的产生
二十世纪 50百度文库代
生物信息学 的迅速发展
二十世纪 80-90年代
20世纪50年代,生物信息学开始孕育
20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来
20世纪70年代,生物信息学的真正开端
20世纪70年代到80年代初期 ,出现了一系列著 名的序列比较方法和生物信息分析方法
基因组 数据库
GenBank DDBJ
蛋白质 序列 数据库
SWISS-PROT PIR
蛋白质
PDB
结构
数据库
2、 数据库搜索及序列比较
搜索同源序列在一定程度上就是通过序列比较 寻找相似序列
序列比较的一个基本操作就是比对 (Alignment),即将两个序列的各个字符 (代表核苷酸或者氨基酸残基)按照对应等同 或者置换关系进行对比排列,其结果是两个序 列共有的排列顺序,这是序列相似程度的一种 定性描述
生物信息学(bioinformatics)是 80年代未随着人类基因组计划 (Human genomeproject)的启动 而兴起的一门新的交叉学科。它涉 及生物学、数学、计算机科学和工 程学,依赖于计算机科学、工程学 和应用数学的基础,依赖于生物实 验和衍生数据的大量储存。
概念(广义) 生
蛋白质的生物功能由蛋白质的结构所决定 ,蛋 白质结构预测成为了解蛋白质功能的重要途径
蛋白质结构预测分为:
二级结构预测 空间结构预测
蛋白质折叠
二级结构预测
在一定程度上二级结构的预测可以归结为模式识别问题
在二级结构预测方面主要方法有:
立体化学方法 图论方法 统计方法 最邻近决策方法 基于规则的专家系统方法 分子动力学方法 人工神经网络方法
生物体系和过程中信息

的存贮、传递和表达



信息科学


细胞、组织、器官的生理、病理 、药理过程的中各种生物信息
息 科 学
广义的说,生物信息不仅包括基因组信息,如 基因的DNA序列、染色体定位,也包括基因产 (蛋白质或RNA)的结构和功能及各生物种间 的进化关系等其他信息资源。生物信息学既涉 基因组信息的获取、处理、贮存、传递、分析 和解释,又涉及蛋白质组信息学如蛋白质的序 列、结构、功能及定位分类、蛋白质连锁图、 蛋白质数据库的建立、相关分析软件的开发和 应用等方面,还涉及基因与蛋白质的关系如蛋 白质编码基因的识别及算法研究、蛋白质结构、 功能预测等,另外,新药研制、生物进化也是 生物信息学研究的热点。
相关文档
最新文档