生物信息学分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学分析
人类X染色体图谱(来自国家生物技术信息中心网站)。
生物信息学是一个跨学科的领域,目的是开发理解生物数据的方法和软件工具。生物信息学作为一个跨学科的科学领域,结合了生物学、计算机科学、信息工程、数学和统计学的相关知识用于分析和解释生物数据。通过数学和统计技术,生物信息学已经被用于对生物数据库进行计算机分析。
生物信息学既是生物研究主体的总称,该研究主体使用计算机编程作为其方法论的一部分;也是对重复使用的特定分析“管道”的引用,特别是在基因组学领域。生物信息学的常见用途包括候选基因的鉴定和单核苷酸多态性(SNPs)。通常,这种鉴定的目的是为了更好地理解疾病的遗传基础、独特的适应性、理想的特性(特别是农业物种)或种群间的差异。以一种不太正式的方式,生物信息学也试图理解核酸和蛋白质序列中的组织原则,称为蛋白质组学。
1 介绍
生物信息学已经成为生物学许多领域的重要组成部分。在实验分子生物学中,图像和信号处理等生物信息学技术允许从大量原始数据中提取有用的结果。在遗传学领域,它有助于对基因组及其观察到的突变进行测序和注释。它在生物文献的文本挖掘以及生物和基因本体的发展中起着组织和查询生物数据的作用。它还在基因和蛋白质表达和调
节的分析中发挥作用。生物信息学工具有助于比较遗传和基因组数据,更概括的说,有助于理解分子生物学的进化方面。在更综合的层面上,它有助于分析和编目作为系统生物学重要组成部分的生物路径和网络。在结构生物学中,它有助于对DNA、RNA、[2][3] 蛋白质[4] 以及生物分子间的相互作用进行模拟和建模。[5][6][7][8]
1.1 历史
历史上,生物信息学这个术语和它今天的意义并不一样。波利恩·霍格威和本·海茨帕在1970年创造了这个词,用来指对生物系统中信息过程的研究。[9][10][11] 这一定义将生物信息学定位为一个平行于生物化学(研究生物系统中的化学过程)的领域。[9]
序列
遗传物质序列在生物信息学中经常使用,使用计算机比手工更容易管理。
20世纪50年代初,弗雷德里克·桑格确定胰岛素序列后,蛋白质序列的获取成为可能,计算机成为分子生物学中的关键。手动比较多个序列被证明是不切实际的。这一领域的先驱是玛格丽特·奥克利·戴霍夫。[12] 她编译了第一批蛋白质序列数据库,最初作为书籍出版,[13] 并开创了序列比对和分子进化的方法。[14] 生物信息学的另一个早期贡献者是艾文·卡巴特,他在1970年开创了生物序列分析方
法,他在1980年至1991年间与泰特·吴一起发布了大量的抗体序列。[15]
1.2 目标
为了研究正常细胞活动在不同疾病状态下是如何改变的,生物数据必须结合起来,形成这些活动的综合图像。因此,生物信息学领域已经发展到现在最紧迫的任务是分析和解释各种类型的数据。这包括核苷酸和氨基酸序列、蛋白质结构域和蛋白质结构。[16] 分析和解释数据的实际过程被称为计算生物学。生物信息学和计算生物学中的重要子学科包括:
开发和执行计算机程序,使各种类型的信息能够得到有效的访问、使用和管理
开发评估大数据集之间关系的新算法(数学公式)和统计方法。例如,定位序列中的基因,预测蛋白质结构和/或功能,并将蛋白质序列聚类到相关序列的家族中等的各种方法。
生物信息学的主要目标是增加对生物过程的理解。然而,它与其他方法的不同之处在于它专注于开发和应用计算密集型技术来实现这一目标。例子包括:模式识别、数据挖掘、机器学习算法和可视化。该领域的主要研究工作包括序列比对、基因挖掘、基因组组装、药物设计、药物发现、蛋白质结构比对、蛋白质结构预测、基因表达预测和蛋白质-蛋白质相互作用、全基因组关联研究、进化和细胞分裂/有丝分裂
建模。
生物信息学现在需要创建和发展数据库、算法、计算和统计技术以及理论,用于解决生物数据管理和分析中出现的形式和实际问题。
在过去的几十年里,基因组和其他分子研究技术的快速发展以及信息技术的发展结合起来,产生了大量与分子生物学相关的信息。生物信息学是这些数学和计算方法的名称,用来收集对生物过程的理解。
生物信息学中常见的形式包括绘制和分析DNA和蛋白质序列,对DNA和蛋白质序列进行比较,以及创建和查看蛋白质结构的三维模型。
1.3 与其他领域的关系
生物信息学是一个类似于但不同于生物计算的科学领域,虽然它通常被认为是计算生物学的同义词。生物计算使用生物工程和生物学来构建生物计算机,而生物信息学使用计算来更好地理解生物学。生物信息学和计算生物学涉及生物数据的分析,特别是DNA、RNA和蛋白质序列。生物信息学领域从20世纪90年代中期开始经历了爆炸性的增长,这主要是由人类基因组计划和DNA测序技术的快速进步推动的。
分析生物数据产生有意义的信息包括编写和运行软件程序,这些程序使用来自图论、人工智能、软计算、数据挖掘、图像处理和计算机模拟的算法。算法又依赖于理论基础,如离散数学、控制理论、系统理论、信息论和统计学。