生物信息学对计算机科学发展的机遇与挑战_何红波

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目前机 器学习方法包括: 神经网 络法、决 策树 法、基于事例学习法、符号性知识优化法及基于逻辑 的归纳学习法[ 10] 。但现在的 问题是从蛋白质 一级 结构序列预测蛋白质二级结构和三级结构的准确率 较低[ 7] , 统计学习理论[ 2] 和支持向量机[ 11, 12] 技术在 这方面有广阔的应用前景。
生物信息具有增长迅速的特点, 随着人类基因 组计划和人类 脑计划等大型 的科学工程的 相继实 施, 如何处理海量数据是一个迫在眉睫的问题, 这也 带动了一个巨大的海量存储的市场。关键的问题是 如何设计生物信息专用的海量存储技术。由于技术 发展的滞后, 生物信息资源的有效使用率十分低, 严 重影响了生物信息的利用。信息存取已经成为生物 学界一个具有挑战性的问题, 同时也是对计算机科 学的一个挑战。生物信息中的很多算法的研究对计 算机科学有很大的应用价值, 如 DNA 序列的拼接与 比对。
数据挖掘与聚类分析的方法在蛋白质的结构预 测中也有广阔的应用空间[ 13- 15] 。现在生物学的发 展产生了大量的数据, 这些数据中蕴涵着不少自然 的规律性的东西。但生物学现在还主要是以实验为 主, 如何从这些海量数据中挖掘出一些重大的生物 学规律是数据挖掘技术令人心动的应用领域。如从 各种生物的 DNA 数据中挖掘一些 DNA 序列自身的 规律和 DNA 序列进化的规律, 可以使我们从分子层 次认识生命的本质及其进化规律, 并开发生物数据 处理分析方法库和知识库。DNA 序列实际上是一种 用 4 种字母表达的/ 语言0, 只是其/ 词法0和/ 语法0 规则在目前仍不清楚。如何从 DNA 序 列中挖掘序 列的语法规则也需要计算机编译原理的许多知识, 同时也对计算机语言学有很大的促进作用。
生 物 信 息 学 China Journal of Bioinformatics
专论与综述
生物信息学对计算机科学发展的机遇与挑战
何红波1, 谭晓超1, 李斌2, 李义兵1, 2
( 1. 中南大学物理学院, 湖南 长沙; 2. 中南大学信息科学与工程学院, 湖南 长沙 410083)
摘要: 生物信息学是一个发展很快的新兴学科, 是计算机应用 的最重 要的领 域之一, 同 时生物信 息学的 发展又 给计算 机学科 提出了许多新的课题, 从而促进计算机学科自 身的发展。从数据库技术、海量存储 技术、数据挖掘、计算几 何、DNA 计算、网格 计算、机器学习、人工心智、web service 等方 面, 就生物信息学对计算机科学发展的促进作用进行 了论述。 关键词: 生物信息学; 数据库技术; 数据挖掘; 计算几何; 机器学习 中图分类号:TP3 文献标识 码: A 文章编号: 1672- 5565( 2005) - 01- 0037- 05
DNA 计算解决问题的基本思想: 利用 DNA 特殊 的双螺旋结构 和碱基互补配 对原则对问题 进行编
Байду номын сангаас
码, 运算对象映射成 DNA 分子链, 在 DNA 溶液的试 管里, 在生物酶的作用下, 生成各种数据池, 然后按 照一定的规则将原始问题的数据运算高度并行地映 射成 DNA 分子链的可控的生化过程。最后, 利用分 子生物技术如聚合酶链反应 PCR、聚合重叠放大技 术 PoA、超声波降解、亲和层析、克隆、诱变、分子纯 化、电泳、磁珠分离等, 破获运算结果。虽然 DNA 计 算机目前还只能解决一些极其简单的问题实例, 并 且存在许多不足和障碍( 如可靠性、灵活性、运输和 逻辑等方面) , 但它在特定的复杂问题或领域, 已显 示出极大的潜力, 这一新领域的巨大潜力值得重视 和培育。DNA 计算机的研究必将对传统的计算机体 系结构与并行计算的研究产生推动作用。
3 人工心智与仿脑计算
了解脑及其全部功能是 21 世纪重大挑战之一。 人类脑计划开始于 1993 年[ 4] 。这项行 动的主要目 标: 创立以 web 为基础的神经科学所有数据的数据 库, 并提供数据分析、整合、合成、建模与模拟的先进
第1 期
何红波, 等: 生物信息学对计算机科学发展的机遇与挑战
Abstract: The opportunities and challenges when bioinformatics meets computer science are discussed. Bioinformatics is a fast- growing subject and it is also the most important applied field of the computer science. Also the developments of bioinformatics bring many new tasks to computer science and then promote the development of computer science. In this paper, we discuss the promotion of bioinformatics to computer science from many aspects including database technology, massive storage technology, data mining, computer geometry, grid computing , machine learning, artificial intelligence, web service. Key words: bioinformatics; database technology; data mining; computer geometry; machine learning
2 机器学习与数据挖掘
蛋白质分子是由 20 种不同氨基酸通过肽键连 接而成的共价多肽链, 天然蛋白质在生理条件下都 有着自己特定的空间结构[ 9] 。遗传信息由 DNA 到 RNA 再到蛋白质的过程, 一直是分子生物学研究的 中心, 通常称之为中心法则[ 9] 。经过多年的努力, 由 DNA 到 RNA 再到多肽链合成的基本过程已经基本 清楚。但是以一定氨基酸序列连接形成的多肽链是 如何形成有一定空间结构的具有生理功能的蛋白质 分子仍然是分子生物学中心法则中目前尚未解决的 问题。早在 20 世纪 60 年代, White 和 Anfinsen 进行 的牛胰核糖核酸酶复性的经典实验表明[ 7] : 某些蛋 白质在体外的一定条件下解聚失活后可以自动折叠 而恢复其原有高级结构与活性, 也即意味着蛋白质 的氨基酸序列及环境决定其三维构象。蛋白质的一 级结构决定高级结构是进行蛋白质结构预测的理论 基础。蛋白质结构预测是生物信息学的核心问题, 在这方面主要的研究在于如何通过已知的蛋白质一
自 1994 年 Adleman 在5科学6期刊上发表了第一 篇关于 DNA 分子算 法的开创性 文章[ 17] 以来, DNA 计算迅速成为活跃的研究领域。DNA 计算机被证明 是通用计算机系统. 自 Watson ) Crick 揭开 DNA 的奇 妙结构以来, 生物、化学和基因工程技术正处在日新 月异的巨大进步和发展中. 它将提供更多的、新的供 计算使用的人工合成酶。Adleman 的实验就是这个 正在蓬勃兴起的科学新领域的一次展示, 生物计算 机能彻底实现现有计算机所无法真正实现的大规模 并行处理和组合运算功能, 是彻底解决包括 NP 等困 难问题的突破口之一。
以生物学实际为基础的神经网络模型的研究对 仿脑计算的研究具有极大的促进作用。人工智能正 在最新神经科学与心理科学成果的启发下朝着人工 心智、情感计算与仿脑计算的方向发展。
4 DNA 计算
科学家普遍认为, 目前计算机的缩微化己接近 极限。要在高性能计算上有所突破, 从原理上创新 是一条出路。DNA 计算作为其中一个代表之一正受 到人们的普遍关注。
生物信息学是将计算机科学和数学应用于生物 大分子信息的获取、加工、存储、分类、检索与分析, 以达到理解这些生物大分子信息的生物学意义的交 叉学科[ 1, 2] 。但目前生物信息学领域面临数据增长 过快, 各 种各样数据 库的种类 愈来愈多 的困境[ 3] 。 第一, 信息结构复杂性高, 在生物信息的概念复杂性 和确认生物信息之间的关联性困难; 第二, 信息的储 存方式及结构是异质的; 第三, 信息库的储存资料的 格式是变动的; 第四, 生物信息的数据量是激增的, 以 Genbank 中的 DNA 碱基数为例, 其增长速度呈指 数性增长, 大约每 14 个月就会增长一倍[ 4] 。这种生 物信息数据的快速增加和大量积累, 在人类的科学 研究历史中是空前的, 给计算机科学带来了前所未
有的机遇与挑战。
1 数据库技术与海量存储技术
生物信息数据库具有数据结构复杂、数据量增 长迅速等特点。很多数据库涉及非结构化的数据, 如 PDB 中的蛋白质三级结构等[ 6] , 传统的关系数据 库已不能适应其发展, 因此必须要采用面向对象的 数据库技术来处理复杂结构的生物数据。生物信息 数据库具有种类繁多的特点, 目前各种生物信息数 据库有 500 多 种, 分布 在全 球各 个数 据库 服务 器 中[ 7] 。这些数据库的结构各异, 这使很多从事生物 学研究的人一筹莫展, 有必要采用分布式数据库技 术对这些数据库进行集成与整合。另外, 生物数据
级结构序列和其对应的三级结构序列来挖掘知识, 从而形成蛋白质一级结构序列与三级结构的对应关 系的知识。
机器学习的主 要任务是 如何从 一些观测 数据 ( 样本) 出发得出目前尚不能通过原理分析或试验得 到的规律。利用这些规律去分析客观对象, 对未来 数据或无法观测的数据进行预测( 图 1) 。
图 1 蛋白质结构序列机器学习示意图
38
生物信息 学
第 3卷
库的数 据质 量并 不能 完全 保证, 因而 有必 要采 用 ETL 技术对生物信息数据库进行清洗、转换与装载。
生物信息数据库是面向对象数据库技术、演绎 数据库与分布式数据库一个很好的应用领域和试验 场地。Oracle 10i 版本包含对 BIOINFORMATICS 技术 的特定支持[ 8] 。包括对 Double 和 Float 数据类型的 Native 支持。内建的 统计函 数支持 常见 的 ANOVA 分析等。对生物信息技术的支持也必将是广大数据 库厂商在市场竞争很重要的一点。
收稿日期: 2004- 05- 24; 修回日期: 2005- 01- 04 基金项目: 国家自然科学基金( 60371046) 与湖南省自然科学基金资助。 作者简介: 何红波( 1972- ) , 男, 博士, 教授。主要研究方向: 生物信息学, 人工生命, 人工智能, 网络计算等, E- mail: mri@ csu. edu. cn
39
工具, 有助于实现了解健康与有病神经系统功能的 最终目标。
脑是生物体内结构和功能最复杂的组织, 人脑 内有神经细胞上千亿, 神经突触超过 1 014 个, 是接 受外界信号、产生感觉、形成意识、进行逻辑思维、发 出指令产生行为的指 挥部[ 16] 。人脑是极为 精巧和 完善的信息处理系统, 是人体内外环境信息获得、存 储、处理、加工和整合的中枢。人脑的结构和功能极 其复杂, 需要从不同的层次对其进行研究, 包括: 从 DNA、RNA 、蛋白 、神 经 元、神 经网 络 到 全 脑。 其 中 对 神经网络和全脑功能的研究近年来发展很快, 成为 神经信息学研究的重点。神经信息学主要从信息和 信息处理的观点来研究人脑, 研究神经系统信息的 载体形式, 神经信息的产生、传输与加工, 以及神经 信息的编码、存储与提取机理等, 并从系统和信息的 观点建立以生物学实际为基础的神经网络模型。
Opportunities and challenges: when computer science meets bioinformatics
HE Hong- Bo, TAN Xiao- Chao, LI Bin, LI Yi- Bing
(11College of Physics and College of Inf ormation, Central South University, Changsha 410083 , P. R. China ; 21College of inf ormation science and engineering , Central south university , changsha , H unam, China )
相关文档
最新文档