小议计算机科学与技术和生物的关系
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小议计算机科学与技术和生物的关系
众所周知,如今的我们正身处一个大数据时代,生活是如此,科学界亦如此。近年来分子生物学的不断深入研究大大地推动了生命科学的发展,也造就了生物信息学从无到有,从有到不断发展壮大。生物信息学是计算机与生命科学结合的一个重要体现。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋,数以百计的生物学数据库如雨后春笋般迅速出现和成长。原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物与计算机的高级结合正体现于此,人类从此进入了以生物信息学为中心的后基因组时代。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,计算机与生物学的完美结合将是不断探索生命领域的强大工具。生物信息学的主要研究方向是基因组学- 蛋白质组学- 系统生物学- 比较基因组学。具体说来,计算机与生物的结合大致有以下几个方面。
首先,是大规模基因组测序中的信息分析。大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补
序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。
基因组测序技术最早可以追溯到20世纪50年代,早在1954年就已经出现了关于早期测序技术的报导,即Whitfeld等用化学降解的方法测定多聚核糖核苷酸序列。1 9 7 7年S a n g e r等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,标志着第一代测序技术的诞生。此后在三十几年的发展中陆续产生了第二代,第三代测序技术技术正在向着高通量、低成本、长读取长度的方向发展,生物与计算机技术的完美配合为两个学术界都带来了巨大贡献。例如在序列比对问题上,两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达10⁹bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。也因此势在必然地引入启发式方法,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
高通量测序以其高输出量与高解析度的特性,不仅为我们提供了丰富的遗传学信息,而且使得测序的费用和时间大大缩短。但是在高通量测序发展的过程中,也有很多的问题需要我们去解决:数据在临床诊断上的作用,测序数据的储存和分析,数据的安全和信息隐私等。可以说,无论是大规模基因组测序的理论分析还是实际操作,计算机的应用都将是如影随形。
其次,是新基因和新SNP的发现与鉴定。早在2015年,有关于家族性急性髓系白血病相关新基因的SNP基因芯片筛选及其FAMLF新基因表达分析与真核表达系统的建立的报道,其目的在于筛选、克隆出家族性急性髓系白血病致病相关基因,在分子水平上探讨家族性急性髓系白血病发生、发展的机制以及在前期研究的基础上构建FAMLF蛋白真核表达系统,为今后进一步研究其蛋白质的结构及功能研究奠定基础。毫无疑问,这一研究将有助于为白血病的特异性诊断与基因治疗提供有价值的科学根据。在这一报道中明确指出了应用生物信息学分析等技术,结合相应的遗传学统计分析软件进行连锁分析、单倍型作图、拷贝数分析,定位出致病基因所在染色体区域这一方法。
据有关资料显示,国际上已出现几个基于EST的基因索引如UniGene,Merck-Geneindex,GenExpress-index,这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列,这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。
另外,还有非编码区信息结构分析。众所周知,真核生物的基因组中只有一小部分为蛋白编码序列,而绝大部分则是不具有编码蛋白能力的非编码序列。非编码DNA不包含制造蛋白质的指令,或是只能制造出无转译能力RNA的DNA序列。但是不编码蛋白不代表没有作用,如今许多科学家正利用生物信息学对这些非编码区特征以及
不同功能的人类组织特异性基因进行深入研究,在这一领域诞生了许多重大发现,为人类的生命健康做出了贡献。
经过二十多年的努力,非编码基因组序列的基因识别领域取得了令人瞩目的成就。基因识别已经从最初识别细菌基因组编码蛋白质区域向预测有多外显子脊椎动物基因的详细结构发起挑战。计算机辅助识别的基本问题是给定基因组序列后,正确预测出基因在基因组序列中的精确位置,这也是生物信息学最重要的课题之一,而且也将越来越重要。目前,对于预测蛋白质编码基因提出了数十种算法,有十种左右重要的算法和相应软件在网上提供免费服务,而对于非编码区基因的数据收集,统计,分析,预测,检验等问题的研究,计算机与生物的结合也将愈加深入,从而不断探索新领域。
事实上,在生物学的绝大多数领域,与计算机相辅相成都是一种现状,或是一种大趋势。信息技术为生物技术的发展提供强有力的计算工具。在现代生物技术发展过程中,计算机与高性能的计算技术发挥了巨大的推动作用。赛莱拉公司将32亿碱基对按照正确顺序加以排列动用了700台互联的Alpha64位处理器,运算能力达到每秒1.3万亿次浮点运算便是很好的证明。康柏电脑公司董事长主席曾在一次演讲上说道:“如今,我们很难将生物技术的进步与高兴呢给计算领域的发展割裂开来。”实际上,许多一流的可u俄甲都相信,高性能计算是生物和医药的未来。今后,越来越多的具有强大功能的计算机和软件将会被用来搜集、存储、分析、模拟和发布信息。
信息技术还有助于加强生物技术领域的各种数据库管理、信息传
递、检索和资源共享等。仅次于基因排序器、在生物技术领域引起关注的硬件基因芯片的研制也非常依赖于信息技术。另外,生物技术的发展需要特定软件技术的支持,软件技术将成为支撑生物技术及其产业发展的关键力量之一。例如各类生物技术数据库需要性能优良、更新换代迅速的阮籍技术;核酸低级结构分析、引物设计、质粒绘图、序列分析、蛋白质低级结构分析、生化反应模拟等等也需要相应的软件及其技术支撑;加强生物安全管理与生物信息安全管理也离不开软件及其技术发展的支持。
正由于计算机与生物的必然结合、生物技术的不断发展,生物信息学的出现也就成了一种必然。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背