信息论在生物学和化学领域的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息论在生物学和化学领域的应用
信息科学与技术学院 **
指导教师**
摘要:信息论近年来迅速发展,已广泛渗入物理、化学、生物、医学、自动控制、计算机、人工智能、仿生学、经济和管理等不同领域。本文阐述信息论在现代生物学、化学等学科中的应用。
关键词:信息论;生物信息论;化学信息论;基因编码
一、概述
1948年,Claude E. Shannon在BSTJ发表题为“The Mathematical Theory of Communica-tion”的著名论文,创立了后人所称的“信息论”,揭开了人类认识史上的新纪元:由材料和能量的时代开始走向自觉地认识和利用信息的时代。现在,人们越来越清楚地看到,Shannon信息论的确是科学史上一座巍峨的里程碑,它把科学领进了信息世界的大门。但是, Shannon信息论并没有穷尽信息问题的研究。正如Shannon本人所说:“企求一次就揭开自然的全部奥秘,这种期望是不切实际的”。事实上,一个具有旺盛生命力的理论必然会不断地渗透到新的领域,不断地改变自己的面貌[1]。现如今,信息熵概念广泛渗入物理、化学、生物、医学、自动控制、计算机、人工智能、仿生学、经济和管理等不同领域。信息过程不仅是通讯研究的对象,而且被当作控制社会的手段来研究[2]。就正是由Shannon信息论经过不断的开拓、发展和升华的结果,它是信息理论发展的全新阶段。
二、信息论与生物学
(一)信息与遗传[2]
1944 年细菌转化现象的发现,第一次证实了细胞核内 DNA 核酸是遗传的物质基础。1953 年沃森和克里克提出 DNA 螺旋结构模型,认为是由两条多核苷酸链靠碱基间确定配对关系而联系在一起,形成犹如螺旋状的长梯子,第一梯级相当一对碱基。梯级很多,若以500梯级的大分子计,其结构可能取型的数目为10330信息量。历史上有过物种,最高估计是40亿种,其信息量不过才是10g24*109=31.9比特,可见 DNA 结构可储存遗传信息量大得足以使每一物种内各个个体间都可以有差别。
生物性状的遗传,是在分子水平上通过DNA 复制来实现的。也就是DNA双链松解,每一条链再按碱基配对关系,吸引相应碱基形成与原 DNA 双链相同结构的双链,结果是一分为二,而复制中的差错则会引起生物体变异。
蛋白质的合成,首先要由 mRNA按模板DNA 的分子结构转录一份副本,然后再按副本转为蛋白质“文字”。蛋白质种类很多,都由20种氨基酸形成,只是排列结构不同。4种核苷酸排列的 DNA双链,与20种氨基酸排列的蛋白质大分子链对应,正像点和划两种信号的电报编码,要与 26个英文字母拼成的字对应一样,有一个编码和译码的问题。
(二)信息与进化论
信息论的快速发展也促进了与进化论的结合,生物进化信息论从信息论和生物热力学基础上开拓出来以后,迅速发展成一门覆盖面广、突破性强的新兴学科。首先,它已合理地解释了个体发育与形态发生、类群进化与系统发育以及生态历史与其进化等等问题,并突出了它们的共同规律,第二,集合了广泛领域里的研究资料和人员,有从事分子生物学、发育生物学、群体遗传学、生态遗传学、进化分类学、古生物学以及数理计算机学领域里的学者们。第三,由于突破了进化论与第二定律之间长久未统一的问题,因而决定它成为进化论中最广义的理论,将遗传进化的诸项基本因素—复制和繁殖、突变和重组、选择和隔离等赋以科学的定性,有利于各派观点间的统一进化信息论趋向于比较成熟时间还不太长。它的快速发展说明了以前的各派进化理论在新的现实问题面前暴露出局限性,发生了剧烈的冲突,并引起不时的争论,促使广大学者去发现更广泛的新理论,推动进化论的不断发展和完善[3]。
(三)信息论与生物医学[6]
人体是一个高度有序的聚细胞体。生命现象要求分子,细胞、结构、组织和功能等在空间和时间上高度有序。要维持自身的高度有序状态,维持生长,发育过程,就必须不断地从外界摄取食物和能量,同时向环境排出废物。薛定谔把生命有机体从环境汲取食物称为“汲取负熵”。他认为有机体就是依赖负熵为生的,生命有机体正是从汲取秩序的食物中汲取秩序维持自身的高度有序水平,而这正意味着汲取了信息。因为不确定性是无序性的量度,获得信息将使无序性减少而使有序性增加,因此获得信息的过程是从无序向有序转化的过程,这种转化的定量描述是通过信息量来实现的。从以上的分析可知,对生命系统发展的有利因素是负熵,对系统发展的不利因素是熵增。正常机体不断从环境汲取信息(负熵)在机体内合成高度有序的结
构,同时机体内的有序结构又在不断自发地破坏(即熵值在增加),因此各局部处于存有一定信息的动态稳定态之中。这些状态可以采用具有滴与负熵意义的指标定量表示,根据这些指标数值的增减就可以判断系统功能状态的变化是趋于巩固和激活,还是趋于瓦解和衰落。
目前,对于生命体的各个层次,人们从不同水平确定其信息量。例如在DNA水平上主要考虑的是相对熵、等概散度和独立散度,这些决定了DNA中碱基的有序性;在蛋白质水平上主要考虑的是熵和相对熵的大小,这些量提示氨基酸结构是否具有生理功能;在系统水平上,主要考虑的是信息熵,最大熵,负熵和剩余度等。
在现代医学中,从患者血液中获得的生化指标的信息特征找出科学规律,对疾病的进程进行定性判断,定量描述及动态分析都是生物医学的贡献。
三、信息论与化学
(一)超分子化学与化学信息学的提出[4]
1987年诺贝尔化学奖得主、法国化学家莱恩(Lehn)在定义超分子化学时所提出的化学信息论的概念,指的是与超分子形成过程密切相关的化学信息。
Lehn在处理超分子化学的问题时,用的是与传统所不同的视角,他在继承化学家所习惯的空间匹配和电性匹配等原则的同时,提出了超分子、分子识别、化学信息和化学反应智能化等一系列新概念。为了解释上述过程及其他类似过程的化学本质,Lehn从现代生物学中借用了“识别”的概念。因为识别是一种以信息的识别和接收为前提的智能化过程,所以Lehn接着又提出了化学信息与化学反应智能化的概念。Lehn在此处提出的化学信息,并非具体的某个化学事件或化合物,而是一种起诱导和决定超分子形成过程作用的信息,亦即当底物与受体在相互作用时,以对另一方所提供的或所具有的有效化学信息的识别为前提,这就是化学信息论。
“化学信息”,至今还只是个模糊的含义,没有明确的定义,但是却被化学家们所普遍接受,因为莱恩所提出的与分子识别概念相关的化学反应已经是比比皆是。从化学亲和力的概念发展到今天化学信息与分子识别的概念,这是一条曲折的道路。化学信息论在以后的发展中,还有待于物理学家,化学家和信息学家的联手作战。