生物信息学的现状与展望_张春霆

生物信息学的现状与展望

中国科学院院士　张春霆

(天津大学生命科学与工程研究院,　天津300072)

摘　要:本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。

关键词:人类基因组计划　生物信息学

一、生物信息学产生的背景

有人说,基于序列的生物学时代已经到

来,尽管对“序列生物学”这一提法可能有所争

议,但是今日像潮水般涌现的序列信息却是无

可争辩的事实。自从1990年美国启动人类基

因组计划以来,人与模式生物基因组的测序工

作进展极为迅速。迄今已完成了约40多种生

物的全基因组测序工作,人基因组约3×109碱

基对的测序工作也接近完成。至2000年6月

26日,被誉为生命“阿波罗计划”的人类基因组

计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学史上又一个里程碑式的事件。它预示着完成人类基因组计划已经指日可待。截止日前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更为快捷。可以预计,今后DNA序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的E ST数据

库其记录已达数百万条。在这些数据的基础

上派生、整理出来的数据库已达500余个。这

一切构成了一个生物学数据的海洋。可以打

一个比方来说明这些数据的规模。有人估计,

人类(包括已经去世的和仍然在世的)所说过

的话的信息总量约为5唉字节(1唉字节等于

1018字节)。而如今生物学数据信息总量已经

接近甚至超过此数量级。这种科学数据的急

速和海量积累,在人类的科学研究历史中是空

前的。

数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年所发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高其生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉学科,这就是生物信息学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下的定义:生物信息学是一门交叉学科,它包含了生物信息的获取、处理、储存、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,

张春霆(Z HANG Chunting,1936.9.19～),男,山东省烟台市人,中国科学院院士,生物信息学家。1961年毕业于复旦大学物理系,1965年在该校研究生毕业。现任天津大学教授,博士生导师。张春霆院士是我国生物信息学的学术带头人之一,有较强的数学、物理和计算机基础,以此为背景专门从事生物信息学研究。开拓了DNA序列分析中的几何学研究途径,建立了DNA序列的Z曲线理论,在基因识别、基因组注释等DNA序列分析中得到越来越广泛的应用。提出了一系列球蛋白质结构类预测的新算法,对国际上的有关研究产生了推动作用。在国外发表影响因子大于1的SCI的计算生物学和生物信息学论文60余篇,被他人引用二百余次。1996年和1997年分别获国家教委科技进步一等奖和国家自然科学二等奖各一项,均为唯一完成人。

来阐明和理解大量数据所包含的生物学意义。生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现则要早得多。鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。

二、生物学数据库

《Nucliec Acids Research》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第1期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。迄今为止,生物学数据库总数已达500个以上。在DNA序列方面有GenBank、E M BL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其他生物大分子的结构方面有PDB 等。在蛋白质结构分类方面有SCOP和CATH等。应该指出,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。但是鉴于相当多的数据库的经营者们面临着财务紧缺的境地,这种免费的局面还能维持多久就不得而知了。有的数据库,如SWISS-PROT,已开始向商业用户每年收取数千至数万美元不等的使用费。其它数据库暂时还是免费的,但不知是否永远免费。如果一些重要的数据库对学术研究部门开始收费,这对于我国生物信息学的发展是非常不利的。中国是一个基因信息资源大国,我们应当抓紧建设我国自有的数据库,在世界上做出我们自己的贡献,在平等的基础上与国外共享生物信息资源。

三、生物信息学的主要研究内容

生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。

1.序列比对(Alignment)。基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包———BLAST和FAS-TA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片段相似性较高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

2.结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。

3.蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。从方法学上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属于这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白质结构预测研究现状远远不能满足实际需要。

4.计算机辅助基因识别(仅指蛋白质编码基因)。基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。

5.非编码区分析和DNA语言研究,是最重要的课题之一。在人类基因组中,编码部分仅占总序列的3～5%,其它通常称为“垃圾”DAN,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

6.分子进化和比较基因组学,是最重要的课题之一。早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,当然也可望得到更丰硕的成果。这方面可做的工作是很多的。

7.序列重叠群(Contigs)装配。一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列。这就有一个把大量的较短的序列拼接成一个较长的、完整序列的任务。显然,为了正确拼接,短的序列之间应有一部分重叠区。所有相互部分重叠的序列全体构成了重叠群(Con-tigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备性算法问题。

8.遗传密码的起源。遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

9.基于结构的药物设计。人类基因组计划的目的之一在于阐明人的约10万种蛋白质的编码序列,从而了解蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。

为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。

10.其他。如基因表达谱分析,代谢网络分析,基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。

四、与生物信息学关系密切的数学领域

限于篇幅,仅列出它们的名称。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用;拓扑学,这里指几何拓扑,在DNA超螺旋研究中是重要的工具,在多肽链折叠研究中也有应用;函数论,如福里叶变换和小波变换等都是生物信息学中的常规工具;信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;计算数学,如常微分方程数值解法是分子动力学的基本工具;群论,在研究遗传密码和DNA序列的对称性方面有重要应用;组合数学,在分子进化和基因组序列研究中十分有用。原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支学科。

五、与生物信息学密切相关的计算机科学技术

首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS)。其它诸如数据整合和可视化、数据挖掘(Data Mining)、基于Unix 操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究。

六、生物信息学工业

生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它既属于基础研究,以探索生物学自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。生物信息学的这一特点在现有的许多学科中几乎是独一无二的。

这里仅举一个例子来说明生物信息学工业的潜力。据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。又据报导,生物信息学产业的市场在1998年已经达到10亿美元,而到2002年估计可增长到2000亿美元以上。这是一笔巨大的财富,任何政府的科技决策人都不能对此视而不见。NIH已向美国国会建议投资160亿美元在美国建立5～20个将生物学与计算结合起来的中心。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切有关。生物信息学工业是知识经济的一个典型,潜力巨大。

七、展望与建议

生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测它对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。例如:对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的发现;数十种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原子光谱学数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。历史的经验值得注意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段,所拥有的条件也大体相同,即使我国有关条件差一些,但差别也不大。因此,这是我国生物学赶超国际先进水平的一个百年一遇的极好机会。机不可失,时不再来,鉴于生物信息学在我国生物学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是规模要小的多的,花钱也少得多的生物信息学发展计划,不是不可以考虑的。要充分发挥中央与地方,生物学科与非生物学科研究人员等方方面面的积极性。生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的生物信息学研究。经过十几年或更长时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。

The Current Status and The Prospect of Bioinformatics

Member of The CAS　ZHANG Chunting

(Institute of Life S cience and Biotechnology,Tianjin University,Tianjin300072)

A bstract:In this paper I present the bac kground,biologic al database s,main research areas,the relevant mathematics and computer science,the industry and the prospe ct of Bioinformatics.Se veral ide as to de velop Bioinformatics in China have been proposed.I point out that it is extremely important to unde rstand the biologic al significance of a variety of se-quenc e and structure data in the post-genome e ra.Bioinformatics will play more and more important role s.It is believe d that the ac cumulation of a great amount of data would lead to the disc overy of important biological laws.The de velopment of Bioinformatics is basically in its early stage both in China and abroad.Therefore,it is an excellent opportunity occ ur-ring only onc e in a c entury to attain and surpass advance d world levels for biology in China.

Key words:Human G enome P roject,Bioinformatics

(责任编辑:曙光)

国外新闻

欧洲航天局通过未来6项航天计划

欧洲航天局近日正式通过了2008-2013年度的6大航天计划,这些计划涉及天文学研究、寻找外星生命及引力波探测等多个领域。

据介绍,该局的第一个计划是与美国国家航空航天局合作开发新一代太空望远镜(NGST)。这一计划目标是在2010年左右,用该望远镜取代目前使用的“哈勃”太空望远镜。

第二个计划是于2009年向水星发射新的太空探测器。自从美国在1973年至1975年间向水星发射“水手10号”后,人类再也没有向这颗离太阳最近的行星发射过任何探测器。欧洲计划发射的探测器的主要任务是:研究水星表面并拍摄表面照片;登陆水星,研究水星土壤;利用日本制造的仪器测量水星的磁场。

第三个计划主要涉及星际探索。根据这项计划,欧洲航天局将在2009年至2012年间发射两颗GAIA卫星,它们将精确地测量太空中十多亿颗恒星的位置,了解银河系的起源和历史。此外,欧洲航天局还将于2013年左右发射埃丁顿卫星,任务是寻找遥远星系的小行星。

第四个计划被称为达尔文计划,其目的是在距地球几光年之遥的太空寻找生命存在的踪迹。这一计划将在2010年后启动,它将使用6个太空望远镜。

第五个计划是与美国国家航空航天局合作,于2010年启动“莉萨”计划。这项计划要发射3颗卫星,这3颗卫星将组成一个边长为500万公里的巨大三角形,它们之间将以激光束相连。科学家们希望能够借此测量出3颗卫星中的某一颗是否会因太空中的相力塌缩而产生微弱的位置偏差,从而获得各种引力理论所预言的引力波真正存在的事实证据。

第六个计划是太阳探索计划,目的是获得太阳极地变化活动的清晰图像,了解太阳两极的有关情况。(新华社供本刊稿)

(完整word版)混沌理论要点

混沌理论要点： 1. 非线性系统的非因果性当原因与结果间的关系并不确定时，便产生非线性现象。比如说利率提高1％（原因），市场反应（结果）就是不确定的——结果取决于人群对该消息的解释。再如美国家森林公园，每年都由雷电引起数百起火灾（起因相同），仿佛老天爷每年都要向大地投放火星大小相同的成百上千个未熄的烟头，于是几百次火灾被引发，并蔓延、终止，有时烧毁数亩、有时蔓延数百亩，有时……1988年那次，使黄石公园全部150万亩森林片草无存（该公园去年已被世界自然遗产目录剔除）。以致其它森林公园为防止枯草积得太厚，还不得不让消防人员，每年人为制造些火灾。量子世界、人类历史、地震、天气运行……莫不如此。远至恐龙时代的大小生态灭绝事件，近至非典、上月的北美大停电、各国证券市场，每年无数个烟头被仍向场内，引发或大或小的震动，并蔓延、终止……但到底哪个烟头，才是那颗重要的烟头？相同的初始力，令人瞠目的结果，是所有混沌系统的基本特征。大家都不难理解，曾救了萨达姆命的藏身之所，这次偏就成了送命之处，但很多人却很难理解同样一个历史点位，并不代表同样的未来。许多历史学家在逐次的趋势和循环中，搜寻说得过去的理由与解释，显然是用错了工具。这些传统观念产生于匀衡物理和天文学中，而合适的工具，却在非线性的非匀衡物理中。新物理学家们则开始用模拟游戏代替方程式，去发现事态运行的规律。 2.对初始条件的极端敏感依赖性伦敦气象局计算机系统每日处理覆盖全欧洲的数千个气象站的上亿条数据，一次洛伦兹将5.06127输入为5.06，万分之一的省略，提供了两份截然不同的天气预报。于是洛伦兹在美国科学促进会提出：“一只蝴蝶在巴西煽动翅膀可能会在美国德克萨斯引起一场龙卷风”，从此，令人着迷、发人深省的“蝴蝶效应”，就以其大胆的想象力与迷人美学色彩，更加之深刻科学内涵与内在哲学魅力，倾倒了不断在复杂系统中苦苦求索的芸芸众生。“蝴蝶效应”反映了混沌运动的一个基本特征：对初始条件的极端敏感依赖性。经典动力学认为，初始条件的微小变化，对未来状态所造成的差别也微小。但混沌理论认为，初始条件的十分微小的变化经过不断放大，对其未来状态会造成极其巨大的差别。大家不妨想像一下台球桌面：撞击母球不到1度的微小偏差，会使台面出现纵线与横折两种极端迥异的走势。一个储蓄组合的未来资产变化模拟图，也仅因规则改为不计零数，模型便立即报废。导致蝗灾的因素有不下两百种，漏算或误算其中2％，不久20％的因素都会相应改换，一切也就大相径庭。西方流传的一首民谣更是对此作了形象的说明：“醉了一个农夫，丢了一颗铁钉；丢了一颗铁钉，少安一付马掌；少了一付马掌，跛了一匹战马；跛了一匹战马，摔坏一位将军；死了一个将军，输了一场战争；输了一场战争，亡了一个国家！” 系统对无数变化，何时极度敏感，何时能消化掉而不予理会，对此人类不是无能为力，而是丝毫都无能为力——地球上每天亿万只蝴蝶上下翻飞、百万只苍鹰鼓翼、千百只大鹏展翅……初始力或相同、或不同，初始因素本身虽不大，但经时间积累后的结果，已远非人们当初之想当然。从前我们经常听到“明年将现暖冬”“下月平均气温将低于去年同期”等说法，但拥有超乎想像的完备数据的美国家气象局去年已宣布：“从此再不对超过10天的气象做任何预测。”这是人类科学认识的又一步飞跃。 3. 能量法则完全不同于线性代数的产物——概率论。该法则是不同国度的学者们，耗时巨大的独立研究后，最终共同发现的一项新的重要自然法则，已被证实是一个适用于上千种的模板的、普遍

生物质能发电技术现状与展望_黄英超

能源作为一种最重要的地球资源，是生产力的核心，是经济增长和发展的前提，是解决环境问题的先决条件。进入２１世纪，中国经济高速发展，能源短缺、环境污染等问题日益突出。中国已成为世界上的第二大能源消费国［１］，能源缺口将不断加大。过去１０年里，中国电力工业高速发展，截至２００４年５月，中国的发电装机容量达到４亿千瓦［２］，是１９９０年发电量的３倍多，但在２００２年还是再度出现大范围缺电现象，而且越来越严重，缺电的省市区由２００２年的１２个增加到２００３年底的２１个，２００４年达到２４个，三季度高峰时段全国估计缺电３０００万千瓦，造成严重缺电局面。同时，全国还有约２万个村［３］，约８００多万农户、３０００多万人口没有电力供应，远离现代文明。近年来，世界各国对资源丰富、可再生性强、有利于改善环境和可持续发展的生物质资源的开发利用给予了极大关注。生物质资源利用中的生物质发电技术成为研究和利用的热点。生物质能发电技术就是利用生物质本身的能量［４］，将其转化为可驱动发电机的能量形式，如燃气、燃油、酒精等，再按照通用的发电技术发电，然后直接提供给用户或并入电网提供电能。截至２００５年底，我国发电装机总容量达到５亿千瓦［５］，其中生物质能发电装机容量２００多万千瓦［６］，仅占我国发电装机总容量的０．００４％。本文针对生物质燃烧发电、生物质气化发电、沼气工程发电等几项生物质能发电技术及其国内外研究现状、存在问题等进行分析和论述。１生物质燃烧发电生物质燃烧发电是将生物质与过量的空气在锅炉中燃烧［７］，产生的热烟气和锅炉的热交换部件换热，产生的高温高压蒸汽在燃气轮机中膨胀做功发出电能。在生物质燃烧发电过程中，一般要将原料进行处理再进行燃烧以提高燃烧效率。例如，燃烧秸秆发电时，秸秆入炉有多种方式：可以将秸秆打包后输送入炉；也可以将秸秆粉碎造粒（压块）后入炉或与其他的燃料混合后一起入炉。生物质燃烧发电的技术已基本成熟，已进入推广应用阶段，这种技术大规模下效率较高，单位投资也较合理，但它要求生物质集中，数量巨大。生物质燃烧发电技术作为一种重要的能源获取手段应用于实际的历史不长，从２０世纪９０年代起，丹麦、奥地利等欧洲国家开始对生物质能发电技术进行开发和研究［８］。经过多年努力，已研制出用于木屑、秸秆、谷壳等发电的锅炉。丹麦各电力组织为此进行了规划，筛选了一批研究项目，并重点对燃烧秸秆和木屑的锅炉与大型燃煤锅炉并联运行发电供热进行了研究。在ＢＷＥ公司的技术支撑下，１９８８年诞生了世界上第一座秸秆生物燃烧发电厂。如今已有１３０家秸秆发电厂遍及丹麦，秸秆生物质能发电技术现状与展望黄英超，李文哲＊，张波（东北农业大学工程学院，哈尔滨１５００３０）摘要：文章综述了物质燃烧发电、生物质气化发电、沼气工程发电等生物质能发电技术及其发展现状和存在的问题。生物质能发电技术的加速发展，实现了大量废弃生物质能的利用。在我国电力短缺的条件下，生物质能发电将有广阔的发展前景。关键词：生物质能；生物质燃烧发电；生物质气化发电；沼气工程发电中图分类号：ＴＭ６１１；Ｑ７７文献标识码：Ａ收稿日期：２００６－０４－１４基金项目：国家自然科学基金项目（５０３７６００９）；黑龙江省科技攻关（ＧＣ０３Ａ３０４）作者简介：黄英超（１９７８－），男，黑龙江人，硕士研究生，研究方向为能源与动力工程。＊通讯作者Ｅ－ｍａｉｌ：ｌｉｎｗｅｎｚｈｅ９＠１６３．ｃｏｍ第３８卷第２期东北农业大学学报３８（２）：２７０￣２７４２００７年４月ＪｏｕｒｎａｌｏｆＮｏｒｔｈｅａｓｔＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙＡｐｒｉｌ２００７文章编号１００５－９３６９（２００７）０２－０２７０－０５

生物信息学的主要研究内容

常用数据库在DNA序列方面有GenBank、EMBL和等在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等在蛋白质和其它生物大分子的结构方面有PDB等在蛋白质结构分类方面有SCOP和CATH等生物信息学的主要研究内容 1、序列比对（Alignment）基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包BLAST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建（Homology）和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。 5、非编码区分析和DNA语言研究，是最重要的课题之一在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。 6、分子进化和比较基因组学，是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群（Contigs）装配一般来说，根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明，这是一个NP-完备

生物信息学现状与展望

研究生课程考试卷学号、姓名： j20112001 苗天锦年级、专业：2011生物化学与分子生物学培养层次：硕士课程名称：生物信息学授课学时学分： 32学时 2学分考试成绩：授课或主讲教师签字：

生物信息学现状与展望摘要：生物信息学是一门新兴学科，起步于20世纪90年代，至今已进入"后基因组时代"，本文对生物信息学的产生背景及其研究现状等方面进行了综述，并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。关键词：生物信息学；生物信息学背景；发展前景一、生物信息学概述 1.生物信息学发展历史随着生物科学技术的迅猛发展，生物信息数据资源的增长呈现爆炸之势，同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能，为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用，一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构（双螺旋）。Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA 聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。Meselson与Stahl （1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai（1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作，人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图，预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

中国生物质能发展现状与展望

中国生物质能发展现状与展望在我国，生物质发电主要包括城镇生活垃圾焚烧发电、农林生物质发电、沼气发电。“十三五”以来，我国生物质发电规模逐年上涨。根据国家能源局数据，截至2019年底，全国已投运生物质发电项目1094个，累计并网装机容量2254万千瓦，其中，垃圾焚烧发电1202万千瓦，农林生物质发电973万千瓦，沼气发电79万千瓦。2019年生物质发电量为1111亿千瓦时，同比增长22.6%，占全部电源总发电量1.5%。发电年平均利用小时数达5181小时，生物质发电量显著提升，年利用小时数保持较高水平（见图1、图2）。

2019 年中国生物质发电总投资规模约508 亿元，其中农林生物质发电投资约97 亿元，生活垃圾焚烧发电投资约398 亿元，沼气发电投资约13 亿元。农林生物质发电。开发规模：截至2019年12月，我国农林生物质发电项目374个，并网装机容量973万千瓦，年发电量468.1亿千瓦时，年上网电量406亿千瓦时，全行业平均发电小时数为4811小时。农林生物质发电行业累计投资总额达970亿元，年产值约360亿元。当前，农林生物质发电站生物质发电总装机容量的近45%，依然是我国生物质发电的主要技术方向，是农林生物质能源化利用的主要形式（见图3）。区域分布：我国农林生物质发电主要分布在秸秆资源丰富的农业大省。累计装机容量排名前五名的省份依次是山东省、安徽省、黑龙江省、湖北省、江苏省，合计占全国装机容量的54.4%（见表1）。

主要技术：农林生物质直燃发电系统主要由直燃锅炉、汽轮机、发电机组、给料系统、除尘除渣系统等组成。生物质发电与燃煤发电系统较为类似，但生物质燃料具有高氯、高碱、高挥发份、低灰熔点等特性，燃烧时易腐蚀锅炉，容易结渣和结焦，因此生物质锅炉是生物质发电的核心设备。目前国内生物质直燃发电锅炉采用的燃烧方式主要为层燃技术和循环流化床技术，层燃技术主要为振动炉排和往复炉排。城镇生活垃圾焚烧发电。开发规模：截至2019年12月，我国城镇生活垃圾焚烧发电项目504个，并网装机容量1202万千瓦，年发电量609.6亿千瓦时，年上网电量498.6亿千瓦时，年处理垃圾量约1.3亿吨。城镇生活垃圾焚烧发电行业累计投资总额达2600亿元，年产值约506亿元（见图4）。区域分布：我国城镇生活垃圾焚烧发电项目主要分布在中东部地区。累计装机容量排名前五名的省份依次是广东省、浙江省、山东省、江苏省、安徽省，合计占全国装机容量的58.9%（见表2）。

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来，生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。美国早在1988年在国会的支持下就成立了国家生物技术信息中心（NCBI），其目的是进行计算分子生物学的基础研究，构建和散布分子生物学数据库；欧洲于1993年3月就着手建立欧洲生物信息学研究所（EBI），日本也于1995年4月组建了信息生物学中心（CIB）。目前，绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生，他们共同组成了 DDBJ/EMBL/Gen Bank国际核酸序列数据库，每天交换数据，同步更新。以西欧各国为主的欧洲分子生物学网络组织（EuropeanMolecular Biology Network, EMB Net）是目前国际最大的分子生物信息研究、开发和服务机构，通过计算机网络使英、德法、瑞士等国生物信息资源实现共享。在共享网络资源的同时，他们又分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术，服务于本国生物（医学）研究和开发，有些服务也开放于全世界。从专业出版业来看,1970年，出现了《Computer Methods and Programs in Biomedicine》这本期刊；到1985年4月，就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在，我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。但是由于起步较晚及诸多原因，我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数，可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%，而美国则发表2160篇占全部的39%之多（统计数据截至2004年2月15日）。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%，差距相当大[4]。在生物信息学领域，一些著名院士和教授在各自领域取得了一定成绩，显露出蓬勃发展的势头，有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用生物信息学（bioinformaLics）是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象，以数学、信息学、计算机科学为主要手段，对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析，从中获得基因的编码、凋控、遗传、突变等知识；研究核酸和蛋白质等生物大分子的结构、功能及其相互关系；研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。从生物信息学研究的具体内容上看，生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。针对蛋白质序列的分析，可以预测出蛋白质的许多物理特性，包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测，三维结构预测等。生物信息学中的主要方法有：序列比对，结构比对，蛋白质结构的预测，构造分子进化树，聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法，查询生物分子信息数据库，取得相应的序列数据，通过序列比对，找出特征序列，作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面，即探针的设计和探针在芯片上的布局，必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理，给出实验结果，并运用生物信息学方法对实验进行可靠性分析，得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中，将基因芯片数据与公共数据库进行链接，利用数据挖掘方法，揭示各种数据之间的关系。生物信息学在人类基因组计划中也具有重要的作用。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之，生物信息学不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长，这更离不开利用生物信息学进行各类数据的分析和解释，研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列，是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列，是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

王远东教授用混沌学的观点看当前的肿瘤治疗

一、前言目前肺癌的辅助和新辅助治疗、晚期肺癌一线方案、二线方案、甚至三线方案的选择，到分子靶向治疗，治疗手段和方法，似乎有了飞速的发展，但是治疗结果却给人总的感觉正像美国化疗之父Kennidy教授所说的，"肺癌治疗的进步像蜗牛一样缓慢"。尽管各类新的化疗药物还在不断研发和问世，但它们对肺癌的治疗已基本进入一个平顶期。分子靶向药物的出现以及根据各种癌症的不同基因表型而无意或有意设计的用药方案，却出现了很多值得我们重视的结果和现象，为此，以新的观点重新审视目前肿瘤治疗的方法，具有重要的意义。二、混沌理论简介混沌现象广泛存在于自然界。混沌学(Scientific Chaos)与相对论、量子力学一起被誉为二十世纪人类的三大发现。事实上，混沌学、相对论与量子力学是上世纪三次重大的科学革命，成为正确的宇宙观和自然哲学的里程碑。正如美国著名科学家詹姆斯.格莱克所说的那样："混沌学排除了拉普拉斯决定论的可预测性的狂想"。 1892 年，法国数学家J. H. Poincare己经发现按照哈密顿方程进行时间演化的某些力学系统可能出现混沌运动。1963年麻省理工学院著名的气象学家洛伦兹(Lorenz)发现[1]：在一个特定的方程组中，小小差异就可引起相去甚远的最终结果，显示确定论的系统表现出随机行为。这一论点打破了拉普拉斯决定论的

经典理论，这种新现象也是以前的科学家所无法解释的。后来洛伦兹又提出了"蝴蝶效应" 的理论，即一种对初始条件的极其敏感性依赖性。洛伦兹的发现和研究，开启了现在混沌理论研究的大门。上世纪70 年代是混沌理论基础研究高速发展的年代。1971 年法国物理学家D. Ruell 和荷兰数学家F.Takens引入"奇怪吸引子"概念。1975年，中国学者李天岩和美国数学家J. Yorke在《America Mathematics》杂志上发表了"周期三意味着混沌"的著名文章[2]，深刻揭示了从有序到混沌的演变过程，这也使"混沌"作为一个新的科?F嶂剬畕学学、电子学、信息科学、气象学、宇宙学、地质学、经济学、人脑科学，甚至在音乐、美术、体育等多个领域都得到了广泛的应用。对于混沌严格的定义，目前科学上还没有确切的定义，但随着研究的深入，混沌的一系列特点和本质被揭示，对混沌完整的、具有实质性意义的确切定义将会产生。目前人们把混沌看成是一种无周期的有序。它包括如下特征：(1) 混沌具有内在的确定性，它虽然貌似噪声，但不同于噪声，系统是由完全确定的方程描述的，无需附加任何随机因数，但系统仍会表现出类似随机性的行为；(2) 混沌具有分形的性质；(3) 混沌具有标度不变性，是一种无周期的有序。在由分岔导致混沌的过程中，还遵从Feigenbaum常数系。(4) 混沌现象还具有对初始条件的敏感依赖性。只要初始条件稍有偏差或微小的扰动，则会使得系统的最终

生物质能的利用现状及展望

生物质能的利用现状及展望摘要: 在概述生物质能概念、特性及开发利用生物质能意义的基础上，重点从生物质能的直接燃烧、物化转化、生化转化、植物油技术和利用生物质合成新产品等几方面来介绍国内外生物质能利用的现状，最后展望生物质能研究的主要方向。关键词：生物质能化石能源可持续发展展望现今世界，石油价格居高不下，能源、电力供应趋紧，而化石能源和核能贮量有限且会对环境造成严重的后果，因此，各国政府和科学家对资源丰富、可再生性强、有利于改善环境和可持续发展的生物资源的开发利用给予了极大的关注。有许多国家都制定了相应的开发研究计划，例如，日本的新阳光计划、印度的绿色能源工程、美国的能源农场和巴西的酒精能源计划等。一个新兴的生物质产业正在全球范围蓬勃兴起。据专家估计，生物质能源将成为未来能源的重要组成部分，到2015年9全球总耗能将有40%来自生物质能源，主要通过生物质能发电和生物质液体燃料的产业化实现。在2004 年制定的国家中长期科技发展规划（2005-2020）中，“农林生物质工程”被列为重大专项之列，并作为国家能源战略的重要组成部分。随着我国经济的快速发展，我国的能源消耗与日激增。现在，我国能源年消耗量占世界能总消耗量的20%以上，而且呈现上升的态势，我国2004 年进口石油1.2 亿吨。我国生物多样性丰富，据调查，我国有油料植物为151科697 属1554 种，其中种子含油量大于40%的植物有154 种。且我国的可开发生物质资源总量为7t左右标准煤，其中农作物秸秆约3.5 亿t，占50%以上。因此，加大生物质能源的开发利用，进行农业生物质能源发掘利用，不仅可解决农民的增收和“三农”问题，还可解决21 世纪中国面临的能源短缺、环境污染、食品安全等重大社会经济问题，乃至为全面建设“小康”社会目标的实现做出重大贡献，即生物质能源的开发利用直接关系到我国的可持续发展。 1 生物质能的概念及特性 1.1 生物质能的概念生物质能是太阳能以化学能形式贮存在生物质体内的一种能量形式，它以生物质为载体，直接或间接地来源于植物的光合作用。它分布广泛、产量巨大、可

生物信息学完整版

一、名词解释 1. 生物信息学： 1）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科； 2）它综合运用了数学、计算机学和生物学的各种工具来进行研究； 3）目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST（Basic Local Alignment Search Tool）直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库 3. PSI-BLAST：是一种迭代的搜索方法，可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。 5. HMM 隐马尔可夫模型：一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。（课件定义）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。 6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点：对于最大简约法来说没有意义的点。 8. 标度树：分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树：只表示亲缘关系无差异程度信息。 10. 有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。 11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，可以在无根树中指派根节点。 12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。 13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。 15. 有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。 16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。 17. 虚拟消化：是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切（课件定义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由计算机进行的一种理论上的蛋白裂解反应。 18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质量的准确确定成为可能。 19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。 20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。 21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构

学年论文要求及格式

《学年论文》2学分要求： 1.一人一篇论文，题目：（1）题目自选；（2）最好与毕业论文相关。 2.格式同毕业论文格式（基本同原文献检索课程论文），后面附件1是基本格式要求。 3.字数3500-5000字，参考文献原则上不少于20篇。 4.学年论文写完后，交到自己导师那里进行修改，直至导师认为可以并给出成绩为止！注意：认真完成，格式规范！不合格者需要重写！ 5.学年论文终稿打印提交（提交前让导师在封面上红色签字笔给出成绩并签上导师姓名，否则按不及格计），提交时间2016.12.31前，由学习委员收齐登记成绩后交给我（包括打印稿<双面打印>和电子稿<每人电子稿WORD文档以学号+姓名方式命名，收齐后打包压缩上传到公共邮箱学年论文文件夹中，同时报送EXCEL版的成绩单，需要信息为姓名、学号、成绩、导师姓名）。6.写作前阅读一下后面的附件2《文献检索与应用文写作》课程论文主要问题研究。

附件1： LUOYANG NORMAL UNIVERSITY 2013级学年论文论文题目(2号黑体居中) 院（系）名称生命科学学院专业名称学生姓名学号指导教师完成时间年月日

理工类样张（上边距30mm,下边距25mm,左边距30mm,右边距20mm ）混沌及其应用（二号，黑体，居中，与姓名行之间空一行）李斌（物理与电子科学系物理学专业学号：010514055 指导教师：王备战讲师）（小四号，仿宋GB_2312，词与词之间空两格，姓名行与学号行之间不空行，学号行与摘要之间空一行）摘要：（小四号黑体，顶格）本文阐述了混沌理论的产生、发展及现状，介绍了平庸吸引子……。（小四号，仿宋GB_2312，摘要与关键词之间空一行）关键词：（小四号黑体，顶格）混沌理论；意义；应用；前景(小四号，仿宋GB_2312,词与词之用分号隔开，最后一个关键词后不打标点符号，关键词与正文之间空一行，) 1 混沌（黑体，小四号顶格，一级标题序号用阿拉伯数字1，2，3……） 1.1 混沌的含义（黑体，小四顶格，二级标题用1.1，1.2，1.3……）混沌学的研究兴起于20世纪60年代初的美国，混沌科学研究是随着现代科学技术的出现和普遍应用的基础上发展起来的新兴交叉学科。（正文，宋体小四， 1.5倍行距）耗散系统的运动最终趋向维数比原始相空间低的极限集合，这个极限集合称为吸引子[2]。（参考文献文中标注用上标，从小到大顺序排列） 2.1.1 平庸吸引子（宋体，小四顶格，三级标题用1.1.1，1.1.2，1.1.3……）（更细分标题与与三级标题一样）洛伦兹奇异吸引子的动力学方程[3] bz xy z y rx xz y x y x -=-+-=-= )(σ （1）

浅谈生物信息学的发展和前景1

浅谈生物信息学的发展和前景摘要：生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。本文对生物信息学的产生背景及其研究现状等方面进行了综述，并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。因此，这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。关键字：生物信息学、产生背景、发展现状、前景随着生物科学技术的迅猛发展，生物信息数据资源的增长呈现爆炸之势，同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能，为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用，一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”。一、生物信息学产生的背景生物信息学是80年代未随着人类基因组计划（Human genome project)的启动而兴起的一门新的交叉学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学，生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面，所以目前生物信息学可以狭义地定义为：将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析，以达到理解这些生物大分子信息的生物学意义的交叉学科。事实上，它是一门理论概念与实践应用并重的学科。生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现，还只是出现在电子出版物的文本中。事实上，生物信息学的存在已有30多年，只不过最初常被称为基因组信息学。美国人类基因组计划中给基因组信息学的定义：它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。自1990年美国启动人类基因组计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作，人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图，预示着完成人类基因组计划已经指日可待。截止目前为止，仅登录在美国GenBank 数据库中的DNA序列总量已超过70亿碱基对。此外，迄今为止，已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累，在人类的科学研究历史中是空前的。数据并不等于信息和知识，但却是信息和知识的源泉，关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比，人类相关知识的增长（粗略地用每年发表的生物、医学论文数来代表）却十分缓慢。一方面是巨量的数据；另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求，这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学，这就是生物信息学。二、生物信息学研究的发展现状资金和实力非常重要，生物信息的研究投入短期不算大，但是结合成果，其投入相当的大。因为目前生物信息主要在于教学和和研究，商业领域的应用不算很广。如一套LIMS加上软件就要花上数千万。加上相关项目的研究开发，不是国内相关的机构所能承受的。所以需要得到政府的支持和帮助。以及有识之士的投入。否则我们又将远远落后国外。国内的制药行业将永不得翻身！基因的流失(国外一些国家打着给国内免费治疗，分析疾病的考旗帜，

量子混沌新进展

1、论文（设计）研究目标及主要任务研究目标：提高学生个人的调研能力和翻译英文的能力，锻炼语言组织能力，培养对物理学的研究兴趣，在实践中达到物理思想的熏陶。主要任务：简单介绍混沌尤其是量子混沌的概念，重点解释其本质特征及研究现状和研究方法，提高对其的认识和了解，激发研究热情并加快其研究进度。 2、论文（设计）的主要内容物理规律及其自然现象一般都很复杂，需要用非线性方程来表示它们的运动规律，而在非线性理论中混沌理论是非常重要的。人们普遍把由确定性方程描述的经典系统出现一种随机行为称为混沌现象。而量子混沌是经典动力系统中的混沌现象在量子体系中的表现形式。即是在微观层次上研究那些在经典极限下呈现混沌运动的量子不可积系统所具有的复杂行为。这里将主要介绍一下非线性理论中混沌理论特别是量子混沌的的研究，通过与较为成熟的经典混沌研究的对照，说明与经典混沌对应的量子混沌的特征以及利用半经典近似理论探讨混沌的量子化。重点介绍量子混沌在量子计算机、在低维超晶格的量子输运和核物理等领域的一些进展情况。在最后指出了量子混沌研究的重要意义。 3、论文（设计）的基础条件及研究路线基础条件：已经搜集了大量的相关材料，学习了其中与论文题目相关的内容并加以理解。认真整理材料和个人的学习体会，对论文相关内容有了统筹的把握。研究路线：需在原有材料基础上进行总结归纳，介绍其研究方法并适时加入自己的观点和看法，对有关原理进行必要理论分析，并揭示其研究应用前景，突出混沌尤其是量子混沌的研究重要意义。 4、主要参考文献 1、顾雁《量子混沌》上海科技教育出版社,1996. 2、Ze’ev Rudnick 《What is Quangtum Chaos?》Notice of The AMS,55(1):32-34. 3、[美]C.格里博格. 《混沌对科学和社会的冲击》湖南科学技术出版社.2001. 4、郝柏林. 《（从抛物线谈起）混沌动力学引论》上海科技教育出版社,1992. 河北师范大学本科生毕业论文（设计）文献综述

生物信息学发展概况及研究进展

生物信息学发展概况及研究进展韩龙生物化学与分子生物学2010200531 1 概述生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴的边缘学科，它以核酸和蛋白质为主要研究对象，以数学、计算机科学为主要研究手段，对生物学实验数据进行获取、加工、存储、检索与分析，从而达到揭示数据所蕴含的生物学意义的目的[1]。生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组时代。目前，它的主要研究内容已经从对DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化，转移到比较基因组学、代谢网络分析、基因表达谱网络分析、蛋白质技术数据分析处理、蛋白质结构与功能分析以及药物靶点筛选等[1]。在后基因组时代的今天，生物信息学已经成为目前极其热门的系统生物学研究的重要手段。利用各种功能的软件系统平台，目前生物信息学方法主要通过序列比对与分析、功能基因组与基因表达数据的分析、蛋白质结构预测以及基于结构的药物设计等方面应用于各个生命科学研究领域。 1.1序列比对与分析序列比对是生物信息学的基础，是比较两个或两个以上符号序列的相似性或不相似性。两个序列的比对现在已有较成熟的动态规划算法，以及在此基础上编写的比对软件包——BLAST和FASTA；两个以上序列的多重序列是生物信息学中尚未解决的一个NP完全的组合优化问题，是目前研究的热点[2]。比较经典的算法有SAGA算法[3]、CLUSTAL算法以及隐马尔可夫模型（Hidden Markov Models，HMM）多重序列比对算法，另外，如Notredame等[4]开发的T-Coffee算法、Timo等[5]设计的Kalign算法、张琎等[6]设计的基于GC-GM多序列比对穷举遗传算法，是通过穷举某个特定范围内的所有序列的长度取值，来确定最终最佳比对长度的一种多序列比对算法。这些算法已应用于各种多序列比对软件，并在应用中不断得到优化。 1.2 功能基因组学在后基因时代的今天，基因组学的研究已从结构基因组学（Structural genomics）转向功能基因组学（Functional genomics）[1] 。功能基因组的任务是进行基因组功能注释（Genome annotation），了解基因功能、认识基因与疾病的关系、掌握基因的产物及其在生命活动中的作用。基因的时空差异表达是功能基因组学研究的理论基础。

神经网络预测控制综述

神经网络预测控制综述摘要：近年来，神经网络预测控制在工业过程控制中不仅得到广泛的应用，而且其理论研究也取得了很大进展。对当前各种神经刚络预测控制方法的现状及其工业应用进行了较深入地分析，并对其存在的问题和今后可能的发展趋势作了进一步探讨。关键词：神经网络；预测控制：非线性系统；工业过程控制 Abstract: In recent years, neural network predictive control has not only been widely used in industrial process control, but also has made great progress in theoretical research. The current status of various neural network prediction control methods and their industrial applications are analyzed in depth, and the existing question and possible future development trends are further discussed. Keywords: neural network; predictive control: nonlinear system; industrial process control

20世纪70年代以来，人们从工业过程的特点出发，寻找对模型精度要去不高而同样能实现高质量控制性能的方法，预测控制就是在这种背景下发展起的[1]。预测控制技术最初山Richalet和Cutler提出[2],具有多步预测、滚动优化、反馈校正等机理，因此能够克服过程模型的不确定性，体现出优良的控制性能，在工业过程控制中取得了成功的应用。如Shell公司、Honeywell公司、Centum 公司，都在它们的分布式控制系统DCS上装备了商业化的预测控制软件包．并广泛地将其应用于石油、化工、冶金等工业过程中[3]。但是，预测函数控制是以被控对象的基函数的输出响应可以叠加为前提的，因而只适用于线性动态系统控制。对于实际中大量的复杂的非线性工业过程。不能取得理想的控制效果。而神经网络具有分布存储、并行处理、联想记忆、自组织和自学习等功能，以神经元组成的神经网络可以逼近任意的：线性系统。使控制系统具有智能化、鲁棒性和适应性，能处理高维数、非线性、干扰强、难建模的复杂工业过程。因此，将神经网络应用于预测控制，既是实际应用的需要，同时也为预测控制理论的发展开辟了广阔的前景。本文对基于神经网络的预测控制的研究现状进行总结，并展望未来的发展趋势。 l神经网络预测控制的基本算法的发展[4] 实际中的控制对象都带有一定的菲线性，大多数具有弱非线性的对象可用线性化模型近似，并应用已有的线性控制理论的研究成果来获得较好的控制效果。而对具有强非线性的系统的控制则一直是控制界研究的热点和难点。就预测控制的基本原理而言，只要从被控对象能够抽取出满足要求的预测模型，它便可以应用于任何类型的系统，包括线性和非线性系统。由于神经网络理论在求解非线性方面的巨大优势，很快被应用于非线性预测控制中。其主要设计思想是：利用一个或多个神经刚络，对非线性系统的过程信息进行前向多步预测，然后通过优化一个含有这些预测信息的多步优化目标函数，获得非线性预测控制律。在实际应用与理论研究中形成了许多不同的算法。如神经网络的内模控制、神经网络的增量型模型算法控制等，近来一些学者对有约束神经网络的预测控制也作了相应的研究。文献[5]设计了多层前馈神经网络，使控制律离线求解。文献[6]采用两个网络进行预测，但结构复杂，距离实际应用还有一定的距离，文献[7]利用递阶遗传算法，经训练得出离线神经网络模型．经多步预测得出对象的预测模型，给出了具有时延的非线性系统的优化预测控制。将神经网络用于GPC的研究成果有利用Tank．Hopfield网络处理GPC矩阵求逆的算法，基于神经网络误差修正的GPC算法、利用小脑模型进行提前计算的GPC 算法、基于GPC的对角递归神经网络控制方法以及用神经网络处理约束情形的预