生物信息学研究进展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

LOGO

题目生物信息学的研究现状及其发展问题的探讨学生姓名 XXX 学号 XXXXXXXXXXX 所在院(系)XXXXXXXXXXXXXXXXXXX

专业班级XXXXXXXXXXXXXXXXXXXX

指导教师XXXXXX

2015年12月28日

生物信息学的研究现状及其发展问题的探讨

XXX

(地址,邮编)

[摘要] 结合生物信息学产生的历史条件,对生物信息学的定义进行了介绍;归纳总结了现代生物信息表述、采集、储存、传递、检索的表现形式-生物学数据库的分类与分布;着重介绍了生物信息学的主要研究内容和基本的分析方法,阐明了生物信息的分析和解读模式;强调了生物信息学与其他相关学科的相关性,提出了生物信息学发展的一些亟待解决的问题及其相应的解决方案。

[关键词]生命科学;生物信息学;数据库;相关性

前言

生物信息学是伴随着人类基因组计划发展而产生的一门涉及生物学、数学以及计算机科学与的交叉学科。关于生物信息学的定义,20世纪90年代,美国人类基因组计划曾经给出一个比较完整的解释:生物信息学是一门交叉学科,包含了生物信息的获取、加工、储存、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据说包含的生物学意义。生物信息学旨在揭示“基因组信息结构的复杂想及遗传语言的根本规律”,是21世纪自然科学和技术科学领域中“基因组”“信息结构”和“复杂性”这三个重大科学问题的有机结合

生物信息学的形成和发展对目前在全球范围内广泛开展的各物种的基因组学、蛋白组学、信息科学、计算机与网络技术、新药开发等多个领域将产生重大影响,并将成为21世纪生命科学的基石[3]。

1 生物信息学的基本范畴

“生物信息学”是英文单词“Bioinformatics”的中文译名,它是由美国学者Lim在1991年发表的文章中首次使用的[4]。生物信息学是它包含了生物信息的获取、处理、储存、分析和解释等在内的所有方面的一门交叉学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解和阐明大量生物学数据所包含的生物学意义。具体来讲,生物信息学是把核酸、蛋白质等生物大分子数据库作为主要研究对象,用数学、计算机科学等为主要研究手段,对巨量生物学原始实验数据进行存储、管理、注释、加工,使之成为具有明确生物学意义的生物信息;通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等知识;在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题[2-3]。

2 生物信息学的基本分析方法

随着生物信息的急剧增长,如何从浩瀚的数据库中获取有用信息,怎样处理提取的数据,进而从中获得与生物结构、功能相关的信息是一个使理论生物学家感到棘手的难题[2-3]。借助于计算机科学、信息科学及其它学科的共同参与,人们发展了生物信息的多种分析方法,其中最基本的方法有序列对比、结构对比及功能对比预测法等。

2.1序列比对预测法

序列比对是以核酸和蛋白质序列为依据,来比较两个或两个以上核酸或蛋白质在碱基

(A,T,C,G)、氨基酸(20个氨基酸)水平上的相似性和不相似性。序列比对是生物信息学最基本的分析方法。常用的序列比对方法有两两序列比对和多序列比对[7]。两两序列比对是比较两序列之间的相似性区域和保守位点来寻找两序列可能存在的历史进化关系。两两序列比对又分为总体序列比对和局部序列比对。两个序列的比对有较成熟的动态规划算法:总体序列比对是以Needleman-Wunsch的算法为理论体系发展的完善的比对方法;当两个序列总体并不很相似,但某些局部片段相似性较高时,Smith-Waterman算法是解决局部比对的好算法,局部序列比对正是以Smith-Waterman动态规则算法为理论依据的比对方法。多序列比对是以两两序列比对为基础,逐步优化两条或多条序列比对结果的方法,其目的是建立两条以上序列可能存在的进化关系。最常见的多序列比对方法有Pileup算法和Clustalw算法[8]。

2.2结构比对预测法

结构对比的基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性;蛋白质结构预测包括2级和3级结构预测[9]。从方法学上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。以核酸和蛋白质的序列为基础,来预测其生物学结构,是生物信息学的核心研究内容[10]。基于核酸序列的预测分析方法就是以核酸序列为基础,来分析预测其功能基因的位置。其分析内容常常包括:密码子的偏向、内部重复序列、特殊位点、编码蛋白区和二级结构的预测。

2.3功能比对预测法

组成蛋白质的氨基酸序列不仅决定着蛋白质的三维结构,而且也决定着它的功能[3]。首先以蛋白质的序列为依据,来预测蛋白质的物理性质,如分子量、等电点、亲水性和疏水性、跨膜区域、信号肽和蛋白定位等。蛋白质的功能预测是以目的蛋白为线索力图发现它和功能已知蛋白质的相似性。蛋白质的功能预测主要侧重在序列同源性和功能区序列的保守性[11]。

蛋白质二级结构预测有两种策略:以单一序列为基础和以多重序列对齐为依据的分析方法。常用的三级结构预测方法有同源模建和穿针引线算法。

2.4核酸序列分析

2.4.1序列比较与进化树构建

序列比较是一项基本的生物信息学技术,其应用很广,形式多样。可分为基于一个序列的重复片段或反向重复片段查找、两序列比较和多序列比较等。常用软件为Biosun[1]、MatLab、EBI主页上的工具Tools、NCBI主页上的工具Blast。构建进化树是从序列中发现进化关系,分析物种的同源性。常用软件为Biosun、clustalW[2]以及phylip进化分析软件包。

2.4.2DNA序列翻译为蛋白质序列

根据密码子与氨基酸之间的对应关系将DNA序列翻译为蛋白质序列。常用软件为Biosun、DNAStar、DNAMAN和NCBI上的ORF查找工具。

2.4.3限制性酶切位点分析

可以通过文本编辑器软件来查找,也可以通过专门的软件[3]:如Biosun、NEBcutterV2.0和PrimerPremier5.0。

2.4.4转录因子结合位点预测

通过预测分析目标基因转录调控区中顺式原件的组成和分布情况,可以从理论上了解目标基因的表达情况,从而指导后续实验的设计[4]。常用软件为Biosun、PMATCH和MatrixCatch。

2.4.5启动子预测

大量基因组序列被破译,使得不仅要预测分析新基因的编码区结构,还要分析预测其转录起始位点及启动子序列,从而规模化地了解其编码的基因及表达方式。启动子是DNA

相关文档
最新文档