浅谈生物信息学在生物学研究中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈生物信息学在生物学研究中的应用

生物信息学(Bioinformatics)是一门新兴的、正在迅速发展的交叉学科,目前国内外对生物信息学的定义众说纷纭,没有形成统一认识。概括来说,现代生物信息学是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。

生物信息在生物学研究上的应用主要包括在基因组学研究上的应用和在蛋白质组学研究中的应用。

1.在基因组学研究中的应用

基因组(genome)表示一个生物体所有的遗传信息的总和。一个生物体基因所包含的信息决定了该生物体的生长、发育、繁殖和消亡等所有生命现象。有关基因组的研究称为基因组学(Genomics),基因组学根据研究重点的不同分为序列基因组学(Sequence genomics)、结构基因组学(Structural genomics)、功能基因组学(Functional genomics)与比较基因组学(Comparative genomics)。

结构基因组学的研究:结构基因组学(Structural genomics)是基于基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学口。生物信息学在结构基因组学中的应用主要在于:基因组作图、核苷酸序列信息分析、基因定位、新基因的发现和鉴定等方面。比较基因组学的研究:借助生物信息学的手段对不同生物基因组的比较、分析,可以进行生物进化等方面的研究。

功能基因组学的研究:功能基因组学(Functional genomics)是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时空、条件下的结构与功能关系及活动规律的学科。功能基因组的研究是后基因组时代的关键点,它将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,并通过比较分析基因及其表达的状态,确定出基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。

2.在蛋白质组学的研究中的应用

在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质空间结构的解析,生生命科学的研究进入了分子生物学时代,而遗传信息载体DNA和生命功能的体现

者蛋白质的研究,成为了其主要内容。90年代初期启动的庞大的人类基因组计划,已经取得巨大的成在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质空间结构的解析,生生命科学的研就,人类基因组序列草图绘制完成后,生命科学研究跨入了后基因组时代。然而,人们清醒地识到基因仅是遗传信息的载体,而生命活动的执行者是基因的表达产物—蛋白质,它是生命现象复杂性和多变性的直接体现者。

蛋白质组一词是澳大利亚学者马克威尔金斯在1994年最先提出来的,它是指基因组表达的所有相应的蛋白质,也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上,在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律,探讨重大疾病机制,疾病诊断和防治、新药的开发提供重要的理论基础。

生物信息学在蛋白质组学中的蛋白质数据库的应用

2.1蛋白质组数据库

蛋白质组数据库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数据库来研究蛋白质表达的差异情况。与其他数据库相比, 目前大部分蛋白质组数据库都有以下几个方面的特点: (1)由于蛋白质相关数据的种类繁多,蛋白质组数据库的种类也多种多样,如双向电泳数据库、基于蛋白序列的数据库、蛋白质一级或高级结构数据库、蛋白质相互作用数据库等等;(2)新速度快,网络上的蛋白质组数据库的数据几乎每天都在更新;(3)网共享程度高, 越来越多的数据库资源与互联网相互配合,使得蛋白质相关数据的利用率空前的提高。蛋白质组数据库的主要内容即集中在基于双向电泳结果的数据库和基于蛋白质序列信息的数据库。

2.1.1基于双向电泳图谱的数据库

双向电泳技术是蛋白质组学研究中最重要的实验技术之一,所以基于双向电泳图片的数据库也成了蛋白质组学研究中主要内容。

2.1.2 基于蛋白质序列信息的数据库

基于蛋白质序列信息的数据库是生物信息学数据库中最基本的数据库,这些数据库以氨基酸残基顺序为基本内容,并附有注释信息(计算机的序列分析结果和生物学家查阅文献的结果)。基于蛋白质序列的数据库很多,主要有蛋白质信息资源数据库(PIR)、SWISS - PROT 数据库、蛋白质序列数据库 NRL - 3D和 TrEMBL 等等。

2.1.3 其他蛋白质组数据库

蛋白质生物信息学包含很多方面的内容:如蛋白质大分子的结构、相互作用等等,所以,除了上述的一些数据库之外,还有很多关于构象、相互作用等方面

的数据库,是基于质谱应用的数据库,属于混合数据库。将生物信息学的实验思路引入蛋白质组学的实验方案后,实验人员可以通过互联网上的信息设计实验方案,避免了很多重复性的劳动,少走很多弯路,为蛋白质组学的发展提供了可靠的信息资源。值得一提的是,上文提到的大多数数据库都能实现数据接收、在线查询和空间结构的可是化浏览等多种功能。而且,几乎所有这些数据库都是免费的,都可以免费下载或提供免费服务,使得蛋白质组学可以在生物信息学的辅助之下快速发展。

2.2生物信息学与蛋白质分析

在蛋白质组分析过程中,生物信息学的作用不仅仅体现在数据库的查阅和资料的整合中,生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质(如2-DE)图像分析、Edman降解的序列组合、质谱数据的综合分析等),对有价值的未知蛋白质进行分析和预测(包括序列分析、结构预测、结构域、电点等性质的检测等)、针对蛋白质的分析预测方法应用的工具有4个方面。

2.2.1 蛋白质一级结构分析

根据20中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质,同样也可以分析已知蛋白质的物化性质。设计PROPSEARCH的目的是为了通过排比方法查询一个新的蛋白质序列失败时,查找公认的蛋白质家族而设计的。PROPSEARCH可以通过氨基酸组分来查询,同时也可以通过其他的特性来进行查询,如从序列中计算所得的分子量、挑选的二肽组分的含量等。

2.2.2 蛋白质的物理性质预测

从蛋白质序列出发,预测蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。

2.2.3蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有3种。一是由已知结构统计各种氨基酸残基形成二级结构的构象趋势,其中最常用的是Chou和Fasman 法;二是基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

2.2.4蛋白质的三维结构

蛋白质三维结构是预测时最复杂和最困难的预测技术。序列差异较大的蛋白

相关文档
最新文档