生物信息学发展概况及研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学发展概况及研究进展
韩龙生物化学与分子生物学2010200531
1 概述
生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴的边缘学科,它以核酸和蛋白质为主要研究对象,以数学、计算机科学为主要研究手段,对生物学实验数据进行获取、加工、存储、检索与分析,从而达到揭示数据所蕴含的生物学意义的目的[1]。
生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组时代。目前,它的主要研究内容已经从对DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化,转移到比较基因组学、代谢网络分析、基因表达谱网络分析、蛋白质技术数据分析处理、蛋白质结构与功能分析以及药物靶点筛选等[1]。在后基因组时代的今天,生物信息学已经成为目前极其热门的系统生物学研究的重要手段。
利用各种功能的软件系统平台,目前生物信息学方法主要通过序列比对与分析、功能基因组与基因表达数据的分析、蛋白质结构预测以及基于结构的药物设计等方面应用于各个生命科学研究领域。
1.1序列比对与分析
序列比对是生物信息学的基础,是比较两个或两个以上符号序列的相似性或不相似性。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BLAST和FASTA;两个以上序列的多重序列是生物信息学中尚未解决的一个NP完全的组合优化问题,是目前研究的热点[2]。比较经典的算法有SAGA算法[3]、CLUSTAL算法以及隐马尔可夫模型(Hidden Markov Models,HMM)多重序列比对算法,另外,如Notredame等[4]开发的T-Coffee算法、Timo等[5]设计的Kalign算法、张琎等[6]设计的基于GC-GM多序列比对穷举遗传算法,是通过穷举某个特定范围内的所有序列的长度取值,来确定最终最佳比对长度的一种多序列比对算法。这些算法已应用于各种多序列比对软件,并在应用中不断得到优化。
1.2 功能基因组学
在后基因时代的今天,基因组学的研究已从结构基因组学(Structural genomics)转向功能基因组学(Functional genomics)[1] 。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因功能、认识基因与疾病的关系、掌握基因的产物及其在生命活动中的作用。基因的时空差异表达是功能基因组学研究的理论基础。
经典的减法杂交、差式筛选、cDNA替代差异分析以及mRNA差异显示等技术已被广泛应用于鉴定和克隆差异表达的基因。近年来应用较热的主要是基因表达系列分析(Serial analysis of gene expression,SAGE)、cDNA微阵列(cDNA microarray)和DNA芯片(DNA chip)等差异表达分析技术。如由Liang和Pardee等发明的差异显示反转录PCR(Differential display-reverse transcriptase PCR,DDRT-PCR)技术[8]。
1.3 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用,分为二级结构预测和空间结构预测。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其他结构,常用的方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型法可以完成所有蛋白质10%到30%的空间结构预测工作[7]。目前尚没有普遍可行的方案实现蛋白质结构的准确预测,大多数方案为启发式的。
1.4 基于结构的药物设计
基于生物大分子结构的药物设计是生物信息学研究的热点。利用现有的海量生物数据进行潜在药物靶点定位是生物信息学药物设计的主要策略。目前研究比较热的是计算机辅助药物设计(Computer aided drug design)。计算机辅助药物设计就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化设计,大致包括活性位点分析法、数据库搜索、全新药物设计。目前活性位点分析软件主要有DRID、GREEN、HSITE等[7]。通过搜索数据库来获得药物靶点是其中一个手段,主要分为基于配体的方法和基于受体的分析方法;另外,全新药物设计的方法越来越受到人们的重视,现已开发出一批实用性较强的软件,主要有LUDI[9]、Leapfrog [10]、GROW、SPROU等,其中LUDI最为常用。
2 生物信息学的研究方法
生物信息学是计算机科学、数学和生物学界面的一门多学科的交叉学科。生物信息学数据库主要分为两大类,包括基本数据库和二级数据库。基本数据库是对原始生物实验数据进行简单的整理和归类。主要包括核酸数据库,如GenBank、EMBL、DDBJ等;基因组数据库,如GDB、GenCards等;蛋白质序列数据库,如SWISS-PROT、PRI、TrEMBL 等;蛋白质结构数据库PDB。二级库是在一级库的基础上,结合工作的需要将部分数据从一级库中取出,经过重新组合(包括一定的修正或调整)而成的数据库。由于其专一性强,数据量相对较少,但质量
高,数据库结构设计精制。目前生物信息学的研究对象主要是核酸序列和蛋白质序列,其主要任务是分析研究序列数据库中所含的各种信息,特别是DNA序列中的遗传及调控信息以及研究蛋白质序列与结构及功能的关系16。
GenBank(/genbank)是由位于Bethesda 的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)成立和维护的DNA和RNA序列数据库,是国际核酸序列数据库合作项目的一部分,它与欧洲分子生物学实验室(Europena Molecular Biology Laboratory,EMBL)(/)和日本核酸序列数据库(DNA DataBank of Japan,DDBJ)(http://www.ddbj.nig.ac.jp/)一起构成当今世界上最权威最广泛的核酸序列数据库。收录的序列包括基因组DNA序列、互补脱氧核糖核酸(complementary deoxyribonucleic acid,cDNA)序列、表达序列标签(expressed sequence tags EST)序列、序列标签位点(sequence tagged site,STS)、载体序列以及专利序列等,每条记录都有编码(coding sequence,CDS)特征的注释,还包括氨基酸的翻译。它是一个有来自于16500多种生物且以每月2000多种新物种的速度增长的巨大核酸数据库。具体访问GenBank的方式可通过Entrez搜索引擎、基本局部比对搜索工具(Basic Local Alignment Search Tool ,BLAST)进行序列同源性搜索、dbEST搜索以及dbSTS 搜索。每种搜索方式又可以通过关键词、作者、GenBank接受号、种类分类等进行查询。
SWISS-PROT(/sprot/sprot-top.html)蛋白序列数据库是由日内瓦大学医学生物化学系与EMBL于1987年共同开发维护,现由EMBL的分支机构欧洲生物信息学研究所(European Bioinformatics Institute,EBI)进行维护,旨在向基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质序列的最新信息。SWISS-PROT 涉及已知蛋白质的功能、序列、结构域的结构、翻译后修饰及其位点、突变体等。具体访问SWISS-PRO时,可通过关键词、SWISS-PROT接受号、作者等方式进行查询。为了保持高质量的注解,使序列尽快地有效变得至关重要。因此,TrEMBL于1996年成立,它是对SWISS-PROT的计算机注解的补充,这样使SWISS-PROT 蛋白质序列数据库变得更加充实和重要。
PDB()创建于1971年。其是美国自然科学基金会、能源部和国立卫生研究院共同投资,由美国布鲁克海文国家实验室(Brookhaven National Laboratory)建立的,主要由X射线晶体衍射和核磁共振测得的生物大分子的三维结构所组成的全世界最完整的蛋白质结构数据库。它位于美国结构生物信息学联合研究