生物信息学与药物研发
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学与药物研发
代斌生科121班1333120004
摘要:生物信息学作为一门综合计算机科学、信息技术和数学理论开发新的算法和统计方法的学科,对生物实验数据进行分析从而确定数据中所隐含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的交叉学科。其主要优势在于以低成本和高通量的方式对大量生物学和医学数据进行管理和分析,侧重于从中进一步挖掘与药物疗效、作用机制和副作用等相关的有价值的信息,为药物研究提供参考和指导。基于低通量药理或毒理学实验的传统新药研发流程具有周期长、成本高和失败率高的局限性。结合其成功运用药物生物信息学进行新药研发和旧药新用的经验,本综述介绍了药物生物信息学在新药研发中的新进展,表明在我国建设药物生物信息学平台的重要性和必要性
关键字:生物信息学药物研究药物开发
生物信息学(Bioinformatics)是在数学、计算机科学和生命科学的基础上形成的一门新交叉学科,是指为理解各种数据的生物意义,运用数学、计算机科学与生物学手段进行生物信息的收集、加工、储存、传播、分析与解析的科学[1-3]。它是以基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。其主要任务为:①生物数据库的设计、建立和优化;②从数据库中提取有效信息的算法;③为用户设计查询信息的界面;④开发数据可视化的有效方法;⑤与多种资源和信息建立有效连接;⑥开发数据分析的新方法;⑦发展预测的算法,对新产品、新功能、疾病诊断和治疗等进行预测[4]。随着技术的进步,大量的生物数据信息得到积累:每年核苷酸序列库、蛋白质序列库、核酸和蛋白质结构库以及其它各种数据库都在急剧增加;新的技术和方法不断地发展:微点阵技术、抗体与蛋白质阵列技术等等都在飞速发展;新的算法和数据处理工具不断产生和发展,这在基因组研究时代使得生物信息学在药物中发挥越来越重要的作用。由于生物信息学提供了大量的数据资源(包括:表达序列标记、微生物基因组序列、模式生物序列、单核苷酸多态性、基因表达数据、蛋白质组数据等等)、各种算法和数据软件工具,使得它可以为药物研究提供新的作用靶位,有助于计算机进行药物分子模拟,并使药物的临床前评价和临床评价的现状得到较大的改善,对中药的研究也有非常重要的意义。
1药物生物信息学研究的基本原理
生物信息学在生命科学研究中,是一门综合计算机科学、信息技术和数学理论开发新的算法和统计方法的交叉学科,对生物实验数据进行分析从而确定数据中所隐含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理[1]。生物信息学是随着人类基因组计划的启动而兴起的,其研究范围涵盖了生物学数据的整理、存档、显示、计算和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等方面。而药物生物信息学作为生物信息学的一个重要独立分支学科,则更侧重于处理与药物直接相关的知识和数据,如旧药新用、不良反应、药物作用机制、药物相互作用和电子病历等信息,并在临床转化和新药研发中发挥着重要作用[2]。当前,药物相关的研发受益于生物技术和计算机技术的进步,并不断产生着大量的与药物作用和药物反应相关的高通量数据,例如基因组学[3]、转录组学、蛋白质组学和代谢组学等等[4]。因此,当今药物研发在信息处理层面上的主要瓶颈不再是数据的匮乏,而是数据过剩带来的信息解读的不充分。也就是说,药理学和毒理学研究的发展和进步不仅要依靠更新更快的硬件平台来产生数据,也要依靠更有效更可靠的各种算法、软件和工具来对大量抽象的实验数据进行清晰而准确的分析。而药物生物信息学就是挖掘和利用实验数据中的信息,从众多的数值、文本和序
列中去伪存真,发现统一的、系统性的药理或临床规律,并将这些规律总结成可读可视可用的格式(如图表、公式和软件等)以供后续的研究参考和使用,从而促进高效和安全的药物研发。可以预见,随着生命科学的研究方向不断向系统生物学的思维靠拢,药物研发也将越来越多地遵循系统药理和毒理学的研究思路,其中药物生物信息学必将发挥越来越重要的作用
2生物信息学的主要研究内容
1.1序列比对
序列比对是生物信息学的基础,是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包———BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
1.2蛋白质结构预测从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。
1.3计算机辅助基因识别DNA序列是遗传信息的源泉,他对蛋白质的编码是我们所感兴趣的重要内涵。在DNA序列分析方面,识别编码区域或寻找基因是最关键的。由于存在大量的DNA序列数据,发展识别编码区域和基因的算法是最大限度利用生物分子数据的重要环节。在过去10年中,已发展了一些用于识别翻译和转录特征以及功能位点的算法,功能位点包括启动子、起始密码、剪切位点、内含子、外显子等。严格受约束的位点可以被准确定义,对这些位点的识别仅仅是字符串匹配的问题。否则,一般采用模式识别方法进行识别。一种定量的方法就是利用加权矩阵来表示在位点内每个位置核苷酸的出现频率,这可用于检测局部特征信号。
1.4非编码区分析和DNA语言研究
在人类基因组中,编码部分进展总序列的3%~5%,其他通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA 上的编码蛋白质的区域(基因),这部分序列只占基因组的1%。99%非编码区蕴含的信息将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
1.5基于结构的药物设计
人类基因组计划的目的之一在于阐明人类蛋白质的结构、功能、相互作用以及与各种人类疾病之
3生物信息学展望
21世纪是生命科学大发展的时代,以人类基因组计划为序幕的生物信息学研究,是全面认识生命及其过程的重要手段。未来医学的突破性进展不仅取决于生物学家与医学家的努力,甚至更大程度上取决于数学、物理、化学、计算机技术等的发展以及生物学和医学的交叉和结合。生物信息学作为一门综合系统科学,可发挥其独特的桥梁作用和整合作用。它以数学和计算的方法,研究数据挖掘和模式识别的算法,或利用临床数据库、基因型-生物表