生物信息学在医学领域的应用前沿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学在医学领域的应用前沿
摘要:生物信息学是有生命科学、信息学、数学、物理、化学等学科相互交融而形成的新兴学科。生物信息数据库几乎覆盖了生命科学的各个领域,截止至2010年,总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。
关键词:生物信息学;医学;基因;应用
生物信息学是20世纪80年代以来随着人类基因组生命科学与信息科学以及数学、物理、化学等学科相互交融而形成的新兴学科,是当今最具发展前途的学科之一。人类基因组计划的顺利推进产生了海量基因数据,这些数据中蕴藏着丰富的生物学内涵,如果能充分挖掘并加以利用,可能揭示出很多对人类有用的信息。生物信息学已经成为生物学、医学、农学、遗传学、细胞生物学等学科发展的强大推动力量。随着生物信息学研究的深入与发展,它已不断渗透到医学领域的研究中。近年来,伴随着对基因组的研究不断深入,部分应用领域取得了令人瞩目的突破,其潜在的经济利益更是吸引了众多国家、企业及大量科研人员投入到相关研究中,生物信息学得到了迅猛的发展。
一、主要数据库
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。截止至2010年,生物信息数据库总数已达1230个。生物信息数据可可分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释,如Genbank数据库、SWISS-PROT数据库;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理,如人类基因组图谱库GDB。
在医学领域中常用的生物信息数据库主要有:核酸类数据库,如NCBI核苷酸序列数据库(Gen Bank )、欧洲核苷酸序列数据库(EMBL)、日本DNA 数据库(DDB)等;蛋白相关数据库,如蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(HR)、Entrez 的蛋白三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等;疾病相关数据库,包括综合临床数据库,如NCBI疾病基因数据库、Gene Cards等;遗传性疾病数据库,如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(Gene Dis)等;肿瘤相关数据库,如肿瘤基因组解剖工程(CGAP)等;心血管疾病相关数据库,如心血管疾病相关生物医学数据库(Cardio)、心脏疾病计划及临床决策支持系统(HDP &CDM)等;免疫性疾病数据库,如免疫功能分子数据库( HMM)、免疫缺陷资源库(IDR)等;药物相关数据库,如药物和疾病数据库(Drugs)、FDA药品评审与研究中心(CDER)等。
二、生物信息学在医学领域的应用
2.1 生物信息学在医学基础研究中的应用
2.1.1 新基因的发现与鉴定
疾病的发生发展与特异基因的改变有关,鉴定与疾病相关的基因是科学家在积极探索的一个方向,对治疗某些疑难杂症带来新的契机。发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。现在很多疾病的致病基因已经发现,包括癌症、肥胖、哮喘、心脑血管病等,其中与癌症相关的原癌基因约有1000个,抑癌基因约有100个。
目前发现新基因的主要方法有以下3种:①通过多序列比对从基因组DNA序列中预测新基因,其本质是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。②基因的电子克隆,即以计算机和互联网为手段,通过发展新算法,对生物信息数据库中存储的表达序列标签进行修正、聚类、拼接和组装,获得完整的基因序列,以期发现新基因。③发现单核苷酸多态性。
例如,2010年我国学者通过生物信息学EST 拼接技术,RT-PCR等技术,克隆出30个人类未知功能的新基因,并通过生物信息学分析该基因
NCBI: NM_145315.3,其cDNA 全长为2 262bp,有13个外显子和12个内含子组成,主要定位于人6号染色体,该基因定位于细胞质中,MTT结果显示该基因能明显抑制细胞增值。
2.1.2 蛋白质结构、功能的预测
蛋白质结构的预测有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程,如分子力学和分子动力学。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构,如同源模建和指认方法。随着功能基因组及蛋白质组学研究技术的发展,产生了许多蛋白相关数据库及分析软件,如ExPASy。它能根据氨基酸组成辨识蛋白质,提供氨基酸组成,蛋白质的名称、等电点和相对分子质量以及它们的估算误差,所属物种或物种种类或全部标准蛋白的氨基酸组成等信息。对于蛋白质结构和功能,尽管可以通过实验的方法来实现,但由于目前的蛋白检测的技术水平还远跟不上涌现如潮的基因的数量,蛋白结构、功能的预测研究现状还远远不能满足实际需要。
2.2 生物信息学在临床医学中的应用
诺贝尔生理学医学奖获得者利根川进指出:人类的一切疾病都与基因受损有关。疾病发生和转归的本质是遗传信息在一定环境条件下的外在表达。随着人类基因组计划的深入研究,当明确了人类全部基因在染色体上的位置、序列特征(包括单核苷酸多态性sin—gle—nucleotide polymorphisms,SNPs)以及他们的表达规律和产物(RNA和蛋白质)特征以后,人们就可以有效地了解各种疾病发生的分子机制,进而发展适宜的诊断和治疗手段。
基因诊断又称DNA诊断或分子诊断,通过分子生物学和分子遗传学的技术,直接检测出分子结构水平和表达水平是否异常,从而对疾病做出判断。基因诊断常用的方法有斑点杂交法、Southern印迹法、人工合成探针的直接探测法等。例如血友病A 的基因诊断,可直接检测FⅧ基因突变,以及用间接基因诊断法对DNA多态性标志进行连锁分析,不仅可以揭示HA的致病机制,还可用于携带者检出及产前诊断。目前,基因诊断已在感染性疾病、遗传病、肿瘤中应用,如人乳头瘤病毒(HPV)、乙肝病毒(HBV)、结核杆菌、HIV的检测,杜氏肌营养不良症的诊断,肿瘤的诊断、残留癌细胞的识别检测。
2.3 生物信息学在药物研发中的应用
传统的药物研发方法具有耗时长、成本高等缺点。创新药物的研究具有巨大的社会效益和经济效益。目前生物信息学已经成为生物药物研究的重要工具和手段,以基因为基础的新药开发,已成为新药开发的关键方面。生物信息学方法可以为药物研制提供了更多的、潜在的靶标。而人类基因组计划和蛋白组计划的实施、大量疾病相关基因及作用靶点的发现、生物信息学的兴起、为新药设计提供新的理论和思路。
寻找先导化合物是新药物研发的关键,药物作用的基础是先导化合物与靶蛋白的结合进而阻断靶蛋白的功能或改变其功能状态。生物信息学方法在这方面的作用越来越受到重视,常用的方法有:①三维结构搜寻:又称数据库搜寻法或数据库算法,即利用计算机人工智能的模式识别技术,把三维结构数据库中的小分子数据逐一地与搜寻标准(即提问结构)进行匹配计算,寻找符合特定性质和三维结构形状的分子,从而发现合适的药物分子。②分子对接:首先要建立大量化合物的三维结构数据库,然后依次在数据库中搜索小分子配体使其与受体的活性位点结合,并通过优化取向和构象,使得配体与受体的形状和相互作用最佳匹配。最开始的分子对接方法是刚性的分子对接法,后来又发展为柔性的对接方法。③三维结构生成:又称从头设计,即让计算机自动设计出与受体活性部位的几何形状和化学性质相匹配的结构新颖的药物分子。部分药物的应用获得了丰厚的市场回报,其潜在的经济利益更使得以企业为主体的相关研究乐此不疲。但值得注意的是,因为应用范围有限、应用时间偏短、对有关代谢作用机制仍不十分清楚等原因,这些药物的临床缺陷尚掩盖在其前所未有的治疗效果中。因此,基因药物的发展及应用必须适应生物信息学相关研究的发展,任何超前或草率的行为,都有可能产生竟想不到的负面影响。
2.4 建立与医学有关的生物信息学数据库
随着对人类疾病基因研究的深入,一些与医学有关的生物信息学数据库相继建立。如人类遗传性疾病数据库(GeneDis)、心脏疾病计划及临床决策支持系统(HDP&CDM)、转基因/靶基因突变数据库(TBASE)、FDA药品评审与研究中心(CDER)。如肿瘤及血液病的遗传和细胞遗传学数据库(Atlas of Genetics and Cytogenetics in Oncology and Haema