生物信息学在生物医学文献中自动提取疾病相关信息的运用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学在生物医学文献中自动提取疾

病基因点突变信息的运用

生物信息学(Bioinformatics)一词由美籍学者林华安博士(Hwa A.Lim)首先创造和使用。生物信息学是多学科的交叉产物,涉及生物、数学、物理、计算机科学、信息科学等多个领域。狭义的讲,生物信息学是对生物信息的获取、存储、分析和解释;计算生物学则是指为实现上述目的而进行的相应算法和计算机应用程序的开发。这两门学科之间没有严格的分界线,统称为生物信息学。生物医学研究的重要目标就是找到突变和相应的疾病表型。但是大多数的疾病相关的突变数据都以文本的形式埋藏在生物医学文献之中,缺乏必要的结构来便于检索和查找。

信息的快速更新和持续增长的文献储存使得提取这些突变信息变得困难。蛋白质和DNA的突变信息储存在像Mendelian inheritance in man(OMIM)和Swiss-Prot

等数据库中。数据挖掘的方法从这些数据库中提取突变信息可以达到0.98的准确性,但是还没有正确的自动转到疾病相关的突变的方法。现有算法可以实现鉴定点突变(比如MutationFinder)或者突变和其相关的基因以及蛋白质的名称(比如MEMA和MuteXe)。大多数“突变+基因”的方法可以通过各自不同的界面和算法来实现对点突变信息的表述和文本数据收集。比如:Mutation Grab采用基于图表的(Graph based)的方法,而MutationMiner采用结构可视化的方法来表现。但是所有方法都关注于提取点突变和相关基因的正确性。

新的高效的从生物医学文献中鉴别点突变以及他们和疾病表型的关系。结合了数据挖掘(data mining)和序列分析(sequence analysis)来鉴定点突变和相关疾病。采用PubMed引擎来从MEDLINE中检索一系列摘要。将词汇索引控制在MEDLINE's Medical Subject Heading (MeSH)。根据MeSH提交一个简单的查询“mutation"然后下载所有可用的摘要,为XML格式。用MetaMap来鉴定疾病

状态。在生物领域中,最大的词汇资源为United Medical Language System (UMLS)Metathesaurus。MetaMap是专门发现Metathesaurus中的生物医学实体的软件。用MetaMap来鉴定题目和摘要中的疾病的名称。其方法如下:(1) EMU突变抽取工具被用来从突变疾病相关的文库中来鉴定和检索突变。同时也从文本中识别基因的名称。(2)应用一个过滤器(SEQ_Filter)来排除所有氨基酸和报道的相关蛋白序列中的不同的突变。(3) SEQ前后的结果可以人为建立一个全注释的疾病突变数据库。

首先,用EMU来鉴定基因信息。在生物医学文献中,基因和蛋白质的记录没有一个标准的形式。所以自动抽取基因和蛋白质信息是在数据挖掘上的一个很大的挑战。我们采用在内部词典中来进行字串查找(string look up)来确的基因的名字。使用Human Gnome Organization(HUGO)和National Center for Biotechnology Information (NCBI)的数据库来进行。所有和密码子一样的基因名称被除去了。其次,用SEQ_Filter来过滤氨基酸位置上不一致的突变。对于在摘要中鉴定的基因名称和突变,都可以在NCBI中查找了相应的蛋白质信息。对于每个蛋白质,根据相应位置上的突变来确定野生型的氨基酸。如果在突变位置的野生型氨基酸(或者突变型)至少有一个相关的蛋白质,那么基因和突变之间的联系证明是有效的。最后,建立黄金标准(gold standards)。和疾病基因相

关的突变(by EMU)和引用(by MetaMap),各种数据要经过人工验证来增强准确性。缺乏关系的表型和突变将被人工排除,同样没有完整的突变信息的摘要也会被排除。

实验结果的组织顺序由抽取疾病突变的不同步骤来排列:1. 建立突变-疾病相关的摘要文库。搜索“mutation” MeSH descriptor得到了447601个结果,其中353626基于摘要可用性而被选择。用218个指示PCa的UMLS概念作为MetaMap在MEDLINE引用的题目和摘要过滤器,得到1721个有关这些PCa概念的引用。类似的,对于乳腺癌,得到了5967个引用(citation)。2.检索PCa和BCa相关记录的准确性。EMU的准确性是在141和203个最初搜索PCa和BCa突变的结果中的摘要中得到(PCa_ALL和BCa_ALL),同样也在通过SEQ_Filter分析的113(PCa_filtered)和147(BCa_filtered)中评估。a.仅仅是突变,EMU的准确性为0.94-0.99;b.完整突变(突变+基因),在方法的准确性上有了大量的损失,对于PCa_ALL和BCa_ALL准确性分别从0.97-0.53和0.94-0.42,但是使用SEQ_Filter可以极大的提高准确性(分别为0.80和0.74);c.疾病-突变,为了评估EMU鉴定疾病相关突变的能力,作者人工注释所用方法中的所有完整的突变-表型(用EMU结合MetaMap来得到疾病相关的记录)。在PCa_ALL中正确识别的207个突变中有151和PCa相关。相似,在BCa_ALL中为242/300,PCa_filtered为127/173,BCa_filtered为193/233。

评估EMU在识别基因名称上的表现。在用准确基因名称的时候可以成功的识别,SEQ_Filter可以极大地帮助识别gene-mutation关系。在OMIM,dbSNP,Swiss-Prot数据库中绘制突变地图。但是这种方法也存在局限性,从摘要中找到gene-mutation relationship仍然是一个难题,更难的是从摘要中找到基因和疾病表型的关系。可能会出现各种错误,可能会消耗大量时间,全文检索,很多文献不能获得。

21世纪是生命科学大发展的时代,以人类基因组计划为序幕的生物信息学研究,是全面认识生命及其过程的重要手段。未来生物医学的突破性进展不仅取决于生物学家与医学家的努力,甚至更大程度上取决于数学、物理、化学、计算机技术等的发展以及生物学和医学的交叉和结合。生物信息学作为一门综合系统科学,可发挥其独特的桥梁作用和整合作用。它以数学和计算的方法,研究数据挖掘和模式识别的算法,或利用临床数据库、基因型一生物表现型关系数据库和基因结构三维建模研究生物医学和进行基因体功能分析,使人们能够从各生物学科众多分散的观测资料中,获得对生物学系统和生物学过程运作机制的理解,最终达到自由应用于实践的目的。应用生物信息学研究方法分析生物数据,提出与疾病发生、发展相关的基因或基因群,再进行实验验证,是一条高效的研究途经。生物信息学已广泛地渗透到医学的各个研究领域中,在疾病相关基因的发现、疾病临床诊断、疾病的个体化治疗、新的药物分子靶点的发现、创新药物设计以及基因芯片的设计与数据处理等医学应用研究方面将发挥重要作用。

相关文档
最新文档