基于混合模型的生物事件触发词检测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于混合模型的生物事件触发词检测
李浩瑞;王健;林鸿飞;杨志豪;张益嘉
【摘要】语义歧义增加了生物事件触发词检测的难度,为了解决语义歧义带来的困难,提高生物事件触发词检测的性能,该文提出了一种基于丰富特征和组合不同类型学习器的混合模型.该方法通过组合支持向量机(SVM)分类器和随机森林(Random Forest)分类器,利用丰富的特征进行触发词检测,从而为每一个待检测词分配一个事件类型,达到检测触发词的目的.实验是在BioNLP2009共享任务提供的数据集上进行的,实验结果表明该方法有效可行.
【期刊名称】《中文信息学报》
【年(卷),期】2016(030)001
【总页数】7页(P36-42)
【关键词】触发词;生物事件;歧义;丰富特征;组合学习器
【作者】李浩瑞;王健;林鸿飞;杨志豪;张益嘉
【作者单位】大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024
【正文语种】中文
【中图分类】TP391
随着新的生物医学文献的爆炸性增长,越来越多的关系抽取方法得以提出,用来从生物医学文献中抽取有用的信息。近几年,事件抽取以其有表现力的结构化呈现而流行,广泛地应用于系统生物学,涉及到从对通路的产生和标注提供支持到数据库自动产生母体数据和丰富数据库数据等领域。生物医学事件与蛋白质-蛋白质交互关系(PPI)等二元关系不同,它包含了生物实体以及实体之间的交互关系。这些生物事件能够完整地代表原始关系的生物医学意义,所以从文本中自动地识别生物事件变得非常有意义。生物医学事件抽取就是一个在医学研究文章中自动检测分子交互关系描述的过程[1]。它的目的是从非结构化的文本中抽取关于预先定义事件类型的结构化信息。
生物医学事件抽取在BioNLP2009共享任务(以下称BioNLP’09)之后开始在领域内流行。在BioNLP’09结束之后出现了许多事件抽取系统。一般来说这些系统可以分为两类:基于机器学习的系统和基于规则的系统。在BioNLP’09中性能最好的Uturku系统是泛化的系统,并采用了支持向量机(SVM)来进行事件抽取[2-3]。Uturku系统把事件抽取的整个过程分成了触发词检测和事件元素检测两个部分。该系统的特点是严重依赖高效、先进的机器学习技术和一系列从每个句子完全依存分析中产生的特征[4]。在BioNLP’09的任务1中排名第三的ConcordU 系统是本次评测中最好的基于规则的系统[2]。另外,在BioNLP2011共享任务的四个大任务中获得三个任务性能第一的FAUST系统探索使用了模型的组合,它使用的基础模型是Umass对偶分解模型和斯坦福事件分析器。该系统的先进之处在于它使用了斯坦福事件分析系统的预测结果,并通过与对偶分解模型进行组合来求得最终的结果[5]。目前大多数的事件抽取系统关注的是整个事件抽取的过程,将触发词检测作为一个单独问题进行研究的比较少见。检测生物事件触发词是事件抽取过程中一个非常重要的步骤,触发词检测的性能对它之后的步骤的性能有很大的影响,它在事件抽取中起到了至关重要的作用。David等人提出了一种使用向量空
间模型(VSM)和条件随机场(CRF)相结合的方法,建立触发词检测的语义消歧系统(WSD)[6]。该方法是将每个出现的歧义词表示成一个向量,向量的每一维代表了一个特征的出现或者缺失,在该系统的训练过程中,系统为每个词类型的每个含义产生一个单一的质心向量。该系统在BioNLP’09的数据集上进行了实验,并取得了较好的效果。
事件抽取通过识别文本中触发词和参与的实体来发现触发词和实体之间的关系。作为整个事件抽取流程中的基础步骤,事件触发词检测的性能对整个事件抽取过程的性能有着至关重要的影响。在触发词检测过程当中,语义歧义使得触发词检测有一定的难度。如下面的例1~例3中,单词“expression”在例1和例3中是触发词,而在例2中不是触发词。而是触发词的情况下,该单词在例1和例3标识的事件类型也是不同的类型。因此,很难判定诸如“expression”这类单词是否是触发词或者在是触发词的情况下它们标识的触发词的类型。
例1 It activates Prot18 gene expression in T lymphocytes.
例2 ......, the expression was enhanced at 30 min.
例3 the expression of c-fos mRNA was suppressed at 30 min
受到之前提及系统的启发,特别是FAUST系统的原理,本文利用组合学习器的方法,使用从原始句子和句子依存分析树中产生的特征来进行触发词检测。在实验的过程中,除了使用一些常用的文本特征,如词特征,还从依存分析树中发掘了很多特征。把这些特征应用到两个判别原则完全不同的学习器中,即支持向量机(SVM)和随机森林(Random Forest)。最终,根据每个学习器单独预测性能的好坏指派权值,对两个分类器输出的结果进行线性加权组合得到最终的输出结果。实验结果表明,组合学习器能够获得比单独使用任何一个学习器更好的效果。
2.1 依存句法分析器
依存分析树是用来表示一个句子中词与词之间的语法关系。依存分析器用来构建一
个句子的依存关系树。在依存分析树中每一个节点代表一个词,每一条边代表了两个词之间的关系。本文使用的是GDep[7]依存分析器,图1中是句子“AML and Ets proteins regulate the I alphal germtine promoter.”的依存分析树。
2.2 相关学习器
组合总是做出类似决策的学习器是毫无意义的[8]。将决策原则不同的分类器进行
组合,分类器在决策时可以进行互补。本文采用了两个基础的分类器:一个是支
持向量机,它是基于线性判别的决策理论;另一个是随机森林,它是基于决策树的决策理论。这两个分类器在决策原理上是不相同的。接下来简要介绍一下本文中使用的分类器和它们的决策原理。
2.2.1 支持向量机
支持向量机是一种基于线性判别的方法,它使用Vapnik原则,即在解决实际问题之前总会把解决一个较为简单的问题作为第一步[9]。支持向量机的目的是学习一
个能够将训练集里的正例和负例分开的超平面。超平面到任意一边离超平面最近点的距离标为间隔。支持向量机的目的是找到能够使得间隔最大化的最优间隔超平面,同时又使得分类器的泛化误差最小。
假设有训练样本(xt,yt),xt是n维特征空间中的一个向量,yt 是类别标签-1代表
负例,+1代表正例。图2中超平面w*x +w0 = 0将训练样本正确的分离并且最
大化超平面w*x +w0 = 1 和 w*x +w0 = -1之间的间隔。超平面可以通过求解公式(1)而得到。
‖w‖2 s.t. yt (w*xt +w0)≥1∀
通过引入拉格朗日因子α,超平面可以最终表示为公式(2)。
式(2)中的K(xt,x)被称为核函数。经过计算,根据f(x)的符号给待预测点x分配相
应的类别标签。
2.2.2 随机森林