基于CRF与规则的工程领域命名实体识别方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于CRF与规则的工程领域命名实体识别方法
作者:郭喜跃周琴陈前军
来源:《软件导刊》2014年第11期
摘要:在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93.45。
关键词:命名实体识别;CRF;规则;工程文本
DOIDOI:10.11907/rjdk.143506
中图分类号:TP301文献标识码:A文章编号文章编号:16727800(2014)011002803
作者简介作者简介:郭喜跃(1983-),男,河南镇平人,华中师范大学国家数字化学习工程技术研究中心博士研究生,兴义民族师范学院信息技术学院实验师,研究方向为信息抽取。
0引言
命名实体识别(NER)是信息抽取的基础性工作,其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续任务提供便利[1]。传统方法有基于统计的NER和基于规则的NER,这两种办法各有优缺点,所以目前的研究趋势是考虑将这两种办法结合起来,从而促进识别效果的进一步提高。
2006年张华平等[2]提出了基于层叠HMM的中文NER方法,首先在词语粗切分的结果集上采用底层HMM模型识别出普通无嵌套的人名、地名等,然后依次采取高层HMM模型识别出嵌套了人名、地名的复杂地名和机构名。2013年王厚峰等[3]提出了基于多步聚类的中文NER方法,首先通过两轮聚类将命名实体与知识库实体定义链接,通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于KMeans聚类的结果调整。这些研究都有力推动了中文NER的发展。
当前中文NER研究主要集中在几个特定领域,针对工程领域的研究尚未出现。工程领域的文本有其独有特点,如术语多、数据短语多、语法结构复杂、NER需要识别的种类多等。
现有研究成果在工程领域的NER方面很难取得理想效果。本文将统计机器学习领域中较新的理论模型CRF与基于规则的方法相结合,期望在此领域有所突破。
1条件随机场CRF
CRF是一种无向图模型,它在给定一组输入随机变量条件下可获取另一组输出随机变量的条件概率分布,其特点是假设输出随机变量构成马尔可夫随机场,属于判别式模型。与HMM 模型相比,CRF的不同点在于,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,所以CRF很适合进行标注一类的工作[4]。
设O={O1,O2,…,oT}为训练数据的输入数据序列,这里的输入数据序列可为文本中按顺序出现的字、词、短语或者标注等;再设S={s1,s2,…,sT}为测试文本中的状态序列。在给定输入序列时,输出序列的条件概率表示为:P△(S|O)=exp(∑Tt=1∑Kk=1λkfk(st-1,st,O,t))/Z0其中,λ为特征值权重参数,f为特征函数,Z0为归一化函数,特征函数中的参数st和st-1分别表示测试文本当前输出状态和上一个输出状态,参数o为当前输入状态,参数t为当前处理的状态序号;Z0的具体过程为:Z0=∑Kk=1exp(∑Tt=1∑Kk=1λjfj(si-1,si,O,t))在理解和应用CRF的过程中,关键环节是权重参数λ的确定和特征函数f的选择。特征的选择没有固定的形式,要根据标注目标、语料特征等,进行综合考虑,通常为输入状态序列特征或这些特征的组合;λ的值通常通过机器学习获得。
2基于CRF与规则的工程领域命名实体识别
2.1方法思想
提出一种基本CRF与规则相结合的工程领域NER方法,该方法的主要思想是:首先对文本进行预处理,在完善用户词典的基础上借助词法分析工具对文本进行分词及词性标注,并在训练语料中完成命名实体的人工标注;从文本中抽取出相应的特征;将训练语料交CRF算法进行学习,得到学习模型;以上述模型为依据,对测试语料进行处理,得到初步结果;将此结果交给规则处理模块进行修正,得到最终结果。
2.2文本预处理
从实际工程中获取原始文档,这些文档需要进行一定的处理。
(1)噪声过滤。文本中会有一些不规范、不统一的内容,比如原始文档中包含的图片等,数据单位的表述不规范(如“平方米”的表述方法有m2、㎡等),可用正则表达式等方法对其进行规范化处理。
(2)文档分词。常规的文本分词结果对工程领域NER没有良好的促进作用,这里采用维护用户字典的方法来提高文档分词的效果。如前所述,工程文本的一个显著特征就是专有术语较多,且往往为若干普通字或词的随机组合。为此在分词工具的用户字典中新增了大量专有术
语,并附带完整的词性设置,这样就可保证专有术语会被分成独立的词,从而提高它们作为一类实体而被识别的准确率。
部分字典维护内容示例如表1所示。
对工程文本中存在的识别目标进行综合分析后可以看出,一个实体的词性、上下文短语及其词性的组合,对于识别实体起着较大的决定作用。另外,由于本方法不是以单个字为粒度进行分析的,所以具体单个基本词的长度对识别结果影响不大,而应考虑识别目标组合短语的长度。综合研究后,选取表4所示的几组特征。
3.1基于CRF的NER实验与分析
由于目前还没有出现公认度较高的面向工程领域的语料,所以为了保证实验数据的真实可靠,从某市地铁规划建设部门获取了大量的设计与施工文档,经过预处理后形成了大约10万字的可用语料,80%作训练语料,20%作测试语料,以CRF++作为辅助工具。使用CRF++的关键是参数C的确定,合理的C值能够在过度拟合和拟合不足之间找到最优的平衡点[6]。将语料进行5折交叉验证,发现当C=2.5时效果最佳。实验结果如表5所示。
3.2基于规则的NER结果修正实验
导致CRF识别错误的主要原因在于训练语料的质量,可以从两方面加以改进:①完善分词字典;②使用规则办法进行修正。这里重点阐述使用规则的方法。下面为部分规则的原理:
4结语
本文创新性地将NER应用到工程领域中,提出了基于CRF与规则相结合的工程领域命名实体识别方法,选取真实文档作为语料,根据工程文本的特点选取特征,并获得较合理的CRF 模型参数,最后根据CRF识别结果中存在的错误,对编制规则进行优化。结果表明,该方法能够有效提高识别效果。另外,实验还反映出该方法局部准确率较低,未来将完善此问题。
参考文献:
\[1\]WENLIANG CHEN,YUJIE ZHANG,HITOSHI ISAHARA.Chinese named entity recognition with conditional random fields[C].SIGHAN,2006:118121.
[2]俞鸿魁,张华平.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):8794.
[3]李广一,王厚峰. 基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):2934.