80一个统计与规则相结合的中文命名实体识别系统

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2005-04-03;修订日期:2005-06-27 基金项目:国家863计划项目(2002AA117010) 作者简介:向晓雯(1980-),女,福建福州人,硕士研究生,主要研究方向:自然语言处理;　史晓东(1966-),男,江苏江阴人,教授,博士,主要研究方向:自然语言处理;　曾华琳(1980-),女,福建厦门人,硕士研究生,主要研究方向:自然语言处理.

文章编号:1001-9081(2005)10-2404-03

一个统计与规则相结合的中文命名实体识别系统

向晓雯,史晓东,曾华琳

(厦门大学信息科学与技术学院,福建厦门361005)

(xx wen@x mu .edu .cn )

摘　要:介绍了一个中文命名实体识别系统,该系统采用了统计与规则相结合的方法。整个识别过程主要分成两个步骤,首先使用隐马尔可夫模型进行词性标注,然后利用具有优先级别的匹配规则对第一步的结果进行修正和转换。同时,系统还对上下文相关的命名实体识别作了初步的尝试。在863组织的命名实体识别评测中,系统的准确率、召回率和F 值分别达到了81.93%,78.20%,80.02%。

关键词:命名实体;隐马尔可夫模型;匹配规则中图分类号:TP18 文献标识码:A

Ch i n ese nam ed en tity recogn iti on system usi n g

st a tisti cs 2ba sed and rules 2ba sed m ethod

X I A NG Xiao 2wen,SH I Xiao 2dong,ZENG Hua 2lin

(School of Infor m ation Science and Technology,X iam en U niversity,X iam en Fujian 361005,China )

Abstract:This paper p resented a Chinese na med entity recogniti on syste m that combined the statistics 2based and rules 2based method .The whole p r ocess was divided int o t w o step s .First t o use the hidden M arkov model f or part 2of 2s peech tagging,and then made use of match rules t o a mend and convert the result of the H MM step.The syste m als o made an attemp t at context 2sensitive Chinese na med entity recogniti on .I n a na med entity test organized by the 863p r ogram,the p recisi on,recall and F 2score of the syste m reach 81.93%,78.20%and 80.02%res pectively .

Key words:na med entity;hidden M arkov model;match rules

0　引言

命名实体(Named Entity,NE )是文本中的固有名称、缩写

及其他唯一标识,包括人名、地名、组织名、时间表达式、数值表达式等。命名实体识别是信息抽取、机器翻译、问答系统、句法分析等自然语言处理技术的重要基础。

目前,命名实体识别的基本方法有基于规则的方法与基于统计的方法两种。基于规则的命名实体识别系统比较简单,但需要人工编制规则,且这些规则往往依赖于具体的语言、领域以及文本格式等,耗时费力,因此健壮性和移植性较差。相对来说,基于统计的机器学习方法,利用人工标注的语料进行训练,代价小,这类系统在移植到新的领域时可以不做或做较少改动。常见的统计方法有隐马尔可夫模型(H idden

Markov Models,H MM )[1]

、最大熵模型(Maxi m u m Entr opy

Models )[2]

、条件随机场(Conditi onal Random Fields )[3]等等。但统计的方法又常常会受到训练语料规模的约束。因此,更常见的做法是将统计方法与其他方法或知识结合起来进行命名实体识别。如文献[4]提出一种统计和词性相结合的命名实体发现方法,采用了自增长统计算法从汉字串中生成原始模式集,并利用统计信息和词性信息筛选出命名实体,实验的召回率为89.9%,准确率为71.5%。文献[5]采用了一种将class 2based 统计模型与各种知识(包括姓氏表、同义词等)相结合的混合算法来进行中文命名实体识别,该系统在

I EER 299(I nf or mati on Extracti on Entity Recogniti on )测试集上的F 值为84.61%。

本文采用统计与规则相结合的方法,设计并实现了一个中文命名实体识别系统(以下简称SEGT AG 系统)。统计与规则的有效结合,实现简单,兼顾了两种方法的优点,有效提高了系统的识别效果。

系统流程

图1　SEGT AG 系统流程图

SEGT AG 系统的流程如

图1。系统首先对源文本进

行基于H MM 的命名实体识

别,实际上,这一步亦可以看成是一个增强了命名实体识别功能的中文词性标注过程;然后系统利用规则库中的匹配规则对基于HMM 的识别结果进行修正,同时对

标注进行必要的转换,得到

最终的识别结果。值得注意的是,在基于统计的命名实体识别模块与基于规则的修正模块之间,系统还引入了一个上下文相关的新词和人名识别模块,该模块对上下文相关的命名实体识别进行了初步尝试。

第25卷第10期

2005年10月

计算机应用

Computer App licati ons

Vol .25No .10

Oct .2005