基于统计的中文地名识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中 文 信 息 学 报

第17卷第2期 JOURNAL OF CHINESE INFORMATION PR OCESSING Vol117No12文章编号:1003-0077(2003)02-0036-06

基于统计的中文地名识别Ξ

黄德根,岳广玲,杨元生

(大连理工大学计算机科学与工程系,大连 116024)

摘要:本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整,系统闭式召回率和精确率分别为90124%和93114%,开式召回率和精确率分别达86186%和91148%。

关键词:计算机应用;中文信息处理;中文地名识别;构词可信度;接续可信度;自动分词

中图分类号:TP39114 文献标识码:A

Identif ication of Chinese Place N ames B ased on Statistics

HUAN G De2gen YU E Guang2ling Y AN G Yuan2sheng

(Department of Computer Science and Engineering,Dalian University of Technology,DaLian 116024,China)

Abstract:Unknown word recognition is one of the challenging tasks in natural language processing research.This pa2 per proposes a place name identification model in dictionary2based Chinese word segmentation,in which we used sta2 tistical information drawn from a training corpus to calculate lexical reliability and contextual reliability.The rules of Chinese place names are also used in the model.We a pplied this approach to a Chinese morphological analysis system, and achieved90.24%recall and93114%precision in close test,while the recall and precision also reach86186% and91148%in open test.

K ey w ords:computer application;Chinese information processing;Chinese Place Name Identification,Lexical Relia2 bility,Contextual Reliability,Automatic word segmentation

一、引言

专有名词识别是汉语自动分词中的难题之一。目前,国内有关中文姓名识别的研究较多,提出了基于统计[1~3]和基于语料库[4]的中文姓名识别方法,达到了很好的识别效果。而中文地名识别相对比较少。主要有:文献[5]采用统计模型,利用属性矩阵和频级进行筛选,达到了较高的召回率,但精确率偏低。文献[6]采用基于语料库的方法,根据地名词典统计分析地名用字的信息以及这些字在真实文本中使用程度信息进行地名识别,对地名识别取得了一定的效果。文献[7]在文献[6]的基础上,提出了一种基于交换的地名识别方法,得到地名上下文的规律,对规律再进行筛选,这种方法有效地提高了系统的精确率(精确率提高了7%)。

本文阐述的是含地名特征词的中文地名识别方法,提出了地名构词可信度和地名接续可Ξ收稿日期:2002-07-22

基金项目:国家自然科学基金资助项目(60143002)

作者简介:黄德根(1965—),男,副教授,主要研究领域为自然语言理解与机器翻译.

信度概念。不仅运用了地名用词频度信息,而且还利用从大量的真实文本中统计出来的地名与其上下文之间的接续频度信息,较好地解决了召回率和精确率之间的关系。

二、中文地名的特点

中文地名主要有如下特点[5,6]:

11中文地名数量大,没有明确规范的地名定义。并且随着经济和社会的发展,会有新的地名不断出现。

21中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力。

31地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位置。

41地名长度没有严格限制,短的如“京”,长的如“双江拉祜族佤族布朗族傣族自治县”。

51可作单字词的汉字在地名中经常出现,如“西|直|门、马|家|塔。”

61地名中不同位置可含有多字词,如“龙王|洞|山、兵书|宝剑|峡”等。

71地名有时同一些介词、动词、方位词之类的指示词出现,但有些指示词也可以作为地名组成部分。

81经常多个地名一起出现,如“|~吉林省~|~四平市~|~梨树县~|~梨树镇~|~霍家店村~|”。

其中,1、4增加了地名识别难度,3、7可能使候选地名产生交叉歧义,2、5、6使部分地名边界模糊,8则有助于地名识别。

三、中文地名识别模型

311 基本定义

定义1 设S pN ameS pecial W ord为地名特征词表,S pN ameChar为地名前部词表。则中文地名(S P)定义为:

S P=F0F+S

其中F+=F1…F n,F i∈S pN ameChar(i=1,…,n),S∈S pN ameS pecial W ord.F0定义为地名首字,F+为地名中部,F0F+统称为地名前部词,S为地名特征词(如:省、市等),即地名是由地名前部词和地名特征词组成的。

11根据是否可以作为地名的前部词,地名特征词分为:

(1)只能作为地名特征词而不能作为地名前部词(“省”、“开发区”、“三角洲”)

(2)既能作为地名特征词,又能作为地名前部词(“江”、“湖”、“岗”)

根据组成地名的长度,地名特征词又可以分为:

(1)组成的地名可以少于三个单字长度(“县”、“山”、“盟”)

(2)组成的地名至少三个单字长度(“路”、“观”、“坡”)

21根据在地名中出现的位置,地名前部词可以为:

(1)不能作为地名首字的词(“满族”、“现”、“敢”)

(2)不能作为地名中部的词,这样的一般也多为多字词(“黄粱梦”)

根据与特征词的关系,地名前部词又可以为:

(1)不能单独和特征词连用作为地名(“可”、“并”、“个”)

(2)只能和特征词连在一起用,这样的一般为多字词(“平等”、“中央”、“胜利”)

相关文档
最新文档