地名识别与匹配的概率统计方法_肖计划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过
分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字
或词,以此为基础建立地名识别辅助词词库和地名识别的规则库。对地名库和地理语料库的用字进行统
计分析,通过设定地名用字可信度概率阈值和辅助词指示作用对文本中潜在地名进行初步的筛选形成候
收稿日期:2013-10-28; 修回日期:2014-03-05。 基金项目:国家自然科学基金项目( 41201391) ; 河南省科技创新人才计划( 13400510001) 。 作者简介:肖计划( 1979 - ) ,男,湖南辰溪人,讲师,博士,研究方向为地图制图与地理信息工程。E-mail: mapmaker01@ 163. com
第 31 卷第 4 期
肖计划: 地名识别与匹配的概率统计方法
409
的位置所在,因此,研究地名的自动识别与匹配是 文本数据自动处理研究的基础内容之一。
1 地名特点分析 要想从文本信息中自动识别出地名,首先就
要分析地名在中文使用上的特点。对于中文地名 识别主要有以下 3 个特征[2-3]。
1) 地名本身用字和用词没有明显的规律可 循,也没有固定的长度,而且地名既有全称又有简 称,所以实际使用中很难和权威机构颁布的地名 录完全匹配,这是地名自动识别的难点。
在 119 708 个地名中,统计得到一共使用的 汉字数为 4 298 个。对 这 些 汉 字 作 为 地 名 的 首 字、中间字、和末尾字的统计信息可以用表 1 来示 例说明。
表 1 地名库中作为地名首字出现的汉字统计信息
作为首字出 现的次数
作为首字出现的汉字
仭俶冇咇唦啰嘡圙坬垕垯垱垺垾埗埨埪埫埼
汉字作为地名用字可信度概率函数为 P( S | PN) 地名库 = Num( S) / Num( PN) .
汉字作为地名中间字用字概率函数为 P( M | PN) 地名库 = Num( M) / Num( PN) .
汉字作为地名尾字用字概率函数为: P( E | PN) 地名库 = Num( E) / Num( PN) .
Method of Recognition and Match of Place Name Based on Statistic
XIAO Jihua
( Information Engineering University, Zhengzhou 450001, China)
Abstract: A Chinese place names library and geographical corpus library were established, and a statistical analysis model of the word credibility was constructed on the basis of analysis of the habits and patterns of place names in Chinese document. Summary was made that place names was often used in conjunction with the instructions and had the meaning of the place auxiliary word or phrase to form an auxiliary word thesaurus. By setting support statistical model probability threshold indicative of place names in the text preliminary recognition of potential candidates for place names ensured a higher recall rate. After establishing automatic recognition of geographical names rules, further to determine the candidate place names were determined and improved recognition accuracy. Key words: place name recognition; text mining; information extraction; statistical model of place names; geographical corpus library
一直以来,地名识别研究在文本挖掘和中文 信息抽取领域颇受重视。地名识别研究存在以下 趋势: 复杂统计模型、地名用字结构分析以及上下 文语言规则 使 用 相 结 合[4]。 常 用 的 统 计 模 型 主 要有: 隐马尔可夫模型 HMM( Hidden Markov Model) [5]、最大熵模型 MEM( Maximum Entropy Model) [6-7]、决 策 树 ( Decision Tree ) [8]、支 持 向 量 机 SVM ( Support Vector Machine ) [9]、条 件 随 机 场 CRFs( Conditional Random Fields) [10]以及传统的 概率统计法等。文中通过对中国地名库和语料库 中地名的用字进行统计分析,形成地名用字统计 模型; 对地名使用的上下文用词规律进行总结,形 成地名特征词库; 通过特征词的组合使用来建立 地名最终识别规则库。通过统计模型 + 地名特征 词对文本中的地名进行初步筛选,然后在粗筛选 的基础上使用地名识别确认规则识别地名。
其中,S,M 和 E 分别表示地名的首字、中间字和 尾 字; PN 表 示 一 个 地 名 的 单 字 集 合; 函 数 Num( S) ,Num( M) 和 Num( E) 分别为汉字作为地 名 首 字、中 间 字 和 尾 字 在 地 名 库 中 出 现 的 次 数; Num( PN) 为地名库中地名总数。 2. 3 地理语料库地名用字统计分析
41 ~ 50 次
Fra Baidu bibliotek
艾察辰蓬卧阎宾登对沟鼓顾教聚邱寿树宿亭 吾志……( 共 83 个)
51 ~ 100 次
包固排机夹礼满信雪振灯独管巨柯梧仓浮谷 茂热益段法恒来……( 共 222 个)
101 ~ 150 次
人陶余交拉钟都沈义丹半程春惠庙辛布珠电 葛联向雷秦营虎庆……( 共 97 个)
151 ~ 200 次
在地理信息中很多属性信息的表达主要是由 文本数据实现的,特别是对于一些专题地图要素, 要进行属性数据的整理与采集往往需要在海量的 电子文档中进行总结与综合。为了应对资料繁杂 所带来的挑战,迫切需要研究一些自动化程度较 高的文档处理技术来帮助信息的生产者在海量的 原始资料中迅速找到自己所需要的信息。由此看
2 地名统计模型和规则库 地名统计模型和规则库是此处研究地名识别
的基础。要建立地名统计模型,首先要有一个相 对较为完备的地名库; 基于所建的地名库,按照一 定的方法对地名库中的用字进行统计与分析,这 个过程就是建立统计模型的过程。如果仅仅只有 地名的统计信息是不足以准确识别出文本中地名
的,还必须要辅以地名使用的常用习惯与规则,即 还要对经常和地名同时使用的一些标志性字、词 进行分析总结以建立地名识别的规则库。 2. 1 建立全国地名库
常达夏景保美燕顺孙朝光桂羊省曹胡哈嘉仙 银乐莲唐宁紫……( 共 40 个)
201 ~ 300 次
郭康徐市通柳朱香洪吴黑林苏松赵牛梅丰周 百和铁田凤吉富……( 共 33 个)
301 ~ 400 次
武浙七宝云六花国城十陈建玉乌九湖文刘老 巴兴罗太阿( 共 24 个)
401 ~ 600 次
福古清二李山四平八万水沙永杨青海广河安 ( 共 19 个)
整理搜狗网站发布的地名资源包括: 全国六 级( 省、市、县、镇、乡、村) 行政单位地名以及江、 河、湖、海、山脉、平原、沙漠、风景名胜区、自然保 护区、岛屿等共计 119 708 个地名。由于地名自 身的特点,地名库不可能包含所有目前正在使用 的地名,但是通过对地名库用字的概率统计分析, 有助于识别未出现在地名库中的地名。 2. 2 地名库的用字统计分析
来,对于一些地理信息的属性数据的自动采集与 分析处理也可以归纳为对文本信息的检索、抽取、 挖掘和自动识别。它的目标就是要把文本里包含 的信息进行结构化处理,对文档中包含的相关信 息进行分析,找出用户所关心的信息点或事件。
在地理信息属性数据整理、采集与处理领域, 对于文本数据自动处理具体来说一般需要完成下 面的任务: 1) 自动识别文本数据源当中与地理信 息相关的实体名称,例如地名、组织机构名、企事 业单位名称、人名等地理实体以及时间、货币、经 纬度等各种数字信息; 2) 利用地理学的领域知识 进行推理,在实体-实体之间,实体-事件之间建立 关系[1]。地名是 文 本 数 据 中 至 为 重 要 的 内 容 之 一,它框定了文本数据描述和地理事件发生发展
2) 尽管对地名用字没有明确的规定和规律, 但是通过对中国地名录中所有收录的地名进行统 计分析后,可以获得一些地名用字概率上的统计 信息,这些信息有助于地名自动识别。
3) 在地名使用中,地名的前后用字或用词都 有一定的规律。如地名经常会同一些介词、动词、 方位 词 之 类 的 指 示 词 一 起 出 现,如“从 …… 到 ……、抵达、位 于 ”,同 时 很 多 地 名 结 尾 还 经 常 有 地名特征词出现,如“山、桥、湖、村”。很明显,指 示字词是可以作为地名自动识别的辅助信息的。
601 ~ 900 次 华前张后双五红下王天江长高( 共 13 个)
901 ~ 1500 次 马中白龙黄上小三金( 共 9 个)
1 501 ~ 3 048 次 石北新南西东大( 共 7 个)
410
测绘科学技术学报
2014 年
作为地名中间字和尾字出现的汉字统计信息 也有如表 1 所示的相应结果,限于篇幅,这里不再 列出。根据地名用字的统计数据,可以确定汉字 分别作为地名用字的首字、中间字和尾字的概率 函数。
选地名; 在粗筛选产生的候选地名基础上结合地名识别规则进一步确认,以提高地名识别的准确率。
关 键 词:地名识别; 文本挖掘; 信息提取; 地名统计模型; 地理语料库
中图分类号:P208
文献标识码:A
DOI 编码:10. 3969 / j. issn. 1673-6338. 2014. 04. 017
2014 年 第 31 卷第 4 期
测绘科学技术学报 Journal of Geomatics Science and Technology
文章编号:1673-6338( 2014) 04-0408-05
2014 Vol. 31 No. 4
地名识别与匹配的概率统计方法
肖计划
( 信息工程大学,河南 郑州 450001)
11 ~ 20 次
矮芭蚌场巢炒扯诚仇点端蛤姑规翰豪滑欢徽 杰精练码蚂帽眉睦奶纽磐迁软洒食舜炭跳位 忻崖艺音优喻照织治众准凇垡芸驿覃蟠…… ( 共 423 个)
21 ~ 30 次
毕柑巩孤壶可狼伦漫牟碾旗黔润藤药医邮粤 彰遵岐瀛楠……( 共 171 个)
31 ~ 40 次
采敦嘎耿辉郎鲤荔琉陇螺棉勤生索雄闸政芙 波鹅汾贡……( 共 128 个)
0次
堨堼塆塝塱塸墕墹夅夿婼宬尪屄岕岝崄崌彧 憺旸昇朳栜梪棡橦歘沚沜沶泘洸浲浿淜渰湴
溇滧漈……( 共 848 个)
1 ~5 次
俵倴凃剅勍匼吿噇圌圐垎垞埇埌堌堎堽塭墈 奓奤嫰孃孖屌屢峃峛峧崁崠嵖嵦嶅巁巉帊弶 掱攩旴昄曽朏枹桲棬椆榃槚欽汫汭泃泇洈洣 浛浡浬……( 共 1 771 个)
6 ~ 10 次
隘靶把褒辟标表播蚕册叉蝉磻传绰促错弹低 冻顿耳夫弗改感刚歌割各耕汗忽画获驾剪拒 括栏粱邻榴垄妈卖贸觅泌哪闹你攀澎朋捧琵 莆羌情……( 共 410 个)
研究表明,80% 左右的电子化信息是以无结 构自由文本的形式存在的,如 Web 页面、在线新 闻、研究论文、E-mail 等。这些信息是海量的,非 结构化的,具有模糊性和歧义性,人或计算机都难 以使用或难以计算。但这些信息又都具有巨大的 潜在价值,于是要求有大规模文本信息的自动处 理与分析技术,需要文本挖掘技术。