基于规则的中文地址要素解析方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第12卷第1期2010年2月

地球信息科学学报

JOURNAL OF GE O 2I N F OR MATI O N SC I E NCE Vol 112,No 11

Feb 1,2010

收稿日期:2009-09-21;修回日期:2010-01-08.

基金项目:“863”项目(2007AA12Z221);国家自然科学基金项目(40971231);南京师范大学重点科研基金资助项目

(2006105XG Q0051)。

作者简介:张雪英(1970-),女,博士,教授,汉族,四川人,主要从事地理信息的智能处理与应用研究。

E 2mail:zhangsnowy@1631com

基于规则的中文地址要素解析方法

张雪英,闾国年,李伯秋,陈文君

(南京师范大学虚拟地理环境教育部重点实验室,南京 210046)

摘要:在日常生产与生活中,地址是最常见的使用自然语言描述地理位置的参考系统之一。地址地理编码技术被认为是大量业务数据的GI S 实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、城市规划、公安、邮政、税收、电讯和公共卫生等领域中具有十分重要的应用前景。地址要素解析是中文地址编码的核心技术之一。它是将自然语言描述的地址拆分为在某一限定区域内,可以指定某一地理范围的地址要素的过程。实际上,这个过程可以被看作是一种特定的中文分词任务。由于语言和文化的原因,中文地址描述采用连续的字符串,而且普遍存在不规范现象。目前,采用的地址解析方法在较大程度上受限于词典的更新维护和规则的不完备问题。本文以大规模地名词典和地址数据库为数据源,通过系统分析地址要素的构词特征和句法模式,构建了各类地址要素的特征字库,提出了中文地址的数字表达方法,设计了RBA I 中文地址要素解析算法,开发了相应的原型系统。实验结果准确率达到92%以上,处理效率达2800条/秒。这表明该方法符合大规模数据处理的应用需求,具有重要的推广应用价值。

关键词:中文地址;语义解析;地址编码;地址表示

1 引言

地理信息系统(GI S )通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源评价与管理、环境监测、交通运输、经济建设、城市规划以及政府部门行政管理等提供新的知识,为工程设计和规

划、管理决策服务[1]

。地理编码(Geocoding ),将地理对象在确定的参考系中按一定的规则赋予唯一和可识别的代码,建立地理对象与地址的映射,以及地理对象与坐标系统的映射,从而将地理位

置信息转换成可以被用于GI S 的地理坐标[2]

。地址是当前各类业务系统中运用自然语言描述空间位置的最常用手段。地址编码,又称地址匹配(addressing matching )或者地址地理编码(address Geocoding ),可以看作是狭义的地理编码,是指将自然语言描述的地址信息,根据地址模型和编码规则进行智能语义解析,通过与数据库中匹配,建立与对应的空间坐标信息和地理编码关联的过

程。地址编码需要解决地址模型、地址解析和地址匹配等三项关键技术。利用地址编码技术可以使大量的原来已经存在于管理信息系统(M I S )中的数据能够具有空间定位的性质,而且能够使分散在各个部门的数据通过空间参照系联系起来,从而大大促进GI S 技术的应用。因此,地址编码技术被认为是大量业务数据的GI S 实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、城市规划、公安、邮政、税收、电讯和公共卫生

等领域具有很好的应用前景[3-5]

2 国内外地址地理编码的研究进展

20世纪60年代中期,美国国情普查局开发的“双重独立地图编码系统”(D I M E ),在GI S 技术

的发展史上具有里程碑的意义。之后,D I M E 系统发展为著名的地址地理编码与参照系统(TI GER ),

成为美国地址地理编码的标准[4]

。在地址地理编码技术的发展过程中,工业界的推动起到了很大

的作用。国外几大GI S软件产商都在软件产品中加入了地址地理编码模块,比如,A rcGI S的Geoc2 oding和Map I nf o的Mapmaker。国际标准化组织开放地理信息系统协会(OGC)制定了一系列的规范,定义了地址地理编码的整体框架,基于X ML的地址地理编码服务、地址地理编码请求、服务接口,以及地名与地理坐标的转换服务等等[5-7]。

随着人们对地址地理编码重要性的逐步认识,越来越多的国家和研究机构开始研制地址地理编码系统,并将其与各种应用结合起来。Goldberg阐述了地址地理编码概念及其基本流程,探讨了相关过程中存在的误差、不确定性和评测标准等问题[8]。澳大利亚以高质量的全国地址地理编码库为基础,构建了基于隐马尔可夫的地址要素解析器和基于规则的地址匹配器,开发了较为实用的地址地理编码系统[9]。目前,网络被普遍认为是一个巨大的地理数据源仓库[10-14]。FE BRL是一个新的数据结合系统,采用了能够随机产生人名及其地址的记录数据集产生器[15]。Sengar研制了一种能够处理不同数据格式的地理查询系统,利用文本相似性和空间一致性对文本查询进行解译,然后将空间实体数据库中的属性与文本相联系[16]。随着全球定位系统和移动电话的普及,住宅以及商业所需的地理参考坐标都可以通过无线地址服务获得,这将在很大程度上改变现有的地址地理编码方法。随着三维GI S的发展,地址地理编码也将往三维方面发展[8]。

在发展中国家里,高质量地址地理编码的最大障碍在于缺乏参考数据。变化频繁的居民区、无法定位的街道数据、地址编码方案的不一致性等因素,严重阻碍了标准参考数据集的发展。为了解决这一问题,很多人提出建立一个标准的地址系统,并且鼓励公众的参与,以使得这个标准能被大众所接受并且得到推广。但是,这些措施对于经济资源有限的地区都是很昂贵的,就是在发达国家要得到精确的地址地理编码结果也是困难的。运用面向对象的地学建模方法,能够建立一个对不同国家的各种地址变化形式、不同详细程度的地址表达均适用的参考地址概念模型,从而摆脱英美国家商用地址地理编码系统对地址格式的限制,为地址模型的建立提供参考[12]。应用基于词典的分词和隐马尔可夫方法对复杂地址数据格式进行预处理,是比采用规则的方法更好的选择[17]。

与欧美国家相比,我国在地址编码方面的研究起步较晚。1988年,北京市城市规划设计研究院信息所开展了“北京市城市地理编码”的研究。1993年国家标准“城市地理要素-城市道路、道路交叉口、街坊、市政工程管线编码结构规则”

(G B/T14395-93)颁布,但是地址地理编码未能与空间数据进行有效的连接[18]。在20世纪90年代中期,北京市交通委员会制定了道路的编码方法,北京市测绘设计研究院开展了“城市地理信息系统地址地理编码规则”的研究。香港特别行政区的地理编码数据库精确度可达到街道门牌及建筑物层面,台湾省精确度可达到街道及主要景点层面。大陆地区精确度只能达到省市层面,还没有统一的精确度可达到街道门牌及建筑物层面的地理编码数据库。大连市空间资源研究中心与区域地理信息服务商合作建立了大连市地理编码系统[19]。上海市提出将编码内容与地理要素的地理位置相关联的网格化城市基础地理要素编码方法[20]。由于城市地理信息资源的分类没有标准,也没有统一的地址代码,编码的范围仅局限于行业内部[21]。2004年颁布的“城市基础地理信息系统技术规范”,规定了城市地名、城市门楼牌等数据的采集原则。江洲等探讨了地址地理编码标准化工作,但是没有提出具体的解决方案[2]。采用模糊定位和地址分级拆分方法解决数据标准化问题,只适合在对空间数据精度要求较低的应用领域[22]。

有些学者提出城市地理空间字典的研究,并将自动机理论和动态规划算法应用到地理编码系统中,形成较为完善的基本技术框架[23-24]。王凌云等提出了栅格影像的地理编码数据库建设方法、国内城市地址地理编码模型和地址地理编码标准的制定原则,设计了地址地理编码工具和地址匹配软件,并以北京市为例给出技术思路的具体实现方案[2]。李军等提出最小地址要素的概念,并用随机无意唯一码对地址进行编码[24]。北京信息资源管理中心建设了北京市地址数据库,建立了标准的地址模型和地址数据的采集工艺[25]。郭会等提出了包括地址标准化、地址匹配、地理编码量化等的地址地理编码方案,在GI S软件中实现了中英文地理编码功能[26]。王秀明提出了基于O racleSpatial的地址自动匹配算法[27]。张林曼等设计了一种全文检索引擎包Lucene的地址匹配引

01地球信息科学学报 2010年

相关文档
最新文档