基于规则的中文地址分 词与匹配方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二零一一年四月

论文题目:

基于规则的中文地址分词与匹配方法

作者姓名:谭侃侃入学时间:2008年9月专业名称:地图学与研究方向:3S技术集成

地理信息系统与应用

指导教师:刘文宝职称:教授指导教师:牟乃夏职称:副教授

论文提交日期:2011年4月

论文答辩日期:2011年6月

授予学位日期:

Rule-based Chinese Address Segmentation and Matching Methods

A Dissertation submitted in fulfillment of the requirements of the degree of

MASTER OF SCIENCE

from

Shandong University of Science and Technology

b y

Tan Kankan

Supervisor:Professor Liu Wenbao

Supervisor:Professor Mu Naixia

Geomatics College

April2011

声明

本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机关作鉴定。

硕士生签名:

日期:

AFFIRMATION

I declare that this dissertation,submitted in fulfillment of the requirements for the award of Master of Philosophy in Shandong University of Science and Technology,is wholly my own work unless referenced of acknowledge.The document has not been submitted for qualification at any other academic institute.

Signature:

Date:

摘要

在信息时代的今天,城市各部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。

地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策提供支持。

论文以武汉市的地址研究为项目背景,进行中文地址分词与地址匹配研究。利用地理编码技术实现地址的快速查询匹配和社会经济数据的空间化,建立数据库统一管理,从而实现城市各部门、行业数据的共享。

主要研究内容和取得的成果如下:

(1)改进了现有的地址模型,并根据此地址模型将地址数据规范化,建设完备的标准地址数据库。

(2)在研究了几种地址分词及匹配方法的基础上,提出一种基于规则的地址分词匹配方法,加入了规则树和歧义存储等机制,通过算法改进,提高了地址残缺和歧义这两类模糊地址的匹配成功率。

(3)建立了知识学习机制,通过地址补录模块,将匹配失败和数据库中缺少的地址补录入库,从而不断完善标准地址数据库。

关键词:地理编码,地址标准化,中文地址分词,地址数据库,规则库,地址匹配

ABSTRACT

In the information age of today,there are a large number of address information in the city departments.Most of the datas are non-spatial information,we can not share them by Geographic information system.So it’s a main part of digital city build ing to informationize the city address information.

Geocoding is a method to informationize the city address information,which provides a way of translating the text address to geographic coordinates.By geocoding technology,a large number of socio-economic data will become spatial information in the form of coordinates,data sharing can be achieved between the city departments and the industry,so there will be a more rapid and effective spatial analysis and decision-making.

The paper takes the research of the WuHan addresses as the project background,using the address Geocoding technology to achieve address rapid query and socio-economic data spatialization,and build address database.Then we can share information in the city departments.

The main contents of the research are:

(1)Improving the existing address model,then we made address standardization by the new model,and build the standard address database.

(2)Research some address segmentation and geocoding methods,and propose a rule-based Chinese address geoeoding method.We add rule tree and ambiguity storage mechanism to improve the success rate of fuzzy address matching.

(3)The paper creates a learning system,so we can add database with fail-matching address by address adding module.

Keywords:Geocoding,Address standardization,Chinese address segmentation, Address database,Rule database,Address matching

相关文档
最新文档