一种基于综合分词和模糊匹配的地名地址匹配方法研究

合集下载

基于模糊匹配算法的门址定位方法

基于模糊匹配算法的门址定位方法
配效率难 以提高 , 而对 于一些 电子地 图数据 库 中完 全不 能
2 1 精 确匹配与精确定位方法 .
精确 匹配是快递业务 中最理 想的方式 , 收人地 址信 接
息与地理编码库 中的相应 信息完 全匹 配, 电子地 图可直接 将坐标信 息赋予完全匹配的实体地址信息. 2 2 模糊 匹配与模糊定位方法 . 由于历 史原因 , 国内的地址存在地址命名 的规律性 差 、
格 式复杂 、 门牌的命名很随意 、 增删改现象严重 、 层次性 差 、 缩写与简称 的普遍 使用 、 中文 连词书写 与地址 的非词 组表 达矛盾等 问题 , 而且快递 业务 中的地址信 息往往 采用 手写
进行匹配的地址数据 , 如接 收人地 址 以“ 面 ” “ 对 、 附近” 等 中文词组 出现地址信息则无 法进行 定位. 针对该 问题 , 文 本 提出一种基于模糊定位 的快 递业务 地址 模糊 匹配方 法 , 并 在实际快递业务 中获得较好的实验结果.
摘 要 : 实现地址数据 的高效 匹配 , 文提 出了一种基 于模糊 匹配 算法的 门址定位 方 法, 实现 了地址数据 的 为 本 并
完全 匹配 、 糊 匹配以及模糊 定位 . 模 以快递 业务 数据 为实验数 据 , 实验结 果表明 , 方法能取得 较好 的匹配效果 , 该 并且 定位 方法简单 实用可行 , 为快递业务降低退 回率提供 了一种有效的方法.
式模糊 匹配进行定 位. 匹配 的门牌号 的前后均 有 门址的 在 情况下 , 在区分同边异边 、 双数 门牌地址 的情况 下进 行插 单 值从而实现地址 的模 糊匹 配 ; 匹配的 门牌号 只有前 面或 在 者后面有地址数据 时 , 照 门牌 间隔 、 按 同边 异边 、 单双 数 门

基于模糊逻辑的GPS/DR地图匹配算法

基于模糊逻辑的GPS/DR地图匹配算法

关 键 词 : 图 匹 配 ; 糊逻 辑 ; P / 地 模 G SDR
Ke r s ma - c h n f z y lg c GP / ywo d : p ma t i g; u z o i S' DR
中 图分 类号 : P 9 . 1 T 3 14
文献标识码 : A
条模糊逻辑评判规则是 :1候选 路段的取 向与车辆当前 的 ()
mac e o d,n ee t h a dd t o d tt eJ I [ n f eE SI S( x e i e llSmuain h w h tt ema th dr a a ds lcst ec n iaer a sa h H' i 。 h C 【{ ) e p xr na I lt ss o t a h p I o C l f n o
f m eG S D e s r n i tln p d t ,n h o g u z d mel t eag r h o t u st e b s s cin o h r t P / R s n o d dg a *a aa a d t ru h{ zyj g  ̄ ,h lo i m u p t h e t e t f e o h a i u t t o t
iain s se . i p p rp e e t uz — gcb sdma thn lo i m. eip t O t eag rt m or al o g t y tms Ths a e r s nsaf zyl i—a e pmac ig ag rt o o h Th u st
ma c i g e fce c n c u a y i c e s r a l fe n r d cn h s a g rt m. th n fi in y a d a c r c n r a e g e t a t r i to u i g t i l o ih y

基于模糊匹配策略的城市中文地址编码系统

基于模糊匹配策略的城市中文地址编码系统
e c lme t ft e a d e s i s a c e g i s t e r fr n e d tb s Th e u n d r s l d t l a e n K— ra r e a d t e b a c n o n a h ee n d r s s e r h d a a n t h e e e c a a a e o h er t r e e u t a a a’ s v d i a r y te , n h r n h a d b u d e a g rt m su e o a c l r t e ma c n p e t e h r h d a d e s c n i a e i s o e s n h u z tae y l o ih i s d t c ee ae t t hi g s e d, h n t e mac e d r s a d d t s c r d u ig t e f z y sr t g Th ie e g o o i g h e Ch n s e c d n sr t g p l d i n z o e t rma a aa d ma e o i p r v n e u t . ta e y i a p i n Ha g h u v c o p d t n k ss n ca p o i g r s l s e s
第3 7卷 第 2期
V_ . 7 O 3 1






2 1 年 1月 0
J n r 2 a uay 01 1
NO2 .
Co pu e g n e i m trEn i e rng
人工 智能 及识别 技术 ・
文章 编号:l 32(}) —09—o o 岬 48 (1 2 _ 4 _ 0 21 o 1 3

用于地址(地理位置)匹配的关键路径法

用于地址(地理位置)匹配的关键路径法

C i e e a d e se p e s n t ee a e ge t a e e c p ie r s l o a e g a h c a d e s th sln e n ad f c l n w b ma h n s d r s x r s i h r r r a l v r d d s r t e u t f ras me g o p i d r s .I a g b e i u t i e p o y i i v s r o i f y a p i ain o o rs l e u e n u d r s e n r n l t h m n o s n a d a d e s s T e p p r r g r s t e g z t e n tn a d p l t s h w t e ov s r i p t a d e s s a d ta sae t e i t t d r d r se . h a e e a d h a et r a d sa d r c o a e a d e sl rr s t e d t o r e ul s a p r s ld cin r a l ,d sg s a C i e e a d e s mac ig mo e a e n t e i tg ai n o d r s i ay a h aa s u c ,b i h a a i t a tb e e in h n s d r s th n d lb s d o h ne r t f b d o y o rv r e s a n e t r r s a d p o o e e g t a e d r s rt a ah e t t n meh d w ih wel s t e h dv ri e e e s c n a d f au e wo d , n r p s s a w ih - s d a d e s ci c l p t si i t o h c l et s t e ie sf d b i ma o l i e p e so fa d r s n C ie e v r u h n q e e so sg o r p i a d e s x r s in o n a d e si h n s es s te u i u n s fi e g a h c d r s . t

基于规则的中文分词与地址匹配

基于规则的中文分词与地址匹配

基于规则的中文分词与地址匹配
地址匹配是指根据给定的地址信息,在一个地址库中匹配出符合要求的地址。

地址匹配通常包括词语的切分、地址关键词的提取和与地址库中的地址进行匹配等步骤。

将基于规则的中文分词与地址匹配结合起来,可以实现对中文地址的准确切分和匹配。

通过基于规则的中文分词方法,可以将中文地址切分成如省、市、区、街道等组成部分。

然后,利用地址匹配算法将切分后的地址与地址库中的地址进行匹配,找出最符合的地址信息。

这种基于规则的中文分词与地址匹配方法可以辅助地址信息的识别和匹配,提高地址相关业务的准确性和效率。

但也需要根据具体的应用场景和数据特点来设计合适的规则和算法,以提高匹配的准确性和鲁棒性。

211173142_中文地名地址成分信息识别

211173142_中文地名地址成分信息识别

于记忆,并能帮助运用者能联想起地名与地理实体之间
稳定的联想关系。那些容易与特定地理实体建立起关联,
能生动地反映当地特点、体现地域文化特征的地名,因 指位效能强而受到社会的青睐 [7]。地名用字是地名构成
的重要部分,根据不同的目的和原则 , 可以采用不同的 地名分类法 [8]。因此本文想要通过缩减地名中地址要素
随着地理信息和大数据的快速发展,如何准确的识 别出我们需要的信息成为现在研究的关键,中文地名地 址的命名实体识别是自然语言处理的一项重要任务 [1]。 命名实体识别是进行信息匹配的前提,命名实体识别是 对文本中的重要名词和专有名词进行定位和分类的问题, 地名和我们的生活紧密结合在了一起,所以如何准确并 快速的检索到我们需要的地名成为了现在研究的关键。 1 国内外研究现状
引用 [1] 徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电 子设计工程,2020,28(16):7-10+16. [2] 梁南元.汉语自动分词知识[J].北京航空学院学报,1988(4):2933. [3] 于滨,程昌秀,左廷英.面向全国经济普查需求的专家系统地理 编码方法[J].计算机应用研究,2010,27(8):2976-2979. [4] 钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究 [J].小型微型计算机系统,2006(9):1761-1765. [5] 孙存群,周顺平,杨林.基于分级地名库的中文地理编码[J].计 算机应用,2010,30(7):1953-1955+1958. [6] 邬伦,刘磊,李浩然.基于条件随机场的中文地名识别方法[J]. 武汉大学学报(信息科学版),2017,42(2):150-156. [7] 刘连安.地名命名的分类以及影响地名生命力的因素[J].中国 地名,2020(2):4-5. [8] 尹钧科.浅谈区域地名研究[J].中国历史地理论丛,2003(3):6771+158-159. [9] YUAN Z.An Adaptive Chinese Word Segmentation Method [C]//International Conference on Automation, Mechanical Control and Computational Engineering,2018:556-561. [10] POWERS D M.Evaluation:From Precision,Recall and F-measure to ROC,Informedness,Markedness and Correlation[J]. 2020.

一种基于统计分词的地址匹配方法[发明专利]

一种基于统计分词的地址匹配方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810833826.4(22)申请日 2018.07.26(71)申请人 浙江省测绘科学技术研究院地址 310000 浙江省杭州市西湖区保俶北路83号申请人 北京吉威时代软件股份有限公司(72)发明人 陈张建 李晶云 李爱勤 王延朝 祝士杰 赵飞 陆泽 丁宜忠 (74)专利代理机构 北京纽乐康知识产权代理事务所(普通合伙) 11210代理人 白明珠(51)Int.Cl.G06F 16/9035(2019.01)G06F 16/29(2019.01)G06F 17/27(2006.01)(54)发明名称一种基于统计分词的地址匹配方法(57)摘要本发明公开了一种基于统计分词的地址匹配方法,包括以下步骤:S1,基于省/市/县/街区、乡、镇、/村、社区5级行政区划建立行政区划本底库;S2,使用包括道路街巷地名、片区地名、自然村地名、小区地名、建筑物地名、其他自然地名在内的地名模型建立地名本底库;S3,使用标准地址模型建立地址本底库;S4,基于行政区划本地库、地名本地库和地址本地库构建地理编码索引库;S5,利用分词技术和搜索引擎,建立地址匹配算法。

有益效果:能够解决地址信息数据量大,现有地址匹配技术中对未登录词匹配成功率较低的问题;以及地址匹配规则复杂,现有匹配算法的检索速度和准确性不高,地址匹配效率较低的问题。

权利要求书2页 说明书6页 附图3页CN 109145169 A 2019.01.04C N 109145169A1.一种基于统计分词的地址匹配方法,其特征在于,包括以下步骤:S1 基于省或市或县或街区、乡、镇、或村、社区5级行政区划建立行政区划本底库;S2 使用包括道路街巷地名、片区地名、自然村地名、小区地名、建筑物地名、其他自然地名在内的地名模型建立地名本底库;S3 使用标准地址模型建立地址本底库;S4 基于行政区划本地库、地名本地库和地址本地库构建地理编码索引库;S5 利用分词技术和搜索引擎,建立地址匹配算法。

基于规则的中文分词与地址匹配

基于规则的中文分词与地址匹配
基于规则的中文分词与地 址匹配
研究背景及意义
随着地理信息系统(GIS)的不断发展和其在各行业的广泛应用,人们对信息共享 的要求也越来越迫切。例如在城市管网、交通导航、工商管理、公共卫生、灾害管理等 领域,地理信息系统作为信息共享的平台,其应用越来越广泛。城市各行业的数据库都 保存着大量和地理位置有关的非空间数据。但是这些行业建设的 GIS 系统并没有足够的 空间位置数据进行支撑,因为地址数据并不能够批量、准确地转化为空间化的信息。这 些数据大多都没有空间位置坐标,无法对应到电子地图上,也就无法进行空间分析和管 理决策。
地址匹配技术正是这一问题的解决方法。地址匹配技术就是把自然语言描述的地理 位置信息转换成地理坐标的过程。通过地址匹配技术,可以把城市各个行业的非空间 信息数据进行空间化,进而运用到 GIS 实际应用中,实现信息нгаас
引入一些地址组成的基本概念: (1)地址串:就是一般的地址,日常的通信地址。例如:青岛市黄岛区前湾港路 579 号。 (2)地址要素:组成地址串的若干词组,如上面的地址就是由 4 个地址要素组成的,分别是 “青岛市”、“黄岛区”、“前湾港路”和“579 号”,每个地址要素相对独立。 (3)地址通名:顾名思义,就是地址要素中通用的那些字段。例如:地址要素 “黄岛区”中 “区”为地址通名, “前湾港路”中“路”为地址通名。 (4)地址专名:例如:“黄岛区”中“黄岛”为地址专名。地址要素中去掉地址通名后剩余的 部分就称为地址专名。
中文地址的组成复杂多样,对比标准地址模型,可能存在地址表达不完整、残缺的情 况。(设定:1道路名,2门牌号,3住宅小区,4楼牌号,5建筑物。)例如地址址武汉市青 山区工业一路21号,是1(道路名)+2(门牌号)的模式,没有3、4、5三种地址要素。因 此需要定义规则以便于后面地址匹配的进行。如下表所示。

基于模糊匹配策略的城市中文地址编码系统

基于模糊匹配策略的城市中文地址编码系统

基于模糊匹配策略的城市中文地址编码系统吴海涛;俞立;张贵军【期刊名称】《计算机工程》【年(卷),期】2011(037)002【摘要】A fuzzy matching strategy of Chinese address geocoding, in which the K-ary tree is used to enhance the accuration and search speed of matching, is proposed for given spatial database scheme. The input Chinese address is dissected and standardized as individual address elements, and each element of the address is searched against the reference database. The returned result data are saved in K-array tree, and the branch and bound algorithm is used to accelerate the matching speed, then the matched address candidate is scored using the fuzzy strategy. The Chinese geocoding strategy is applied in Hangzhou vector map data and makes some approving results.%在研究空间数据地址编码技术的基础上,根据城市地址数据库特定存储格式,选取适于城市中文地址的切分方案,提出一种基于K叉地址树的模糊匹配策略,将地址数据以K叉树形式进行存储.采用分支定界思想探测并排除无效匹配结点,并应用模糊规则对匹配结果进行评价及筛选,从而提高地址匹配的效率和准确度.应用杭州市1:10 000矢量地图数据验证了该编码系统的有效性.【总页数】4页(P194-196,199)【作者】吴海涛;俞立;张贵军【作者单位】浙江工业大学计算机科学与技术学院,杭州,310023;浙江工业大学信息学院,杭州,310023;浙江工业大学信息学院,杭州,310023【正文语种】中文【中图分类】N945【相关文献】1.基于城市地址树的地址文本匹配方法 [J], 应申;李威阳;贺彪;王维;赵朝彬2.基于地址语义理解的中文地址识别方法 [J], 李晓林;张懿;李霖3.基于BERT的中文地址分词方法 [J], 孙士琦;汤鲲4.基于编辑距离的中文地址与邮政编码匹配方法研究与应用 [J], 金榕榕;尹晖5.一种基于规则的模糊中文地址分词匹配方法 [J], 程昌秀;于滨因版权原因,仅展示原文概要,查看原文内容请购买。

地名分词搜索的词典设计与匹配方法研究

地名分词搜索的词典设计与匹配方法研究

第36卷第2期2011年4月测绘信息与工程Journal of Geo maticsV ol.36N o.2A pr.2011项目来源:数字制图与国土信息应用工程国家测绘局重点实验室开放基金资助项目(GCW D200903)。

文章编号:1007 3817(2011)02 0052 03文献标志码:B地名分词搜索的词典设计与匹配方法研究李艳红1 庞小平1 李海亭2(1武汉大学资源与环境科学学院,武汉市珞喻路129号,430079;2武汉市勘测设计研究院,武汉市万松园路209号,430022)摘 要:阐述了专门用于分词搜索的关键词词典设计,提出了采用逆向最大匹配和权重匹配相结合的方法,实现了更加准确、高效的地名搜索。

关键词:地名搜索;分词;最大匹配;权重匹配;数据库中图法分类号:P281地名搜索服务是社会公众或单位群体最常使用的功能之一。

建立地名数据库系统,开展地名公共服务,已经成为社会公共服务体系建设中的重要组成部分。

结合武汉市地名服务系统的开发实践,针对地名数据本身的特点,设计了专门用于地名库分词搜索的关键词词典,阐明了终端输入的分词算法,对分词后的关键词序列与地名库中的数据内容进行注入权重系数的逆向最大匹配,并辅以分词索引技术,使整个地名搜索系统的设计更趋合理,地名搜索服务更加准确、高效。

1 分词词典设计地名库系统中的地名数据具有数据量大、覆盖范围广、信息复杂度高的特点。

在地名搜索服务中,地名库的词典设计既要考虑区域范围内地名数据的特征,还要考虑用户对地名数据的模糊查询、日常用词、短语、专用词汇等均应包含其中[1~3]。

分词词典既要具有良好的数据结构,又要具有通用性。

1)数据结构的设计。

在武汉市地名服务系统的开发过程中,收集了115638条地名数据和近30万条日常用词、短语、专用词汇等组成整个词典的主要内容,采用文本文件的方式存放地名分词词典。

具体数据结构设计思想包括: 每一个文本文件存放相同字节长度的词条,词条间用换行符隔开,便于词典数据的维护和管理; 每一个词典文件内部,所有的词条数据根据其整型数值之和以升序的方式存放;!每一个词典的文件名称均由相同的前缀和表示该词典存放汉字的长度数值构成,如Dic 4,即表示4个汉字的词典。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

算法和基 于: t - L ̄ 4 的模糊 匹配方法, 并利用工商注册数据库为原始地址数据文件 , 建立 了工 商职 能部 门企业地址数据与 空
间数 据 的 地 址 匹配 映 射 。 .
关键 词: 地 址匹配; 层级模型 ; 模 糊 匹配 ; 先验规 则
中图分类号 : P 2 0 8 文 献标 识 码 : A 文章编号 : 1 6 7 3 — 1 1 3 1 ( 2 0 1 5 ) O 5 . 0 0 1 0 - 0 1
( 天津市测绘 院 , 天津 3 0 0 3 8 1 )
摘要 : 通过对 国内地址 匹配现状的全面研 究 , 并结合对原始地址数据 的分析 , 总结 出了我 国常用地址表 述的 习惯和规律 , 抽 象 出了地址 匹配层级模型和地址 匹配类型 , 用于地址 匹配的各个过程 。 在此基础上 , 提 出了基于先验知识的 中文分词
在地址 匹配时 , 首先通过 X ML可扩展标记语言存储分 词 标志词库 。通过字符 串分词 正向最大匹配算法根据 XML行 政 区划词库进 行原始地 址拆 分,对拆分结果划入地址 匹配层 级模 型, 并与行政 区划地址库进 行模糊验 证, 将结果 写入模糊 地址数组 A。 剩余 原始地 址, 按 XML道路和小 区词库进行拆
行模 糊验证 。完成地址匹配层级模型第三级构 建。在拆 分门
牌、 楼牌 、 兴趣时 , 遍 历模糊数组 A, 并根据模糊 匹配 规则进行
l地 名地 址 匹配原 理 分析
实现地 名地址匹配 , 需要满足 以下约束条件 , 首先是空间
参考坐标系统, 用于确定匹配的数据赋予何种空间坐标 ; 其次 是地址匹配层级模型 , 它是地名表述的抽象数据模型 , 是进行
随着我 国城 市建 设脚 步的加快 ,原有的地名地址 已经无 法与 当前城 市实 际情况相适应 , 因此 , 对 地名地址进行更新 已
经成为 了城 市发展 中的一项重 要工作。但就 目前相关部 门所 采 取 的地 名 地 址 更新 方法 来 看 , 并 不 十 分完 善 , 无 法 满 足 城 市 建设发 展的根本 需求 。为此,对地 名地址更新方法进行完善 已经成为 了城建 部门的一项重要工作 。
2 0 1 5 年 第 5 期 ( 总第 1 4 9期)
信 息 通 信
I NF0RM AT I ON & C0M M UNI CAT1 0NS
2 01 5
( S u m . N o 1 4 9 )

种基于综合 分词和模糊 匹配 的地 名地 址 匹配方法研 究
周 浩, 葛江涛
化市锦屏街道 广平 路 8 9号” 。 又如“ 奉化市锦屏街道广平 2号 楼” , 首先 通 过 基 于 先验 知 识 的 中 文 分 词 算 法 切 分 出奉 化 市和 锦屏街道 两词,然 后使用正 向最大匹配算法对广平一词在道
路和 小 区 表 中 进 行 匹 配 , 分 别 匹配 到广 平 路 和 广 平 小 区两 词 , 剩 余 字 段 为 2号 楼 。根 据 地 址 匹 配 类 型 中 的 街 道 + 门牌 和 小
分, 分别与道路和小 区地址库进行模糊验 证, 写入模糊地址数
组 A, 完成地址匹配层级模 型中的第 一级和第 二级构建。 对 经 过行政 区划和道路小区拆分后的字符 串。根据 门牌 、 楼牌 、 兴 趣 点XML词库进行拆分 , 拆分时选用词库顺序根据地址 匹配 规则进行排序 。对 拆分的字符与 门牌 、 楼 牌、 兴趣 点地址 库进
广 平 路 的上 级 编 码 为锦 屏街 道 。 重 构 后 的 标 准 地 址 就 是 “ 奉
化的地址数据与地理编码数据库进 行匹配时的验证规则 。以 上约束条件是地址匹配 的必备条件 ,是保证地址匹配准确率
和 精 度 的重 要 手 段 。
1 . 1地址 匹 配层级 模型
根 据 对 地 名地 址 信 息 的 分 析 ,总 结 抽 象 出 了地 址 匹配 层 级 模 型 。包 括 三 个 层 级 , 依 次 是 面 状 行 政 区种类型 ,首先按街道+ f q 牌对广平路 2号楼进 行假 设性匹配 , 匹配 失败 , 转 由小 区+ 楼牌 的方 式对 广平 小区 2号 楼进行假设性匹配 , 匹配 成功。重 构后的标准化地址是“ 奉化 市锦屏街道广平小 区 2号楼” , 赋予地址数据空间坐标 , 完成
地址级 别、 点状子地址级别 。根据层级模 型, 标准地址 的全 写 形 式应 该是: 省 ( 地 级市) + 市/ 县+ 道路/ d , 区+ 门/ 楼牌/ 标志物/
兴趣 点 。 .
( 1 ) 面 状 行 政 区级 别 : 包括五层 : 国家 层 、 省级层 、 地 级 市 层、 区县 层 、 镇/ 乡层 。 ( 2 ) 面状或线状地址级别 : 由道路或小区组成, 不允许为空。
随着建 设数 字城市的兴起和发展 , 特别是随着 GP S 、 北 斗
导航 定位 系统的推广应用 ,地址数据 已经成为人们表达他们
感 兴趣 点位 的 重 要 方 式 。 如 何 将 没 有 坐 标 信 息 的属 性 数 据 与
包含坐 标信 息的空间数据对应起来 ,建立他们之 间的关联 关 系, 是 地 名 地 址 匹配 需要 处 理 和 解 决 的 问 题 。
地 址 拆 分 和 地 址 标 准 化 的基 础 ; 第三是地址匹配规则 , 即 标 准
地址字段缺失和地址字段歧义 的处理 , 直到字符 串拆分完 毕。 完全匹配规则库的记录 ,查询对应属 性地 址库 的空间坐标并
返回给用户 。模糊匹配规则库 的记录 ,返 回可能的地址全称 供用户选择 。无法匹配 的记录 , 直接返 回。如“ 奉化市广平路 8 9号” , 首先拆 分出奉 化市行政区一级 , 然后依次匹配辖 区和 道路 , 辖 区库无 “ 广平” 字段记 录, 转而匹配道路 , 在数据库 中 找到 “ 广平 ” 一词 , 根据街道+f q 牌类型在找到 匹配记录 , 反查
相关文档
最新文档