新闻事件地名实体识别和地图链接技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子科技大学
UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 专业学位硕士学位论文
MASTER THESIS FOR PROFESSIONAL DEGREE
论文题目新闻事件地名实体识别和地图链接技术研究
专业学位类别工程硕士
学号201722180232
作者姓名李玉超
指导教师许文波教授
分类号密级
UDC注1
学位论文
新闻事件地名实体识别和地图链接技术研究
(题名和副题名)
李玉超
(作者姓名)
指导教师许文波教授
电子科技大学成都
(姓名、职称、单位名称)
申请学位级别硕士专业学位类别工程硕士
工程领域名称电子与通信工程
提交论文日期2020年4月论文答辩日期2020年5月21日
学位授予单位和日期电子科技大学2020 年 6 月答辩委员会主席
评阅人
注1:注明《国际十进分类法UDC》的类号。

Research on the Identification of Geographical Names of News Events and the Technology of Map
Linking
A Master Thesis Submitted to
University of Electronic Science and Technology of China
Discipline:Master of Engineering
Author:Yuchao Li
Supervisor:Wenbo Xu
School:School of Resources and Environment
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

作者签名:日期:2020年5月29日
论文使用授权
本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。

本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后应遵守此规定)
作者签名:导师签名:
日期:2020年5月29日
摘要
摘要
大数据时代的到来,新闻事件以海量、多元的形式呈现给用户,新闻事件与地理信息的有机结合为用户提供新闻事件信息的同时也提供地理位置数据。

但是新闻文本本身具有价值稀疏的特性,海量的信息有时没有为用户带来便利,甚至造成了困惑,因此用户需要良好的知识筛选方法。

在有机结合新闻事件文本信息和地理空间数据信息,筛选对于用户有帮助的信息时,我们面临以下一些问题:网络新闻文本类别多样,难以筛选用户真正需要的文本类别;中文地名因为其特殊性在新闻文本中识别较为困难;新闻事件中的地名实体往往以文字形式呈现给用户,不具有直观性和简便性。

针对以上三个问题,论文主要研究从新闻文本中识别中文地名并将其链接到数字地图。

论文首先研究了基于深度神经网络的文本分类方法,比较了目前主流的两种文本分类方法,探究文本分类的可行性和有效性。

对常涉及地理位置的六类新闻文本进行标注分类,同时加入一些热门但几乎不涉及地理信息的新闻文本作为类别补充,总共构成七种类型的新闻文本,通过比较卷积神经网络和循环神经网络模型训练新闻文本数据效果,采用基于字符级的卷积神经网络进行文本分类。

其次对中文复杂进行地名识别。

采用基于统计与规则相结合的条件随机场模型进行中文实体地名识别,在该模型的基础上,采用基于信息熵和点互信息的算法计算实体中单字的成词率,提高识别效率和精度,有效地识别中文地名。

最后基于数字地图的新闻文本地名实体定位,设计一套新闻事件的实体识别与链接系统,基于VS工具搭建地名定位程序,将文本分类后的新闻事件和事件中的地名精确定位到数字地图上,呈现给用户直观的感受,以方便用户有效利用新闻文本。

论文通过基于神经网络的新闻文本分类,对文本信息进行有效筛选,确定采用卷积神经网络对新闻文本进行分类。

在探索新闻文本中复杂地名的识别,采用一种基于信息熵和点互信息的地名识别算法,有效的融合多元数据信息,以数字地图可视化的形式呈现给用户新闻文本中有价值的信息。

研究成果可用于用户导航、灾害避险、新闻热点追踪等。

关键词:知识图谱,文本分类,实体识别,知识检索,地图定位
ABSTRACT
With the advent of the era of big data, news events are presented to users in a massive and diversified form. The organic combination of news events and geographic information provides users with news event information and geographic location data. However, news text itself has the feature of sparse value, and sometimes the mass information does not bring convenience to users, but even causes confusion, so users need a good method of filtering knowledge. When organically combining the news event text information and the geospatial data information to filter the information that is helpful to users, we are faced with the following problems: there are various types of network news text, so it is difficult to filter the text categories that users really need; Chinese place names are difficult to identify in news text because of their particularity; Place-name entities in news events are often presented to users in the form of text, which is not intuitive and simple.
In view of the above three problems, this paper mainly studies the identification of Chinese place names from news text and links them to digital maps. This paper first studies the text classification methods based on deep neural network, and compares two mainstream text classification methods, to explore the feasibility and effectiveness of text classification. Labeling and classifying six categories of news text that often involves geographical location, and adding some news text that is hot but does not involve geographic information as a supplement category, which constitutes a total of seven types of news text. By comparing the convolutional neural network and loop neural network model training effect of news text data, this thesis uses convolution neural network on character level to classify text types. Secondly, complicated the Chinese place names are identified. A conditional random field model based on statistics and rules is used to identify Chinese geographical names. On the basis of the model, an algorithm based on basic information entropy and pointwise mutual information is proposed to calculate the word formation rate of a single word in an entity, so as to improve the recognition efficiency and accuracy , which effectively identifies Chinese geographical names. Last, according to the digital map of news text place name positioning, this paper designs a system to recognize and link the place names in the news events, which is based on the VS tool to set up places positioning system. Thus the classified news events in which the
II
place names precisely positioned in the digital map are presented to users intuitively, which facilitates users to effectively make use of the news text.
This paper classifies news text based on neural network, which effectively filters the text information and uses the convolution neural network to classify news text. In order to explore the recognition of complex place names in news texts, an algorithm of place names recognition based on information entropy and mutual information of points is proposed, which effectively integrates multiple data information and presents valuable information in news text to users in the form of visualized digital map. The research results can be used for user navigation, disaster avoidance and hot news tracking ect.
Keywords:Knowledge Graph,Text Classification,Entity Recognition,Knowledge Retrieval,Map Positioning
目录
第一章绪论 (1)
1.1 研究背景及意义 (1)
1.2 国内外研究现状 (3)
1.2.1 知识图谱研究现状分析 (3)
1.2.2 文本分类 (6)
1.2.3 中文地名标注与特征提取方法 (9)
1.2.4 地图连接技术研究 (12)
1.3 主要研究内容 (14)
1.4 论文组织结构 (15)
第二章新闻事件的地名实体识别和地图链接方法研究 (16)
2.1 研究主体分析 (16)
2.1.1 研究区域 (16)
2.1.2 语料库选择 (17)
2.2 文本分类 (17)
2.2.1 卷积神经网络文本分类 (17)
2.2.2循环神经网络文本分类 (22)
2.3 地名实体识别和提取 (25)
2.3.1 信息熵和点互信息 (25)
2.3.2 序列标注 (27)
2.3.4 规则选取 (28)
2.4 数字地图连接 (29)
2.5 本章小结 (29)
第三章实验操作与结果分析 (30)
3.1 文本分类 (30)
3.1.1 基于卷积神经网络的文本分类 (32)
3.1.2 基于循环神经网络的文本分类 (38)
3.2 基于新闻事件文本中的中文地名实体识别 (42)
3.2.1 语料库准备和复杂地名词典生成 (43)
3.2.2 基于信息熵和点互信息的条件随机场与统计相结合的实体识别 .. 45
3.3 基于新闻事件的地名实体数字地图可视化 (46)
IV
3.3.1 基于数字地图的位置检索 (46)
3.4 本章小结 (48)
第四章新闻事件地理信息实体识别与链接程序设计与开发 (49)
4.1 需求分析 (49)
4.2 程序模块设计 (50)
4.3 程序实现 (51)
4.4 本章小结 (53)
第五章总结与展望 (54)
5.1 论文总结 (54)
5.2 不足与展望 (54)
致谢 (56)
参考文献 (57)
第一章绪论
第一章绪论
1.1 研究背景及意义
时代发展,科技进步。

互联网的兴起不亚于一场工业革命,以前人们更多的关注工业进步,如今随着互联网的发展,越来越多新的概念和理论被学者和其他专业人士提出,如物联网、大数据、5G技术、人工智能等等。

这些新兴技术有的处于萌芽阶段,有的已经成熟应用并商业化,服务于社会各个方面。

同时,遥感、测绘、地理信息、通信、计算机等学科的飞速发展也使得用户不再满足单一的信息来源,以往的数据获取和数据模型难以满足用户多变的需求,数据信息的获取要求越来越高,速度要快,规模要越来越大,也越发成型[1]。

其表达形式也越来也多样化,如百度地图、高德地图或者其他App中的地理空间数据应用。

但与此同时,随着大数据时代的到来,数据也愈发呈现出异构性、多样性以及还良性。

依据中国互联网中心的数据分析报告可以了解到,中国的网民规模逐年增加,网页数量也突破千亿级,各种各样的数据扑面而来。

我们生活的信息空间由各种各样的数据信息组成,多元的信息维度组成使世界变得多姿多彩,同时地理信息数据在各式各类的信息数据种充当着重要角色。

据权威机构调查统计,互联网数据信息,包括新闻信息,朋友圈信息等各类信息等,尤其以新闻信息为主,将近五分之一的数据中提到地理数据信息,近四分之一的资源搜索和查询涉及地理数据信息[2]。

针对如何将多元数据融合,有效处理文本信息数据中的地理空间信息数据是人工智能时代,大数据领域的重点攻克目标,这一方案能为用户提供高效的信息处理方案,良好的完成信息筛选,充分利用地理空间数据信息。

李德仁院士提出的智慧地球概念,着力于计算机技术和地理信息科学知识打造一套新的世界运转体系,一切的方式都是智能化、万物互联化[3]。

如今,地理信息科学不再是一门专有领域的研究科学,而是触及社会生产全方位的一种基础知识概念,如同经济学、物理学一般,在各个方向都发挥着重要作用。

但是地理信息科学同时也面临着很多问题和需要突破的技术瓶颈,首先需要解决便是地理数据信息获取的繁琐,传统的测绘手段获取地理空间数据,一般是通过人工采集,或者用户自反馈的方式,这些地理空间数据获取的手段不仅成本高而且数据精度往往无法令人满意。

新兴的遥感技术,定位技术,数字测量技术等解决了传统测绘手段耗时耗力的问题。

目前,国家对于环境保护、生态文明提出了新时代新发展的要求,严格遵循“四个全面”战略布局,依循“绿水青山就是金山银山”的理念[4]。

这使得地理空间数据信息的研究具有长远的战略意义,同时也是社会发展的重要一环。

近年来,有许多专家学者从事研究互联网数据信息和地理空间数据信息的多元融合,构建了相关的地理知识服务平台,以网络文本数据为基础面向用户的地理数据专项知识图谱,并且也在逐步尝试对于传说地理数据信息处理手段的革新,如在遥感领域、测绘领域等,但这些研究一般局限于以地图服务的形式面向大众,缺乏深层次、系统化的归纳及服务。

目前的地理数据信息获取技术相较于之前的研究已经有了显著的提升,但依然会有一些技术瓶颈和亟待解决的问题,目前的研究人工成本过高,效率虽然有提升,但并未到理想的地步,当面对具有高价值密度的地理数据信息是常显得捉襟见肘[5]。

百度地图、高德地图等导航出行软件为人们带来的便利和路况信息,当我们需要了解我们所需要前往的目的地信息时,通过搜索相关导航软件来指引我们,而百度,高德等更新实时数据主要通过用户反馈。

依据用户的反馈来获得相关空间数据信息。

但是这使得其高度依赖用户基数。

当用户反馈更新不及时时,就使得用户会在空间数据的使用上造成偏差,影响用户使用体验。

即时性的一些社交软件或平台可以及时的发部相关新闻,如某地发生泥石流灾害,微博用户会大量更新信息文本,但是面对大规模的新闻文本,如何筛选出对于用户真正有价值的信息成为了研究难点。

通过研究新闻事件的地理信息实体识别与链接技术,使得用户可以及时爬取相应地点相关事件,及时更新到地图坐标上,为出行,考察,科研都提供正确的空间数据信息及帮助。

但当前大数据与知识图谱领域的研究还面临以下一些问题和难点:
1)多元空间数据多样异构、动态变化,难以进行知识表示[6]。

目前网络数据是多元化的,一般的数据可以分为结构化的数据和非结构化数据两种,一般地理数据信息为了凸显其直观性,通常地图图像的形式展示,而互联网数据由于互联网的自由原则。

数据格式多种多样,文本、图片、视频(尤其是近两年火爆的短视频)等多种形式呈现给用户。

不同的数据有这不同的呈现形式,而多元的数据结构计算机难以处理。

而地理空间数据和网络数据的结合更是研究的重难点。

地理空间数据,以及网络数据都会随着时间的推移而变化,动态的多元数据结合也增加了研究的多元数据融合的难度,也对技术和算法提出更高的要求。

2)网络新闻文本数据数据体量大,但有价值的信息较少,新闻文本数据有点价值稀疏性,是数据挖掘的难点和重点。

互联网数据与地理空间数据的区别在于价值稀疏性的特点,地理空间数据是具体的,有众多测绘方法可以获取具体的地理空间数据;而新闻文本数据来自于网络,规模巨大,但重要信息却很少。

例如,当某地发生泥石流灾害造成道路塌方等地质灾害事件,同一时间新闻文本会在网络大爆发,虽然主要以报道灾害事件的新闻居多,但同时也会接收到各种类型的数据,既有相关新闻信息,也有干扰信息,真正有用的信息更少。

网络新闻文本的大规模
和低价值维度的特点是知识分类的一个难点。

3)中文地名复杂多样,形式各异,同时中文语句结构特殊,地名中的单字可能会合上下文单字组成词汇,不同于英文中地理位置会用大写形式凸显出来,这使得中文地名在计算机中难以识别。

如“成都市都江堰市胥家镇胜利村”,该条文本中的“胜利”我们希望识别出来是中文地名,而不是传统意义的胜利。

这就提高了计算机对于实体识别的难度,同时也是中文地名识别的难点。

4)即时新闻事件地理数据信息多以文本形式提供给用户,未实现数据数字地图化。

虽然目前国内外已经有很多学者在研究基于地理数据的知识图谱构建。

目前,知识图谱的研究热潮和学习潮逐渐被掀起,但是还没有一套主流的、系统的研究流程,用户也迫切需要一套类似常规应用便于普及操作的知识服务体系[7]。

随着计算机科学的发展,大数据概念的提出,人工智能的逐渐应用,这些科学和技术都助力知识图谱构建和研究。

对于新闻事件文本中地理数据信息的获取和识别,最后以数字化地图形式直观的呈现给用户,对于教学科研、政府管理、生产应用都具有巨大的参考意义。

实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。

实体识别技术可以检测文本中的新实体,并将其加入到现有知识库中。

实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。

实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。

针对以上问题和难点,新闻事件的实体识别和链接研究应运而生,文中对新闻文本的分类,中文地名识别及抽取,以及新闻事件中的地名实体数字地图检索定位进行了深入研究。

具体研究意义如下:
通过对新闻事件的地理信息数据进行特征提取和实体识别与链接的研究,实现对于新闻事件中所涉及地理位置分析,对地理坐标进行准确定位,以及做出相应的地理缓冲区分析,将路况信息,或其他灾害信息及时呈现。

其中的算法领域可以应用于灾害预警、道路监测、地理舆情分析、新闻热点追踪等,为用户实现精准的查询定位分析服务,给用户文本中关键的地名信息,规避复杂路径和麻烦。

爬取了全国地名数据库,根据格式建立了全国地名字典,方便全国地名识别,为后续地名识别提供参考和辅助。

1.2 国内外研究现状
1.2.1 知识图谱研究现状分析
知识图谱(Knowledge Graph)又可以被叫做科学知识图谱,在一些领域又被称为知识表示图或知识的可视化,可视化是一种将多元信息以直观感受结合规定图形呈现给用户的形式,知识图谱的可视化是为了方便用户直接观察实体间的关系,便于用户分析、归纳相关信息[8]。

知识图谱专注于对于实体之间的各种因素分析,将分析结果、关联数据以图谱化的形式展示给人类,为了更好的解决处理互联网大规模信息、处理海量数据[9]。

知识图谱的出现为许多行业带来了革命与创新,在许多领域已经有了应用,同时展现出了巨大的潜力,知识图谱可以说已经成为互联网发展的基础支撑。

知识图谱的实体抽取和关系抽取是知识图谱研究的重中之重,在知识图谱中只有首先获取了文本中的实体,再根据实体衍生关系研究,构建相应的知识图谱。

知识图谱的实体抽取和关系抽取目前主流的有三种研究方法,分别为:有监督方法、无监督方法以及远程监督法。

本文主要研究新闻网页文本数据提取挖掘出实体以及其对应的地理关系。

1.2.1.1 知识图谱发展现状
知识图谱至今已经有四十余年的发展历史,知识图谱的发展因为人工智能的进步和研究同时也突飞猛进,但同时也面临着更多的机遇和挑战,知识图谱也可以称为知识工程,它的发展历史可以分为五个阶段:知识概念阶段、专家系统阶段、万物互联阶段、人工智能阶段和知识图谱阶段[10]。

知识概念阶段位于上世纪五十至七十年代,这一时期人工智能主要是为了解决一些大型重复性的复杂问题,这一阶段主要采用两种方法:符号主义和连接主义。

符号主义是一种将物理符号系统看作智能行为的方法;而连接主义将神经元何其连接机制才是智能活动的基础。

一般通过形式化表达问题,搜索目标,初始化问题,结合规则计算得到目标答案。

而该阶段知识表示的主要方法有:语义网络、规则产生、知识逻辑表示[11]。

专家系统阶段位于上世纪七十年代至九十年代,这一阶段的研究重点为人工建立智能知识库解决问题,但是没有大力研究知识在人工智能领域,造成这一阶段人工智能的应用面十分狭窄[12]。

1970年时,很多专家系统开始出现,这些专家系统将人工智能与知识相结合,原理时以知识库与推理机制相结合。

市面上涌现了一些医疗专家系统、故障诊断系统。

同时Feigenbaum提出了知识工程的概念,提出知识工程在人工智能中具有关键地位。

同时知识工程也有了新的进展,专家系统的出现可以帮助将专家的领域知识转变成计算机可以处理的知识[13]。

万物互联阶段位于本世纪初,这一阶段出现了大规模的知识库,如
WordNet,Cyc,和中文的Hownet[14]。

万物互联为用户提供一个大型开发平台,方便用户进行研究和自我开发,共享资源信息[15]。

通过可扩充语言对互联网文本数据经行定义,为大数据时代下的知识工程建设做好了前期准本,同时基于本体的知识表示方法也逐渐盛行。

2000年至2006年的人工智能阶段,将互联网的与知识图谱相结合为大型计算提供辅助和帮助。

这一阶段因为结构化的知识资源涌现和信息获取手段的不断丰富,使得大规模的知识工程建设或信息获取有了质的飞跃。

同时知识的获取不再高度依赖人工操作,更多的是一种自动化、智能化的操作,同时在网络上采用并行处理。

目前知识图谱这个阶段,智能化知识库已经在语义搜索、自动问答、数据挖掘、之智能导航等领域起到了关键性作用,互联网企业也尤为重视其研究和发展。

如谷歌推出的知识图谱系统、脸书的图谱搜索以及微软的商业、金融、生命科学专属领域知识库等。

1.2.1.2 知识图谱构建
知识图谱是一种对客观世界的抽象表达,将人们对于客体的多方面认知组合在一起,以图谱结构化的形式将多元数据呈现给用户。

知识图谱构建是指构建知识图谱的关键技术,主要包含语义Web,自然语言处理,以及机器学习相结合的技术和方法[16]。

知识图谱所需要的技术主要包含以下三个:知识图谱构建、信息查询和推理,技术应用。

知识图谱技术在互联网时代的背景下是一种十分重要的技术,在多领域,多方向都会发挥巨大的作用[17]。

知识图谱构建可以分为知识的表示与模型构建、知识的表示学习、实体识别与链接、实体关系学习和事件知识学习[18]。

知识的表示与建模是构建现实世界中多种多样的要素联系,以结构化的形式呈现给用户,理清各实体之间的概念和联系;知识表示学习是将实体之间的关系以向量化的形式表示,以便计算机可以进行后续处理和研究操作[19];实体识别与链接分为识别和链接,如地名识别、人名识别、机构名称识别等,识别出相应实体后与对应的知识库链接[20];实体关系学习就是检测文本中的实体关系,学习并处理,以预测文本之间的关系,又可以称为关系抽取;而事件学习是学习事件状态,了解动态结构化的知识[21]。

本文研究的重点的新闻时间的地名识别,实体识别也是知识图谱构建的关键技术之一。

知识图谱的查询和推理计算以图的方式展示知识图谱结果,以此来表示世界的实体、关系、事件之间的联系[22]。

因为知识普遍具有复杂性,所以查询知识,就
显得格外重要。

知识推理可以根据已有的知识训练推理出新的关系和未知的关系,在知识计算中发挥着重要作用。

1.2.1.3 知识图谱应用
知识图谱的应用已在各方面都有实现,如摘要生成、智能问答系统、知识回答、语义搜索等多种方式的应用,逐渐由学术化转向商业化[23]。

知识图谱可以分为通用知识图谱和领域知识图谱,两种都是知识图谱,但其覆盖面和主要特征不同[24]。

通用知识图谱类似于百度百科一样的数据库,对于各领域的知识都有讲解和覆盖,但是因为其具有通用性难免会造成在某个垂直领域覆盖面不深,所以除了统用知识图谱还有领域知识图谱,面向特有领域构建专用知识图谱,如经济知识图谱、医学知识图谱等。

知识图谱的应用已存在人们生活的方方面面[25]。

摘要生成可以快速生成文本摘要信息;智能问答系统已在多领域发挥作用,如银行的智能客服、淘宝机器人问答等;基于知识的问答是由Etzioni教授提出,是下一代搜索引擎的发展方向和进化趋势[26]。

1.2.2 文本分类
文本分类的历史可以追溯到上个世纪,最先是由美国的IBM公司提出文本分类概念,并且付诸应用,同时IBM公司也是第一次在文本分类中引入词频统计的思路。

上个实际六十年代,H.Borko将因子分析法应用于文本分类,在当时文本分类领域是一种极大的创新和突破[27]。

在千禧年左右,文本分类的思想不再局限于基于词频统计的思想,一些学者提出基于规则的方法来实现文本分类,随后随着机器学习和统计方法再计算机学科的热门,基于机器学习的方法成为了研究的主流[28]。

中国的文本分类因为中文的特性,起步相较于国外来说要晚一些,目前互联网公司普遍都在从事文本分类研究,如腾讯的邮件分类、淘宝的人工智能克服以及一些公司的电商问答系统等。

进入21实际以后,深度学习的大力发展同时也为文本分类添砖加瓦,基于卷积神经网络和循环神经网络的文本分类处理方法大大提升了文本类的效率和性能。

在我国的商用领域,华为、阿里、百度等都已经文本分类应用于商业中。

文本分类是本文自然语言处理的第一步,文本分类是数据挖掘的一个分支。

文本分类就是用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记[29]。

文本主要将嘈杂的网络信息资源分类,如给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个。

生活中常见的文本分类应用:常。

相关文档
最新文档