基于地图可视化的知识表达方法研究——以机构合作网络为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
二十一世纪是数据、信息、知识的时代。
研究表明80%以上的信息与地理位置和空间分布有关,地理数据与地图信息被广泛应用于社会各个领域。
随着互联网技术的发展,虽然数据和信息的数量大幅上涨,但是很少有研究能够很好地利用这些数据和信息,挖掘出对人类有指导意义的知识,普遍存在着“数据海量,信息爆炸,知识难求”的现象,因此,构建合理的知识服务系统,实现知识挖掘与发现、知识集成、知识可视化表达等知识服务功能,可以提升知识的实用性,降低知识的应用难度,拓展知识的实用范围,对我国在科学研究、经济与社会发展等方面都具有重要意义。
地理信息专业知识服务系统作为专业领域的知识服务系统,能够形成体系化的高性能地图知识服务解决方案,机构网络是系统中一个重要知识服务模块,为用户提供机构合作知识,指导科研工作更好进行。
对机构合作网络进行研究主要是为地理信息专业知识服务系统实现机构合作知识挖掘、知识检索、知识可视化表达等寻求基础支撑,将研究领域专题数据与空间数据集成关联,深度挖掘其中隐藏的知识,为地理信息专业知识服务系统提供领域知识服务奠定基础。
在对机构合作网络的国内外相关研究梳理分析中,发现目前的研究存在以下问题:机构合作网络人工参与较多,效率较低,对于机构合作网络自动构建的研究较少;机构合作网络的研究多集中在图书情报等领域,利用成熟的社会网络分析方法对机构合作网络进行研究,缺乏对网络中机构合作知识进行深度挖掘;各领域获取、利用和产生知识时,都要考虑到空间特性,而机构合作网络与地图叠加的研究较少,地理空间大数据没有得到很好利用。
因此,针对这方面的研究仍然有很大的研究空间。
本文从空间认知角度,对机构合作网络的构建、机构合作知识的挖掘与表达、机构合作知识服务系统设计与实现进行了研究。
针对机构合作网络构建研究,采用网络爬虫技术实现文献数据的自动获取,并将位置信息引入到机构合作网络中,提出了基于位置的实体链接方案,完成了对数据的清洗,设计了机构合作网络模型,实现了对机构合作网络的高效构建。
对于机构合作知识的挖掘,在总结了机构合作知识特征的基础上,分析了知识挖掘的方法,对机构合作知识进行了分类,形成了机构合作知识框架。
在知识可视化表达方面,引入地图可视化方法将地图作为知识的空间参考,总结了基于Openlayers的地图可视化方法,提出了基于地图可视化的机构合作知识表达方法,实现了机构合作知识的空间化表达。
基于上述研究设计了机构合作知识服务系统,并通过该系统的具体实现验证了上述研究的可行性及实用性。
关键词:机构合作网络;知识挖掘;知识表达;地图可视化。
I
Abstract
The 21st century is an era of data, information, and knowledge. Research shows that more than 80% of the information is related to geographic location and spatial distribution. Geographic data and map information are widely used in various fields of society. With the development of Internet technology, although the amount of data and information has risen sharply, few studies have been able to make good use of these data and information to dig out knowledge that is instructive to humans. There is a widespread "data mass, information explosion "Knowledge is hard to find", so constructing a reasonable knowledge service system and implementing knowledge service functions such as knowledge mining and discovery, knowledge integration, and knowledge visualization can enhance the practicability of knowledge, reduce the difficulty of applying knowledge, and expand knowledge The practical scope is of great significance to China's scientific research, economic and social development. As a knowledge service system in the professional field, the geographic information professional knowledge service system can form a systematic high-performance map knowledge service solution. The institutional network is an important knowledge service module in the system. It provides users with institutional cooperation knowledge and guides scientific research.
The research on institutional cooperation networks is mainly to find basic support for geographic information professional knowledge service systems to achieve institutional cooperation knowledge mining, knowledge retrieval, knowledge visualization, etc., integrate the thematic data in the research area with spatial data, and deeply mine the hidden knowledge. Lay the foundation for geographic knowledge professional knowledge service system to provide domain knowledge services. In the analysis of related researches on institutional cooperation networks at home and abroad, it is found that the current research has the following problems: institutional cooperation networks have more manual participation, lower efficiency, and less research on automatic construction of institutional cooperation networks; research on institutional cooperation networks Mostly concentrated in the fields of library information, etc., using mature social network analysis methods to study institutional cooperation networks, lack of in-depth mining of institutional cooperation knowledge in the network; spatial knowledge must be considered when acquiring, using and generating knowledge in various fields. However, there are few studies on institutional cooperation networks and map overlays, and geospatial big data is not well used. Therefore, there is still a lot of research space in this area.
From the perspective of spatial cognition, this paper studies the construction of institutional cooperative networks, the mining and expression of institutional cooperative knowledge, and the design and implementation of institutional cooperative knowledge service systems. For the research of institutional cooperation network construction, the use of web crawler technology to achieve automatic acquisition of document data, and introduce location information into the institutional cooperation network, propose a location-based entity linking
scheme, complete the cleaning of the data, and design the institutional cooperation network The model has realized the efficient construction of the institutional cooperation network. For the mining of institutional cooperation knowledge, on the basis of summarizing the characteristics of institutional cooperation knowledge, the method of knowledge mining is analyzed, the institutional cooperation knowledge is classified, and the institutional cooperation knowledge framework is formed. In terms of knowledge visualization expression, map visualization method was introduced to use maps as spatial reference of knowledge, and the map visualization method based on Openlayers was summarized. Map visualization-based agency cooperation knowledge expression method was proposed to realize the spatial expression of agency cooperation knowledge. Based on the above research, an institutional cooperative knowledge service system was designed, and the feasibility and practicability of the above research were verified by the concrete realization of the system.
Keywords: Institutional cooperation network, knowledge mining, knowledge expression, map visualization.
目录
北京建筑大学硕士学位论文原创性声明
北京建筑大学硕士学位论文使用授权书
摘要 (I)
ABSTRACT .................................................................................................. I I 第1章绪论. (1)
1.1研究背景及意义 (1)
1.2国内外研究现状 (2)
1.3研究内容 (4)
1.4论文组织结构 (4)
第2章相关理论 (1)
2.1科研合作与共现现象 (1)
2.2地理空间认知 (1)
2.3知识地图 (2)
2.4本章小结 (3)
第3章基于位置的机构合作网络构建 (4)
3.1基于网络爬虫的文献获取策略 (4)
3.2基于位置的实体链接 (7)
3.2.1 共指消解 (7)
3.2.2 实体消歧 (8)
3.3机构合作网络模型 (9)
3.3.1 图论模型 (9)
3.3.2 机构合作网络数据模型 (9)
3.3.3 机构合作网络动态构建 (10)
3.3.4 机构合作网络加权模式 (12)
3.4本章小结 (13)
第4章机构合作知识挖掘及表达 (15)
4.1机构合作知识挖掘 (15)
4.1.1 机构合作知识的特征分析 (15)
4.1.2 机构合作知识挖掘方法 (17)
4.1.3 机构合作知识分类 (20)
4.2基于O PENLAYERS的地图可视化 (22)
4.3机构合作知识表达 (23)
4.3.1 机构合作知识表示 (23)
4.3.2 机构合作知识表达内容选取 (25)
4.3.3 机构合作知识可视化 (26)
4.4本章小结 (28)
第5章机构合作知识服务系统的设计与实现 (30)
5.1系统总体设计 (30)
5.1.1 系统开发环境 (31)
5.1.2 系统整体架构 (31)
5.1.3 系统主要功能模块 (32)
5.2机构合作知识服务系统实现 (33)
5.3本章小结 (37)
第6章总结与展望 (38)
6.1总结 (38)
6.2展望 (39)
参考文献 (40)
致谢 (44)
第1章绪论
第1章绪论
1.1 研究背景及意义
随着大数据时代的到来,云计算、物联网、大数据等信息技术的应用更加广泛。
大数据是指那些常规软件无法在短期内对其进行收集、分析、处理的数据集合,需要运用新的信息处理模式才能实现对其收集和处理,具有海量、增长高、多元化等特点。
经过新的处理模式处理后的大数据具有更强的决策力、发现力[1]。
大数据不仅仅指数据容量之大,也指通过对数据进行大量的应用与分析,挖掘数据所包含的隐藏信息的意思。
人类对大数据进行深入研究,发现了新的知识,从而产生像人工智能、无人驾驶等新的技术。
通过将海量数据进行信息化与知识化的描述,可以提高人们工作、学习等方面的效率[2-5]。
然而随着数据量的逐年增多,对表层数据进行获取、统计、应用的研究较为完善,对哪一类数据进行深度挖掘,挖掘后如何进行有效展示已成为研究热点。
知识挖掘是指对数据库中隐含的、具有应用价值的知识进行抽取、分析、处理等挖掘过程[6]。
可视化就是运用图像处理技术及计算机技术对数据信息及知识以图形或者图像的方式进行直观展现,再进行交互处理的理论、方法和技术。
将知识挖掘与可视化结合起来,可以使得研究更具深度,更加形象[7]。
科学是人类对客观世界认识的体现,随着科研问题难度的加深、科学实验成本的提高,单个机构或个人独立进行一项科学研究代价较大,因此国内外的科研组织或科研机构多采用科研合作的方式进行研究,科学研究呈现出多主体参与的特点[8]。
机构间通过合作的方式进行科研工作,使得文献、专利、软件著作权等科研成果呈现出爆炸性的增长,对科研成果进行深入研究,挖掘其有效信息并进行合理应用成为重中之重。
文献是一种重要的科研成果,作为科研知识传播交流的基本方式,具有一定的历史价值和研究价值。
通过以文献作为对象进行研究,可以从宏观层面了解某领域涉及机构情况、作者情况等,也可以从微观角度发掘某一领域内合作情况,合作网络的研究应运而生。
通过对合作网络进行研究,能够深入了解科研生产产生的知识,指导机构之间更好的进行科研合作。
随着空间信息服务逐渐成熟,将其应用到机构合作网络中,并进行知识挖掘和可视化表达,可以使机构合作情况得以直观呈现[9]。
地图可视化作为一种可视化方法,能够对合作网络及从合作网络中挖掘的知识科学展示。
以文献为对象构建合作网络,并对其进行知识挖掘与可视化,不仅被图书情报学领域的学者重点关注,而且也与各领域的科研机构密切相关,相关领域的学者对本专业的研究内容与学科特色更加了解,可以科学的利用文献中获取到的信息指导实践,因此通过研究领域内机构间真实的合作关系,可以对文献中包含的重要信息进行有效应用,并对后续的科研合作起到指导作用[10-11]。
本文在分析已有研究的基础上,以文献作为主
第1章绪论
要数据源,建立合作网络,对构建好的合作网络进行知识挖掘,深入了解数据背后的隐藏知识,最后,以地图可视化方式对知识进行表达,为合作关系分析的研究奠定了良好基础。
综上,本研究具有以下两方面的意义:
(1)满足指导科研合作的需要。
合作已经成为科研的主要方式,以机构为切入点构建机构合作网络,通过加权模式反映机构间的合作关系,可以清晰地了解领域内机构数量、机构科研产出、科研机构权威性等信息,发现其中的规律,分析领域内机构的合作特点。
因此,对于机构合作的研究,不仅可以提升科研机构的科研效率,还可以起到帮助科研机构协同创新的作用。
(2)满足地图可视化发展需要。
作为地理学“第二语言”的地图,在图层叠加和视觉表达方面具有天然优势。
利用地图可视化相关专业知识及相关算法,将挖掘到的知识与地图进行叠加与交互,利用地图的形式去认知和表达非欧空间,建立欧式空间和非欧空间的相互关联、叠加,利用地图可视化相关技术对机构间纵横交错的复杂网络关系与知识进行表达可以对机构合作中隐藏的空间知识进行有效挖掘和直观展现,实现地理信息多维图解,进而可以从时空分析角度对机构合作趋势进行分析与预判。
1.2 国内外研究现状
目前,国内外学者对于合作网络、知识挖掘、地图可视化都相继开展了广泛研究,并取得一系列成果。
(1)关于合作网络的研究。
Newman作为最早将网络分析的方法引入到合作网络分析的学者,于2001年对科研领域合作网络给出了系统的定义,并对不同学科的合作网络进行合作强度、聚类系数、平均距离等的分析,此类分析多集中在分析合作网络的静态特征和实证研究[12]。
Bettencourt等人对网络密度、直径、最大连通等8个研究主题的历时性合作网络进行了分析,发现合作网络的结构转变存在一些共性特征,并从这些特征变化中对科学范式的转变进行解读[13]。
K.Bomer等对可视化领域合作网络的构建问题进行了深入研究,在研究中对合作对象的科研能力、网络规模、分布区域、时间特征等因素对合作网络等影响进行了分析,研究表明,对科研发展具有重要影响的是研究群体,而非独立的优秀研究人员[14]。
邱均平等人通过构建一个带权重的网络,统计两个对象的合作次数作为网络的边权,合作次数与权重的大小呈正相关,即权重越大表示双方的合作越紧密,权重值的大小以对应线条的粗细来表示,线条越粗表明其权重越大[15]。
林晓峰等人以2011-2017年CNKI与WEB OF SCIENCE核心合集所收录的论文作为研究数据,利用UCINET与ArcGIS软件对高校“青年千人”对长三角知识合作网络影响及其驱动机制进行了研究,发现长三角合作网络中,内部合作网络呈现多核心发展趋势,外部合作网络分为香港、
第1章绪论
台湾和北京三大主要集聚区,与国外建立的合作网络则多以美国和英国为中心,并且合作网络在空间上将长期呈现出核心—边缘的格局[16]。
冯祝斌等人利用社会网络分析方法,以我国图书情报学核心期刊的2002-2012年间文献为研究样本,从整体合作和核心合作两个层面对我国情报学领域合作网络的演变进行研究,研究揭示出我国图书情报领域机构间合作次数、合作强度、合作关系均呈上升趋势,机构合作网络整体关系愈加紧密,核心合作网络表现出很强的地域性,即合作更加紧密的机构都是来自同一地区或者相邻地区,同时度数越高的机构其相互合作也更加紧密,这两种特征的核心合作网络其发展过程也存在差异[17]。
(2)关于知识挖掘的研究。
Usama M.Fayyyad在研究中对知识挖掘进行了定义,具体定义如下:知识挖掘是指运用数据分析处理技术对数据集中的数据进行分析、处理,以获得新的、具有应用价值知识的过程。
知识挖掘应用了统计学、人工智能等理论与方法,实现了从海量数据中获得具有较强应用价值的知识[18]。
Callo研究共现分析在知识结构映射方面应用,研究中首先分析了文献对科技发展的作用,在此基础上提出了共现分析理论,并通过案例分析法对共现分析理论进行了验证[19]。
张新娟对知识挖掘技术的应用问题进行研究,研究中将知识挖掘技术应用于工程管理人才职业规划管理中,通过对影响职业规划的主要因素进行分析,从而明确工程管理人才职业规划的内外部因素,并建立工程管理人才职业规划评价模型[20]。
梁崇新围绕着以知识挖掘为基础公共图书馆整体个性化的智慧服务系统模式开展深入研究及探讨,为公共的图书馆构建全新个性化的智慧服务系统模式实践活动提供指导性的建议或者参考[21]。
(3)关于地图可视化的研究。
美国学者Montello D. R.教授及他所在团队自1999 年开始关注地理科学中的认知问题、地理可视化中可用性问题、空间寻路问题中的性别差异、不同尺度下的个体空间能力差异等个性化的地图可视化相关问题[22]。
苏黎世大学地理系的Coltekin A.等学者组成的研究小组对眼动研究的时代变化进行了研究,对其发展史进行了归纳总结,将眼动热点图和显著模型用于地图可视化研究,在地图设计与认知、动态地图、时空地图方面做出了杰出贡献[23]。
李伟等利用地图可视化相关理论,针对现阶段地图服务应用需求和发展趋势,将地理空间知识分为陈述性空间知识与程序性空间知识两大类,并对这两类知识的可视化要点、空间知识地图特征等内容进行了研究,站在便于用户使用的角度,探讨了空间知识地图可视化系统研究流程模型和关键策略[24]。
刘婧婧等在对地理知识特征要素、地理知识动态可视化方法和目标进行了研究,以地图可视化方法为基础,对地理大发现进行地图可视化表达实验,寻找更符合认知过程、表达效果更加良好、交互功能更强的地理知识可视化的方法,为地理知识表达研究探索道路[25]。
通过分析上述研究发现,目前研究存在如下几个问题:
第1章绪论
(1)对合作网络的研究多集中在图书情报领域,需要大量人工参与数据采集与清洗,工作量相对较大,时间消耗长,降低了合作网络的构建效率;
(2)利用获取的数据搭配现有社会网络分析工具进行分析,研究了合作网络结构,但较少对机构合作网络进行知识挖掘,很难发掘出其隐藏知识;
(3)缺乏空间数据的有效支持,对于构建好的合作网络,很少有学者利用空间信息进行可视化表达与分析,使得可视化分析出来的结果没有完全体现合作中的空间知识。
1.3 研究内容
本文的研究内容主要有如下几个方面:
(1)研究基于位置的机构合作网络构建方法。
分析了网络爬虫技术实现基于搜索引擎的科研文献获取技术,设计了基于位置的实体链接方案,实现了文献数据清洗为机构合作网络研究提供数据保障,设计了机构合作网络模型实现机构合作网络的动态构建。
(2)分析机构合作知识挖掘方法。
分析了机构合作知识的特征,探究了针对机构合作的机构合作知识挖掘方法,并对挖掘出的机构合作知识进行分类,建立了机构合作知识框架。
(3)提出机构合作知识地图可视化表达方法。
整理分析了地图可视化相关理论与Openlayers快速构建WebGIS的方法,将机构合作知识地图可视化表达内容分为地理要素和机构合作知识专题要素,研究了点状要素、线状要素、面状要素基于二维地图的可视化表达方法。
(4)设计并实现机构合作知识服务系统。
在分析了系统的需求基础上,对该系统进行了总体设计,实现了基于地图可视化的机构合作知识表达。
1.4 论文组织结构
本文主要围绕上述研究内容,从以下几个章节进行详细说明,如图1-1所示:
第一章绪论。
本章先对合作网络、知识挖掘与地图可视化的研究背景进行了介绍,引出了本文基于地图可视化的知识表达方法研究——以机构合作网络为例的目的与意义,通过查找相关资料,对国内外研究合作网络、知识挖掘与地图可视化的相关文献进行学习,从而明确了本文的主要研究内容。
第二章相关理论。
在大量研读分析相关文献的基础上,本章提出了本文涉及的相关理论包括科研合作与共现现象的相关理论、地理空间认知理论及知识地图理论,为本文的后续研究奠定了理论基础。
第三章基于位置的机构合作网络构建。
本章以文献为研究对象,对机构合作网络动态构建的方法进行了阐述,明确了构建的技术思路,利用网络爬虫方法获取文献数据,利用基于位置的实体链接方法实现数据清洗,建立机构网络模型实现对机构合作网络构建及合作关系的量化,最后利用图数据库对构建好的合作网络进行存储与管理。
第1章 绪论
第四章机构合作知识挖掘及表达。
本章从机构合作知识挖掘入手,阐述了机构合作知识的特征和挖掘方法,除了将机构合作知识分为隐性知识和显性知识外,从空间角度建立了机构合作知识框架。
对基于Openlayers 的地图可视化进行探究,提出了利用知识图谱对机构合作知识进行表示,从表达内容的不同角度将基于地图可视化的机构合作知识表达内容分为地理要素和专题要素,最终利用地图符号与地图表示法对机构合作知识进行了空间化表达。
第五章机构合作知识服务系统的设计与实现。
本章对机构合作知识服务系统进行了总体设计和实现,分别描述了系统开发环境、整体架构、主要功能模块和系统实现模块,以实例的方式对本文研究成果的实用性和可行性进行验证。
第六章总结及展望。
本章对本文主要的研究工作、过程、内容等进行总结,并对研究存在的不足进行讨论,对下一阶段的研究工作进行展望。
图1-1论文结构图
Fig.1-1 Paper structure diagram
第2章相关理论
第2章相关理论
2.1 科研合作与共现现象
随着科研程度和难度的不断提高,科研合作已变成科研人员进行科研交流的主要形式。
科研合作是社会发展过程中的必要产物,能够实现互利共赢的目标,科学家们通过个人理性所达成的相互协调、相互配合、共同行动的研究形式[26]。
科研合作模式根据合作对象的不同进行分类,主要包括导生合作制、机构合作制、区域合作制、内部合作制等,本文主要针对机构合作制进行讨论,通过对机构合作进行研究,可以促进科研机构的交流与进步,推动科研事业的发展。
一般科研合作通过共现表征[27]。
共现现象是一种事物与另一种或多种事物之间外在表现的呈现方式的关联性,科学文献中的共现是指相同或不同类型特征项共同出现的现象,包含多个方面,主要有文献耦合、文献同时被引用、文献作者同时被引用、期刊共同被引用等,文献中共现主要体现在同一篇论文中不同作者之间的共现、不同关键词之间的共现或不同机构之间的共现等[27]。
本文研究的共现现象是不同作者合作完成同一篇文献存在的共现现象以及作者所在的机构出现在一篇文献中所存在的共现现象,科研人员们与其合作的伙伴共同进行研究工作,对科研成果进行整理,以文献的形式进行呈现,从而构成了多名作者多个机构出现在一篇文献中的共现现象,而有些科研工作者与其合作伙伴不属于同一机构,所以出现了多个机构存在于同一篇文献的共现现象。
从中可以发现,共现发生必然存在一定的内在前提,这个前提就是事物之间必须存在关联。
但是对于事物彼此联系的外在表现而言,通常表现为共现现象,所以在实际的研究中通过研究文献中共现现象,可以揭示文献中隐含的信息。
2.2 地理空间认知
认知是对人类大脑的思考法则和思考方法进行研究的科学,认知科学是将多种科学与哲学学科交叉起来形成的新型科学,该科学对于地图学具有重要意义,它能够帮助人类运用地图来描述空间信息、深入理解地图设计制作的思维过程。
只有通过对认知科学进行深入研究,才能科学自动的将信息转变为知识,最终实现利用计算机自动制作生成地图的目标[28]。
在广义上看,认知与认识所代表的含义大致相同,是指任何生物体生理特征的功能性表现。
在狭义上看,认知概括来讲是指人类在达成认识活动时对信息的处理过程,具体是指人类的大脑接收到感觉器官获取的信息后,在分析的基础上形成的对信息的理解、分类、归纳、演绎及计算,通过心理意识对人类的行为活动进行支配。
高俊院士认为空间认知是人类认识自身赖以生存的环境(自然的、经济的、社会的、政治的、文化的),包括其中的诸事物及现象的依存关系、相关位置以及它们的变化和。