基于知识图谱的科技大数据知识发现平台建设研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于知识图谱的科技大数据知识发现平台建设研究
发表时间:2020-04-10T12:32:02.969Z 来源:《科技新时代》2020年1期作者:李鸿雁[导读] 随着现代信息技术的不断发展,其在地理信息工作中的应用也逐渐发挥着越来越重要的作用,对于地理信息的收集、整理、挖掘、分析等工作有着重要的推动意义,能够更好的发挥出地理信息中所蕴含的巨大价值。重庆市地理信息和遥感应用中心重庆市 401147
摘要:在信息时代的背景下,信息呈现出了数据量大、类型多、价值密度低、传播速度快、时效性强等特点,其对于地理信息工作的开展也提出了更高的要求。本文针对大数据技术在地理信息相关工作的中的应用,对基于知识图谱的科技大数据知识发现平台建设进行了探索和研究,希望能够为相关工作提供一些参考。
关键词:地理信心;知识图谱;大数据;知识发现平台引言
随着现代信息技术的不断发展,其在地理信息工作中的应用也逐渐发挥着越来越重要的作用,对于地理信息的收集、整理、挖掘、分析等工作有着重要的推动意义,能够更好的发挥出地理信息中所蕴含的巨大价值。不过,在信息时代下也给地理信息工作的开展带来了不少的挑战,例如随着勘测技术发展地理信息数据量不断增长、数据类型不断丰富,再加上我国幅员辽阔,地理信息数据总量已经十分庞大,即使在某一地区中的地理信息工作都需要对大量的信息、数据进行处理,然而过去的地理信息工作模式已经无法满足新时期的工作需要。本文从知识图谱技术出发,对大数据知识发现平台的建设以及其在地理信息相关工作中的应用进行了探索和研究。
1.知识发现服务现状分析
知识图谱在地理信息工作中的应用能够更好的满足当下相关工作的实际需要,为相关人员和用户提供智能化、精确化、人性化的地理信息服务。例如,通过利用知识图谱技术,在相关人员录入地理信息的同时可以对这些信息进行智能分析,通过数据融合、知识发现、内容计算等,生成地理信息数据列表并形成结构化的主体信息,关联已有的数据,进而为相关人员的地理信息检索、研究工作带来加大的便利,促进地理信息价值的增值,为用户提供更好的智能化服务。
2.系统设计
在基于知识图谱的地理信息大数据知识发现平台的建设中,其设计目标为通过知识图谱技术建立地理信息数据库并对信息数据进行规范化、实体化,然后从中进行信息、关键词的抽取和关联,结合数据采集、分析、融合等相关技术来实现地理信息数据的丰富化和结构化,增强信息数据的价值,同时还要建立起地理信息相关的检索引擎,通过分布式计算、大数据等技术构建知识发现服务平台,为相关人员和用户提供丰富多样的知识发现、决策分析等服务,满足新时期地理信息工作的需要。在该平台系统的总体构架设计上,主要以分布式计算和大数据技术为平台支撑,对当前地理信息数据库中的数据资源进行抽取、规范和计算,在功能设计上重要包括知识图谱索引、语义智能检索,信息主题综述形成、信息主题聚合探索4个模块。
3.关键技术方法
3.1知识图谱索引技术
针对庞大的地理信息数据,为了实现更加有效的数据储存、搜索和分析工作,可以使用Elastic Search工具和Virtuoso 数据库相结合的方式,通过Elastic Search分布式集群的建设来补足Virtuoso 数据库自身数据检索效率不高的短板,建立起分布式多用户搜索引擎。在应用Elastic Search工具时,需要对其进行以下优化:对数据中无需检索的资源设置enable= false,提高Elastic Search索引速度;利用多线程并发写入进行数据bulk的情况,实现Elastic Search 集群写入吞吐量的最大化;对部分地理信息的字段进行预分组,通过预索引提高Elastic Search的检索和聚合速度。
3.2语义智能检索技术
该技术是通过利用知识图谱索引进行关键词抽取、信息实体主体标注以及主题与关键词的高效匹配来建立起相应的语义搜索模型,从而达到进行语义检索以及智能排序、推荐等功能。在该技术的具体实施上,首先通过使用STKOS语义知识库和数据挖掘算法对地理信息中的关键词和语义主题进行抽取,并将其作为候选词进行管理。然后通过余弦相似度算法对候选词的相关度进行分析并进行排序,分析用户的检索意图,找出要想搜索的内容返回检索结果并为其提供相关的关键词。
3.3地理信息主题综述生成技术
该技术可以对用户搜索的地理信息数据进行快速的内容摘要的提取,以简洁的内容向用户提供其中的关键信息,是用户可以在较短的时间内对相关信息进行了解,提高信息利用效率。在该技术的具体实施上,首先需要对用户所搜索的地理信息内容进行重要度的排序,并对前50条信息的文本进行分句、分词、去停用词等预处理,利用训练好的Word2Vec词向量库对文本中的词汇进行向量表征:通过CBOW方法通过周围词对中心词进行预测,然后通过GradientDesent 方法对周围词向量进行调整,最终获得信息文本中所有词汇的词向量,选择文本集中句子的最大维数,通过词向量生成句向量,通过余弦相似度算法建立相似度矩阵,通过TextRank算法迭代计算,使计算结果逐渐收敛,最后通过对句子权重进行重新排序,选择其中前n个句子形成相关地理信息的摘要文本集。
3.4地理信息主题聚合探索技术
该技术能够在语义搜索引擎的基础上通过主题聚合,为用户通过与该主题相关的信息资源或子主题,帮助用户对相关信息主题进行更加深层次得到发掘和研究。在该技术的具体应用中,最重要的是要通过去除噪声数据来减少相关性较低的信息对主题聚合造成的影响,其主要的解决方法如下:通过利用词移距离(WMD)计算方法对两个信息实体的相似性进行整体考量,通过使用Word2Vec将主题关键词映射为一个词向量,通过对词向量进行欧式距离计算和加权求和来反映主题迁移的总代价,获得信息实体与主题转移之间的最短距离,从而表示两个信息实体的相似度,最终消除其中相似度较低的噪声数据。
4.系统建设效果
通过基于知识图谱建设大数据知识发现平台,对以往信息搜索中的关键词模式进行了巨大的转变,建立起了“信息实体+网络+数据集”的多维度地理信息检索服务模式。其次,智能语义检索技术和主题综述智能生成技术的应用大大提高了信息的检索效率和准确性,并辅助相关的人员进行了检索信息的快速提炼总结,以较短的内容帮助相关人员了解主题信息,从以往单纯的信息文本获取实现了信息深度挖掘、组织模式的建立。再次,信息主题聚合探索技术的应用通过利用自然语言处理和深度学习技术实现了对相关的地理信息的智能聚合,在为用户提供信息检索服务的同时还能够为其提供更多的相关信息,从而拓展其研究视角,增加研究深度。
结语
综上所述,给予知识图谱的大数据知识发现平台的建设为地理信息的数据融合和集成起到了重要的推动作用,其以信息搜索服务为基础,大大提高了信息服务的效率、水平,对于相关研究工作、决策工作的开展有着良好的辅助、推动作用。在该平台的具体建设上,要对地理信息数据的规范性和质量进行进一步的建设,优化搜索策略,从而增强该平台对相关工作的支持力量和效率。
参考文献:
[1]何剑斌, 郑启伦, 彭宏. MFDM:开放式可视化知识发现平台的设计与实现[J]. 计算机工程与应用, 2003(2):125-127+134.
[2]蒋秉川, 万刚, 许剑, et al. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018(8):1051-1061.