基于知识图谱的我国知识库构建研究可视化分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于知识图谱的我国知识库构建研究可视化分析
仇岗
【摘要】文章采用文献计量和知识图谱可视化的方法,通过对中国知网数据库18
年来知识库构建领域相关文献进行定量统计,利用CiteSpaceⅢ信息可视化软件对
知识库构建领域进行可视化分析.文章分别从时间分布、核心作者分布、核心机构
分布、研究热点和研究前沿等方面对知识库构建领域进行可视化分析和研究,以期
对相关研究和实践创新提供借鉴和参考.
【期刊名称】《新疆师范大学学报(自然科学版)》
【年(卷),期】2019(038)002
【总页数】8页(P33-40)
【关键词】知识库构建;知识图谱;可视化;CiteSpace
【作者】仇岗
【作者单位】昌吉学院,新疆昌吉 831100;山东大学,山东济南 250100
【正文语种】中文
【中图分类】TP3-05
在当今这个信息爆炸的时代,知识库从用户解决问题的需要出发,通过对特定领域的知识采用一定的知识获取方式收集起来,随后以某种或多种知识表示方式,实现在计算机中组织、存储、管理,并最终应用于实际问题。

而知识库构建在整个知识库中的作用尤为重要。

目前知识库构建已成为理论界和实务界研究的热点课题之一。

文章将利用Cit eSpaceⅢ信息可视化工具形象化地对国内知识库构建领域进行定量研究和可视化分析。

本研究可以让国内知识库构建领域的研究者了解现有研究状况以及该研究在未来的发展趋势,指导其研究工作。

1 相关研究
CiteSpaceⅢ是美国德莱赛尔大学信息科学与技术学院的陈超美博士用Java语言
开发出来的可视化分析软件。

该软件可以通过对学科领域文献信息的可视化分析和研究,使该学科领域研究者能够更直观地辨识出学科领域的现状及发展趋势[1]。

目前CiteSpaceⅢ软件在知识图谱的可视化研究中得到了广泛的应用。

如魏瑞斌针对国内知识图谱期刊论文的外部特征和内容特征进行了可视化分析,研究表明国内知识图谱研究处于起步阶段,研究人员和机构相对集中,研究论文的合著率较高,研究主题鲜明[2]。

黄微等人以网络舆情危机响应研究领域为研究对象,对网络舆情危机响应研究领域中的年代、作者、机构、期刊、高被引文献、关键词以及研究热点进行可视化分析,使国内网络舆情危机响应相关研究人员有更为清晰直观的认识[3]。

王萍等人利用Web of Science的文献数据,分析了国际图情领域竞
争情报的研究热点、研究前沿、研究基础等,预测未来竞争情报研究的发展趋势,为国内竞争情报研究者提供必要的参考依据[4]。

陈叶叶等人采用文献计量学分析方法,利用引文网络分析工具CiteSpace绘制科学知识图谱,得出国内网络舆
情研究的热点研究主题及重要前沿趋势[5]。

王和勇等人对电子商务文献进行知识图谱分析,通过对研究热点和研究前沿的分析,帮助了解国内电子商务的发展结构和趋势[6]。

李昊青运用文献计量学、内容分析法,对国内应急管理研究领域的文献分布、研究机构、学科跨度、内容结构和前沿热点等研究现状进行分析[7]。

胡伟红等人运用文献计量学方法,对绘制危险行为领域研究中作者、关键词与科研机构的科学知识图谱,并对相关内容进行数据挖掘与分析,推动了我国危险行为领域全面深入开展研究[8]。

房宏君运用Bibexcel和CiteSpace等科学
计量和可视化软件对CSSCI数据库提供的近10年的国内人力资本研究文献进行了文献统计分析、关键词共现分析和文献共被引分析等,以探讨近10年来国内人力资本研究的基本情况、主要研究热点和最有影响力的权威文献等,为该领域的进一步深入研究提供参考和借鉴[9]。

赵慧臣等人通过对教育研究领域33篇文章进行分析和研究,概括了可视化分析方法在教育研究领域中的应用特点,提出改善可视化分析方法在教育领域中应用的建议[10]。

李硕豪和李文平通过对570篇国内高等教育管理领域研究的文献,分析了国内高等教育管理研究现状,并探讨了该领域研究的前沿趋势[11]。

胡伟艳等人针对国内农地经营规模研究热点与前沿进行分析和研究[12]。

杜亮亮等人对国内网络学习空间的研究现状及发展趋势进行研究[13]。

郭丽君等人通过使用可视化分析工具针对国内教学评价领域展开研究[14]。

任利强等人利用可视化分析工具对人工智能领域进行基于知识图谱的研究[15]。

以上研究通过运用CiteSpace可视化工具针对不同的研究领域文献进行了可视化的分析,但针对知识库构建领域的文献尚未展开理论和实践的研究。

文章通过研究在中国知网数据库收录的近1500篇知识库构建领域中文文献,并对文献的作者、机构、关键词等进行统计分析,探讨近20年来国内知识库构建研究领域的基本情况、主要研究热点和未来的发展趋势。

2 数据来源和研究方法
2.1 数据来源
本研究所使用的数据来源于全球最大的中文知识门户网站,即中国知网(CNKI)数据库为检索来源,为在时间维度上较为全面地把握研究成果,检索的期刊论文时间范围限定在2000-2018年,检索时间为2019年1月。

为保证数据获取的完整性,本研究将检索词设定为“知识库构建”进行精确检索,共得到文献1501篇,在对数据进行筛选后,去除与本研究相关性较差的各类简讯、会议、摘要、声明、通知等文献,得到相关文献1498篇。

表1 数据来源?
2.2 研究方法
本研究采用文献计量和知识图谱可视化的研究方法。

其中文献计量是通过搜集、鉴别和整理文献,并对文献进行研究,形成对事实科学的认识。

知识图谱可视化是利用CiteSpaceⅢ绘制科学知识图谱,版本号为5.3.R4.8.31.2018。

在此基础上,对我国在知识库构建领域的时间分布、核心作者分布、研究机构分布、研究热点及发展趋势进行分析和整理。

3 时间分布统计
3.1 发文量时间分布概括
通过对我国知识库构建文献量的总体研究可以反映出其进展情况,近18年的年度文献量如图1所示。

图1 国内知识库构建文献年发文量统计图
3.2 时间分布阶段分析
根据文献发文量的年度分布趋势,可以将我国的知识库构建的发展划分为基础奠基阶段、发展探索阶段和稳步发展阶段等三个阶段。

基础奠基阶段是2000年到2002年,共发表文献数量为12篇。

每年平均发表文献数量4篇,虽然数量很少,但这几年的研究是知识库构建的基础,是知识库构建的积累阶段。

发展探索阶段是2003年到2007年,发表论文数量共计183篇。

每年平均发表文献数量近37篇,数量相比基础奠基阶段有了大幅提高,同时研究范畴也逐渐扩大。

稳步发展阶段是2008年至今,合计发表论文数量1449篇,平均每年发表文献数量近132篇,尤其是在2009年发表文献107篇,发表文献的增幅达147%,在这个阶段发表文
献数量明显提高,研究范围进一步扩大,整体呈现良好的发展势头。

4 知识库构建研究的可视化分析
4.1 核心作者分布研究
图2 核心作者分布知识图谱
核心作者是研判该研究领域学术力量的重要指标之一。

文章将文献导入到CiteSpaceⅢ软件中,将节点类型(NodeType)选为作者(Author),输出如
图2所示,最后得到130个节点和101条连线。

其中排名较前的节点为于丹、李敬华、许鑫、朱玲等作者,根据普莱斯定律,核心作者的计算公式为:
其中M是发文数量,Nmax是相应年限中发文最多的作者发表论文的数量。

当发文量在M篇以上时,该作者被称为核心作者,核心作者发文量达到该领域发文量
的50%可构成核心作者群。

在本研究中Nmax=7,M=1.98,即发文量在2篇以
上的作者为领域的核心作者,核心作者共131个,表2中列出发表论文数量≥4篇的作者姓名。

本研究的核心作者发文总量为306篇,占该领域发文总量的20.43%,与普莱斯定律规定的发文量还有很大差距。

因此,截至目前我国知识库构建领域的研究尚未形成核心作者群。

表2 知识库构建研究核心作者(前10位)序号发文量序号发文量1 2 3 4 5作
者于彤李敬华于琦孙洪波许鑫7 7 6 6 6 6 7 8 9 1 0作者朱玲田野蒋勋陈刚黄敏6 4 4 4 3
4.2 核心机构分布研究
图3 核心机构分布知识图谱
在判断某一研究领域学术力量的集中程度,需要研究该领域文献发表的机构分布及其核心机构群。

文章将知识库构建的文献数据导入CiteSpaceⅢ软件中,并将节点类型(NodeTypes)选为机构(Instiution)进行分析,结果如图3所示。

我国
在知识库构建领域研究较多的机构主要是高校和研究院,是因为高校及研究院的研究能力较强,学术水平较高并且有着浓厚的科研气氛。

从图3中分析得到53个节点和12条连线,节点最大是中国中医科学院中医药信息研究所、武汉大学信息资源
研究中心、中国人民大学信息资源管理学院、南京大学信息管理学院、武汉大学信息管理学院等研究机构。

由公式(1)可知,本核心机构分布研究中Nmax=8,
M=2.12,即发文量在2篇以上的机构为该领域的核心机构,共有53个。

本研究
中核心机构发文总量为149篇(表3为部分核心研究机构发文量),占知识库构
建领域研究机构发文总量的9.9%,距离普莱斯定律规定的发文量还差的较远。

由此可见,目前我国知识库构建领域的核心研究机构群未形成。

表3 知识库构建研究核心机构(前10位)?
4.3 研究热点及研究前沿分析
研究热点是在一定时间内一个学科领域所研究的文献共同关注的话题。

研究热点的探测方法主要是通过该领域中文献的标题、摘要、作者、关键词得到相应的术语或关键词,通过关键词聚类算法和共词算法得出关键词使用频率,从而确定为研究热点。

研究前沿是指在研究领域中出现的一系列术语或关键词,通过关键词聚类算法和突变词探测算法来探寻某一领域研究前沿。

研究前沿可以代表该领域未来发展的趋势和走向。

本研究将1498篇文献导入CiteSpaceⅢ中,设置参数信息如下:时间跨度(Time Slicing)为“2000-2018”,时间片(Year Per Slice)设为“1”,节点类型(Node Type)选择“关键词(Keyword)”。

关键词阈值(C,CC,CCV)设置为(2,2,30,)、(2,2,30)、(2,2,30),即图谱中关键词满足
被引次数大于2,关键词共现次数大于2,关键词间的相似性系数大于0.3。

运行CiteSpaceⅢ软件后得到如图4所示,得到252个节点、791条连线,密度值为0.025的关键词共现知识图谱。

其中模块值Q=0.44,平均轮廓值S=0.5339,满
足Q>0.3和S>0.5的标准有效度。

也就是说该知识图谱的图像和聚类都比较合理。

4.3.1 关键词共现知识图谱分析
图4 2000-2018年知识库构建研究关键词共现知识图谱
关键词和中心度是理解分析关键词共现知识图谱的两个关键因素。

关键词频次越高表示研究热度越高。

中心度是反映节点在图谱中连接关键词的能力,其节点的中心度高低反映了所连接与传递信息关键词的多少,中心度值越高其在整个网络中的中心度越显著。

如图4所示,节点的大小代表着关键词出现频次的高低,节点越大表示关键词出现的频次越高。

关键词字号的大小反映中心度的高低,同理字号越大中心度就越高,越趋向中央位置。

文章导出2000-2018年知识库构建领域文献的关键词信息,如表4所示。

表4中筛选出出现频次最多和节点中心度值排名前30的关键词。

结合图 4 和表 4,可以得到“知识库”、“本体”、“知识库构建”、“机构知识库”、“知识管理”、“知识表示”等30个高频词和中心度的关键词。

表4 知识库构建研究节点中心度排名前30的关键词?
4.3.2 研究热点分析
文献的关键词是进行文献信息分析的主要信息之一,具有很高的研究价值。

文章通过知识库构建领域文献关键词的分析,得出了如图5所示的我国18年的知识库构建领域的时间知识图谱。

图5 知识库构建领域的研究热点
图5中显示18年来在知识库构建领域的11个研究热点,分别是机构知识库、知识库、本体、专家系统、语义知识库、知识库构建、知识管理、构建、知识服务、XML、命名实体。

其中节点十字形越大,表明该关键词出现的频次越高。

4.3.3 研究前沿分析
文章通过使用CiteSpaceⅢ中的突发检测(Burst Detection)来探测国内知识库构建的研究前沿或发展趋势,同时通过突发关键词进行时间排序以便了解研究前沿
的演化过程。

通过查看突发检测历史(Citation Burst History)得到排名前16的突发关键词,如表4所示。

表4 知识库构建研究中突发关键词?
表4中的突发关键词按照时间进行排序,较为直观地展示了我国知识库构建研究前沿的演变过程。

在2010年前知识库、专家系统、知识获取、知识表示、数据挖掘、面向对象、XML、推理机、开发存取为研究前沿,随着时间的推移,在2011-2017年dSPACE、领域本体、高校、档案知识库等为研究前沿,而在2018年以后知识图谱、语义网和大数据将在知识库构建领域为研究前沿或发展趋势。

5 结语
本研究通过收集中国知网关于知识库构建文献,运用可视化分析工具CiteSpaceⅢ对作者、机构和关键词进行聚类分析和突发检测,并按照其发文量将知识库构建领域的研究阶段分为基础奠基阶段、发展探索阶段和稳步上升阶段;根据普莱斯定律对我国知识库构建领域的作者和机构进行分析,得出我国尚未形成严格意义上的核心作者群和稳定的高产的研究机构群;通过使用CiteSpaceⅢ对知识库构建领域相关文献关键词进行研究,并使用聚类、共现词检测以及突变词探测等方法对关键词进行研究,发现了知识库构建领域的研究热点,并指出了知识库构建领域的未来发展方向。

参考文献:
【相关文献】
[1]Chen,C.(2004)Searching for intellectual turning points:Progressive Knowledge Domain Visualization.Proceedings of the National Academy of Sciences of the United States of America(PNAS),101(Suppl.1),5303-5310.
[2]魏瑞斌.国内知识图谱研究的可视化分析[J].图书情报工作,2011,55(08):126-130. [3]黄微,徐烨,肖维泽.基于知识图谱的国内网络舆情危机响应研究的可视化分析[J].情报科学,2018,36(03):64-69.
[4]王萍,支凤稳,沈涛,等.基于知识图谱的国际竞争情报研究的可视化分析[J].情报科学,2012,30(06):925-929.
[5]陈叶叶,周通.国内网络舆情治理研究的可视化分析——基于科学知识图谱的方法[J].情报
科学,2016,34(11):101-106.
[6]王和勇,芮晓贤.基于知识图谱的国内电子商务研究领域可视化分析[J].实验室研究与探索,2016,35(10):268-271.
[7]李昊青.基于知识图谱的国内应急管理研究可视化分析(2010-2014)[J].现代情报,2016,36(01):160-166.
[8]胡伟红,郑建中,苏纯惠,等.基于科学知识图谱的国内危险行为研究可视化分析[J].中国
学校卫生,2014,35(10):1450-1454.
[9]房宏君.基于科学知识图谱的国内人力资本研究可视化分析[J].科技管理研究,2014,34(03):136-140,145.
[10]赵慧臣,王玥,张舒予.可视化分析方法在我国教育研究领域中应用的元分析[J].现代教育技术,2014,24(01):36-43.
[11]李硕豪,李文平.基于知识图谱的国内高等教育管理研究可视化分析[J].国家教育行政学院学报,2013,(04):75-80.
[12]胡伟艳,朱庆莹.国内农地经营规模研究热点与前沿——基于知识图谱的可视化分析[J].
国土资源科技管理,2018,35(04):24-38.
[13]杜亮亮,苏林猛.国内网络学习空间的研究现状及发展趋势——基于CiteSpace可视化知识图谱的计量分析[J].软件导刊(教育技术),2018,17(07):34-38.
[14]郭丽君,陈春平.国内教学评价研究知识图谱——基于可视化分析软件的计量分析[J].现
代大学教育,2018,(04):94-102,113.
[15]任利强,郭强,王海鹏,等.基于CiteSpace的人工智能文献大数据可视化分析[J].计算
机系统应用,2018,27(06):18-26.。

相关文档
最新文档