基于CiteSpace的开放数据文献可视化分析_师亚东
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 1 WOS 核心集中 Open Data 研究文献发表情况
144
基于 CiteSpace 的开放数据文献可视化分析
三、开放数据研究文献的热点国家分布分析
将数据文件 “download2009 - 2016. txt” 导入软件中,然后进行参数设置后生成所 需知识图谱: 设置 “Time Scaling” 为 1 年; “Team Source” 选择为标题 ( Title) 、摘要 ( Abstract) 、作 者 关 键 词 ( Author keywords) 、扩 展 关 键 词 ( Keywords plus) ; “Node Types” 选择国家 ( Country) ; 设置阀值,点击运行 Citespace 软件就可生成相应的可视 化知识图谱,如图 2。根据图 2 所示,国家之间的连线代表存在合作关系,连线粗细代 表合作密度,合作越多,线越粗; 连线之间的颜色代表合作年代[8]。该知识图谱由 58 个节点 ( Nodes) 和 48 条连线 ( Links) 组成,图中每个节点代表一个国家,从图谱中 可以看出开放数据研究文献在全球分布很广,556 篇文献主要分布于全世界 58 个国家。 此外,节点间连线不紧密,说明相关国家间开放数据合作研究较少,处于相对独立的 状态。
二○一六年第二期
百分比 ( % ) 32. 73% 12. 41% 8. 81% 8. 10% 7. 20% 5. 40% 5. 04% 3. 06% 3. 06% 2. 70%
从开放数据研究文献的热点国家发表的文献数量进行统计,如表 1 所示。其中发文 量最多的是美国 182 篇,占总发Βιβλιοθήκη Baidu量的 32. 73% ,远超其他国家; 其次是英国 69 篇、西 班牙 49 篇、德国 45 篇和意大利 40 篇,发表文献数量排名前五的国家文献总量占总文 献数量的 69. 24% 。开放数据研究重点在欧美国家,其中美国是研究的主要力量,数量 上占有绝对优势。而中国只是依靠 15 篇 ( 2. 70% ) 的数量进入发文量第十名,发文量 只有美国的 1 /12,英国的 1 /4,中介中心性只有 0. 05,与欧美国家相比还存在很大的差 距。
Citespace 中中介中心性 ( Centrality) 表示节点在图谱中的重要程度,中间中心性是 指网络中经过某点并连接这两点的最短路径占这两点之间的最短路径线总数之比[9]。中 介中心性最大的学科为连接着许多其他学科的计算机科学,说明在所有的开放数据研究 领域中计算机科学是非常重要的,也是其他许多学科开放数据研究的桥梁中介,体现了 开放数据研究的多学科交叉性。
一、软件介绍、数据收集与分析方法
( 一) 软件介绍 文献计量学是以文献为研究对象,借助文献的各种特征,采用数学与统计学的方法
* 收稿日期: 2015 - 07 - 16 作者简介: 师亚东,男,中山大学资讯管理学院图书情报专业研究生; E-mail: shiyd3@ mail2. sysu. edu. cn
图 2 开放数据文献研究国家 ( 地区) 分布图谱
145
中山大学研究生学刊 ( 人文社会科学版)
排名 1 2 3 4 5 6 7 8 9 10
表 1 开放数据研究文献的热点国家发文量
国家名称
发文量 ( 篇)
美国
182
英国
69
西班牙
49
德国
45
意大利
40
丹麦
30
加拿大
28
法国
17
澳大利亚
17
中国
15
147
中山大学研究生学刊 ( 人文社会科学版)
二○一六年第二期
该网络包含 278 个网络节点,314 条连线。图 3 中每一个节点表示一个关键词,节点向 外延伸的不同颜色与该关键词所在年份的颜色相对应,圆圈的半径与关键词出现的次数 成正比。
图 3 开放数据文献研究关键词网络图谱
通过分析归纳发现,如表 3 所示,目前开放数据研究前沿主要集中在 4 个研究热 点: 开放数据认知层面、开放数据内容层面、开放数据政策层面和开放数据应用层面。
( 三) 分析方法
首先使用 Excel 软件对 2009 - 2016 年的相关文献进行统计分析,展现开放数据相关 研究文献 发 表 数 量 随 时 间 的 变 化 趋 势。然 后 通 过 文 献 计 量 法 中 的 信 息 可 视 化 软 件 CiteSpace 对文献的国家分布、学科分布、研究热点前沿及演化过程进行分析。
中山大学研究生学刊 ( 人文社会科学版) 第 37 卷第 2 期 JOURNAL OF THE GRADUATES VOL. 37 №2 2016 SUN YAT-SEN UNIVERSITY ( SOCIAL SCIENCES) 2016
基于
CiteSpace
*
的开放数据文献可视化分析
师亚东
( 中山大学 资讯管理学院,广东 广州 510006)
Business & Economics 商业与 0. 06 经济
3. 60% Telecommunications 电信学
0. 06
3. 60% Remote Sensing 遥感科学
0. 05
表 2 中中介中心性最高的前十个学科及其中介中心性,排名靠前的学科有: 计算机 科学、工程学、化学、数学与生物计量学等。与发文量比较发现,其中有些学科文献发 表量并不是很多,但是中介中心性很高 ( 如化学) ,这就说明开放数据研究具有一定的 学科渗透性,应用领域也较为广泛。
本文所采用的数据来源于 Web of Science 中的 Web of ScienceTM核心合集数据集,基 本检索词为 “Open Data”。筛 选 数 据 时,设 定 时 间 跨 度 为 2009 - 2016,语 言 设 置 为 “English”,文献类型设置为 “Article” 检索结果为 556 条文献记录,选择全部文献以 “download2009 - 2016. txt” 为文件名进行下载并存储为纯文本格式。数据检索下载时间 为 2016 年 4 月 12 号。
146
排名 学科
基于 CiteSpace 的开放数据文献可视化分析
表 2 开放数据研究文献的热点学科发文量
发文量 ( 篇)
百分比 ( %)
学科
中介 中心性
1 Computer Science 计算机科学 203
36. 51% Computer Science 计算机科学 0. 56
2 Psychology 心理学
开放数据涉及多个学科,其研究正处于蓬勃的发展时期。在过去几年中,学者们对 于开放数据研究集中于哪些学科哪些方向? 开放数据研究的重点? 为了了解目前开放数 据的研究现状及研究趋势,本文通过利用文献计量学方法,以 Web of Science 数据库收 录的 2009 - 2016 年 关 于 开 放 数 据 研 究 的 556 篇 论 文 为 研 究 对 象,借 助 可 视 化 软 件 CiteSpace 对其进行可视化分析,以期能够揭示开放数据研究的热点国家、学科分布情 况以及研究发展的热点、前沿及演化趋势,为未来的研究提供一定的参考依据。
10. 07% Biology 数学与生物计量学
0. 28
Environmental Science &
4. 86%
0. 13
Ecology 环境科学与生态学
4. 50% Transportation 交通
0. 08
4. 14% 4. 14%
Operation research & management science 运筹管理 0. 08 科学
自 2007 年 12 月在美国加州奥莱理出版社召开开放数据第一次正式集会,并且发布 开放公共数据的 8 条标准和原则[1],使得开放数据逐步深入到政治、文化、社会生活等 各个方面,衍生出开放政治 ( Open Politics) 、开放政府 ( Open Government) 、开放媒体 ( Open Media) 、开放城市等等一系列的运动和口号[2]。开放数据 ( Open Data) 是指公 共机构产生、收集或支付的所有信息,包括地理信息数据、统计资料、气象资料,由政 府资助的研究项目的数据,并包括数字图书,这些公共数据可以随时访问和咨询,也可 以重新再利用[3]。我国学者认为 “开放数据指数据可以被任何人出于任何目的自由的 利用和再利用”。开放数据能够实现数据网络空间互联互通,消除信息孤岛,在学术交 流和科学研究中也扮演着关键角色[4]。开放数据是世界发展的趋势[5]。
四、开放数据研究文献的学科分布分析
从开放数据文献的各个学科发文量和中介中心性进行统计,如表 2 所示。在开放数 据研究文献中,计算机科学 ( Computer Science) 相关研究发文量 203 篇,占到全部发 文量的 36. 51% ,处于绝对核心; 其次是心理学 ( Psychology) 99 篇 ( 17. 81% ) ,信息 科学图 书 馆 科 学 ( Information Science & Library Science ) 57 篇 ( 10. 25% ) , 工 程 学 ( Engineering) 56 篇 ( 10. 07% ) 。从相关文献发文量来看,开放数据的相关研究以计算 机科学、心理学、信息科学图书馆科学和工程学为核心,逐步延伸至地理学、数学与生 物计量学、生物化学与分子生物学、化学、遥感科学、环境科学与生态学等学科领域。
五、开放数据研究热点分析
研究热点是指在一定时间内,具有内在联系、数量较多的一组文献所共同探讨的问 题。关键词是作者观点内容的高度概括,出现频率或者中介中心性较高的关键词可以代 表开 放 数 据 研 究 领 域 的 热 点[9]。 软 件 中 节 点 类 型 ( Node Types ) 设 置 为 关 键 词 ( Keyword) ,选择最小生成树算法 ( Minimum Spanning Tree,MST) 。为使该关键词图谱 研究热点更加突出,隐去关键词 “open data”,生成共词网络知识图谱。如图 3 所示,
【内容提要】 本文运用 CiteSpace III 可视化软件,以 Web of Science 中 2009 - 2016 年开放数据研究领域 556 篇文献为基础,对开放数据相关研究文献进行可 视化分析。从文献计量学角度,对开放数据研究的国家、学科分布、研究前 沿、研究热点和研究演进过程等信息可视化图谱进行了分析。 【关键词】 CiteSpace; 开放数据; 文献计量分析; 可视化
二、开放数据研究文献发表情况分析
在 WOS 核心集中检索到的开放数据 ( Open Data) 发表文献最早是从 2009 年开始 的,说明自 2009 年 1 月美国总统奥巴马签署 《开放透明政府备忘录》 之后,学术界对 于开放数据的研究逐渐展开。因此对 2009 - 2016 年的开放数据研究文献发表量进行了 统计,结果如图 1 所示。由图可知,开放数据发文量从 2009 年的 9 篇到 2015 年的 201 篇,而 2016 年一季度发文量已经接近 50 篇,说明开放数据发文量整体上呈现出稳步的 增长态势,年均增长率约为 356% 。
99
Information Science & Library
3
57
Science 信息科学图书馆科学
4 Engineering 工程学
56
5 Geography 地理学
27
6 Mathematical & Computational
25
Biology 数学与生物计量学
Biochemistry & Molecular 7 Biology 生 物 化 学 与 分 子 生 23
中山大学研究生学刊 ( 人文社会科学版)
二○一六年第二期
进行描述、评价和预测某个学科的现状和未来发展趋势[6]。CiteSpace 软件是由美国德 雷塞尔大学信息科学与技术学院陈超美博士与大连理工大学 WISE 实验室联合开发的科 学文献分析工具,可以用来对引文数据进行可视化分析[7]。
( 二) 数据收集
物学
8 Chemistry 化学
23
9 Remote Sensing 遥感科学
20
10 Environmental Science &
20
Ecology 环境科学与生态学
17. 81% Engineering 工程学
0. 45
10. 25% Chemistry 化学
0. 34
Mathematical & Computational