水科学研究的关键词共词聚类分析_韩宇平
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地下水 水足迹 水环境管理 黑河流域 干旱区
词频 /次 24 23 23 23
23 22 22 21 21 20 20 20 20
从表 2 中可以初步归纳出近十年来涉及水科学 相关研究的文献具有如下特点:
1) 水 环 境、水 资 源 承 载 力、可 持 续 发 展、水 文
学、水文化等出现频次超过 100 次,表明这些领域 ( 方向) 是水科学工作的重点,研究成果较多.
Байду номын сангаас
关键词 水资源利用
水污染 生态水文 水电站建筑物 工程监测 地质勘探 水资源配置
节水 气候变化
模型 流域 对策 层次分析法 长江流域 优化配置 三峡水库
词频 /次 50 47 47 46 44 44 42 42 41 39 38 35 35 34 33 32
关键词 系统动力学 水资源安全
生态环境 熵权
4) 形成了一些研究热点地区. 按流域划分,主 要集中在黄河流域( 如全流域、渭河流域、黑河流域 等) 和 长 江 流 域 ( 如 全 流 域、汉 江 流 域、太 湖 流 域 等) ; 按行政区域划分,以北京市为研究区的研究最 多. 此外从水利工程角度分析,以研究三峡水库和南 水北调工程的居多. 1. 3 高频关键词共词分析方法
水文学 42 51 53 60 55 57 65 77 101 88 649
水资源 1 129 1 203 1 382 1 671 1 616 1 617 1 823 1 528 1 522 1 279 14 770
水环境 477 558 626 710 730 767 870 836 875 693
( 1)
式中: nij为两关键词同时出现的频次; ni 、nj 分别为
第 i、j 个关键词出现的频次.
利用式( 1) 计算得到高频关键词共词的相异矩
阵,其对角线上的数据表示该词自身的相关程度.
然后,为进一步揭示高频关键词之间的内在相
关关系,采用社会网络分析软件 Ucinet 进行统计,
并用画图工具 Netdraw 绘制合著网络图谱,得到高
关键词 水环境 水资源承载力 可持续发展 水文学 水文化 水环境质量 指标体系 综合评价 黄河流域 水环境容量 南水北调工程 水库群 地理信息系统 水资源管理 自动化设备 动能经济
词频 /次 341 164 141 129 115 97 78 77 59 55 55 54 53 52 51 51
表 2 2005—2014 年高频关键词及词频
面研究成果相对较多; 围绕大型水利工程如南水北调工程和水安全问题的研究均有所增多; 研究中更加注
重区域的可持续发展和生态环境保护; 形成了一些研究热点地区.
关键词: 水科学; 关键词; 共词分析; 网络分析; 聚类分析; 多维尺度分析
中图分类号: TV74; TM615
文献标识码: A
文章编号: 1002 - 5634( 2015) 04 - 0020 - 06
频关键词共现网络可视图. 对高频关键词网络中,处
于中心位置的关键词运用 Ucinet 对结构网络图的
网络中心性指标节点进行分析,进一步考察各关键
词相对其它关键词的地位和影响力.
最后,采用 SPSS 统计软件对高频关键词共词的
相异矩阵进行多维尺度分析和聚类分析,分别得到
多维尺度可视化图谱和聚类图,以便直观、形象地反
7 142
水安全 水工程
29
70
33
109
42
95
56
120
53
136
73
129
68
122
67
113
77
124
64
81
562 1 099
水经济 5 7 17 13 6 10 5 5 5 1 74
水法律 0 0 0 0 2 2 6 3 3 2 18
水文化 10 18 23 35 33 25 27 28 20 15 234
映关键词之间的聚类群体和各研究对象之间的相对
关系.
2 结果分析
2. 1 高频关键词共词网络分析 将 62 个高频关键词进行两两配对,统计它们在
1 003篇文献中共同出现的频次,得到 62 × 62 的共 词矩阵. 其中主对角线的数值为该词出现的频次,非 主对角线上的数值表示两个关键词共同出现在同一 篇论文中的次数. 由于篇幅所限,这里仅给出前 10 位高频关键词的共词矩阵,见表 3.
DOI: 10. 3969 / j. issn. 1002 - 5634. 2015. 04. 005
水科学研究的关键词共词聚类分析
韩宇平,袁皖华,肖恒
( 华北水利水电大学,河南 郑州 450045)
摘 要: 水科学涉及的范围十分广泛,已涌现出大量研究成果. 对已发表的学术论文进行统计分析,对于明晰水科
题概念的自然语言词汇,能够简单、直接、较为全面 地概括论文的核心研究内容,可以反映一个学术领 域在某一时期内大量学术研究的发展脉络和发展方 向[5]. 由于水科学涉及面广,关键词繁杂,本文仅以 出现频次较多的高频关键词为分析对象.
以 2005—2014 年与水科学相关性较大的5 972
篇论文的关键词为统计分析对象,使用文献计量软 件 Bibexcel 得到 1 003 个关键词. 考虑到一些同义 关键词在不同论文中的表述存在不同的情况,如水 资源承载力、水资源承载能力在大多数情况下概念 相同,本文 对 部 分 同 义 词 进 行 了 合 并 处 理,最 终 将 62 个词频大于等于 20 次的关键词,作为高频关键 词,见表 2.
水文事件研究) . 涉及水经济、水法律、水文化、水信 息、水教育等领域的论文数量相对较少,特别是水教 育领域自 2011 年才有期刊论文出现,论文数量 1 ~ 2 篇.
年份 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 学科总计
表 1 2005—2014 年期刊论文数量年度分布
“水科学”( Water Science) 是最近二十年来出 现频率很高的一个词,已经渗透到社会、经济、生态、 环境、资源利用等许多方面,也派生出许多新的学科 或研究方向,成为学术研究和科技应用的热点. 相应 地,每年涌现出大量期刊论文,既给学者的研究工作 提供了便利,但同时也给文献的管理与分析利用带 来了不便[1]. 因此,有必要对所包含的学科主题和 热点进行系统科学的梳理. 左其亭[2 - 3]将水科学划 分为: 水文学、水资源、水环境、水安全、水工程、水经 济、水法律、水文化、水信息、水教育等各有侧重且相 互交叉的 10 个具有较强关联性的研究领域,并分别 对这 10 个方面做专题研究进展报告,及时总结了当 前水科学研究的最新进展. 然而,目前运用文献计量 学方法来分析水科学研究中的热点与现状的成果还 比较少. 而这些少数研究也只侧重于水科学研究中 的某一方面( 如水资源领域[4]) 进行文献分析探讨.
从表 1 中可以看出,2005—2007 年论文数量逐 年增加( 1 764 ~ 2 244 篇) ,2008—2013 年在 2 600 篇以上,2014 年论文数量相对较少,这主要是因为 开始检索的时间为 2015 年 1 月初,2014 年 12 月份 发表的部分论文未纳入统计之中. 从各研究领域的 论文数量上 看,水 资 源 领 域 期 刊 论 文 数 量 最 多,为 1 129 ~ 1 823 篇,平均约 1 477 篇; 其次是水环境领 域,发表论文 477 ~ 875 篇,平均约 714 篇. 这 2 个领
络出版总库》. 以关键词为搜索词进行模糊检索,检 索策略为: 以 10 个“水科学”的研究方面作为搜索 范围,即水文学、水资源、水环境、水安全、水工程、水 经济、水法律、水文化、水信息、水教育; 来源类别限 定为 EI、核心期刊; 检索年限为 2005—2014 年. 按 上述方法,检索到期刊论文 24 634 篇,年度分布情 况见表 1.
本研究对高频关键词共词的分析主要从网络分 析、多维尺度分析、聚类分析等 3 个方面展开.
首先采用 Bibexcel 构建共词矩阵. 由于关键词 的频次悬殊,共词矩阵中数据相差也比较大,为了消
除频次悬殊造成的影响,研究中引入共词相对强度
的指标,采用关联强度的 Salton 统计指数计算,
S = nij / ( ni × nj) 1/2 .
古洪水 城市化
水权 北京市 管理模式 水利水电工程 水环境承载力 生态需水 全新世 影响因素 水循环 模糊综合评价
词频 /次 31 31 30 29 29 29 28 28 26 25 25 25 25 24 24 24
关键词 汉江流域 主成分分析法 渭河流域 太湖流域 石羊河流域 23 附属设备
遥感 保护措施 合理配置
高频关键词在一定程度上反映了水科学研究的 热点与研究方向,但仅按出现频次对这些词进行线 性排列,还不能全面反映它们之间的关系,需要进行 共词分析[6]. 共词分析法属于内容分析法的一种, 其原理主要是统计一组词中两两同时出现于一篇文 献的次数,以这种“共现”次数反映这些词之间的关 联程度,两个词的“共词强度”( 指两个词同时出现 于一篇论文中的次数) 越高,则这两个词之间的关 联越紧密[7].
第 36 卷第 4 期
韩宇平,等: 水科学研究的关键词共词聚类分析
21
域约占统计的 10 个水科学领域论文总量的 90% , 论文数量在年际上的变化主要由这 2 个领域论文数 量所引起. 2010 年左右,关于水文学、水环境和水安 全等的研究显著增多,一定程度上反映出国家水安 全战略需求重点关注的方面 ( 如洪涝、干旱等极端
收稿日期: 2015 - 03 - 19 基金项目: 国家自然科学基金项目( 51279063) ; 教育部新世纪优秀人才支持计划( NCET - 13 - 0794) ; 国家科技支撑计划项目
( 2012BAC19B03) . 作者简介: 韩宇平( 1975—) ,男,宁夏彭阳人,教授,博导,博士,主要从事水资源管理方面的研究. 通信作者: 肖恒( 1982—) ,男,江苏徐州人,讲师,博士,主要从事气候变化对水文水资源影响方面的研究.
第 36 卷第 4 期
华 北 水 利 水 电 大 学 学 报( 自 然 科 学 版)
Vol. 36 No. 4
2015 年 8 月 Journal of North China University of Water Resources and Electric Power ( Natural Science Edition) Aug. 2015
学发展的现状具有重要意义. 然而,目前采用文献计量学方法开展的研究还比较少. 本文在收集大量水科
学研究相关期刊论文的基础上,采用 Bibexcel 统计分析了文献资料中的关键词,构建了由 62 个高频关键词
组成的共词矩阵,利用网络分析、多维尺度分析和聚类分析等不同统计方法,初步归纳出近十年来水科学
研究中的热点和研究现状. 结果表明: 气候变化、水资源承载力、水资源管理、水环境容量、水环境质量等方
因此,本文利用《CNKI 中国学术期刊网络出版 总库》中的文献资料,采用 Bibexcel 统计分析涉及水 科学期刊论文中的关键词,选取高频关键词构建共 词矩阵,通过网络分析、多尺度分析和聚类分析等统
计方法,揭示水科学研究中的热点与研究现状.
1 资料与方法
1. 1 资料来源 研究使用的资料源于《CNKI 中国学术期刊网
2) 虽然国内对研究气候变化、水生态文明、水
22
华 北 水 利 水 电 大 学 学 报( 自 然 科 学 版)
2015 年 8 月
文化等方面研究起步较晚,但是在变化环境下的水 资源脆弱性评价和适应性、气候变化下的水资源承 载能力、水生态系统的保护、水文化的宣传和普及等 方面的研究得到较快发展.
3) 方法层面的应用研究较多. 如层次分析法、 主成分分析法、分布式水文模型、系统动力学、熵权 法、BP 神经网络、集对分析等关键词出现频次较高, 这一方面表明一些较为成熟的方法得到了广泛应 用; 另一方面表明新的技术方法也在不断发展.
水信息 2 3 6 13 12 10 11 10 11 2 80
水教育 0 0 0 0 0 0 1 2 2 1 6
篇
年度总计 1 764 1 982 2 244 2 678 2 643 2 690 2 998 2 669 2 740 2 226 24 634
1. 2 高频关键词 关键词是论文的文献检索标识,是表达文献主
词频 /次 24 23 23 23
23 22 22 21 21 20 20 20 20
从表 2 中可以初步归纳出近十年来涉及水科学 相关研究的文献具有如下特点:
1) 水 环 境、水 资 源 承 载 力、可 持 续 发 展、水 文
学、水文化等出现频次超过 100 次,表明这些领域 ( 方向) 是水科学工作的重点,研究成果较多.
Байду номын сангаас
关键词 水资源利用
水污染 生态水文 水电站建筑物 工程监测 地质勘探 水资源配置
节水 气候变化
模型 流域 对策 层次分析法 长江流域 优化配置 三峡水库
词频 /次 50 47 47 46 44 44 42 42 41 39 38 35 35 34 33 32
关键词 系统动力学 水资源安全
生态环境 熵权
4) 形成了一些研究热点地区. 按流域划分,主 要集中在黄河流域( 如全流域、渭河流域、黑河流域 等) 和 长 江 流 域 ( 如 全 流 域、汉 江 流 域、太 湖 流 域 等) ; 按行政区域划分,以北京市为研究区的研究最 多. 此外从水利工程角度分析,以研究三峡水库和南 水北调工程的居多. 1. 3 高频关键词共词分析方法
水文学 42 51 53 60 55 57 65 77 101 88 649
水资源 1 129 1 203 1 382 1 671 1 616 1 617 1 823 1 528 1 522 1 279 14 770
水环境 477 558 626 710 730 767 870 836 875 693
( 1)
式中: nij为两关键词同时出现的频次; ni 、nj 分别为
第 i、j 个关键词出现的频次.
利用式( 1) 计算得到高频关键词共词的相异矩
阵,其对角线上的数据表示该词自身的相关程度.
然后,为进一步揭示高频关键词之间的内在相
关关系,采用社会网络分析软件 Ucinet 进行统计,
并用画图工具 Netdraw 绘制合著网络图谱,得到高
关键词 水环境 水资源承载力 可持续发展 水文学 水文化 水环境质量 指标体系 综合评价 黄河流域 水环境容量 南水北调工程 水库群 地理信息系统 水资源管理 自动化设备 动能经济
词频 /次 341 164 141 129 115 97 78 77 59 55 55 54 53 52 51 51
表 2 2005—2014 年高频关键词及词频
面研究成果相对较多; 围绕大型水利工程如南水北调工程和水安全问题的研究均有所增多; 研究中更加注
重区域的可持续发展和生态环境保护; 形成了一些研究热点地区.
关键词: 水科学; 关键词; 共词分析; 网络分析; 聚类分析; 多维尺度分析
中图分类号: TV74; TM615
文献标识码: A
文章编号: 1002 - 5634( 2015) 04 - 0020 - 06
频关键词共现网络可视图. 对高频关键词网络中,处
于中心位置的关键词运用 Ucinet 对结构网络图的
网络中心性指标节点进行分析,进一步考察各关键
词相对其它关键词的地位和影响力.
最后,采用 SPSS 统计软件对高频关键词共词的
相异矩阵进行多维尺度分析和聚类分析,分别得到
多维尺度可视化图谱和聚类图,以便直观、形象地反
7 142
水安全 水工程
29
70
33
109
42
95
56
120
53
136
73
129
68
122
67
113
77
124
64
81
562 1 099
水经济 5 7 17 13 6 10 5 5 5 1 74
水法律 0 0 0 0 2 2 6 3 3 2 18
水文化 10 18 23 35 33 25 27 28 20 15 234
映关键词之间的聚类群体和各研究对象之间的相对
关系.
2 结果分析
2. 1 高频关键词共词网络分析 将 62 个高频关键词进行两两配对,统计它们在
1 003篇文献中共同出现的频次,得到 62 × 62 的共 词矩阵. 其中主对角线的数值为该词出现的频次,非 主对角线上的数值表示两个关键词共同出现在同一 篇论文中的次数. 由于篇幅所限,这里仅给出前 10 位高频关键词的共词矩阵,见表 3.
DOI: 10. 3969 / j. issn. 1002 - 5634. 2015. 04. 005
水科学研究的关键词共词聚类分析
韩宇平,袁皖华,肖恒
( 华北水利水电大学,河南 郑州 450045)
摘 要: 水科学涉及的范围十分广泛,已涌现出大量研究成果. 对已发表的学术论文进行统计分析,对于明晰水科
题概念的自然语言词汇,能够简单、直接、较为全面 地概括论文的核心研究内容,可以反映一个学术领 域在某一时期内大量学术研究的发展脉络和发展方 向[5]. 由于水科学涉及面广,关键词繁杂,本文仅以 出现频次较多的高频关键词为分析对象.
以 2005—2014 年与水科学相关性较大的5 972
篇论文的关键词为统计分析对象,使用文献计量软 件 Bibexcel 得到 1 003 个关键词. 考虑到一些同义 关键词在不同论文中的表述存在不同的情况,如水 资源承载力、水资源承载能力在大多数情况下概念 相同,本文 对 部 分 同 义 词 进 行 了 合 并 处 理,最 终 将 62 个词频大于等于 20 次的关键词,作为高频关键 词,见表 2.
水文事件研究) . 涉及水经济、水法律、水文化、水信 息、水教育等领域的论文数量相对较少,特别是水教 育领域自 2011 年才有期刊论文出现,论文数量 1 ~ 2 篇.
年份 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 学科总计
表 1 2005—2014 年期刊论文数量年度分布
“水科学”( Water Science) 是最近二十年来出 现频率很高的一个词,已经渗透到社会、经济、生态、 环境、资源利用等许多方面,也派生出许多新的学科 或研究方向,成为学术研究和科技应用的热点. 相应 地,每年涌现出大量期刊论文,既给学者的研究工作 提供了便利,但同时也给文献的管理与分析利用带 来了不便[1]. 因此,有必要对所包含的学科主题和 热点进行系统科学的梳理. 左其亭[2 - 3]将水科学划 分为: 水文学、水资源、水环境、水安全、水工程、水经 济、水法律、水文化、水信息、水教育等各有侧重且相 互交叉的 10 个具有较强关联性的研究领域,并分别 对这 10 个方面做专题研究进展报告,及时总结了当 前水科学研究的最新进展. 然而,目前运用文献计量 学方法来分析水科学研究中的热点与现状的成果还 比较少. 而这些少数研究也只侧重于水科学研究中 的某一方面( 如水资源领域[4]) 进行文献分析探讨.
从表 1 中可以看出,2005—2007 年论文数量逐 年增加( 1 764 ~ 2 244 篇) ,2008—2013 年在 2 600 篇以上,2014 年论文数量相对较少,这主要是因为 开始检索的时间为 2015 年 1 月初,2014 年 12 月份 发表的部分论文未纳入统计之中. 从各研究领域的 论文数量上 看,水 资 源 领 域 期 刊 论 文 数 量 最 多,为 1 129 ~ 1 823 篇,平均约 1 477 篇; 其次是水环境领 域,发表论文 477 ~ 875 篇,平均约 714 篇. 这 2 个领
络出版总库》. 以关键词为搜索词进行模糊检索,检 索策略为: 以 10 个“水科学”的研究方面作为搜索 范围,即水文学、水资源、水环境、水安全、水工程、水 经济、水法律、水文化、水信息、水教育; 来源类别限 定为 EI、核心期刊; 检索年限为 2005—2014 年. 按 上述方法,检索到期刊论文 24 634 篇,年度分布情 况见表 1.
本研究对高频关键词共词的分析主要从网络分 析、多维尺度分析、聚类分析等 3 个方面展开.
首先采用 Bibexcel 构建共词矩阵. 由于关键词 的频次悬殊,共词矩阵中数据相差也比较大,为了消
除频次悬殊造成的影响,研究中引入共词相对强度
的指标,采用关联强度的 Salton 统计指数计算,
S = nij / ( ni × nj) 1/2 .
古洪水 城市化
水权 北京市 管理模式 水利水电工程 水环境承载力 生态需水 全新世 影响因素 水循环 模糊综合评价
词频 /次 31 31 30 29 29 29 28 28 26 25 25 25 25 24 24 24
关键词 汉江流域 主成分分析法 渭河流域 太湖流域 石羊河流域 23 附属设备
遥感 保护措施 合理配置
高频关键词在一定程度上反映了水科学研究的 热点与研究方向,但仅按出现频次对这些词进行线 性排列,还不能全面反映它们之间的关系,需要进行 共词分析[6]. 共词分析法属于内容分析法的一种, 其原理主要是统计一组词中两两同时出现于一篇文 献的次数,以这种“共现”次数反映这些词之间的关 联程度,两个词的“共词强度”( 指两个词同时出现 于一篇论文中的次数) 越高,则这两个词之间的关 联越紧密[7].
第 36 卷第 4 期
韩宇平,等: 水科学研究的关键词共词聚类分析
21
域约占统计的 10 个水科学领域论文总量的 90% , 论文数量在年际上的变化主要由这 2 个领域论文数 量所引起. 2010 年左右,关于水文学、水环境和水安 全等的研究显著增多,一定程度上反映出国家水安 全战略需求重点关注的方面 ( 如洪涝、干旱等极端
收稿日期: 2015 - 03 - 19 基金项目: 国家自然科学基金项目( 51279063) ; 教育部新世纪优秀人才支持计划( NCET - 13 - 0794) ; 国家科技支撑计划项目
( 2012BAC19B03) . 作者简介: 韩宇平( 1975—) ,男,宁夏彭阳人,教授,博导,博士,主要从事水资源管理方面的研究. 通信作者: 肖恒( 1982—) ,男,江苏徐州人,讲师,博士,主要从事气候变化对水文水资源影响方面的研究.
第 36 卷第 4 期
华 北 水 利 水 电 大 学 学 报( 自 然 科 学 版)
Vol. 36 No. 4
2015 年 8 月 Journal of North China University of Water Resources and Electric Power ( Natural Science Edition) Aug. 2015
学发展的现状具有重要意义. 然而,目前采用文献计量学方法开展的研究还比较少. 本文在收集大量水科
学研究相关期刊论文的基础上,采用 Bibexcel 统计分析了文献资料中的关键词,构建了由 62 个高频关键词
组成的共词矩阵,利用网络分析、多维尺度分析和聚类分析等不同统计方法,初步归纳出近十年来水科学
研究中的热点和研究现状. 结果表明: 气候变化、水资源承载力、水资源管理、水环境容量、水环境质量等方
因此,本文利用《CNKI 中国学术期刊网络出版 总库》中的文献资料,采用 Bibexcel 统计分析涉及水 科学期刊论文中的关键词,选取高频关键词构建共 词矩阵,通过网络分析、多尺度分析和聚类分析等统
计方法,揭示水科学研究中的热点与研究现状.
1 资料与方法
1. 1 资料来源 研究使用的资料源于《CNKI 中国学术期刊网
2) 虽然国内对研究气候变化、水生态文明、水
22
华 北 水 利 水 电 大 学 学 报( 自 然 科 学 版)
2015 年 8 月
文化等方面研究起步较晚,但是在变化环境下的水 资源脆弱性评价和适应性、气候变化下的水资源承 载能力、水生态系统的保护、水文化的宣传和普及等 方面的研究得到较快发展.
3) 方法层面的应用研究较多. 如层次分析法、 主成分分析法、分布式水文模型、系统动力学、熵权 法、BP 神经网络、集对分析等关键词出现频次较高, 这一方面表明一些较为成熟的方法得到了广泛应 用; 另一方面表明新的技术方法也在不断发展.
水信息 2 3 6 13 12 10 11 10 11 2 80
水教育 0 0 0 0 0 0 1 2 2 1 6
篇
年度总计 1 764 1 982 2 244 2 678 2 643 2 690 2 998 2 669 2 740 2 226 24 634
1. 2 高频关键词 关键词是论文的文献检索标识,是表达文献主