我国微博研究主题的共词可视化分析_姜鑫
基于CSSCI近十年我国知识服务可视化分析
由此可 以得 到以下结 论 : a . 从文章 的数量 上看 , 尽 管2 0 0 9 — 2 0 1 0 这 一 时 间分 区的 阀值 最 高 , 但是 其 文 献数 量 依 然达 到 了 1 1 8 9 , 是研究这 一领域 的高峰 时期 。整体上 来看 , 文献数量 基本 上 呈现一 个上 升 的趋 势 , 到2 0 0 9 -2 0 1 0 达到最 高 点 。b. 从连 线 数量上 来看 , 连 线数量越多 , 意 味其被 引频 次越多 。从上表 可以 看出, 2 0 0 3 — 2 0 0 6 这 两个 时间分 区 , 文献 数量 虽然不多 , 但是 其节 点 、连 线数量 较多 , 可 以说 是国 内研 究知识服务领域 的一个 起步 阶段 。在此 阶段 , 学者们提 出了关于知 识服务 , 知识 管理等一 系 列相 关概念 , 初步 形成 了这 一领域 的发展规模 , 他们 的观点被 后 人 广泛采纳 , 他们 的地位也 因此显得 比较重要 。2 0 0 7 年 至今 , 知 识 服务 这一领 域更 是得 到快速 发展 , 学 者提 出 了更多 不同 的观 点, 相应的 , 被引用次数减少。 ( 二) 代表作 者分 析 代表作者分析主要 采用共被引作者分析 , 将主要采用 中心度 和被引频次作为主要参考指标 , 挖掘这一领域 的代表作者 。 中间 中心度是用来进行 中心性测度 的指标 , 它是指 网络 中经过某 点连 线并连 接这 两点 的最短距离 占这两点 之间的最短 路径线总 数之 比, 中心度越 高的点也 就意味着在 图谱 中的地 位越高 , 表 明他能 够从源头控制知识 的传播 。节 点类型选择被引作者 , 得 到了如 图 3 所示 的共被引 图谱。 由表2 中, 能够 看 出在这 一领域 , 虽 然张晓林 以中心度 0 . 2 居 表2中心度前十的作者 被引频次 中心度 时间 作者 被引频次 中心度 时间 作者
基于词频分析和可视化共词网络图的国内创客研究热点分析_秦琴琴
5
19
公共图书馆
2
10 创客运动
3
20
3D 打印
2
从表 1 可以看出,20 个高频关键词的总呈现频次为 147 次,占关键词总频次的 63.9%。其
115
Vol.26 No.1 2016
中,词频排在前十位的分别是:创客空间、创客、高校图书馆、创新服务、图书馆、众创空间、 创客文化、图书馆服务、服务创新和创客运动。
图 3 国内创客高频关键词的共词网络图
从图 3 可以直观地看出:①创客处于整个共词网络图的中心位置,几乎与其它所有关键词 都发生联系。除创客外,创客空间、创客文化、众创空间等与其它关键词的关系也很紧密,说 明很多研究者正在重点研究这些关键词,并且其它相关研究也围绕着这些关键词而开展,因此 可以推断这些关键词是国内创客领域研究的热点。②处于边缘地带的一些关键词,如智慧学习、 互联网+、3D 打印等,这些节点虽然处于边缘,与其它关键词的联系较少,但这并不表示这些 关键词不重要、不值得研究。就目前来看,研究者对这些词的研究虽然相对较少,但这些词大 多出自最近发表的文章中,反映出这些关键词是创客领域未来的研究方向和趋势,更值得本研 究关注。③像清华 iCenter、项目式教学、创客运动等处于中间的关键词,它们是连接中心关键 词和边缘关键词的桥梁。
一 研究设计
1 研究样本的来源 本研究的样本来源于中国知网(CNKI)数据库。在 CNKI 上以“创客”、“创客空间”、“众 创空间”为关键词进行检索,截止到 2015 年 6 月 28 日,共检索到 73 篇相关文献;剔除政策宣 传、通知广告、领导讲话和内容重复等无关样本后,最终获得有效样本 58 篇。将这 58 篇文献 的题录信息导出并保存成文本文件,以便为后续的引文分析、词频分析和共词分析做准备。 2 研究方法 本研究主要采用引文分析法、词频分析法和共词分析法。 引文分析法就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法; 也是对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和 内在规律的一种信息计量研究方法[3]。
我国研究生就业研究现状、热点主题与前沿分析——基于CiteSpace_的文献计量分析
第15卷第2期V ol.15No.22024年4月CHUANGXIN YU CHUANGYE JIAOYU Apr. 2024我国研究生就业研究现状、热点主题与前沿分析——基于CiteSpace的文献计量分析张艳宁1,薛晨2,黄媛3(1. 西北工业大学研究生院,陕西西安,710000;2. 西北工业大学公共政策与管理学院,陕西西安,710000;3. 西北工业大学管理学院,陕西西安,710000)[摘要] 为进一步探究研究生就业领域的研究现状、热点主题和发展方向,以2003年1月1日至2023年8月1日中国知网中的176篇与研究生就业相关的CSSCI高质量研究论文为研究对象,以CiteSpace6.2.R4信息可视化软件为研究工具,对研究生就业研究的发文量、发文作者、关键词共现、关键词聚类等方面绘制知识图谱并进行分析。
结果表明:研究生就业的相关研究尚处于初始阶段;研究热点主题众多,选用理论较为集中;研究主线明确,相关研究逐渐深入,时效性较强。
但仍存在一些不足,未来的研究要坚持把研究生就业放到研究生教育总体发展中去审视和探索;努力实现跨区域研究,加强合作交流,推动高质量成果的产出;紧跟研究生就业领域的研究热点和前沿方向,丰富研究成果。
[关键词] 研究生;就业;就业质量;CiteSpace[中图分类号]G643.0 [文献标识码] A [文章编号] 1674-893X(2024)02−0049−10一、问题的提出就业是最大的民生,是经济发展的晴雨表,就业情况能够反映人民幸福生活的满意度,也能够反映经济发展的质量。
在2023年的政府工作报告中,要求把促进青年特别是高校毕业生就业摆在更加突出的位置。
高校毕业生的就业质量一定程度上也反映了高等教育的质量。
和本科教育不同的是,研究生教育是国民教育体系的顶端,在培养创新人才、提高创新能力、服务经济社会发展、推进国家治理体系和治理能力现代化等方面具有重要作用。
研究生毕业生是国家宝贵的人才资源,但随着时代的变化,研究生扩招陆续带来了人才市场供需矛盾、高校人才培养体系不完全匹配、创新型人才培养质量下降、研究生就业积极性下降、服务国家重点建设行业与产业不突出等问题,这些都阻碍了研究生高质量就业的步伐。
我国深度学习研究热点及其发展趋势——基于CiteSpace可视化知识图谱分析
后,排除会议和征稿信息,最终得到和深度学习主 题直 接 相 关 的 有 效 文 献 为 219 篇, 它 们 多 发 表 在 《电化教育研究》 《中 国 电 化 教 育》 《现 代 教 育 技 术》 《远程教育杂志》 等教育技术类期刊上 。
(二) 研究过程与方法 研究过程主要包括三个阶段:首先,研究者整 理各年度发文量,分析预测发文量的变化趋势;其 次,研究 者 对 文 献 的 关 键 词 进 行 聚 类 分 析; 最 后, 研究者依据整理的数据和分析的结果对国内深度学 习的研究进行展望。 本研究主要采用了共词分析法。共词分析法主 要用于揭示某一研究领域内研究主题的研究方法, 这一方法通过对某一研究领域内主题关系的研究, 来分析研究主题的发展历史和推断主题未来的发展 趋势等。研究者通过对深度学习文献关键词的聚类 分析,考 察 了 深 度 学 习 研 究 的 发 展 脉 络 和 热 点 领域。
120 24 10 10 9 7 7 6 5
0.89 0.28 0.55 0.05 0.04 0.16 0.18 0.04 0.00
2006 2014 2007 2016 2007 2015 2017 2009 2012
深度教学 学习分析 教育信息化 问题解决 机器学习 高等教育 课堂教学改革
二、研究结果与分析
(一) 深度学习研究年发文量变化趋势分析 通过分析每年的发文量,我们可以得知深度学 习相关主题研 究 的 发 展 阶 段 。 如 图 1 所 示, 自 2012 年之后,深度学习主题的论文年度发表数量增加迅 速,呈直线上升 趋 势 ,2016—2018 年 该 主 题 的 发 文
Teacher Education Forum·教师教育论坛 4 5
图1 深度学习年度发文量变化趋势 (2007-2018年)
近十年内我国大学英语教学的研究热点分析——基于共词可视化方法
组关 键 词两两 统计 它们 在 同一篇 文献 中 出现的 次数 ,采用 多 元分 析来 揭示 它们 之间 的数量 关 系和 内在规 律 。共 词可 视 化则是 将 可视化 技术 与共 词分 析 的原理 相结 合 ,以生成
具 有各 种属性 的可视 化结果 ,能够形 象 、直观地 揭示 知识 领 域 的结构并 映射知识 领 域 的发 展趋 势 。
全 的中文期 刊数 据库 。文献 检索 的方法 是 :在检 索项 中选 择 “ 名” 篇 ,在 检索 词 中输 入 “ 大学英语 教学 ” 或 “ 共 公
英语 教学 ” ,在来 源 类 别 中输入 “ 心期 刊 ” 核 ,在 期 刊 年 期 中选 择 20 - 2 1 0 0 0 0年 的 时 段 ,共 得 到 中 文 相 关 文 献 1 8 篇 。根 据 布拉 德 福 定 律 ,核 心 期 刊 的载 文 能 有 效 反 71 映该学 术领 域 的前沿 和热 点 ,因此此次 研究 主要 采用来 源 于核 心期 刊 的文 献 资料 。在所获 文献基 础上 ,采取 人工 方 法整理 和清 洗数 据 。首 先 ,只选 择学术 研究 型文献 ,剔 除
[ 关键 词 ] 大 学英 语教 学;研 究热点 ;共词 可视 化 [ 图分类 号 ]G 2. 1 中 633 [ 文献标 识码 ] A [ 章编 号 ] 10 — 42 (0 1 6 02 — 3 文 0 5 63 2 1 )2 — 2 9 0
1 引 言
自进 入 2 世 纪 以来 ,改 革 就 成 为 大学 英 语 教 学 的 主 1 旋 律 。为 适应 中国社会 H益 开放 的步伐 与 高等教 育大 众化 的趋 势 ,大学 的公 共英语 教 学在最 近 十年 内一直 在探 索 和 尝试 新 的理念 、模 式 和方法 。与此 同 时 ,该领 域 内研 究论 文 的数量 也 在 迅 速 增 加 。对 这 些 研 究 成 果 进 行 梳 理 和 总 结 ,对于 广大 研究 者而 言 ,无 疑具 有 十分重要 的意义 ,可 以辨 明大学英 语 教学研 究 的现状 、热 点问题 以及 未来 的发 展 趋势 ,为 下一 步的研 究做 出指 引 。
国内引文分析领域研究状况的可视化分析———基于论文数量、作者、主题词的知识图谱分析
收稿日期:2010-11-26㊀㊀㊀㊀修回日期:2010-03-15基金项目:中央高校基本科研业务费专项资金资助(编号:006)㊂作者简介:邓㊀蓓(1972-),女,馆员,研究方向:信息资源管理;宋艳辉(1981-),男,博士研究生,研究方向:信息计量;冯㊀莲(1963-),女,馆员,研究方向:情报技术;谢雨君(1970-),女,副研究馆员,研究方向:情报技术㊂国内引文分析领域研究状况的可视化分析*基于论文数量㊁作者㊁主题词的知识图谱分析邓㊀蓓1㊀宋艳辉2㊀冯㊀莲1㊀谢雨君1(1.九江学院图书馆㊀九江㊀332005;2.武汉大学中国科学评价研究中心㊀武汉㊀430072)摘㊀要㊀以国内引文分析领域的3266篇论文作为统计对象,揭示了引文分析研究的文献增长规律㊂对论文的作者进行数量统计和社会网络分析发现并公布了引文分析领域具有重要地位的几位作者,肯定了中文社会科学引文索引(CSSCI )研制者 苏新宁等人对国内引文分析研究的重要贡献㊂借助CiteSpaceⅡ突变检测算法检测到引文分析领域的研究前沿术语,并借助CiteSpaceⅡ提供的复杂混合网络的可视化方法,将研究前沿与作者建立对应关系,揭示国内引文分析领域的研究状况㊂关键词㊀引文分析㊀社会网络分析㊀可视化分析中图分类号㊀G306㊀㊀㊀㊀㊀㊀㊀㊀文献标识码㊀A㊀㊀㊀㊀㊀㊀文章编号㊀1002-1965(2011)06-0091-07Visualization Analysis of Domestic Citation Analysis Research FieldDENG Pei 1㊀SONG Yanhui 2㊀FENG Lian 1㊀XIE Yujun 1(1.Llibrary ,Jiujiang University ,Jiujiang ㊀332005;2.Research Center for Chinese Science Evaluation ,Wuhan University ,Wuhan ㊀430072)Abstract ㊀Based on the analysis of domestic citation statistic papers ,the paper revealed its growth mode.Through quantity statistics and social network analysis of the authors of the papers ,we found and published several important authors in the field of citation analysis ,and confirmed the great contribution of Su Xinning --the Chinese social sciences citation index (CSSCI )-on domestic citation analysis.With CiteSpace Ⅱmutations detection algorithm ,we detected the research frontiers terms in the field of citation analysis.With the complex hy-brid network visualization method provided by CiteSpace Ⅱ,we established with will research frontiers corresponding relation of space and time between research front and author ,revealed research situation of domestic citation analysis from the two dimensions of space and time.Key words ㊀citation analysis ㊀social network analysis ㊀visualized analysis0㊀引㊀言引文分析作为一个广阔领域,是否业已形成一门作为相对独立学科的引文分析学?对此,直到2007年刘则渊[1]在‘科学知识图谱:方法与应用“一书中才明确指出: 从普赖斯㊁加菲尔德到斯莫尔,已确立起日臻完备的引文分析理论与方法,构成科学计量学的基础与主流,在一定意义上也可以说在科学计量学中已形成一门成熟的分支学科 引文分析学 ㊂虽然 引文分析学 是否成为一门独立的学科还没有形成统一的定论,但是引文分析领域经过数十年的发展已经日渐成熟却是不争的事实㊂国内最早的引文分析文章出现在1981年左右,而国外引文分析的研究可以追溯于20世纪60年代加菲尔德对SCI 的研制,因此相对于国外的引文分析发展来说,国内的引文分析研究起步较晚,但是国内的引文发展究竟呈现一种什么态势㊂在国内已经有人开始从事引文分析的可视化研究,主要是从两个角度展开研究:a.理论研究㊂胡利勇等[2]利用计算机信息系统的开发方法和可视化技术,结合引文分析的理论基础,研究了一种直观㊁快速查第30卷㊀第6期2011年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志JOURNAL OF INTELLIGENCE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.30㊀No.6June㊀2011看引文网络图的方法,并提出引文可视化系统的总体结构和主要模块㊂李运景等(2007)对国外在引文时序可视化㊁被引分析可视化等方面的研究中所涉及的技术和应用进行了分析,总结了引文分析可视化所采用的图形种类,引文分析可视化对研究中尚未解决的问题进行了简要的探讨㊂b.实证研究㊂国内这方面的研究主要是梁永霞㊁刘则渊㊁杨中楷[4-6]研究团队承担的,他们在2009-2010两年间分别对SCI 和SSCI 中联合检索到1974-2006年期间747篇文献,23487条引文进行引文分析㊁聚类分析㊁多维尺度分析㊁社会网络分析;以SCI 和SSCI 中引文分析领域1906篇论文为研究对象,借助可视化技术CiteSpace 等软件工具,揭示引文分析领域的初始形成期㊁发展㊁繁荣期㊁深化拓张期三个阶段的演进历程,通过加菲尔德㊁普赖斯㊁斯莫尔等主要代表人物文献的可视化图谱,具体呈现出他们各自在不同时期对引文分析领域发展的独特贡献以及他们有关引文分析的经典文献对引文分析领域演化路径的关键作用㊂对CSSCI 中检索到的1998-2007这10年间527篇引文分析文献绘制引文分析领域的重要作者和重要文献图,反映引文分析领域的重要人物和重要著作,展现引文分析领域的知识结构关系㊂综合起来看,国内引文分析可视化研究的不足之处有:a.论文数量不足㊂b.实证研究中侧重于国外的引文分析研究状况的揭示,笔者分析可能是各种可视化工具是用英文开发的,面向的数据库也是英文数据库,因此在处理中文数据时不方便㊂c.针对国内的引文分析领域研究的系统性不够强,以10年间的527篇文献不足以系统地揭示国内引文分析研究的状况㊂基于国内这方面研究的不足,我们以国内自1981年出现的第一篇引文分析论文至今30年间的3266篇论文为研究样本,借助第二代信息可视化工具,从论文数量的增长规律㊁高频作者分布与合作㊁研究热点的演化变迁等角度系统揭示国内引文分析领域的研究状况㊂1㊀数据来源与研究方法本文的数据样本来自于中国知网(CNKI ),以关键词 引文分析 进行主题检索,共检索到3266篇论文(检索时间:2010-09-27)㊂研究工具为:统计软件EXCEL 2003;统计分析软件SPSS 13.0;社会网络分析软件UNCINET 和可视化工具NETDRAW ;探索科学知识前沿可视化软件CiteSpace Ⅱ㊂本文拟采用的研究方法:在各年发文统计的基础上,以SPSS 13.0进行回归分析,揭示引文分析领域的文献增长规律;借助UN-CINET ㊁NETDRAW 分析高频作者的中心度大小,比较他们对资源的控制能力,并以可视化的形式展示他们之间的合作关系和中心度㊂运用CiteSpace Ⅱ的突变检测算法探索引文分析领域的研究前沿术语,并基于作者与前沿术语的共现复杂网络分析方法,进一步探析作者的研究前沿领域和某些研究前沿领域的代表人物以及他们出现的时间㊂2㊀论文数量分布根据引文分析论文的年度发文量以及各年累积发文量绘制论文增长曲线图(如图1所示),并添加累积发文量的趋势线(图1中的虚线)㊂图1㊀引文分析论文增长曲线在文献增长规律的研究中,一般都是以文献累积数据为依据的㊂尤其是在研究某一学科或者知识领域的文献在一定时间范围内的增长规律时,更是如此[7]㊂各年出版的文献逐年相加而得到的文献累积数量总是增加的,就有可能趋于某种固有的规律,所得到的结果,往往是较为规则的曲线,就能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研究;非累计数据,即每一年所出版的文献数量,容易受到各种复杂的社会因素的影响,一般来说都是波动的,很难确定它是否近似的趋于某种固定的规律,其结果往往是一些非规则的曲线,难以用某种函数来描述,也给文献的定量分析带来困难,正如图1所显示的论文的各年年度论文分布情况,各年呈现较大的波动性,尤其是在最初的几年,更无任何规律可寻,也正如米哈伊洛夫所指出的: 如果按每年问世的出版物的数量来判断科学文献的增长,那么它的进展甚至连几何性的都不是,而仅仅是算术性 [3]㊂基于以上的分析,我们根据论文年度累计数量绘制图1研究引文分析领域论文的增长规律㊂一条较为光滑曲线连接各点十分近似㊃29㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷地表征了引文分析论文随时间增长的趋势,普赖斯曾在‘小科学,大科学“一书中论述 一般科学领域的文献是按指数增加的规律,且指数型规律终将成为逻辑型 [7]㊂普赖斯最先注意到科学文献增长与时间呈指数函数关系㊂如果F (t )表示时刻t 的文献量,则指数定律可以表示为:F (t )=ae bt (a >0,b >0)t 时间,以年为单位;a 条件常数,即统计年的初始时刻(t =0)的文献量;e 自然对数的底(e =2.718 );b 时间常数,即持续增长率:某一年文献的累积增加量与前一年的累积总数的比值㊂笔者对1981-2010年这30年间的论文累积数据进行指数增长定律的回归拟合分析㊂结果显示,R square =0.870,P -值<0.005㊂一般认为R square 在0.870左右表示拟合结果理想,由此可见,拟合优度比较理想,回归方程有效㊂但是笔者在同样的数据的基础上做了幂函数的回归拟合检验,却意外发现拟合优度非常理想,其中R square =0.983㊂R square 是验证一个模型的拟合优度常用的参数,被称为判定系数㊂R square 越接近于1表示回归效果越好,当R square =1时表示所有观察点完全落在回归线上㊂R square =0.983,极其接近于1,意味着拟合优度非常理想,方程显著有效,大部分的点都落在了幂函数的回归线上,如图2所示:图2㊀引文分析论文累积数据的幂函数回归分布表1为笔者分别进行指数拟合和幂函数拟合的回归方程以及重要的回归参数㊂通过对比可以发现冥函数的回归优度比指数函数好很多㊂也就是说,从1981年出现第1篇引文分析论文,至2010年的国内的引文分析学文献将是沿着幂函数增长规律演进,其表达式为,F (t )=0.985txp 2.3725㊂F (t )为文献的累积量;0.985为初始文献量,近似于1;2.3725为常数㊂因此,我们 引文分析学文献是按照冥函数的模式增长 的这一结论是与普赖斯指出的一般科学领域的文献是按指数增加的规律是相悖的㊂我们分析主要是以下原因:a.研究对象的不同㊂普赖斯当年选取的是国外相关学科的文献作为统计对象,而我们选取的是国内引文分析领域的文献㊂b.学科发展的不同㊂国内引文分析学的发展应该处于发展的初步阶段,还远远没有成熟㊂事实上,在国内很少有将引文分析学作为一种独立的学科来研究的,往往是被当做科学计量学和文献计量学等学科的一种成熟的研究方法对待㊂表1㊀引文分析学论文时间分布的回归方程学科拟合方式R square F 值P -值回归方程引文分析学指数函数0.870180.7850.000F (t )=12.410exp (0.217t )冥函数0.9831576.0000.000F (t )=0.985txp 2.37253㊀论文作者分布㊀3.1㊀作者发文分布㊀本文对引文分析领域的3266篇论文的作者进行统计,共得到2052位作者,现将发文量在5篇以上的作者列出,如表3所示㊂发文27篇,排在第1位的作者是被称为 国内科学计量学之父 的刘则渊[1];排在第2位的是有 国内文献计量学奠基人 之称的邱均平[8]㊂引文分析方法,自美国情报学家加菲尔德创立科学引文索引,后经其本人㊁普赖斯和斯莫尔等人将该索引应用于科学研究形成引文分析法以来,一直被科学计量学和文献计量学的学者视为较为成熟和科学的分析方法,并得到广泛的应用㊂刘则渊曾系统地对引文分析学进行过研究,例如他的 引文分析学的学科地位 ㊁ 引文分析学的知识流动理论探析 ㊁ 引文分析学形成与发展的可视化分析 等文章都是关于引文分析学最基本的理论性探讨[4,9-10];而 基于专利共被引的企业技术发展与技术竞争分析:以世界500强中的工业企业为例 ㊁ 干细胞人体组织工程技术研究文献㊃39㊃㊀第6期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀邓㊀蓓,等:国内引文分析领域研究状况的可视化分析计量分析及其政策启示[11-12] 等文章是引文分析方法对具体实际中的应用研究㊂而刘则渊最近的兴趣是引文分析方法的可视化研究,其代表性工具是CiteSpace ㊂CiteSpace 是由美国德雷赛尔大学华人学者陈超美研制,该工具实际上也是基于文献的共被引理论[13]㊂该时期的代表性作品其发表在权威期刊上的 引文分析领域前沿与演化知识图谱 ㊁ 力学各分支学科研究前沿和发展趋势的可视化分析 等[6,14]㊂如果说刘则渊对引文分析的发文主要集中在科学学领域和图书情报领域的期刊,那么邱均平的发文则主要集中在图书情报领域,与刘则渊不同的是,邱均平关于引文分析的研究明显偏向于实证研究㊂其代表性的论文,如 专利计量的概念㊁指标及实证 以全球有机电激发光技术相关专利为例 ㊁ 期刊同被引的实证计量研究 ㊁ 改革开放30年来我国情报学研究的回顾与展望(二) 情报学研究论文的作者分析 基于引文分析法的国内 参考咨询 的研究现状分析 都明显带有实证的色彩[15-20]㊂发文量排名第3的杨华则是侧重于医学领域的引文分析研究的学者,她关于引文分析的17篇文章都是对医学文献的分析,而且她的研究成果主要集中在2005-2006这两年,近年来几乎没有引文分析的文章问世㊂发文排名第4的赵星的引文分析研究成果也是集中在近两年,他的研究特色是引文分析与h 指数结合起来研究,他的13篇引文分析论文中有近半数的论文是关于h 指数的研究,例如他于2010年在情报学报上发表的 h 指数与论文总被引C 的幂律关系 中,为更深刻地理解h 指数的特性,收集了学者㊁期刊㊁研究机构㊁大学和国家5个层面共8组h 指数以及论文被引指标数据,实证研究h 指数与论文总被引C 之间的关系,揭示了论文总被引的增量对于h 指数的增长具有规模效应递减的规律[21]㊂排名第5的姜春林和排名第6的侯海燕师从刘则渊,他们的研究在某种程度上与刘则渊具有相似性㊂㊀3.2㊀高频作者合作关系分布㊀对发文量大于4的62位作者构造作者共现矩阵,然后导入UNCINET 绘制作者之间的合作关系网络图,如图3所示㊂图3中的每一个圆点代表一位高频作者,点之间的连线表示表2㊀引文分析论文作者的发文频次及排名排名作者发文量排名作者发文量1刘则渊2719颜志森62邱均平1920何佳讯63杨华1721苏新宁64赵星1322梁立明65姜春林1123李江66侯海燕1024周晓彬67滕洪松925张静海68马晓军826陈悦69王惠翔827杨思洛610袁培国828王崇德611梁永霞829王孝宁512杨中楷830徐剑513吴向东731马瑞敏514栾春娟732侯汉清515高小强733王桂清516黄晓鹂734孟连生517崔雷735彭爱东518叶鹰736王续琨5图3㊀高频作者合作网络图他们之间的合作关系,连线越粗表示他们的合作次数越多,圆点的大小表示作者的中间中心性的大小㊂中间中心性的概念是由美国社会学家弗里曼教授提出来的,他认为,处于这种位置的个人可以通过控制或者曲解信息的传递而影响群体[22]㊂一般而言,如果一个行动者处于许多交往网络路径上,可以认为此人居于重要地位,因为他具有控制其他两人之间的交往的能力,因此中间中心性测量的是行动者对资源控制的程度,是一种 控制能力 指数[23]㊂图3显示,中间中心性最大的两个节点是刘则渊和苏新宁㊂刘则渊与众多人具有合作关系,这62位高频作者中就有13位作者与刘则渊有直接或者间接的合作关系,因此刘则渊居于中㊃49㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷间中心性最高㊂值得注意的是发文量居于21位但是中间中心性却居于第2位的苏新宁㊂我们分析,苏新宁之所以具有如此高的中间中心性是因为他是南京大学中文社会科学引文索引(CSSCI )的研制者,正如加菲尔德成功研制科学引文索引(SCI )并成为国际引文分析领域的领军人物,苏新宁的CSSCI 使得他具备足够的权力影响或者支配他人,具有很强的资源控制资源的能力,因此苏新宁以仅仅6篇文章的发文量而成为仅次于发文27篇的刘则渊,就可以理解㊂而且我们认为,苏新宁在引文分析领域的中间中心性也会随着发文量的增加很迅速的扩大,其扩大速度会远远高于其他作者㊂为表示这62位高频作者对资源的控制能力,显示他们各自在引文分析领域的地位,表3列出了16位作者的中间中心度值㊁排名以及与发文量排名的比较(其他46位作者因为没有进行合作或者合作次数较少,因此中间中心度为0,排名无意义,故不予列出)㊂中间中心性排名前3名的是刘则渊㊁苏新宁㊁袁培国㊂刘则渊的排名没有变动;发文排名第2的邱均平下降为第5名;排名第3的杨华下降为第9名㊂排名上升最快的3位作者依次是王昊㊁王贤文㊁王续琨㊂王昊由发文排名的51位跃为第4位,上升至47位,应该得益于他与中心度排名第2的苏新宁建立的合作关系;王贤文㊁王续琨排名的陡升应该是他们直接或间接地与刘则渊建立的合作关系,成功地进入刘则渊合作子群体中,并且占据了子群体中的有利位置㊂4㊀研究热点与前沿分布CiteSpace Ⅱ软件能够通过绘制聚类视图和时区视图显示一个学科或知识域在一定时期发展的趋势与动向,展示若干研究前沿领域的演进历程[1]㊂对3于266篇论文的题录数据进行相应的处理,使之转化为CiteSpace Ⅱ可以处理的格式,然后导入CiteSpace Ⅱ㊂在CiteSpace 软件界面,设置 Time Scaling 的值为2,即将1981-2010年分成15个时段进行处理㊂网络节点选择author ,主题词来源选为文献标题(title )㊁摘要(abstract )㊁叙词(descriptor )和标识符(identifiers ),主题词选取为名词短语(noun phrases ),数据抽取对象为top 60(软件默认值为30,因本次研究划分2年为一个时段,故此数值设置为30*2)㊂运行CiteSpace ,得到有关引文分析领域研究前沿和高频作者共现的综合性分析图谱,如图4所示㊂其中,圆形节点代表高频作者,三角形节点代表研究热点,它们相互之间的连线代表共现㊂表3㊀高频作者的中间中心度排名及与发文排名比较排名作者between nbetween 发文排名排名上升1刘则渊39.52.15812苏新宁201.09321193袁培国15.50.8471074王㊀昊70.38351475邱均平30.1642-36赵㊀星20.1094-27栾春娟20.1091478张静海20.10925179杨㊀华20.1093-610侯海燕1.8330.16-411王续琨1.50.082362512王贤文1.1670.064493713姜春林10.0555-814陈㊀悦0.6670.036261215吴向东0.50.02713-216梁永霞0.3330.01811-5图4㊀研究热点与高频作者的共现混合网络㊀4.1㊀研究热点的分布分析㊀图谱中处于中心网络外延的三角形节点即是引文分析研究领域的研究热点,它们是: 文献计量学 ㊁ 文献计量 ㊁ 科技期刊 ㊁ 期刊 ㊁ 核心期刊 ㊁ 统计分析 ㊁ 载文分析 ㊁ 引文 ㊁ 作者分析 ㊁ 被引分析 ㊁ CSSCI 等㊂下面从引文分析的整体理论体系的角度分析引文分析的研究热点:a.从研究方法看,引文分析属于 文献计量学 的一种分析方法;b.从研究对象看,引文分析的分析对象必定是 期刊 (或 科技期刊 ㊁ 核心期刊 等);c.从原理上看,引文分析也就是对该研究主题的论文 作者 的 引文 和 被引关系 的 统计分析 ;d.从㊃59㊃㊀第6期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀邓㊀蓓,等:国内引文分析领域研究状况的可视化分析数据源看,目前国内有关文献计量学分析的论文,其数据源的选择基本上是 CNKI数据库 或 CSSCI数据库 ㊂可以看出研究热点居于整个图谱的核心位置㊂㊀4.2㊀研究前沿的作者分布㊀出现频次增长率快速增加的专业术语将被确定为研究前沿术语㊂CiteSpace 可以通过突变检测算法识别出突然涌现的专业术语㊂根据圆形节点和三角形节点的连接状况,可以判定作者的研究领域,也可界定研究前沿的代表人物㊂例如,前沿术语 网络引文 与杨思洛互连,表示在网络引文研究领域的代表人物应该是杨思洛和邱均平等人,据近期统计数据,杨思洛的网络引文的发文量排名第一,且多为水平较高的权威和核心期刊;刘则渊与姜春林㊁侯海燕㊁梁永霞等组成的研究团队则对 科学知识图谱㊁ 信息可视化 ㊁ 共被引分析 等研究前沿有着较深入的研究,他们共同撰写的‘科学知识图谱:方法与应用“一书对科学知识图谱和信息可视化做了系统的研究,并发表了很多基于知识图谱分析方法的论文,对国内科学计量学和信息可视化的发展产生了推力作用;发文量排名第4的赵星对 h指数 ㊁ 信息计量学 等研究前沿感兴趣;依据此方法我们几乎可以找到所有高频作者的研究领域,也可根据研究前沿术语锁定其代表性人物㊂我们还发现,跟研究热点居于图谱的核心位置不同,邱均平所代表的 网络引文 研究前沿㊁刘则渊代表的 信息可视化 研究前沿以及赵星所然会代表的 h指数 研究前沿均处于图谱的边缘位置,因此该图谱能较好地表现研究热点引发研究前沿的演化过程,即研究热点发展到一定程度必然会出现的新的研究热点而成为时下的研究前沿㊂因此,我们预测, 网络引文 ㊁ 科学知识图谱 ㊁ 可视化 ㊁ h指数 会成为未来引文分析研究的热点领域㊂我们还可以看到综合网络图谱的中间核心网络的外围有2个小型网络,这是引文分析研究的早期作者和研究术语构成的网络㊂其中右下角的网络是以高频作者王崇德为研究核心㊁citation analysis为研究术语所构建的㊂citation analysis即为引文分析的英文翻译,它成为引文分析研究领域的早期研究前沿,可以看出文献计量学家王崇德等人从国外引入引文分析的研究所作出的不懈努力,彰显了他们对国内引文分析研究的重要贡献和先驱作用㊂5㊀结㊀论本文以引文分析领域的3区性266篇论文进行年度发文统计发现,国内引文分析研究之初由于受到诸多因素的影响,出现明显的不稳定性,自1986年之后才开始稳步的发展㊂对论文按年进行累积数据的统计分析发现,引文分析论文的增长近似的按指数增长,基本符合普赖斯科技文献的指数增长规律,但我们发现引文分析研究论文更加符合幂函数的增长规律㊂同时我们认为国内引文分析学仍然是一门发展中学科,还远远没有达到成熟阶段㊂对3266篇论文的2052位作者进行发文量统计分析和高频作者的社会网络分析发现:a.科学计量学和文献计量学的专家学者成为引文分析领域研究的领军人物,由他们构建的研究团队占据了高频作者的前列,从而显示了引文分析方法作为科学计量学和文献计量学核心研究方法的重要性和受重视的程度㊂b.高产作者并不一定就能成为引文分析研究领域的居于重要地位的作者,或者说作者发文的高低与其处于社会关系网络中的权力地位不平衡㊂很多高产作者在影响和支配他人方面却要逊色于低发文量的作者㊂c.南京大学的苏新宁教授依靠CSSCI的成功研制具备了较强的控制资源的能力,而成为国内引文分析领域具有重要地位的作者,他也是高频作者合作关系网络图中第2关键性节点,而与他具有合作关系的王昊等人也迅速抬高自身的地位㊂因此看来,发文的高低并不唯一决定作者在引文分析研究领域的地位㊂d.与社会关系网络中的关键性作者建立合作关系,无论这种关系是直接或者是间接的,都将可以迅速提升自身在网络中地位㊂实际上,社会网络分析方法因其可视化和定量化等诸多优点而已经成为众多评价机构和管理部门在评价个人的绩效或者根据地位和关系安排任务㊁进行职务任命的普遍使用方法㊂基于以上的分析,我们发现他们的这种社会关系地位可以根据作者在关系网络图中的地位而轻易的改变㊂因此我们建议有关机构和部门在使用此种方法时,应该谨慎的对待㊂或许定量分析和定性分析相结合的方法能做出正确的决策㊂本文借助CiteSpace检测到引文分析领域的研究热点: 文献计量学 ㊁ 文献计量 ㊁ 科技期刊 ㊁ 期刊 ㊁ 核心期刊 ㊁ 统计分析 ㊁ 载文分析 ㊁ 引文 ㊁作者分析 ㊁ 被引分析 ㊁ CSSCI 等;研究前沿: 网络引文 ㊁ 科学知识图谱 ㊁ 信息可视化 ㊁ 共被引分析 ㊁ h指数 ㊁ 信息计量学 ㊂引文分析研究较好地表现为研究热点引发研究前沿的演化态势㊂运用CiteSpace提供的复杂混合网络的可视化方法,将研究前沿与作者建立对应关系,揭示国内引文分析领域的研究状况㊂我们发现,杨思洛㊁邱均平等人近年来在网络引文研究领域颇有代表性;刘则渊与姜春林㊁侯海燕㊁梁永霞也是在近年来的合作较多,而且基本可以代表国内信息可视化㊁科学知识图谱的研究前沿;赵星可㊃69㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷。
国内引文分析领域研究状况的可视化分析——基于论文数量、作者、主题词的知识图谱分析
cn r dteget otb t no uXimn - teC ieesc i cs i t nid x( S C ) idmet i t na a s . i o fme ra c n iu o fS n g - hns oi s e e ti e C S I一Ol o scca o l i W t i h r i h l a c n cao n i ti n y s h
进 行数量统计和社会 网络 分析发现 并公布 了引文分析领域 具有 重要 地位的 几位作 者 , 肯定 了中文社会科 学 引文索 引( S C ) C S I 研制者—— 苏新 宁等人 对 国内引文分析研 究的重要 贡献。借 助 Ct pc 突变检测算法检测到 引文分 i S aeI e I
析领 域的研究前 沿术语 , 并借 助 CtS ae/ i p c I提供 的复杂混合 网络 的可视 化方 法, e 将研 究前沿与作 者建立对 应关 系,
我国“微博”研究主题的共词可视化分析
( 中图分类 号]G 2 5 0 . 2 5 2 [ 文献标 识码]A [ 文章编号]1 0 0 8 —0 8 2 1( 2 0 1 3 )1 l 一0 1 0 8 —0 6
姜 鑫
( 黑龙 江大 学信 息管理 学院 ,黑 龙江 哈 尔滨 1 5 0 0 8 0 )
[ 摘 要)本文以 C N K I 数据库 中1 0 0 3 篇 国内 “ 微博 ”研 究文献为研 究对 象,运 用共 词分析方 法和社会 网络分析 方 法,以
S P S S 1 7 . 0 、U c i n e t 6 . 2和 N e t D r a w软件 为分析 工具 ,通过聚类分析 、相关分析和 K一核 分析等分析 方法 ,确定 了我 国 “ 微博 ”研
a na ly s i s
微博 ,即微博客 ( M i c o r B l o g ) ,也称 即时博 客 ,是 一个
研究文献的数量出现 了爆发式 增长 ,多个 学科 的学 者从 不
同的角度展开了大量研究 ( 见图 1 ) 。由于共词 分析 法所 研 究的是某一研究领域 当前学术 文献所 集 中关 注 的主题 ,并 且核心关键词能很好地 表现该 研究领 域的研 究 主题 与前 沿
究的 6个重要 主题 :微博传播特征 、微博传播机制 、 微 博用户特征、微博舆情传播 、微博 应用领域和微 博与传统媒体 的 比较研
究,为探析我 国微博研 究领域的研究热点和发展趋 势提供 了;社会 网络分析 ;聚类分析 ;相 关分析 ;K一 核分析
[ Ke y w o r d s ]m i c r o b l o g ;C O —w o d r a n a l y s i s ;s o c i l a n e wo t r k a n a l si y s ;c l u s t e r a n a l y s i s ;c o r r e l a i t o n a n a l y s i s ;K—c o r e
共词分析法研究共词分析的过程与方式
共词分析法研究共词分析的过程与方式一、本文概述共词分析法是一种广泛应用于信息科学、图书馆学、社会学、管理学等领域的文献计量学方法。
它通过统计和分析一组词汇在特定领域文献中共同出现的频次,揭示这些词汇之间的关联性和聚类性,从而反映该领域的热点主题、研究趋势和知识结构。
本文旨在深入探讨共词分析的过程与方式,包括数据准备、共词矩阵构建、聚类分析、结果解读等关键环节,以期为相关领域的研究者提供一套系统、实用的方法论参考。
在本文中,我们首先将对共词分析法的基本原理进行简要介绍,阐述其相较于其他文献计量学方法的独特优势。
随后,我们将详细介绍共词分析的具体步骤,包括如何从海量文献中筛选和提取关键词,如何构建共词矩阵并计算关键词之间的关联强度,以及如何运用聚类分析等统计方法对共词矩阵进行解读和可视化展示。
我们将通过实例分析,展示共词分析法在实际研究中的应用效果,并探讨其可能存在的局限性和改进方向。
通过本文的阐述,我们期望能够帮助读者更加深入地理解共词分析法的核心思想和操作步骤,掌握其在实际研究中的应用技巧,从而推动该方法在相关领域的研究中得到更广泛的应用和发展。
二、共词分析法的理论基础共词分析法是一种基于文献计量学的方法,它的理论基础主要源自信息科学、文献学和情报学等领域。
该方法通过统计和分析一组关键词或主题词在同一篇文献中共同出现的频次,来揭示这些关键词或主题词之间的关联程度,从而反映某一学科或领域的热点、结构和发展趋势。
共词分析法的理论基础主要包括词频分析理论、共现分析理论和聚类分析理论。
词频分析理论认为,关键词的出现频次能够反映其在某一学科或领域的重要性,频次越高,说明该关键词越受关注,其研究价值也越大。
共现分析理论则强调关键词之间的关联性,认为如果两个关键词在同一篇文献中频繁共现,那么它们之间就存在一定的关联或相似性。
聚类分析理论则是将共现频次较高的关键词进行聚类,形成不同的主题或研究领域,从而揭示学科或领域的结构和发展趋势。
微博用户关系可视化设计毕业设计(论文)
毕业设计(论文)指导教师职称博士讲师学生姓名学号专业网络工程班级系主任院长起止时间目录摘要 (i)Abstract (ii)第一章绪论 (1)1.1研究背景 (1)1.2研究意义 (1)1.3研究现状 (2)第二章分析与研究方法 (4)2.1研究方法 (4)2.2微博用户关系分析原理 (4)第三章微博数据获取 (6)3.1新浪微博开放平台 (6)3.1.1简介 (6)3.2数据获取 (6)3.2.1创建应用 (6)3.2.2下载软件开发包 (7)3.2.3获取数据 (8)3.3微博标签分析与特征 (14)第四章微博用户属性及用户关系研究 (16)4.1微博用户属性 (16)4.1.1用户的动机 (16)4.1.2用户的角色分类 (17)4.1.3用户的行为 (17)4.2微博用户关注情况分析 (18)4.3微博用户关系网络分析 (21)4.3.1微博用户关系间的强度分析 (27)4.3.2网络密度分析 (28)4.3.3平均路径长度与网络直径 (29)第五章总结与展望 (31)5.1总结 (31)5.2展望 (32)参考文献 (33)谢辞 (34)微博用户关系可视化设计摘要:微博用户数量的爆炸式增长使得微博用户网络更为错综复杂。
本文主要研究微博用户关系以及其可视化:通过新浪微博的官方API开放平台接口以及Python运行环境,读取特定微博用户的相关数据并进行用户关系分析;利用CSV文件存储分析结果;使用Gephi工具进行可视化输出,对用户的特征、行为活动以及整体关系结构进行直接展示,从而得到微博用户与其相关用户之间的交互“强度”,及其所在社群的可视化关系图,最终有助于用户社群的挖掘与舆情控制等。
关键字:微博用户;用户关系;可视化Visualization of Relationships between Weibo UsersAbstract: Weibo explosive growth of the number of users makes the network more complex Weibo user. The main microblogging users and their relationship herein Visualization: official Sina Weibo Open Platform API interface and Python runtime environment, read the relevant data for a specific micro-blog users and user relationship analysis; CSV file storage utilization analysis; using Gephi tools for visual output on the user's characteristics, behavior and the overall structure of a direct relationship between the display, whereby the micro-blog users and their associated user interaction between the "strength", and where the visualization diagram community ultimately contribute mining and user community control of public opinion.Keywords: weibo user;user relationship;visualization第一章绪论1.1 研究背景伴随着我国的计算机技术以及互联网技术的快速发展,2013年我国的信息化进程报告会认为我国的信息化进程已经与发达国家一同步入网络化的时代,截至2013年的6月,中国网民已经突破6亿,初步实现网络化。
我国分享经济领域热点主题的可视化研究——基于共词分析和社会网络分析
·专题研究·我国分享经济领域热点主题的可视化研究*——基于共词分析和社会网络分析张 坤1 李 晶1 王文韬1 谢阳群2(1.安徽大学管理学院 合肥 230601;2.淮北师范大学 安徽淮北 235000)〔摘 要〕 文章以中国知网数据库中分享经济相关的文献作为分析样本,对相关文献的年分布、期刊分布、高产作者合作情况和研究主题进行了梳理与分析,然后运用共词分析法和社会网络分析法统计绘制了高频关键词的可视化图谱,并对高频关键词进行了聚类分析,进而得出我国分享经济的五大研究热点主题,旨在为未来研究者研究分享经济相关问题时提供参考。
〔关键词〕 分享经济 共词分析 社会网络分析 可视化〔中图法分类号〕 G350〔引用本文格式〕 张坤,李晶,王文韬,谢阳群.我国分享经济领域热点主题的可视化研究——基于共词分析和社会网络分析[J].图书馆,2017(12):66—71* 本文系国家科学基金资助项目“差错文化、归因倾向和差错报告:作用机制和情景因素研究”(项目编号:T1273109)成果之一。
1 引言分享经济是社会信息化与经济全球化背景下兴起和发展的一种新型经济形态[1]。
随着互联网的深入发展,分享经济已经深入到人们生活的方方面面,如当下流行的ofo 单车、滴滴出行、小猪短租、春雨医生、知乎等都已经成为了人们日常生活中不可或缺的一部分。
2015年分享经济首次出现在国家出台的正式文件中;2016年分享经济成为政府工作报告的新词,并且李克强总理在政府工作报告中提出了 “支持分享经济发展”“促进分享经济发展”“ 以体制机制创新促进分享经济发展”等观点;2017年两会期间“分享经济”以提案形式再次进入公众视野。
这些都表明了中央对分享经济的看重,也体现出分享经济的重要地位。
分享经济(Sharing Economy)又被称为协同经济、共享经济,在国内更习惯的叫法是共享经济。
分享经济是指个人或者组织将一些闲置的资源,如商品、服务、知识和技能等利用互联网平台来与他人分享以获得收入的经济现象[2]。
共词分析报告
共词分析报告1. 引言共词分析(Co-occurrence Analysis)是一种文本分析方法,用于揭示词语之间的关联性和共现概率。
通过分析大量文本数据,可以找到词语之间常一起出现的模式和关系,进而帮助理解文本中的主题和语义。
本文将介绍共词分析的原理和方法,并通过一个实例进行分析和解读。
2. 共词分析原理共词分析基于词语在文本中的共现情况,通过计算词语之间的共现频率和相关性,来推断它们之间的关联性和共现概率。
常用的共词分析方法包括共现矩阵、点互信息(Pointwise Mutual Information)和相关性分析等。
2.1 共现矩阵共现矩阵是最常用的共词分析方法之一,它使用一个矩阵来记录词语在文本中的共现情况。
矩阵的行和列分别表示不同的词语,矩阵的元素表示两个词语在同一文本中同时出现的次数。
共现矩阵的构建过程包括分词、文本预处理和矩阵计算等步骤。
2.2 点互信息点互信息是一种用于衡量两个词语之间关联性的指标,它可以通过词语的共现概率来计算。
点互信息越大,表示两个词语之间的关联性越强。
点互信息公式如下:PMI(x, y) = log(P(x, y) / (P(x) * P(y)))其中,P(x, y)表示两个词语同时出现的概率,P(x)和P(y)分别表示词语x和y的出现概率。
2.3 相关性分析相关性分析是一种用于衡量词语之间相关关系的方法,它基于统计学中的相关系数来计算词语之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数等。
相关系数越接近于1,表示两个词语之间的相关性越强。
3. 共词分析方法共词分析的具体方法取决于所使用的工具和数据集。
下面介绍一种常见的基于Python的共词分析方法:3.1 分词和预处理首先,将原始文本进行分词处理,将文本拆分成一个个单独的词语。
常用的分词工具有jieba和NLTK等。
然后,对分词结果进行预处理,包括去除停用词、词干化和词形还原等。
预处理可以提高共词分析的质量和准确性。
我国档案学研究主题的知识图谱绘制_以共词分析可视化为视角_马海群
我国档案学研究主题的知识图谱绘制———以共词分析可视化为视角马海群1姜鑫2(1黑龙江大学信息资源管理中心哈尔滨150080;2黑龙江大学信息管理学院哈尔滨150080)Mapping Knowledge Domains of Archival Science Research Themesin China Based on Co-word Analysis Visualization摘要本文以CSSCI 收录的两种档案学期刊《档案学研究》和《档案学通讯》发表于2002-2012年的2704篇学术文献为研究对象,采用共词分析、社会网络分析、多元统计分析和战略坐标分析等研究方法,绘制了2002-2012年我国档案学研究主题的知识图谱,确定了我国档案学研究的16个重要研究主题及其演变趋势。
关键词档案学知识图谱共词分析社会网络分析多元统计分析战略坐标图Abstract :Based on 2,704articles published in the Archives Science Study and Archives Science Bulletin from 2002to 2012,which were embodied by the Chinese Social Science Citation Index (CSSCI),this article adopts research methods of co -word analysis,social network analysis,multivariate statistical analysis and drawing strategic diagram,and draws the knowledge domains of research themes in archival science study in China from 2002to 2012,Moreover,it determines 16important research themes and its evolution trend of archival science.Keywords :Archival science;Knowledge mapping;Co -word analysis;Social network analysis;Multivariate statistical analysis;Strategic diagramMa Haiqun 1,Jiang Xin 2(rmation Resources Management Center,Heilongjiang University,Harbin 150080;2.College of Information Management,Heilongjiang University,Harbin 150080)1引言通过绘制科学知识图谱能够将某一学科领域的研究主题及其演变趋势形象化地展现出来。
铸牢中华民族共同体意识研究现状及趋势——基于CiteSpace知识图谱可视化分析
铸牢中华民族共同体意识研究现状及趋势——基于CiteSpace知识图谱可视化分析摘要:中华民族共同体意识是指中华民族在发展进程中逐渐形成的一种意识形态,体现了对中华民族共同利益的追求和认同。
本文旨在通过运用CiteSpace知识图谱可视化分析工具,对近年来关于铸牢中华民族共同体意识的研究现状及趋势进行探讨,为进一步深化对中华民族共同体意识的认识提供参考。
一、引言中华民族是一个拥有悠久历史和灿烂文明的民族,凝聚着亿万同胞的共同血脉和文化传承。
在现代社会中,中华民族共同体意识的形成和发展对于国家的团结稳定和民族复兴具有重要意义。
本文旨在通过CiteSpace知识图谱可视化分析工具,深入研究铸牢中华民族共同体意识的现状及趋势。
二、CiteSpace知识图谱可视化分析工具介绍CiteSpace是一种通过数据挖掘和文献分析的可视化工具,能够帮助研究者发现研究领域的前沿与热点,并掌握相关研究的动态发展情况。
本文将运用该工具对铸牢中华民族共同体意识的研究进行可视化分析。
三、铸牢中华民族共同体意识研究现状通过CiteSpace分析,我们发现在过去的十年中,关于铸牢中华民族共同体意识的研究呈现出快速增长的趋势。
其中,最早的关键文献出现在2009年,随后的研究呈递增趋势。
研究主题主要聚焦在中华民族共同体意识的内涵、特点和形成机制等方面。
首先,研究者对中华民族共同体意识的内涵进行了深入剖析。
他们认为,中华民族共同体意识是中华民族的核心利益的集中体现,是中华民族凝聚力和向心力的重要基础。
同时,也探讨了中华民族共同体意识与现代化进程的关系、全球化对其影响的机制等。
其次,研究者探索了铸牢中华民族共同体意识的形成机制。
他们认为,中华民族共同体意识的形成不是一蹴而就的,而是历史的积淀和人民的共同心智。
研究中发现,历史记忆、教育体系、媒体传播和社会认同等因素对于铸牢中华民族共同体意识的形成起到了重要作用。
最后,研究者还对中华民族共同体意识的特点进行了探讨。
基于BERTopic模型的网络暴力事件衍生舆情探测
基于BERTopic模型的网络暴力事件衍生舆情探测
胡凯茜;李欣;王龙腾
【期刊名称】《情报杂志》
【年(卷),期】2024(43)7
【摘要】[研究目的]在海量用户生成内容中及时探测和剖析网络暴力事件的衍生舆情能够为舆情事件链的演化分析、同类舆情的研判介入、衍生事件的监测预警提供理论支持。
[研究方法]使用BERTopic模型对短文本内容主题建模并采用聚类的方式展示主题的潜在层次结构。
根据词向量余弦相似度设计主题衍生度的计量算法,同时融合词共现网络在文档-词语层面信息捕捉的优势以及桑基图直观演示舆情演化过程的特点,衡量主题间的影响力与衍生关系。
[研究结论]在开源数据集下多组主题模型的对照实验中,BERTopic模型在短文本建模以及下游任务的平均得分提高2.13%。
在网络暴力热点事件的应用实例中,多维细粒度分析与交互式可视化方法可达到直观展示暴力事件的主题聚类、词义关联与演化态势的效果,实现网络暴力事件衍生舆情的探测与分析。
【总页数】8页(P146-153)
【作者】胡凯茜;李欣;王龙腾
【作者单位】中国人民公安大学信息网络安全学院
【正文语种】中文
【中图分类】G350;TP393.08
【相关文献】
1.基于SEIRS传播模型的网络舆情衍生效应研究
2.基于信息异化理论的网络衍生舆情演化规律及对策研究——以网络谣言治理为例
3.基于江苏省某市护士遭受工作场所暴力事件的网络舆情调查
4.面向突发事件的网络衍生舆情预警模型与实证研究
5.基于分型插值模型与BP神经网络模型的舆情预测对比分析
——以水污染微博舆情为例
因版权原因,仅展示原文概要,查看原文内容请购买。
我国图书情报界PIS研究的共词可视化分析
h o o is h e eo me ta de ou o rn fP S teh ttpc 。ted v lp n n v lt nte d o I . i
Ke r s p ro a ie n o ma o r ie l rr d i f r a o c e c c -wo d a a y i sr t gc d a r m s c a e wo k y wo d e s n z d i f r t n s v c i a y a n o l i e b n m t n s in e i o r l ss tae i i g a n o i n t r l
2 0 n 0 6— 01 ro s h sp p rd a e s i n i c ma a e n t e v s a ia i n me o s o o- r a y i .sr t gc d a 0 5 a d 2 0 2 1 p id .t i a r ws t e t p b s d o h iu z t t d f c wo d a l ss t e i i- e e h c i f l o h n a g a a d s c a e wo k-r s e tv l r m o i ln t r n e p c ey。wi h o sofBi e c 1 PS i h t t e tol b x e .S S-Ucn ta d Ned e i e n t r w.Th n wld e m a b u e t i e k o e g p a o tt wo s h x—
第3 l卷
第 8期
情
报
杂
志
21 0 2年 8月
J OURNAL OF I NTEL I L GENCE
特岗教师研究热点共词可视化分析
作者简介:李翔宇(1995-),男,河南安阳人,陕 西 师 范 大 学 教 育 学 院 2018 级 高 等 教 育 学 硕 士 研 究 生,研 究 方 向:高 等 教 育 原 理;曹冬瑞(1996-),女,河南南阳人,陕西师范大学教育 学 院 2018 级 高 等 教 育 学 硕 士 研 究 生,研 究 方 向:高 等 教 育 原理.
现代商贸工业 2019年第 35 期 87
劳动经济
表 1 28 个 高 频 关 键 词 排 序
序号 1 2 3 4 5 6 7 8 9 10
关键词 特岗教师 特岗计划 专业发展 对策 农村教育 调查研究 现状 职业认同 农村 农村特岗教师
设岗位计划”,简称“特岗计划”.自 此,“特 岗 教 师”作 为 特岗计划的主 体,被 社 会 所 广 泛 认 知,对 特 岗 教 师 的 研 究也受到了学界的广泛关注和高度重视.十多 年 来,相 关学者对我国特岗教师研究的发展历史采用总结性的 文字描述等方法 进 行 了 梳 理 回 顾. 魏 建 徽 (2010)从 取 得成效与存在问题两方面对特岗教师进行了回顾并作 出了展望;王中华(2016)不仅将 我 国 特 岗 教 师 的 研 究 分 为了起步、发展、繁荣和深化四个阶段,还从 特 岗 教 师 的 不同研究视角进行了回顾分析;刘 佳(2017)从 特 岗 教 师 政策、具体成效与现实困境等方面对特岗教师进行了 梳 理回顾,并指出了其未来的发展方向.但是这些 都 是 基 于文字性描述的传统资料性综述,难以真正展现出特 岗 教师研究主题之间存在的隐性关联.共词分析和知识 图谱等文献计量法可以通过定量的数据较客观地反映 特岗教师研究的基本状况,避免了以往文献研究法偏 于 基于经验、定 性 归 纳、过 于 主 观 的 问 题.为 了 我 国 特 岗 教师事业更好更快地发展并探寻我国特岗教师的发展 方向,有必要运 用 文 献 计 量 的 知 识 图 谱 分 析 法,梳 理 和 把握我国特岗教师的研究和走向,归纳其主要研究领 域 和 热 点 ,展 望 我 国 特 岗 教 师 研 究 的 未 来 拓 展 领 域 .
基于CiteSpace的公共体育服务研究可视化分析
基于CiteSpace的公共体育服务研究可视化分析作者:姜佳昕松梅关哈福特王萍来源:《哈尔滨体育学院学报》2022年第01期摘要:本文以2009—2020年中國知网(CNKI)收录的1010篇公共体育服务为主题研究的核心期刊、CSSCI期刊文献为研究对象,利用CiteSpace V绘制知识图谱,对我国公共体育服务研究现状和热点进行量化归纳解读。
结果显示:近年来我国公共体育服务领域研究发文量总体呈波浪式持续增长的态势,上海体育学院、苏州大学、北京体育大学等已成为该领域的重要研究聚集地并已形成几大高发文量作者群,但作者间合作多停留在同事与师生层面,合作的广度与深度急需拓展;我国公共体育服务的研究热点问题主要集中在“公共体育服务概念”“供给模式”“体系”“均等化”“政府购买公共体育服务”等相关议题。
建议:拓展研究视角,聚焦动态需求;丰富研究方法,提升成果质效;创新研究内容,加深跨界融合,以期更为准确、全面地认识和把握公共体育服务发展状态,为未来我国公共体育服务的发展提供有关参考。
关键词:公共体育服务;动态;热点;科学知识图谱;可视化中图分类号:G80-05 文献标识码:A文章编号:1008-2808(2022)01-0054-08Abstract:This paper takes 1010 core sports journal and CSSCI journal literatures on the theme of public sports services collected by China Knowledge Network (CNKI) from 2009 to 2020 as research objects. Using CiteSpace V to chart a knowledge map and launch a quantitative inductive interpretation on the current status and hotspots of public sports service research. The findings are concluded that the amount of research and publications in the field of public sports services in China has continued to increase in a wave-like manner in the past few years. Shanghai Sport University,Soochow University, Beijing Sport University, etc. have become important research gathering places in this field and have formed several high-volume author groups, but the cooperation between authors mostly stays at the level of colleagues and teachers and students. The breadth and depth of cooperation are urgently needed expand. Hot issues mainly focus on related concepts such as “public sports service concept”,“supply mode”,“system”,“equalization”,and “government purchase of public sports services”. Suggestions: Expand the research perspective and focus on dynamic needs; increase the proportion of quantitative research; deepen cross-border integration and achieve innovation. This paper is aimed to grasp more accurately and more comprehensively the development status and provide relevant references for the future development of public sports services in China.Key words:Public sports services; Dynamics; Hotspots; Scientific knowledge map; Visualization2019年末,国家颁布《促进全民健身和体育消费推动体育产业高质量发展意见》,文件内容紧扣时代主题,要求提高对全民健身推动国民身体素质的重视程度,并增强对作为全民健身基础的公共体育服务工作的水平,从增加供给到促进消费两方面发力,通过推进公共体育场馆开放时间延长、加大全民健身设施建设、制定政府购买公共体育服务目录和标准等方式,有针对性地为人民群众提供体育健身项目和体育指导服务。
我国
我国 “微博” 研究主题的共词可视化分析作者:姜鑫来源:《现代情报》2013年第11期〔摘要〕本文以CNKI数据库中1 003篇国内“微博”研究文献为研究对象,运用共词分析方法和社会网络分析方法,以SPSS 17.0、Ucinet 6.2和NetDraw软件为分析工具,通过聚类分析、相关分析和K-核分析等分析方法,确定了我国“微博”研究的6个重要主题:微博传播特征、微博传播机制、微博用户特征、微博舆情传播、微博应用领域和微博与传统媒体的比较研究,为探析我国微博研究领域的研究热点和发展趋势提供了参考。
〔关键词〕微博;共词分析;社会网络分析;聚类分析;相关分析;K-核分析DOI:10.3969/j.issn.1008-0821.2013.11.024〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2013)11-0108-06微博,即微博客(MicroBlog),也称即时博客,是一个基于用户关系的信息分享、传播以及获取平台,具有微内容、微形式、微成本等特性和优势,已成为Web2.0时代深受欢迎的新型媒体[1]。
2013年1月15日发布的《中国互联网络发展状况统计报告》显示,截至2012年12月底,中国微博用户规模已达3.09亿,比2011年年底增长了5 873万[2]。
作为互联网发展过程中少有的以内容为核心价值的产品,微博被认为是互联网信息传播最重要的新渠道[3]。
在相当短的时间内,微博已经从影响个人生活延伸到推动信息传播,甚至社会变革的层面。
伴随着国内微博应用的蓬勃发展和微博用户的迅猛增长,有关微博的研究主题也日益受到学术界的关注。
我国的“微博”研究文献最早出现于2007年,直到2009年以后研究文献的数量出现了爆发式增长,多个学科的学者从不同的角度展开了大量研究(见图1)。
由于共词分析法所研究的是某一研究领域当前学术文献所集中关注的主题,并且核心关键词能很好地表现该研究领域的研究主题与前沿演变,因而比较适合探讨新兴研究领域的研究热点、知识结构及其发展趋势[4]。
基于语义共现图的中文微博新闻话题识别
基于语义共现图的中文微博新闻话题识别王路路;郑涛;程倩倩;姬东鸿【期刊名称】《计算机工程与应用》【年(卷),期】2014(000)017【摘要】A method of news topics detection from large-scale short postsof microblogs is proposed. The TF-IDF, the doc-ument frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment. A semantic co-occurrence graph is build by co-occurrence degrees of keywords, each unconnected clus-ter in a semantic co-occurrence graph is taken as a news topic. Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.%提出一种在大规模微博短文本数据集中自动发现新闻话题的方法。
该方法在微博数据预处理之后,综合TF-IDF、文档频率增长率和命名实体识别等几个因素抽取微博数据中的主题词。
根据主题词之间的语义关系来构建主题词的语义共现图,计算出语义共现图的连通子图,把每个不连通的簇集看成一个新闻话题。
在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。
该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2013-07-16基金项目:本文系黑龙江省哲学社会科学研究规划项目“微博信息传播及其应用的实证研究”(项目编号:12E091)和黑龙江省教育厅人文社会科学研究项目“微博信息传播及其应用的实证研究”(项目编号:12532259)研究成果之一。
作者简介:姜 鑫(1980-),女,讲师,硕士,研究方向:科学计量学。
·信息计量学研究与应用·我国“微博”研究主题的共词可视化分析姜 鑫(黑龙江大学信息管理学院,黑龙江哈尔滨150080)〔摘 要〕本文以CNKI 数据库中1003篇国内“微博”研究文献为研究对象,运用共词分析方法和社会网络分析方法,以SPSS 17.0、Ucinet 6.2和NetDraw 软件为分析工具,通过聚类分析、相关分析和K -核分析等分析方法,确定了我国“微博”研究的6个重要主题:微博传播特征、微博传播机制、微博用户特征、微博舆情传播、微博应用领域和微博与传统媒体的比较研究,为探析我国微博研究领域的研究热点和发展趋势提供了参考。
〔关键词〕微博;共词分析;社会网络分析;聚类分析;相关分析;K -核分析DOI :10.3969/j .issn .1008-0821.2013.11.024〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2013)11-0108-06A Co -word Analysis of Microblog Research Themes in ChinaJiang Xin(College of Information Management ,Heilongjiang University ,Har bin 150080,China )〔Abstract 〕Based on 1003Chinese research papers on microblog from CNKI database ,with the method of co -word analy -sis and social network analysis ,this paper identified six main research themes :microblog propagation characteristics ,microblog transmission mechanism ,microblog user characteristics ,microblog public opinion dissemination ,microblog application areas ,and making comparative studies with conventional media through cluster analysis ,correlation anal ysis and K -core analysis .〔Key words 〕microblog ;co -word analysis ;social network analysis ;cluster analysis ;correlation analysis ;K -core analysis 微博,即微博客(MicroBlog ),也称即时博客,是一个基于用户关系的信息分享、传播以及获取平台,具有微内容、微形式、微成本等特性和优势,已成为Web2.0时代深受欢迎的新型媒体[1]。
2013年1月15日发布的《中国互联网络发展状况统计报告》显示,截至2012年12月底,中国微博用户规模已达3.09亿,比2011年年底增长了5873万[2]。
作为互联网发展过程中少有的以内容为核心价值的产品,微博被认为是互联网信息传播最重要的新渠道[3]。
在相当短的时间内,微博已经从影响个人生活延伸到推动信息传播,甚至社会变革的层面。
伴随着国内微博应用的蓬勃发展和微博用户的迅猛增长,有关微博的研究主题也日益受到学术界的关注。
我国的“微博”研究文献最早出现于2007年,直到2009年以后研究文献的数量出现了爆发式增长,多个学科的学者从不同的角度展开了大量研究(见图1)。
由于共词分析法所研究的是某一研究领域当前学术文献所集中关注的主题,并且核心关键词能很好地表现该研究领域的研究主题与前沿演变,因而比较适合探讨新兴研究领域的研究热点、知识结构及其发展趋势[4]。
可见,我国的“微博”研究就属于这样的新兴研究领域。
1 数据来源与研究方法1.1 数据来源本文使用的数据来自于《中国期刊全文数据库(CN -KI )》,检索条件为:“题名=微博或者题名=微型博客或者题名=Twitter ”;文献来源为“核心期刊”;检索数据图1 2008-2012年我国“微博”研究核心期刊载文量逐年分布图库为“中国学术期刊网络出版总库”;检索时间为:2012年10月8日;共计检索出1069篇文献,删除通知、简讯、评论等不相关的非学术文献,共计得到1003篇国内“微博”研究文献。
1.2 研究方法共词分析(Co-word Analysis)的思想来源于文献计量学的引文耦合与共被引概念,当两个关键词同时出现在一篇文献中时,则称这两个关键词存在共现关系(co-occur-rence)。
共词分析的主要前提假设是:文献的关键词能够代表文献研究内容的主题,如果两个关键词共同出现在许多文献中,不仅表明这些文献的内容是关联的,而且表明这类关键词之间的“距离”也是接近的。
利用相关分析和聚类分析等统计分析方法,可以进一步按照这种“距离”将一个学科领域内的核心关键词加以分类,从而归纳出该学科领域的研究热点与知识结构。
利用近年来兴起的社会网络分析方法,可以将关键词共现网络直接展现出来,通过对关键词二值网络进行K-核分析,也可以辅助确定该学科领域内的核心关键词。
2 数据处理与结果分析2.1 数据处理在上述1003篇文献中共计出现了2823个关键词,从中选取词频≥7的高频关键词85个(见表1)。
表1 我国“微博”研究论文的高频关键词表高频词词频高频词词频高频词词频高频词词频传统媒体168舆 情19信息公开13传播效果8信息传播76舆论引导18实名认证13即时通讯8博 客67大学生18大众传播12读 者8受 众56社会网络18传播学12用户关系8新媒体50政府部门17新闻媒体12传播形态8新浪微博49新闻传播17公共领域12新闻周刊8信息发布42思想政治教育17公信力12社会舆论8粉 丝38主流媒体16新闻线索11两 会8微博用户37舆论监督16新闻事件11人际传播8微博营销35微博问政16社会化11平面媒体8意见领袖33Twitter16公共事件11媒介素养8记 者30网络舆论16关注度11媒介融合8谣 言29政府机构15政治参与10直 播7互动性27社会管理15表达自由10盈利模式7突发事件26政府官员15传播者10言论自由7传播方式25报 纸15领导干部10信息发布平台7政务微博24用户数14政务公开9新闻生产7图书馆23虚假信息14影响力9手机短信7碎片化23传播模式14信息服务9实证研究7网络媒体22门户网站14电视媒体9新闻报道20话语权14金 庸9转 发19议程设置13获取信息9 分别统计这85个高频关键词在1003篇文献中共同出现的次数,得到一个85×85的高频关键词共现关系矩阵Z ij,其中z ij表示关键词i与关键词j共同出现的次数,主对角线上的元素表示每个关键词的词频(见表2)。
然后采用Salton指数法进一步将原始共词矩阵(co-word matrix)转换为相关矩阵(correlation matrix)(见表3)。
Salton指数法的计算公式是:S=N ij/(N i×N j)1/2,其中N i、N j分别表示关键词i和关键词j的词频,N ij表示关键词i与关键词j的共现频次。
表2 高频关键词共现矩阵(部分)传统媒体信息传播博客受众新媒体新浪微博信息发布粉丝传统媒体16835234133122619信息传播3576211594144博客232167667155受众411565612388新媒体339612560555新浪微博1247354958信息发布261415855427粉丝1945858738表3 高频关键词相关矩阵(部分)传统媒体信息传播博客受众新媒体新浪微博信息发布粉丝传统媒体1.00000.30970.21680.42270.36010.13230.30950.2378信息传播0.30971.00000.29430.22990.14600.06550.24780.0744博客0.21680.29431.00000.09800.12090.26180.09430.3766受众0.42270.22990.09801.00000.22680.05730.16500.1734新媒体0.36010.14600.12090.22681.00000.10100.10910.1147新浪微博0.13230.06550.26180.05730.10101.00000.11020.1854信息发布0.30950.24780.09430.16500.10910.11021.00000.1752粉丝0.23780.07440.37660.17340.11470.18540.17521.0000 将高频关键词共现矩阵Z ij 导入社会网络分析软件Ucinet 6.2(将主对角线上的元素全部替换为0),然后通过Ucinet 的绘图软件工具Netdraw 直接展现原始共词矩阵中关键词之间的共现关系(见图2)。
图2 我国“微博”研究论文的高频关键词共现网络图谱2.2 结果分析2.2.1 K -核分析通过对高频关键词二值矩阵进行K -核分析有助于确定该研究领域内的核心-边缘关键词[5]。
K -核(K -core )是一个建立在节点度数基础上的凝聚子群概念,K -核的定义是:对于所有的节点n i ∈N s 来说,如果d s (i )≥k ,则称子图G s 是K -核,其中d s (i )是指与节点n i 相邻接的节点数[6]。
一个K -核是一个最大子图,其中每个节点都至少与其它k 个节点邻接,即K -核中所有节点的度数都至少为k [7]。
在原始共词矩阵中非零元素的平均值约为2.44,因而将共现频次的阀值设定为2,在Ucinet 6.2中沿着“Transform ※Dichotomize ”路径,将原始共词矩阵(co -word matrix )转换为二值矩阵(binary matrix ),在Netdraw 中沿着“Analysis ※K -cores ”路径对二值矩阵进行K -核分析,分析结果如图3所示。