科研文献的可视化分析(Citespace)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Citespace是一款应用于科学文献中识别并显示科学 发展新趋势和新动态的软件。 •利用Citespace寻找某一学科领域的研究进展和当前 的研究前沿,及其对应的知识基础。
17
一些概念
❖ 研究前沿(Research Fronts): ❖ 研究前沿系指临时形成的某个研究课题及其基础研究问题的
概念组合,也是正在兴起或突然涌现的理论趋势和新主题, 代表一个研究领域的思想现状。 ❖ 在CiteSpace中,采用Kleinberg的突变检测算法来确定研 究前沿中的概念,基本原理是统计相关领域论文的标题、摘 要、系索词和文献记录的标识符中词汇频率,根据这些词的 词频增长率来确定哪些是研究前沿的热点词汇。根据这些术 语在同一篇文章中共同出现的情况进行聚类分析后,可以得 到“研究前沿术语的共现网络”。
史。引文年轮的
颜色代表相应的
引文时间。一个
年轮的厚度与某
个时间分区内
引文数量成比例。
节点中心旁的数
字代表整个时间
跨度内的被引次
数
42
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择 共引文章的合并网络
显示
可视检测
验证关键点
视图选项
显示各时间切 片的网络
43
显示合并网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
•确定关键词和专业术语
•收集数据
•提取研究前沿术语
•时区分割
•阀值选择
•精简和合并
•显示
•可视检测
•验证关键点
24
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
•运用尽可能广泛的专业术语来确定一个知识领域。这 是为了确保接下来的分析能涵盖一个知识领域的全部 内容。 •Example:纳米生物技术nanobiotechnolog 数据源:SCIE 检索策略: Top ic = ( nanobiotechnolog* ) AND Year Published= all
科研文献的信息分 析讲座之二
科技文献的可视化 分析
韩冬丽
厦门大学图书馆 生物及医学学科馆员 dlhan@
1
科研工作的基础文献信息素养
Google Wave Mendeley zotero
mindmanager
信息 素养
了解图书馆资源 检索基本知识 常用数据库 RSS订阅
RefViz Quosa Citespace Publish or Perish
❖ “突现”词可以展现知识领域的研究前沿和发展趋势。通过 生成共引文献网络以及施引文献主题词的共词网络,即得到 一个由这两个网络共同构成的共引与共词混合网 络 (hybridnetwork ofcitedartieleandeitingterms)图谱, 可以展示出学科知识领域的重要被引文献以及由施引文献主 题词所表达的重要研究领域或其前沿趋势。
Data Visualization
Scientific Visualization
Information Visualization
Information Visualization
2010’s
Knowledge Visualization
mapping knowledge domains
5
1、 科学知识图谱(mapping knowledge domains )
阀值选择
数据的导入
1 4
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
2 3
31
引文题目、摘要、系索词(descriptors,标 引主题的单元词或词组)和标识符
名词性术语
突发词
提取研究前沿术语
32
确定主题词和专业术语 阀值选择
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
36
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
节点选择
显示
可视检测
可视检测——节点类型的选择
合著机构
共现词
合著作者
合著国别
共现关键词
验证关键点
共现目录
共引文献 (DCA)
共引作者 (ACA)
共引杂志 (JCA)
资助基金 相关文献
37
节点类型的选择
❖ 可以选择单独的节点,生成单一网络 ❖ 也可以选择多个节点,生成混合网络
Endnote X4 Mendeley NoteExpress
2
主要内容
❖一、可视化分析 ❖二、 Citespace ❖三、 Publish or Perish ❖四、文献信息综合分析实例
3
信息世界的三个基本元素
Data Information Knowledge
4
三个基本可视化的形式
1980’s 1990’s 2000’s
25
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
目前citespace数据主要来源于web of science 。 1、用步骤1确定的关键词wos上进行检索。
26
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点47三、 Pblish or Perish
❖ Publish or Perish简介 − 一款文献检索及分析软件 − 基于Google Scholar获取原始引文信息 − 提供作者影响分析 − 文献及杂志的影响因子分析
❖ 软件的作者 Anne-Wil Harzing 教授 下载地址 /pop.html
38
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
C引文数量、CC共被引频次、CCV共 被引系数三个层次设定阀值,其余的 由线性内插值决定。
39
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
共被引文献和关键词混 合网络
7
2、面向科研领域
1.ArnetMiner:科研合作网的专家检索系统 网址:/ ❖ 主要面向研究社会网络的各种特征,提供在线的作
者资料检索,是相关领域及合作关系挖掘软件。 ❖ 可以很好地找出领域专家、作者从事的领域、合作
团体等。该软件偏重于对单个作者信息的检索和挖 掘,对领域专家和科研评价都有比较好的效果。
1 2
3
从数据的引文题目、摘要、系索词 (descriptors,标引主题的单元词或词组)和标 识符中检索N元文法(n-grams)或专业术语,出 现频次增长率快速增加的专业术语被确定为研 33 究前沿术语。
提取研究前沿术语
❖ 软件提供了词频增长检测 (burstdetection)算法,该算法 主要通过考察词频的时间分布,将那些频次变化率高、频次 增长速度快的“突发词”(bstterm)从大量题录的常用词中 检测出来,用词频的变动趋势,而不仅仅是词频的高低,来 分析科学的前沿领域和发展趋势。
阀值选择 ★共引文章的合并网络
显示
可视检测
验证关键点
44
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
★经pathfinder裁剪的个体共引网的合并网络
验证关键点
修剪选项
关键路径和最小生成 树算法
对各时间切片的个体共 被引网络修剪或合并网 络修剪
45
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
❖ 根据引文半衰期的明显不同,科学文献可分为:
❖ 经典文献(classic articals):持续高被引的文献
❖ 过渡文献(transient articals):在短暂时间内达到被引峰 值的文献
❖ 科研前沿——过渡文献
❖ 知识基础——这些过渡文献的引文
19
❖ CiteSpace研究的三个网络 ❖ “研究前沿术语的共现” ❖ “知识基础文章的同被引” ❖ “研究前沿术语引用知识基础文章”(过渡文献引用经典文
18
❖ 知识基础(Intellective Base):
❖ 即含有研究前沿术语词汇的文献的引文,实际上它们反映的 是研究前沿中的概念在科学文献中的吸收利用知识的情况。 对这些引文也可以通过它们同时被其他论文引用的情况进行 聚类分析,即同被引聚类分析,最后形成了一组被研究前沿 所引用的科学出版物的演进网络,即“知识基础文献的同被 引网络”。
1、用步骤1确定的关键词wos上进行检索。
27
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
1、下载数据,包括题目、摘要和被引文献。每个文献 记录代表一篇引文(citing article),在每条记录中的 参考文献被称为被引文献(Cited article)
48
Publish or Perish 的界面
34
确定主题词和专业术语 阀值选择
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
35
时间切片
❖ 采取分治法,时间间隔被分成很多时间段,每个时间段都能形 成一个独立的共引网络。再将单独网络按时间序列合并在一 起,从合并网络的可视化图谱上显示出了相邻时间段的主要 变化,进而找出学科领域的关键文献,探寻出图谱中重要的 节点、中心点、关键点等。从而对学科演进的关键路径和学 科发展脉络进行清晰的梳理,探测学科知识领域在发展演进 过程中的动力因素和背景。
8
主题搜索 专家搜索
两人间关系搜索
9
排名字段
10
11
12
13
14
2. CiteSpace:专门针对科研文献数据设计的可视化 分析软件
/cchen/citespace/
❖ 分析、挖掘和可视科研文献数据的应用软件,通过 引文分析和聚类分析寻找研究热点及趋势,并以可 视化的方式展示。
6
常用可视化分析挖掘工具
❖ 面向科研评价领域 ArnetMiner ;CiteSpace ;PaperLens ;TDA:
Thomson data analysis ❖ 面向全领域 The Network Workbench(NWB);IVC;CNetMiner ;
D-Dupe ❖ 面向社会科学领域:UCINET社群网络分析挖掘软件 ❖ 面向功能专题的工具 CFinder ;C-Group ;KrackPlot
阀值选择
显示
可视检测
★经pathfinder裁剪的个体共引网的合并网络
验证关键点
46
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
在citespace软件应用的基础文献中,软件作者认为, 关键点的本质可以通过两条途径来确认:1、将关键点 文章的作者视为该领域的专家,咨询;2、对关键点文 章的引用和被引用的段落进行内容分析。
献)
20
Citespace的工作原理图
21
开机
是否安 装
JAVA
否
下载JAVA 并安装
Citespace的安装
进入网站: 是 /~cchen/
citespace/ OR 离线开启
22
Citespace的安装
23
Citespace的操作步骤
3. TDA:Thomson data analysis基于文本信息的 分析和可视化工具,提供强大的可视搜索和挖掘功 能 /products/tda / 功能全面,涉及检索、分析、统计、可视化等各 15
二、 Citespace
16
什么是citespace?
聚类显示和时间线显示
40
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
Timeline
41
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
某单个时区的引文 被引频次
首次共被引年份
时间区分
出版年代
引文年环代表这
篇文章的引文历
❖ 科学知识图谱是可视化显示知识资源及其关联的一种图形, 可以绘制、挖掘、分析和显示知识间的相互关系。有助于了 解和预测科学前沿和动态,挖掘开辟新的未知领域。
❖ 基本原理:分析单位(科学文献、科学家、关键词等)的相 似性分析和测度。
❖ 基本方法:引文分析、共被引分析、聚类分析、词频分析、 社会网络分析
28
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
1、以文本形式保存
可视检测
验证关键点
29
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
1、文件必须以Download开头
验证关键点
Download_xx.txt格式
30
确定主题词和专业术语
17
一些概念
❖ 研究前沿(Research Fronts): ❖ 研究前沿系指临时形成的某个研究课题及其基础研究问题的
概念组合,也是正在兴起或突然涌现的理论趋势和新主题, 代表一个研究领域的思想现状。 ❖ 在CiteSpace中,采用Kleinberg的突变检测算法来确定研 究前沿中的概念,基本原理是统计相关领域论文的标题、摘 要、系索词和文献记录的标识符中词汇频率,根据这些词的 词频增长率来确定哪些是研究前沿的热点词汇。根据这些术 语在同一篇文章中共同出现的情况进行聚类分析后,可以得 到“研究前沿术语的共现网络”。
史。引文年轮的
颜色代表相应的
引文时间。一个
年轮的厚度与某
个时间分区内
引文数量成比例。
节点中心旁的数
字代表整个时间
跨度内的被引次
数
42
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择 共引文章的合并网络
显示
可视检测
验证关键点
视图选项
显示各时间切 片的网络
43
显示合并网络
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
•确定关键词和专业术语
•收集数据
•提取研究前沿术语
•时区分割
•阀值选择
•精简和合并
•显示
•可视检测
•验证关键点
24
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
•运用尽可能广泛的专业术语来确定一个知识领域。这 是为了确保接下来的分析能涵盖一个知识领域的全部 内容。 •Example:纳米生物技术nanobiotechnolog 数据源:SCIE 检索策略: Top ic = ( nanobiotechnolog* ) AND Year Published= all
科研文献的信息分 析讲座之二
科技文献的可视化 分析
韩冬丽
厦门大学图书馆 生物及医学学科馆员 dlhan@
1
科研工作的基础文献信息素养
Google Wave Mendeley zotero
mindmanager
信息 素养
了解图书馆资源 检索基本知识 常用数据库 RSS订阅
RefViz Quosa Citespace Publish or Perish
❖ “突现”词可以展现知识领域的研究前沿和发展趋势。通过 生成共引文献网络以及施引文献主题词的共词网络,即得到 一个由这两个网络共同构成的共引与共词混合网 络 (hybridnetwork ofcitedartieleandeitingterms)图谱, 可以展示出学科知识领域的重要被引文献以及由施引文献主 题词所表达的重要研究领域或其前沿趋势。
Data Visualization
Scientific Visualization
Information Visualization
Information Visualization
2010’s
Knowledge Visualization
mapping knowledge domains
5
1、 科学知识图谱(mapping knowledge domains )
阀值选择
数据的导入
1 4
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
2 3
31
引文题目、摘要、系索词(descriptors,标 引主题的单元词或词组)和标识符
名词性术语
突发词
提取研究前沿术语
32
确定主题词和专业术语 阀值选择
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
36
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
节点选择
显示
可视检测
可视检测——节点类型的选择
合著机构
共现词
合著作者
合著国别
共现关键词
验证关键点
共现目录
共引文献 (DCA)
共引作者 (ACA)
共引杂志 (JCA)
资助基金 相关文献
37
节点类型的选择
❖ 可以选择单独的节点,生成单一网络 ❖ 也可以选择多个节点,生成混合网络
Endnote X4 Mendeley NoteExpress
2
主要内容
❖一、可视化分析 ❖二、 Citespace ❖三、 Publish or Perish ❖四、文献信息综合分析实例
3
信息世界的三个基本元素
Data Information Knowledge
4
三个基本可视化的形式
1980’s 1990’s 2000’s
25
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
目前citespace数据主要来源于web of science 。 1、用步骤1确定的关键词wos上进行检索。
26
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点47三、 Pblish or Perish
❖ Publish or Perish简介 − 一款文献检索及分析软件 − 基于Google Scholar获取原始引文信息 − 提供作者影响分析 − 文献及杂志的影响因子分析
❖ 软件的作者 Anne-Wil Harzing 教授 下载地址 /pop.html
38
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
C引文数量、CC共被引频次、CCV共 被引系数三个层次设定阀值,其余的 由线性内插值决定。
39
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
共被引文献和关键词混 合网络
7
2、面向科研领域
1.ArnetMiner:科研合作网的专家检索系统 网址:/ ❖ 主要面向研究社会网络的各种特征,提供在线的作
者资料检索,是相关领域及合作关系挖掘软件。 ❖ 可以很好地找出领域专家、作者从事的领域、合作
团体等。该软件偏重于对单个作者信息的检索和挖 掘,对领域专家和科研评价都有比较好的效果。
1 2
3
从数据的引文题目、摘要、系索词 (descriptors,标引主题的单元词或词组)和标 识符中检索N元文法(n-grams)或专业术语,出 现频次增长率快速增加的专业术语被确定为研 33 究前沿术语。
提取研究前沿术语
❖ 软件提供了词频增长检测 (burstdetection)算法,该算法 主要通过考察词频的时间分布,将那些频次变化率高、频次 增长速度快的“突发词”(bstterm)从大量题录的常用词中 检测出来,用词频的变动趋势,而不仅仅是词频的高低,来 分析科学的前沿领域和发展趋势。
阀值选择 ★共引文章的合并网络
显示
可视检测
验证关键点
44
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
★经pathfinder裁剪的个体共引网的合并网络
验证关键点
修剪选项
关键路径和最小生成 树算法
对各时间切片的个体共 被引网络修剪或合并网 络修剪
45
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
❖ 根据引文半衰期的明显不同,科学文献可分为:
❖ 经典文献(classic articals):持续高被引的文献
❖ 过渡文献(transient articals):在短暂时间内达到被引峰 值的文献
❖ 科研前沿——过渡文献
❖ 知识基础——这些过渡文献的引文
19
❖ CiteSpace研究的三个网络 ❖ “研究前沿术语的共现” ❖ “知识基础文章的同被引” ❖ “研究前沿术语引用知识基础文章”(过渡文献引用经典文
18
❖ 知识基础(Intellective Base):
❖ 即含有研究前沿术语词汇的文献的引文,实际上它们反映的 是研究前沿中的概念在科学文献中的吸收利用知识的情况。 对这些引文也可以通过它们同时被其他论文引用的情况进行 聚类分析,即同被引聚类分析,最后形成了一组被研究前沿 所引用的科学出版物的演进网络,即“知识基础文献的同被 引网络”。
1、用步骤1确定的关键词wos上进行检索。
27
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
1、下载数据,包括题目、摘要和被引文献。每个文献 记录代表一篇引文(citing article),在每条记录中的 参考文献被称为被引文献(Cited article)
48
Publish or Perish 的界面
34
确定主题词和专业术语 阀值选择
收集数据 提取研究前沿术语 时区分割
显示
可视检测
验证关键点
35
时间切片
❖ 采取分治法,时间间隔被分成很多时间段,每个时间段都能形 成一个独立的共引网络。再将单独网络按时间序列合并在一 起,从合并网络的可视化图谱上显示出了相邻时间段的主要 变化,进而找出学科领域的关键文献,探寻出图谱中重要的 节点、中心点、关键点等。从而对学科演进的关键路径和学 科发展脉络进行清晰的梳理,探测学科知识领域在发展演进 过程中的动力因素和背景。
8
主题搜索 专家搜索
两人间关系搜索
9
排名字段
10
11
12
13
14
2. CiteSpace:专门针对科研文献数据设计的可视化 分析软件
/cchen/citespace/
❖ 分析、挖掘和可视科研文献数据的应用软件,通过 引文分析和聚类分析寻找研究热点及趋势,并以可 视化的方式展示。
6
常用可视化分析挖掘工具
❖ 面向科研评价领域 ArnetMiner ;CiteSpace ;PaperLens ;TDA:
Thomson data analysis ❖ 面向全领域 The Network Workbench(NWB);IVC;CNetMiner ;
D-Dupe ❖ 面向社会科学领域:UCINET社群网络分析挖掘软件 ❖ 面向功能专题的工具 CFinder ;C-Group ;KrackPlot
阀值选择
显示
可视检测
★经pathfinder裁剪的个体共引网的合并网络
验证关键点
46
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
在citespace软件应用的基础文献中,软件作者认为, 关键点的本质可以通过两条途径来确认:1、将关键点 文章的作者视为该领域的专家,咨询;2、对关键点文 章的引用和被引用的段落进行内容分析。
献)
20
Citespace的工作原理图
21
开机
是否安 装
JAVA
否
下载JAVA 并安装
Citespace的安装
进入网站: 是 /~cchen/
citespace/ OR 离线开启
22
Citespace的安装
23
Citespace的操作步骤
3. TDA:Thomson data analysis基于文本信息的 分析和可视化工具,提供强大的可视搜索和挖掘功 能 /products/tda / 功能全面,涉及检索、分析、统计、可视化等各 15
二、 Citespace
16
什么是citespace?
聚类显示和时间线显示
40
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
Timeline
41
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
验证关键点
某单个时区的引文 被引频次
首次共被引年份
时间区分
出版年代
引文年环代表这
篇文章的引文历
❖ 科学知识图谱是可视化显示知识资源及其关联的一种图形, 可以绘制、挖掘、分析和显示知识间的相互关系。有助于了 解和预测科学前沿和动态,挖掘开辟新的未知领域。
❖ 基本原理:分析单位(科学文献、科学家、关键词等)的相 似性分析和测度。
❖ 基本方法:引文分析、共被引分析、聚类分析、词频分析、 社会网络分析
28
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
1、以文本形式保存
可视检测
验证关键点
29
确定主题词和专业术语 收集数据 提取研究前沿术语 时区分割
阀值选择
显示
可视检测
1、文件必须以Download开头
验证关键点
Download_xx.txt格式
30
确定主题词和专业术语