科学知识图谱CiteSpace利用方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
—Wetherell等
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱应用—引文分析
引文分 析理论 与方法
1、说明科学知 识和情报内容的 继承和利用 2、标志科学的 发展
科学知识图谱应用—共被引分析
共被引分 析理论与 方法
1、从分析被引文献类 型、语种入手,可研究 科学文献体系的特征结 构及分布、利用等规律 2、从分析被引文献网 络及其变化,可研究学 科间关系、联系特征、 发展变化现状、发展趋 势
科学知识图谱应用—多元统计分析
因子 分析
因子分析以较少几个因子描 述许多指标或因素间关系, 即把较密切的变量归在同一 类,每类变量成为一个因子 ,以这些少量的因子反映原 资料中大部分信息。其中的 主成分分析与科学计量学分 析结合,能确定科研人员群 体或国家科学领域的分布状 况
•多维尺度分析通过低维(2维)空间反映作 者(文献)间的联系,利用平面距离来反 映作者(文献)间的相似程度。 在科学知识图谱中,作者(文献)的位置 显示其相似性,高度相似的聚在一起,形 成科学共同体(学科前沿),中间位置的 作者(文献)并与其他作者(文献)联系 越多,说明其在学科位置越核心,反之则 处于外围
主要内容
科 „ 学知识图谱基本理论 CiteSpace使用方法 应用案例分析
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱基本概念
科学知识图谱 是显示科学知 识的发展进程 与结构关系的 一种图形
以科学知识为 计量研究对象, 属于科学计量 学范畴
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱基本方法
利用各种数学及统计学的方法和比较、归纳、 抽象、概括等逻辑方法,对科学期刊、论文、 著者等各种分析对象的引用与被引用现象进行 引文分析理论与方法 把文献的共被引分析作为计量文献之间关系的 分析,以便揭示其数量特征和内在规律的一种 一种新方法,即当2篇文献共同出现在第3篇文 Citation Analysis 温馨计量分析方法——邱均平《文献计量学》 献的参考文献目录中,这2篇文献就成为共引 共被引分析理论与方法 关系。共被引频率定义为这2篇文献一起被引 对若干相关的随机变量观测值的分析,包括: co-citation Analysis 用频次——马沙科娃、斯莫尔(苏联、美国科学记录学家) 因子分析、多维尺度分析和聚类分析。这些方 多元统计分析方法 法将在关系矩阵上运算。典型例子引文分析, 如牙买加某领域文献群组的共被引矩阵引证— 是计量学中传统方法。在文学中,不同词汇的使 —埃格赫《信息计量学导论》 词频分析方法 用与出现频率是有一定规律的——齐普夫《齐普夫第一定 律》 将社会结构界定为一个网络,网络由成员之间 的联系进行连接,社会网络分析更多地聚焦于 社会网络分析方法 成员之间的联系而非个体特征,并把共同体视 Social Nework Analysis 为“个人的共同体”,即视为人们在日常和生 活中所建立、维护并应用的个人关系的网络—
现代科学知识图谱4
有维斯等提出“信息地图 ”information landscape
利用地理信息系统的可视化信息,地理地图的自然组织 框架,构建成隐含大量信息的可视化主题地图
应用案例: 期刊文章的数量与 资助基金间的动态 关系图谱
科学知识图谱应用展望1
随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人 类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测……
C C
Science Citation
Pubmed NSF Derwent Scopus arxiv e-Print CNKI SDSS(Sloan Digital Sky Survey)
document co-citation
journal cocitation
C
CiteSpace 使用——系统使用/导入数据
现代科学知识图谱3
印第安纳大学Ketan K Mane 用克林伯格跳变算法和共生词分析法和图示 和泊尔纳提出“PNAS主题爆 技术,研制主要主题和复杂趋势的发现地图 炸图谱”
• 网络中各节点代表高频 词和爆炸词 • 节点大小代表该词达到 最大爆炸水平 • 颜色代表词常用和达到 最大爆炸水平的年代
A
co-occurring burst terms
Psychological sequelae of the September 11 NEW ENGLAND JOURNAL OF MEDICINE English Article POSTTRAUMATIC-STRESS-DISORDER; NATIONAL Background: post-traumatic stress disorder
……
科学知识图谱应用—社会网络分析
社会网 络分析 方法
CiteSpace使用方法
• CiteSpace介绍 • CiteSpace使用
CiteSpace介绍
研究背景
研究前沿的知识基础 在科学文献中(即有引用研究前沿术语的科学文献所形成 的演化网络)的引文和共被引轨迹
CiteSpace
CiteSpace 使用
某学科某结构三维图
文献摘要或关键词纪录比例图
3
4
X论文增长趋势线型图
现代科学知识图谱1
1987年,美国基金委发表研究报告《科学计算中的可视化》,开始长期资 助科学可视化(scientific visualization)研究 1987年,著名计量学家克雷奇 默创立“三维构型图谱”three
dimensional configuration map
在以数学方程 式表达科学发 展规律的基础 上
进而以曲线形 式将科学发展 规律绘制成二 维图形,即知 识图谱
科学知识图谱基本原理
科学知识图谱研究是一 个以科学学为基础涉及 应用数学、信息科学及 计算机科学等交叉科学 领域,是科学学和信息 计量学的新发展 基本原理是分析单位( 科学文献、科学家、关 键词等)的相似性分析 及测度。根据不同的方 法和技术绘制不同类型 的科学知识图谱
最小生成树合并 网动画图谱
各色圆环标识为高共被引 文献聚类节点,表示学科 或研究的热点、前沿领域 颜色及厚度反映研究 年代及被引次数 各色连线表示首 次共被引年代
节点大小与位置 分别表示研究多 少和核心层度
突显点 表示新兴学科
CiteSpace 使用——图谱判读 2
显示聚类节点及其标题词的图谱
聚类环包括一 组相关节点 各节点对应一 高引文献
聚类标题词显示 研究前沿主题
CiteSpace 使用——图谱判读 3
研究进展时间图
按年代显示 研究前沿
聚类标题词 表示研究热点
CiteSpace 使用——图谱判读 4
研究进展时区图
CiteSpace 使用——分析结论/研读高共引文提取研究热点
对这些高引频 (高中心度) 文献进行研 读,分析得出 研究热点
科学知识图谱
科学知识图谱研究进展
传统的科学计量学图谱以简单的二 维、三维图形(如:柱形图、线性 图、点布图、扇形图、平面图等) 表达科学统计结果
50 40
200 150 100 50 0 1 2 3 系列1 4 系列3
30
20 10 0 1 2 3 4 50 40 30 20 10 0 1 2
用二、三维图像表征物理现象的科学可视化图交 互性不强,但对非物理现象,如文献数据集、网 络通道模式等信息可视化计算交互性很强
之后出现“多维尺度图谱”multi-dimensional scaling map 20世纪20、30年代英国人类学研究 提出“社会网络分析图谱”social
networt analysis map
点击进入网 络版系统
CiteSpace 使用——调谐数据
选择导入 数据年代 选择数据 切分年代
点击导 入数据
阈值调 谐数 年段内 引文数 年段内 聚类点 年段内 连线数
选择聚类词来源
选择聚类点类型
选择聚类词型
阈值调谐,调整聚类节点 与研究等关系连线
剪切连线
选择可视图 显示形式
CiteSpace 使用——图谱判读 1
科学知识图谱应用—词频分析
词频分 在任何文章中,词的出现频率都服从一规律:文章中每个词出 现词频次统计后按照高频次词在前、低频次词在后的递减顺序 析方法 排列,并用自然数给这些词标上等级序号,形成f〃r=C定量形
式(f=频次r=序号C=常数)
近10年ionic liquid研究词频统计 序号 1 2 频次 242 34 关键词 imidazolium ionic liquid Phosphonium-Derived Ionic Liquids
数据 准备
1、数据保存
系统 使用
1、导入数据 2、调谐数据
图谱 运用
Байду номын сангаас1、判读图谱
2、数据格式
2、获取引文
分析 结论
1、研读引文
2、分析结论
3、咨询专家
CiteSpace 使用——文献检索/数据保存
CiteSpace 使用——文献检索/数据格式
CiteSpace用的书目记录信息 CiteSpace用的共被引记录信息
1990美国心理 学家斯克沃斯 兹恩巴克提出 “寻径网络图 谱”pathfinder network
scaling map,PFNET
运用较小生成树法及复杂连 接删除算法,删除网络中大 部分连接,保留最重要连 接,最大限度简化网络
将数据以及数据间关系表达 成一个图,图中节点表示数 据,线表示数据间关系
利用专利分析工具形成的专利知识图谱
IN-SPIRE发现工具可整合交互
式信息可视化与询问功能
论文的最小生成树图谱
最小生成树导航图谱
科学知识图谱应用展望2
明确主要研究领域、专家、机构、出版物等关键 词及其之间的内部联系 明确主要研究领域之间的知识输入与知识输出 科学研究领域的动态变化(如:增长速度、多样 化) 信息生产和传播中的经济因素 科学社会网络 明确战略的作用和政府项目的应用研究 企业、机构、研究的竞争态势与竞争力
author cocitation
B
CiteSpace数据来源
Web of Scienc CSSCI(Chinese Social
Index)
OR GREEN BL, 1990, J APPL SOC PSYCHOL, V20, P1033 HANSON RF, 1995, J CONSULT CLIN PSYCH, V63, P987 HARVEY AG, 1999, J CONSULT CLIN PSYCH, V67, P985 KESSLER RC, 1995, ARCH GEN PSYCHIAT, V52, P1048 KILPATRICK DG, 1987, CRIME MAZURE CM, 2000, AM J PSYCHIAT, V157, P896 NORTH CS, 1999, JAMA-J AM MED ASSOC, V282, P755 RESNICK H, 1999, J ANXIETY DISORD, V13, P359 RESNICK HS, 1993, J CONSULT CLIN PSYCH, V61, P984 ROTHBAUM BO, 1992, J TRAUMA STRESS, V5, P455
卡尔提出“自组织映射图谱 ”self-organizing map
实 例 : 某 学 术 群 体 知 识 图 谱
实例:
某学科期刊高频关键词共词网络2个知识群
现代科学知识图谱2
PFNET算法根据经验性数据, 对不同概念或实体间联系的相 似性或差异程度做出评估,然 后引用图论中的基本概念或原 理生成特殊的网状模型
AU Galea, S Ahern, J Kilpatrick, D Bucuvalas, M TI SO LA DT ID AB co-authorship
A: Authors B: Title, Descriptors, Abstract C: Cited References D: Times Cited E: Year of Publication
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱应用—引文分析
引文分 析理论 与方法
1、说明科学知 识和情报内容的 继承和利用 2、标志科学的 发展
科学知识图谱应用—共被引分析
共被引分 析理论与 方法
1、从分析被引文献类 型、语种入手,可研究 科学文献体系的特征结 构及分布、利用等规律 2、从分析被引文献网 络及其变化,可研究学 科间关系、联系特征、 发展变化现状、发展趋 势
科学知识图谱应用—多元统计分析
因子 分析
因子分析以较少几个因子描 述许多指标或因素间关系, 即把较密切的变量归在同一 类,每类变量成为一个因子 ,以这些少量的因子反映原 资料中大部分信息。其中的 主成分分析与科学计量学分 析结合,能确定科研人员群 体或国家科学领域的分布状 况
•多维尺度分析通过低维(2维)空间反映作 者(文献)间的联系,利用平面距离来反 映作者(文献)间的相似程度。 在科学知识图谱中,作者(文献)的位置 显示其相似性,高度相似的聚在一起,形 成科学共同体(学科前沿),中间位置的 作者(文献)并与其他作者(文献)联系 越多,说明其在学科位置越核心,反之则 处于外围
主要内容
科 „ 学知识图谱基本理论 CiteSpace使用方法 应用案例分析
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱基本概念
科学知识图谱 是显示科学知 识的发展进程 与结构关系的 一种图形
以科学知识为 计量研究对象, 属于科学计量 学范畴
科学知识图谱基本理论
• 科学知识图谱知识背景 • 科学知识图谱基本方法 • 科学知识图谱作用
科学知识图谱基本方法
利用各种数学及统计学的方法和比较、归纳、 抽象、概括等逻辑方法,对科学期刊、论文、 著者等各种分析对象的引用与被引用现象进行 引文分析理论与方法 把文献的共被引分析作为计量文献之间关系的 分析,以便揭示其数量特征和内在规律的一种 一种新方法,即当2篇文献共同出现在第3篇文 Citation Analysis 温馨计量分析方法——邱均平《文献计量学》 献的参考文献目录中,这2篇文献就成为共引 共被引分析理论与方法 关系。共被引频率定义为这2篇文献一起被引 对若干相关的随机变量观测值的分析,包括: co-citation Analysis 用频次——马沙科娃、斯莫尔(苏联、美国科学记录学家) 因子分析、多维尺度分析和聚类分析。这些方 多元统计分析方法 法将在关系矩阵上运算。典型例子引文分析, 如牙买加某领域文献群组的共被引矩阵引证— 是计量学中传统方法。在文学中,不同词汇的使 —埃格赫《信息计量学导论》 词频分析方法 用与出现频率是有一定规律的——齐普夫《齐普夫第一定 律》 将社会结构界定为一个网络,网络由成员之间 的联系进行连接,社会网络分析更多地聚焦于 社会网络分析方法 成员之间的联系而非个体特征,并把共同体视 Social Nework Analysis 为“个人的共同体”,即视为人们在日常和生 活中所建立、维护并应用的个人关系的网络—
现代科学知识图谱4
有维斯等提出“信息地图 ”information landscape
利用地理信息系统的可视化信息,地理地图的自然组织 框架,构建成隐含大量信息的可视化主题地图
应用案例: 期刊文章的数量与 资助基金间的动态 关系图谱
科学知识图谱应用展望1
随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人 类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测……
C C
Science Citation
Pubmed NSF Derwent Scopus arxiv e-Print CNKI SDSS(Sloan Digital Sky Survey)
document co-citation
journal cocitation
C
CiteSpace 使用——系统使用/导入数据
现代科学知识图谱3
印第安纳大学Ketan K Mane 用克林伯格跳变算法和共生词分析法和图示 和泊尔纳提出“PNAS主题爆 技术,研制主要主题和复杂趋势的发现地图 炸图谱”
• 网络中各节点代表高频 词和爆炸词 • 节点大小代表该词达到 最大爆炸水平 • 颜色代表词常用和达到 最大爆炸水平的年代
A
co-occurring burst terms
Psychological sequelae of the September 11 NEW ENGLAND JOURNAL OF MEDICINE English Article POSTTRAUMATIC-STRESS-DISORDER; NATIONAL Background: post-traumatic stress disorder
……
科学知识图谱应用—社会网络分析
社会网 络分析 方法
CiteSpace使用方法
• CiteSpace介绍 • CiteSpace使用
CiteSpace介绍
研究背景
研究前沿的知识基础 在科学文献中(即有引用研究前沿术语的科学文献所形成 的演化网络)的引文和共被引轨迹
CiteSpace
CiteSpace 使用
某学科某结构三维图
文献摘要或关键词纪录比例图
3
4
X论文增长趋势线型图
现代科学知识图谱1
1987年,美国基金委发表研究报告《科学计算中的可视化》,开始长期资 助科学可视化(scientific visualization)研究 1987年,著名计量学家克雷奇 默创立“三维构型图谱”three
dimensional configuration map
在以数学方程 式表达科学发 展规律的基础 上
进而以曲线形 式将科学发展 规律绘制成二 维图形,即知 识图谱
科学知识图谱基本原理
科学知识图谱研究是一 个以科学学为基础涉及 应用数学、信息科学及 计算机科学等交叉科学 领域,是科学学和信息 计量学的新发展 基本原理是分析单位( 科学文献、科学家、关 键词等)的相似性分析 及测度。根据不同的方 法和技术绘制不同类型 的科学知识图谱
最小生成树合并 网动画图谱
各色圆环标识为高共被引 文献聚类节点,表示学科 或研究的热点、前沿领域 颜色及厚度反映研究 年代及被引次数 各色连线表示首 次共被引年代
节点大小与位置 分别表示研究多 少和核心层度
突显点 表示新兴学科
CiteSpace 使用——图谱判读 2
显示聚类节点及其标题词的图谱
聚类环包括一 组相关节点 各节点对应一 高引文献
聚类标题词显示 研究前沿主题
CiteSpace 使用——图谱判读 3
研究进展时间图
按年代显示 研究前沿
聚类标题词 表示研究热点
CiteSpace 使用——图谱判读 4
研究进展时区图
CiteSpace 使用——分析结论/研读高共引文提取研究热点
对这些高引频 (高中心度) 文献进行研 读,分析得出 研究热点
科学知识图谱
科学知识图谱研究进展
传统的科学计量学图谱以简单的二 维、三维图形(如:柱形图、线性 图、点布图、扇形图、平面图等) 表达科学统计结果
50 40
200 150 100 50 0 1 2 3 系列1 4 系列3
30
20 10 0 1 2 3 4 50 40 30 20 10 0 1 2
用二、三维图像表征物理现象的科学可视化图交 互性不强,但对非物理现象,如文献数据集、网 络通道模式等信息可视化计算交互性很强
之后出现“多维尺度图谱”multi-dimensional scaling map 20世纪20、30年代英国人类学研究 提出“社会网络分析图谱”social
networt analysis map
点击进入网 络版系统
CiteSpace 使用——调谐数据
选择导入 数据年代 选择数据 切分年代
点击导 入数据
阈值调 谐数 年段内 引文数 年段内 聚类点 年段内 连线数
选择聚类词来源
选择聚类点类型
选择聚类词型
阈值调谐,调整聚类节点 与研究等关系连线
剪切连线
选择可视图 显示形式
CiteSpace 使用——图谱判读 1
科学知识图谱应用—词频分析
词频分 在任何文章中,词的出现频率都服从一规律:文章中每个词出 现词频次统计后按照高频次词在前、低频次词在后的递减顺序 析方法 排列,并用自然数给这些词标上等级序号,形成f〃r=C定量形
式(f=频次r=序号C=常数)
近10年ionic liquid研究词频统计 序号 1 2 频次 242 34 关键词 imidazolium ionic liquid Phosphonium-Derived Ionic Liquids
数据 准备
1、数据保存
系统 使用
1、导入数据 2、调谐数据
图谱 运用
Байду номын сангаас1、判读图谱
2、数据格式
2、获取引文
分析 结论
1、研读引文
2、分析结论
3、咨询专家
CiteSpace 使用——文献检索/数据保存
CiteSpace 使用——文献检索/数据格式
CiteSpace用的书目记录信息 CiteSpace用的共被引记录信息
1990美国心理 学家斯克沃斯 兹恩巴克提出 “寻径网络图 谱”pathfinder network
scaling map,PFNET
运用较小生成树法及复杂连 接删除算法,删除网络中大 部分连接,保留最重要连 接,最大限度简化网络
将数据以及数据间关系表达 成一个图,图中节点表示数 据,线表示数据间关系
利用专利分析工具形成的专利知识图谱
IN-SPIRE发现工具可整合交互
式信息可视化与询问功能
论文的最小生成树图谱
最小生成树导航图谱
科学知识图谱应用展望2
明确主要研究领域、专家、机构、出版物等关键 词及其之间的内部联系 明确主要研究领域之间的知识输入与知识输出 科学研究领域的动态变化(如:增长速度、多样 化) 信息生产和传播中的经济因素 科学社会网络 明确战略的作用和政府项目的应用研究 企业、机构、研究的竞争态势与竞争力
author cocitation
B
CiteSpace数据来源
Web of Scienc CSSCI(Chinese Social
Index)
OR GREEN BL, 1990, J APPL SOC PSYCHOL, V20, P1033 HANSON RF, 1995, J CONSULT CLIN PSYCH, V63, P987 HARVEY AG, 1999, J CONSULT CLIN PSYCH, V67, P985 KESSLER RC, 1995, ARCH GEN PSYCHIAT, V52, P1048 KILPATRICK DG, 1987, CRIME MAZURE CM, 2000, AM J PSYCHIAT, V157, P896 NORTH CS, 1999, JAMA-J AM MED ASSOC, V282, P755 RESNICK H, 1999, J ANXIETY DISORD, V13, P359 RESNICK HS, 1993, J CONSULT CLIN PSYCH, V61, P984 ROTHBAUM BO, 1992, J TRAUMA STRESS, V5, P455
卡尔提出“自组织映射图谱 ”self-organizing map
实 例 : 某 学 术 群 体 知 识 图 谱
实例:
某学科期刊高频关键词共词网络2个知识群
现代科学知识图谱2
PFNET算法根据经验性数据, 对不同概念或实体间联系的相 似性或差异程度做出评估,然 后引用图论中的基本概念或原 理生成特殊的网状模型
AU Galea, S Ahern, J Kilpatrick, D Bucuvalas, M TI SO LA DT ID AB co-authorship
A: Authors B: Title, Descriptors, Abstract C: Cited References D: Times Cited E: Year of Publication