科学知识图谱讲座 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 知识基础(Intellective Base)
在科学文献中(即由引用研究前沿术语的科学文献所形成的演化网络) 的引文和共引轨迹。
18
CiteSpace的概念模型
http://cluster.cis.drexel.edu/~cchen/citespace/
19
20
CiteSpace的安装
开机
国际科学学主流领域图。刘则渊,陈悦,侯海燕,等.科学知识图谱:方法与应用[M]. 北京:人民出版社,2008
.
理论方法
4.词频分析法
齐普夫George Kingsley Zipf 齐普夫第一定律 fr*r=C
在文献中,不同词汇的使用与出现频率是 有一定规律的。按词频高低进行统计以供 分析——齐普夫 计量学传统方法。
用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与 计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示 学科的核心框架、发展历史、前沿领域以及整体知识架构的多学科融 合的一种研究方法。
5
科学知识历史
知识挖掘
信息获取
可视化
科 学 知 识 图 谱
研究热点、前沿、趋势
相邻学科间关系
研究人物、机构
14
提纲
• • • • 背景概念 理论方法 工具介绍 注意问题
15
工具简介
HistCite Bibexcel、SATI、Thomson Data Analyzer CiteSpace Pajek Ucinet Vosviewer SPSS Aureka ……
16
CiteSpace
美籍华人陈超美 德雷塞尔(Drexel)大学信息科学与技术学院
10
理论方法
2.共被引分析法co-citation Analysis
文献共被引分析是计量文献之间关系的一种新方法。即2篇 文献共同被1篇文献引用,这2篇文献就构成共引关系。共被 引频率定义为这2篇文献一起被引用频次——马沙科娃·斯莫
尔(苏联、美国科学记录学家)
citing paper citation
可视化显示
26
27
年代色标
图谱背景色 保存图谱/ 图像
寻找聚类 寻找最佳 聚类 用term标 记聚类
用keyword 标记聚类
图谱大小调谐
用摘要词 标记聚类
28
频次 中心性
按年显示
调谐term字体、 节点大小
调谐node字体、 节点大小
聚类视图 时间视图
时区视图
调谐图谱颜色、 亮度、透明度、 显示速度等
大家好
1
如何可视化分析文献信息
2
提纲
• • • • 背景概念 理论方法 工具介绍 注意问题
3
背景
信息爆炸 时间有限 科学计量学理论方法 信息可视化技术发展
4
相关概念
• 信息可视化
将抽象数据用可视的形式表示,用于知识发现、决策制定、文献信息 分析等领域。
• 科学知识图谱(Mapping Knowledge Domain ) 又称知识图谱、知识地图。
是
是否安 装JAVA
否
进入网站: http://cluster.cis.drexel.edu/~cchen/ citespace/ OR 离线开启
下载JAVA并 安装
21百度文库
Citespace的操作步骤
•确定数据库和检索词 •收集数据 •提取研究前沿术语 •时区分割 •阈值选择 •精简和合并 •可视化显示 •图表解读、验证
6
提纲
• • • • 背景概念 理论方法 工具介绍 注意问题
7
理论方法
1.引文分析法 2.共被引分析法 3.多元统计分析方法 4.词频分析法 5.社会网络分析方法
8
理论方法
1.引文分析法Citation Analysis
尤金•加菲尔德Eugene Garfield 引文分析方法的创立者 SCI之父 HistCite的发明者
29
阿尔茨海默早期诊断研究国家
30
31
32
33
34
35
提纲
• • • • 背景概念 理论方法 工具简介 注意问题
17
CiteSpace
• 研究前沿(Research Fronts)
普赖斯最早提出“研究前沿”的概念,某个领域的研究前沿是由科学家 积极引用的文章所体现的。大概由40 ~ 50篇最近发表的文章组成。 Citespace定义研究前沿是正在兴起或突然涌现的理论趋势和新主题, 代表一个研究领域的思想现状。
http://cluster.cis.drexel.edu/~cchen/citespace/ 基于JAVA的可视化文献分析软件 能够显示一个学科或知识域在一定时期发展的趋势、动向及热点, 形成若干研究前沿领域的演进历程。
http://cluster.cis.drexel.edu/~cchen/bio.html
11
理论方法
3.多元统计分析方法
对若干相关的随机变量观测值的分析,包括:因子分析、多维尺度分 析和聚类分析。这些方法将在关系矩阵上运算。如某领域文献群组的 共被引矩阵。——埃格赫《信息计量学导论》
沈建通,姚乐野. 多元统计与社会网络分析法在知识图谱应用的实证研究[J]. 情报杂志,2009,(8). 12
22
downloadxx.txt格式
23
24
选择数据 分析年代
选择数据 切分年代
突现词来源
选择节点类型
阈值调节
C引文数量、CC共被引频次、CCV共被 引系数三个层次设定阀值,其余的由 线性内插值决定。
25
选择数据 分析年代
选择数据 切分年代
突现词来源
选择节点点类型
阈值调节
剪切连线 1、寻径 2、最小生成树 3、修剪切片网 4、修剪合并网
http://www.glottopedia.de/index.php/History_of_quantitative_linguistics
13
理论方法
5.社会网络分析方法 Social Nework Analysis
将社会结构界定为一个网络,网络由成员之间的联系进行连接,社会 网络分析更多地聚焦于成员之间的联系而非个体特征,并把共同体视 为“个人的共同体”,即视为人们在日常和生活中所建立、维护并应 用的个人关系的网络——Wetherell等
利用各种数学及统计学的方法和比较、归纳、抽象、 概括等逻辑方法,对科学期刊、论文、著者等各种 分析对象的引用与被引用现象进行分析,揭示其数 量特征和内在规律的一种文献计量分析方法。 ——邱均平《文献计量学》 http://www.garfield.library.upenn.edu/
9
青蒿素研究引文编年图