第1讲 CiteSpace与科学知识图谱
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1讲 CiteSpace与科学知识图谱
李杰1,2,陈超美3
1.上海海事大学 海洋科学与工程学院 2.上海海事大学 科技情报研究所
3. Drexel University- College of Computing and Informatics
Chen C. Information visualization: Beyond the horizon[M]. Springer Science & Business Media, 2006.
结构洞(structural holes)
1992年,博特在《结构洞:竞争的社会 结构》一书中提出了“结构洞”理论 (Structural Holes),研究人际网络的结构形 态,分析怎样的网络结构能够带给网络行 动主体更多的利益或回报。
所谓“结构洞”就是指社会网络中的空 隙,即社会网络中某个或某些个体和有些
小球之间如有共引关系,第一次共引出现之前为半透明,之后变为不透明。时间的变化也用由冷到暖 的颜色变化表达,这点与现在的CiteSpace一样。 参考地址 http://blog.sciencenet.cn/blog-496649-392021.html
CiteSpace的理论基础及科学知识图谱
CiteSpace的基本理论(来源于陈超美及大工WISE Lab团队)
配套教程: 李杰, 陈超美著.CiteSpace科技文本挖掘及可视化[M].首都经济贸易大学出版社.2016. 作者博客: 李杰博客:http://blog.sciencenet.cn/u/jerrycueb;陈超美博客:http://blog.sciencenet.cn/u/ChaomeiChen
科学信息
世界3
世界3
抽
理
象
性
信
直
息
观
感性直观
空间思维 世界2
理性直观
空间思维 世界2
从世界1,3到世界3:体视化
视觉思维1的5 两种形式
从世界3到世界3:知识可视化
《该
知图
识由
图刘
谱则
的渊
科教
学授
学团
源队源自文库
流创
》作
,
来
年
源 于
月刘
教
日授
。讲
座
第四范式:数据密集型科学发现
[The Fourth Paradigm: Data-Intensive Scientific Discovery]
科学发展看成科学革命的历史过程: ① 前科学时期:科学在未形成统一范式之前处于前科学时期; ② 常规科学:范式形成之后,进入常规科学时期,人们在科学共同体中按范式解题,是范式积累期; ③ 科学危机:发展一定阶段,出现反常和危机; ④ 科学革命:人们寻求新的范式取代旧范式,导致科学革命的发生; ⑤ 新常规科学:迈进新范式下的新的常规科学期。 因此,科学发展本质上是常规科学与科学革命、积累范式与变革范式的交替运动过程。这个模式得 到科学界的普遍认同。
CiteSpace的前身
三维虚拟现实中演示引文逐年增长的过程
CiteSpace的前身叫StarWalker。
StarWalker:每个小球代表一篇参考文献。半透明的是当时还没发表的,不透明的是已经发表的,上 面的小圆柱的有无和高矮代表有无被其他论文引用过。高矮如随时间增长则说明一直被别的论文引用。
实践应用 实践为导向 的基础研究
信息与图书馆学领域
生物医学及跨学科领域 偏重于基础研究 计算机与信息科学
PPT . 2013 8 25
Mapping Knowledge and Visual Thinking
世界3不能同世界1直接相互作用,只能在世界2
知
参与下同世界1相互作用
识 图
世界1:“第一世界”
世界3:“第三世界”
谱
由物质客体、地球和天体、 1
3 客观知识世界,包括人类心
与 视 觉
植物和动物、辐射和其他能
量形式等全部宇宙自然界构
成的物质世界。还可再分为
2
无机自然界和生命自然界。
灵的客观产物,人类所创造 的语言、文艺、宗教、科学 技术等文化知识世界,及机 器、建筑等物化知识世界。
思 维
世界1
它具有“图”和“谱”的双重性质与特征:既是可视化 的知识图形,又是序列化的知识谱系,显示了知识单元 或知识群之间网络、结构、互动、交叉、演化或衍生等 诸多复杂的关系。 知识图谱通常都是以知识网铬形态展现的知识图形与知
识谱系。 它有许多不言自明的概念(刘则渊)。
国内相关代表单位
大连理工大学 武汉大学 中科院文献情报所 南京大学 浙江大学 中国信息科技研究所 北京大学
Jim Gray将这种科学研究的方式,成为第四范式,即
数据密集型科学。(来源:百度百科)
下面我们开启科学知识图谱之旅
科学知识图谱可视化表达 基于距离的表达、基于关系的表达和时间线表达为主
Example of a distance-based visualization. Co-
2
1.5
Science(tific) 51
co-ci t co-word
………..
科学知识图谱研究的代表人物
陈超美,刘则渊团队(CiteSpace) 莱顿大学团队(VOSviewer) 美国印第安纳大学(SCI2) 阿姆斯特丹Loet(开发了一系列工具) 武汉大学团队 ………….
原始图片来源:刘则渊等著. 《科学知识图谱:方法与应用》
科学知识图谱相关内容学习的先修知识
理论基础:网络分析基础、科学计量学(或文献计量学)、科学学 技术基础:数据及信息可视化 其他:一定的审美能力
在国内,刘则渊教授带领的团队在科学知识图谱领域做了大量开拓性的工作和贡献,并在世界科学 计量学的研究领域中取得了一定的影响。
科学知识图谱涉及领域的分析
Web of Science Core Collection Results: 95 TOPIC: (“map* knowledge domain*”) OR TOPIC: (“Biblio* map*”); Timespan: All years; Indexes: SCI-EXPANDED, SSCI, CPCI-S, CCR-EXPANDED, IC.
Citation(s),Cocitation 42
Research 21 Mapping,Maps 18
2 科学知识图谱理论与方法、网络计量学
Area(s),Disciplines,Domains,Specialties 13 Mapping of Science, Webometrics
4 科学计量学经典概率分布、 文献 计量 学定律 、信息 计量 学
普赖斯的科学前沿理论
• 普耐斯的科学前沿理论是在贝尔纳和加菲尔德的基础上产生。 • 贝尔纳——“科学发展总的模式与其说像树,更像网”。 • 普耐斯在加菲尔德教授开发的SCI数据库的基础上语言了:“论
文会因为引证关系而形成网络,人们可以借助于图论和矩阵的方 法来加以研究”。 • 在普耐斯发表的《科学论文的网络》中正式形成了“参考文献的 模式标志科学研究前沿的本质”的理论。 • 在此基础上,CiteSpace形成了从“知识基础”到“研究前沿”的 概念模型。
个体发生直接联系,但与其他个体不发直 接联系,即无直接关系或关系间断,从网 络整体看好像网络结构中出现了洞穴。
科学传播的信息觅食理论
• 信息觅食理论主要用来解释和模拟人在网络环境中信息搜索行为。 • 通过模型的建立,模拟用户的信息搜索过程,并对信息获取的效
率进行计算。以最小搜索成本获取最大利益。
知识单元离散与重组理论
CiteSpace简介
• 陈超美(Chao-mei Chen)教授是美国德雷赛尔大学计算机与情报学教授, 从2008年开始担任大连理工大学长江学者讲座教授,同时也是Drexel-DLUT 知识可视化与科学发现联合研究所(美方)所长。
• 2004年陈超美教授使用Java语言开发了CiteSpace信息可视化软件。CiteSpace 软件的主要灵感来自库恩(Thomas Kukn,1962)的科学结构的演进,主要 的观点认为“科学研究的重点随着时间变化,有些时候速度缓慢 (incrementally)有些时候会比较剧烈(drastically)”,科学发展是可以通过 其足迹来从已经发表的文献中提取的。
本讲基本内容
CiteSpace简介及原理 科学知识图谱导览 CiteSpace应用现状及问题 CiteSpace学习流程及其相关资料
软件开发者
陈超美,男,1960年9月生于北京。美国德雷塞尔大学计算机与情 报学学院教授,曾先后担任英国布鲁内尔大学客座教授和大连理工 大学长江学者讲座教授。研究方向为信息可视化、科学前沿图谱和 科学发现理论。发表科技论文200余篇,被引超过10000次。出版著 作科学计量学及数据可视化方面的著作近10部,并有多部被翻译成 中文。 中文博客:http://blog.sciencenet.cn/u/ChaomeiChen 学术主页:http://www.pages.drexel.edu/~cc345/
今后还可以从化学角度讨论知识单元的大小(分子、原子……)
例如:我们在完成一篇论文时,论文的参考文献就类似我们对知识的重组,从而形成了新知识。 在CiteSpace则使用了大量施引文献的参考文献聚类,来进行知识发现。
科学知识图谱(Mapping Knowledge Domains)
知识图谱(Knowledge Mapping)是以知识领域为对象,显 示知识的发展进程与结构关系的一种图形。
《第四范式》是基于Jim Gray生前最后一次演讲稿整理 而成。在这次演讲中,Jim Gray将人类科学的发展定义 成为四个“范式”,并描绘了自己关于第四范式的愿景: 几千年前的科学,以记录和描述自然现象为主,称为
“实验科学”,即第一范式,其典型案例如钻木取火;
数百年前,科学家们开始利用模型归纳总结过去记录的
Method(S)(ological) 11 Model(s),Patterns 11 Journal(s) 10
1.0 Scientometric(s) 10
Theory(ies) 10 Bibliometric(s) 9 Information 9 Network(s) 9 Structure 9 Performer(ence) 7
① 库恩的科学发展模式理论 ② 普赖斯的科学前沿理论 ③ 社会网络分析的结构洞理论 ④ 科学传播的信息觅食理论 ⑤ 知识单元离散与重组理论
大连理工大学WISELab团队创建人刘则渊教授
库恩的科学发展模式理论
前科学
常规科学
科学危机
科学革命
新常规科学
范式形成
范式积累
范式变革
新范式
T.S.Kuhn (1962). 科学革命的结构
Why CiteSpace?
Google Metrics
https://scholar.google.com/citations?user=IjN4HSRsdakC&hl=en
近12%的引用贡献来源于Citespace的 一篇典型文献(1167 /10005)。 如果加上其他与CiteSpace相关的应 用被引,可能会达到30%-50%以上。
科学知识图谱
世界1
体视化图像
世界2:“第二世界”
图例 1→2→3:三个 世界的生成关系 ≠:非相互作用 ↔:相互作用
体视化 Volume Visualization, 模拟和 再现物理世界的科学 可视化
人的精神世界,包括
人的意识、心理、智慧 和情感等主观世界。
数学思维、哲学思维、视觉思维 三种方式的渗透结合
• 科学范式的形成与变革=共引聚类的形成与演变=共性: 知识单元的游离、 重组与更新。
• 知识的重组不是简单的“物理反应”而是“化学反应”。
高锰酸钾加热可以分解,生成锰酸钾、二氧化锰和氧气
S+O2=SO2
二氧化硫
高锰酸钾
分解反应: 知识游离可能产生新的知识
化合反应: 知识经过重组后产生新知识
同样的可以将其他类似的化学反应用到知识单元的游离和重组中来。 如,置换反应、复分解反应等。
现象,发展出“理论科学”,即第二范式,其典型案
例如牛顿三定律、麦克斯韦方程组、相对论等; 过去数十年,科学计算机的出现,诞生了“计算科学”, 对复杂现象进行模拟仿真,推演出越来越多复杂的现象, 即第三范式。其典型案例如模拟核试验、天气预报等; Jim Gray认为今天,以及未来科学的发展趋势是,随着 数据量的高速增长,计算机将不仅仅能做模拟仿真,还 能进行分析总结,得到理论。也就是说,过去由牛顿、 爱因斯坦等科学家从事的工作,未来可以由计算机来做。
李杰1,2,陈超美3
1.上海海事大学 海洋科学与工程学院 2.上海海事大学 科技情报研究所
3. Drexel University- College of Computing and Informatics
Chen C. Information visualization: Beyond the horizon[M]. Springer Science & Business Media, 2006.
结构洞(structural holes)
1992年,博特在《结构洞:竞争的社会 结构》一书中提出了“结构洞”理论 (Structural Holes),研究人际网络的结构形 态,分析怎样的网络结构能够带给网络行 动主体更多的利益或回报。
所谓“结构洞”就是指社会网络中的空 隙,即社会网络中某个或某些个体和有些
小球之间如有共引关系,第一次共引出现之前为半透明,之后变为不透明。时间的变化也用由冷到暖 的颜色变化表达,这点与现在的CiteSpace一样。 参考地址 http://blog.sciencenet.cn/blog-496649-392021.html
CiteSpace的理论基础及科学知识图谱
CiteSpace的基本理论(来源于陈超美及大工WISE Lab团队)
配套教程: 李杰, 陈超美著.CiteSpace科技文本挖掘及可视化[M].首都经济贸易大学出版社.2016. 作者博客: 李杰博客:http://blog.sciencenet.cn/u/jerrycueb;陈超美博客:http://blog.sciencenet.cn/u/ChaomeiChen
科学信息
世界3
世界3
抽
理
象
性
信
直
息
观
感性直观
空间思维 世界2
理性直观
空间思维 世界2
从世界1,3到世界3:体视化
视觉思维1的5 两种形式
从世界3到世界3:知识可视化
《该
知图
识由
图刘
谱则
的渊
科教
学授
学团
源队源自文库
流创
》作
,
来
年
源 于
月刘
教
日授
。讲
座
第四范式:数据密集型科学发现
[The Fourth Paradigm: Data-Intensive Scientific Discovery]
科学发展看成科学革命的历史过程: ① 前科学时期:科学在未形成统一范式之前处于前科学时期; ② 常规科学:范式形成之后,进入常规科学时期,人们在科学共同体中按范式解题,是范式积累期; ③ 科学危机:发展一定阶段,出现反常和危机; ④ 科学革命:人们寻求新的范式取代旧范式,导致科学革命的发生; ⑤ 新常规科学:迈进新范式下的新的常规科学期。 因此,科学发展本质上是常规科学与科学革命、积累范式与变革范式的交替运动过程。这个模式得 到科学界的普遍认同。
CiteSpace的前身
三维虚拟现实中演示引文逐年增长的过程
CiteSpace的前身叫StarWalker。
StarWalker:每个小球代表一篇参考文献。半透明的是当时还没发表的,不透明的是已经发表的,上 面的小圆柱的有无和高矮代表有无被其他论文引用过。高矮如随时间增长则说明一直被别的论文引用。
实践应用 实践为导向 的基础研究
信息与图书馆学领域
生物医学及跨学科领域 偏重于基础研究 计算机与信息科学
PPT . 2013 8 25
Mapping Knowledge and Visual Thinking
世界3不能同世界1直接相互作用,只能在世界2
知
参与下同世界1相互作用
识 图
世界1:“第一世界”
世界3:“第三世界”
谱
由物质客体、地球和天体、 1
3 客观知识世界,包括人类心
与 视 觉
植物和动物、辐射和其他能
量形式等全部宇宙自然界构
成的物质世界。还可再分为
2
无机自然界和生命自然界。
灵的客观产物,人类所创造 的语言、文艺、宗教、科学 技术等文化知识世界,及机 器、建筑等物化知识世界。
思 维
世界1
它具有“图”和“谱”的双重性质与特征:既是可视化 的知识图形,又是序列化的知识谱系,显示了知识单元 或知识群之间网络、结构、互动、交叉、演化或衍生等 诸多复杂的关系。 知识图谱通常都是以知识网铬形态展现的知识图形与知
识谱系。 它有许多不言自明的概念(刘则渊)。
国内相关代表单位
大连理工大学 武汉大学 中科院文献情报所 南京大学 浙江大学 中国信息科技研究所 北京大学
Jim Gray将这种科学研究的方式,成为第四范式,即
数据密集型科学。(来源:百度百科)
下面我们开启科学知识图谱之旅
科学知识图谱可视化表达 基于距离的表达、基于关系的表达和时间线表达为主
Example of a distance-based visualization. Co-
2
1.5
Science(tific) 51
co-ci t co-word
………..
科学知识图谱研究的代表人物
陈超美,刘则渊团队(CiteSpace) 莱顿大学团队(VOSviewer) 美国印第安纳大学(SCI2) 阿姆斯特丹Loet(开发了一系列工具) 武汉大学团队 ………….
原始图片来源:刘则渊等著. 《科学知识图谱:方法与应用》
科学知识图谱相关内容学习的先修知识
理论基础:网络分析基础、科学计量学(或文献计量学)、科学学 技术基础:数据及信息可视化 其他:一定的审美能力
在国内,刘则渊教授带领的团队在科学知识图谱领域做了大量开拓性的工作和贡献,并在世界科学 计量学的研究领域中取得了一定的影响。
科学知识图谱涉及领域的分析
Web of Science Core Collection Results: 95 TOPIC: (“map* knowledge domain*”) OR TOPIC: (“Biblio* map*”); Timespan: All years; Indexes: SCI-EXPANDED, SSCI, CPCI-S, CCR-EXPANDED, IC.
Citation(s),Cocitation 42
Research 21 Mapping,Maps 18
2 科学知识图谱理论与方法、网络计量学
Area(s),Disciplines,Domains,Specialties 13 Mapping of Science, Webometrics
4 科学计量学经典概率分布、 文献 计量 学定律 、信息 计量 学
普赖斯的科学前沿理论
• 普耐斯的科学前沿理论是在贝尔纳和加菲尔德的基础上产生。 • 贝尔纳——“科学发展总的模式与其说像树,更像网”。 • 普耐斯在加菲尔德教授开发的SCI数据库的基础上语言了:“论
文会因为引证关系而形成网络,人们可以借助于图论和矩阵的方 法来加以研究”。 • 在普耐斯发表的《科学论文的网络》中正式形成了“参考文献的 模式标志科学研究前沿的本质”的理论。 • 在此基础上,CiteSpace形成了从“知识基础”到“研究前沿”的 概念模型。
个体发生直接联系,但与其他个体不发直 接联系,即无直接关系或关系间断,从网 络整体看好像网络结构中出现了洞穴。
科学传播的信息觅食理论
• 信息觅食理论主要用来解释和模拟人在网络环境中信息搜索行为。 • 通过模型的建立,模拟用户的信息搜索过程,并对信息获取的效
率进行计算。以最小搜索成本获取最大利益。
知识单元离散与重组理论
CiteSpace简介
• 陈超美(Chao-mei Chen)教授是美国德雷赛尔大学计算机与情报学教授, 从2008年开始担任大连理工大学长江学者讲座教授,同时也是Drexel-DLUT 知识可视化与科学发现联合研究所(美方)所长。
• 2004年陈超美教授使用Java语言开发了CiteSpace信息可视化软件。CiteSpace 软件的主要灵感来自库恩(Thomas Kukn,1962)的科学结构的演进,主要 的观点认为“科学研究的重点随着时间变化,有些时候速度缓慢 (incrementally)有些时候会比较剧烈(drastically)”,科学发展是可以通过 其足迹来从已经发表的文献中提取的。
本讲基本内容
CiteSpace简介及原理 科学知识图谱导览 CiteSpace应用现状及问题 CiteSpace学习流程及其相关资料
软件开发者
陈超美,男,1960年9月生于北京。美国德雷塞尔大学计算机与情 报学学院教授,曾先后担任英国布鲁内尔大学客座教授和大连理工 大学长江学者讲座教授。研究方向为信息可视化、科学前沿图谱和 科学发现理论。发表科技论文200余篇,被引超过10000次。出版著 作科学计量学及数据可视化方面的著作近10部,并有多部被翻译成 中文。 中文博客:http://blog.sciencenet.cn/u/ChaomeiChen 学术主页:http://www.pages.drexel.edu/~cc345/
今后还可以从化学角度讨论知识单元的大小(分子、原子……)
例如:我们在完成一篇论文时,论文的参考文献就类似我们对知识的重组,从而形成了新知识。 在CiteSpace则使用了大量施引文献的参考文献聚类,来进行知识发现。
科学知识图谱(Mapping Knowledge Domains)
知识图谱(Knowledge Mapping)是以知识领域为对象,显 示知识的发展进程与结构关系的一种图形。
《第四范式》是基于Jim Gray生前最后一次演讲稿整理 而成。在这次演讲中,Jim Gray将人类科学的发展定义 成为四个“范式”,并描绘了自己关于第四范式的愿景: 几千年前的科学,以记录和描述自然现象为主,称为
“实验科学”,即第一范式,其典型案例如钻木取火;
数百年前,科学家们开始利用模型归纳总结过去记录的
Method(S)(ological) 11 Model(s),Patterns 11 Journal(s) 10
1.0 Scientometric(s) 10
Theory(ies) 10 Bibliometric(s) 9 Information 9 Network(s) 9 Structure 9 Performer(ence) 7
① 库恩的科学发展模式理论 ② 普赖斯的科学前沿理论 ③ 社会网络分析的结构洞理论 ④ 科学传播的信息觅食理论 ⑤ 知识单元离散与重组理论
大连理工大学WISELab团队创建人刘则渊教授
库恩的科学发展模式理论
前科学
常规科学
科学危机
科学革命
新常规科学
范式形成
范式积累
范式变革
新范式
T.S.Kuhn (1962). 科学革命的结构
Why CiteSpace?
Google Metrics
https://scholar.google.com/citations?user=IjN4HSRsdakC&hl=en
近12%的引用贡献来源于Citespace的 一篇典型文献(1167 /10005)。 如果加上其他与CiteSpace相关的应 用被引,可能会达到30%-50%以上。
科学知识图谱
世界1
体视化图像
世界2:“第二世界”
图例 1→2→3:三个 世界的生成关系 ≠:非相互作用 ↔:相互作用
体视化 Volume Visualization, 模拟和 再现物理世界的科学 可视化
人的精神世界,包括
人的意识、心理、智慧 和情感等主观世界。
数学思维、哲学思维、视觉思维 三种方式的渗透结合
• 科学范式的形成与变革=共引聚类的形成与演变=共性: 知识单元的游离、 重组与更新。
• 知识的重组不是简单的“物理反应”而是“化学反应”。
高锰酸钾加热可以分解,生成锰酸钾、二氧化锰和氧气
S+O2=SO2
二氧化硫
高锰酸钾
分解反应: 知识游离可能产生新的知识
化合反应: 知识经过重组后产生新知识
同样的可以将其他类似的化学反应用到知识单元的游离和重组中来。 如,置换反应、复分解反应等。
现象,发展出“理论科学”,即第二范式,其典型案
例如牛顿三定律、麦克斯韦方程组、相对论等; 过去数十年,科学计算机的出现,诞生了“计算科学”, 对复杂现象进行模拟仿真,推演出越来越多复杂的现象, 即第三范式。其典型案例如模拟核试验、天气预报等; Jim Gray认为今天,以及未来科学的发展趋势是,随着 数据量的高速增长,计算机将不仅仅能做模拟仿真,还 能进行分析总结,得到理论。也就是说,过去由牛顿、 爱因斯坦等科学家从事的工作,未来可以由计算机来做。