Citespace软件操作问答
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
Citespace软件操作问答
Citespace 软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace 中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.TopN2.TopN%3.Thresholdl nterpolatio n4.SelectCiters第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
TopN :系统设定N=30,意为在每个timeslice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
TopN%:将每个timeslice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold In terpolation :设定三个timeslices的值,其余timeslices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100 )。
SelectCiters :与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先CheckTCDistribution然后填写UseTCFilter后面的两个数字:最低和最高TC值(TimeCited),选定UserTCFilter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在ProgressReports中给岀。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
设置CiteSpace的各项参数大致相当于取景,调焦,对光圈。
Citespace常见问题500问及解答(一)
Citespace常见问题500问及解答(一)
1、时区图中关键词重叠怎么办?答:放大图标,上下拉动与时间对应即可,注意不要左右拉动。
2、CNKI的数据作机构分析时出现英文怎么处理?答:(1)检查下载的数据看看是否有问题,如有问题手动进行修改(2)与相同的中文机构进行合并(3)如果不重要,将这个点隐藏了。
3、引文半衰期是指什么答:Citation half-life引文半衰期一一是描述引文(文献)老化程度的指标,半衰期越大,显示引文的有效价值越大。
4、用Citespace处理后图谱比较分散怎么回事答:(1)数据量过少,一般应在200条以上记录,效果会比较好;(2)降低数据处理的阈值。
5、连线颜色太淡怎么处理答:display——link transparency——1.
6、下载的数据有某一个机构,但分析时却不显示怎么回事?答:共现强度不够。
7、关键词图谱中,入耳好看关键词的频次?答:在可视化界面左侧,能看到单个关键词的频次,如果想看总共多少关键词及频次,可以copy到excel里面看。
8、term和keyword能不能同时分析?答:不能同时分析,每次只能分析一个。
9、Citespace软件内存如何提升?答:用文本格式打开
startcitespace.bat,将Xmx1g改为Xmx4g即可。
10、在关键词可视化界面,space 右边的数字329,左下角的Records in the dataset: 2618,Records withinthe chosen range: 2365,数字的具体含义是什么?答:329是在其中一年中的keyword的个数,2618 是总数,2365是在From-T o年份之间的总数。
CiteSpace介绍与使用
CiteSpace介绍与使用1. What is CiteSpace?CiteSpace:引文空间是一款眼着与分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。
由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。
(摘自李杰.CiteSpace中文版指南)对于我个人而言,学习使用CiteSpace的目的是快速了解所研究方向的“论文图谱”,被引用数是论文是否优质的重要标志,故通过论文引用图谱,我可以知道哪些论文是优质的,哪些论文是具有开创性的,并且具有开创性质的论文一般不会那么复杂,较容易理解,为日后学习打基础。
2.How to use CiteSpace?在本节我将以自己研究方向为例,构建论文引用图谱首先点击StartCiteSpace.bat ,打开CiteSpace。
然后就可以看到如下较为'原生态’的界面。
CiteSpace自身带了一个example,就是Terrorism。
我现在需要新建一个Project,来建立自己的主题项目。
先点上图的1,“New”,进入下图界面。
上图的2,需要分别建立两个文件夹,一个空文件是Project,另一个Data。
这里简要说一下这两个文件夹的作用,Project文件夹是用来保存分析的结果,不需要添加其他内容。
Data文件是存放将要被分析的数据,这个需要我们去检索,下载,然后放到这个文件夹,具体找什么如下图。
首先找 cross modal 主题 2010-2017年的所有论文。
在上两个图可以知,检索结果有3208篇论文,我们现在要做的是将所有记录信息下载下来,由于Web of Science 限制每次只能下载500条记录,故要多次下载,每次变化的是记录范围1至500,501至1000,1001至1500…,将每次下载的文件改名为download_xxx.txt(这是因为CiteSpace只识别以download_为前缀的文件名)下载后的数据文件:有了数据我就可以使用CiteSpace进行引用分析了,还记得最初的那个“原生态”的界面吗?就是它选择年份,2010-2017,时间间隔为1年。
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:及以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
CiteSpace中文手册
CiteSpace中文手册CiteSpace是一个专门用于文献可视化分析的工具,它可以帮助研究人员更加方便地进行文献调研和分析。
下面将介绍CiteSpace中文手册的相关内容,帮助用户更好地了解和使用这一工具。
首先,CiteSpace中文手册主要包括以下几个部分:简介、安装与启动、基本功能、高级功能和常见问题解答。
在简介部分,用户可以了解到CiteSpace的基本信息和功能特点,以及如何使用CiteSpace进行文献可视化分析。
在安装与启动部分,用户可以学习到如何下载和安装CiteSpace软件,并快速启动软件进行操作。
在基本功能部分,用户可以详细了解CiteSpace的基本功能,包括导入文献数据、生成知识图谱、查看节点关系等。
在高级功能部分,用户可以学习到如何使用CiteSpace进行更加深入的文献分析,包括社区发现、趋势分析等高级功能。
在常见问题解答部分,用户可以查找常见问题的解决方法,帮助用户更好地使用CiteSpace进行文献可视化分析。
除此之外,CiteSpace中文手册还提供了丰富的案例分析和操作示范,帮助用户更好地理解和掌握CiteSpace的使用方法。
用户可以通过学习手册中的案例分析,快速上手使用CiteSpace进行文献分析,提高工作效率和研究质量。
总的来说,CiteSpace中文手册是一个详细而全面的使用手册,为用户提供了丰富的功能介绍和操作指南,帮助用户更好地了解和使用CiteSpace进行文献可视化分析。
通过学习CiteSpace中文手册,用户可以快速掌握CiteSpace的使用方法,提高文献分析的效率和准确性。
愿本手册能够为广大研究人员提供便利,促进学术交流与合作。
【8A版】Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.TopN2.TopN%3.ThresholdInterpolation4.SelectCiters第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
TopN:系统设定N=30,意为在每个timeslice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
TopN%:将每个timeslice中的被引文献按被引次数排序后,保留最高的N%作为节点。
ThresholdInterpolation:设定三个timeslices的值,其余timeslices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
SelectCiters:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先CheckTCDistribution然后填写UseTCFilter后面的两个数字:最低和最高TC值(TimeCited),选定UserTCFilter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在ProgressReports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
设置CiteSpace的各项参数大致相当于取景,调焦,对光圈。
CiteSpace使用手册
CiteSpace使用手册CiteSpace使用手册1:安装与配置1.1 系统要求1.2 与安装1.3 配置步骤2:界面与菜单2.1 主界面2.2 导航菜单2.3 工具栏2.4 设置选项3:导入数据3.1 文件格式要求3.2 导入步骤3.3 数据预处理4:可视化分析4.1 知识图谱4.2 时间轴图4.3 关键词共现图 4.4 簇分析4.5 导出结果5:数据过滤与排序5.1 关键词过滤5.2 文献类型过滤 5.3 时间范围过滤 5.4 排序功能6:检索与搜索6.1 文献检索6.2 高级搜索6.3 检索结果导出7:图表操作7.1 缩放与平移7.2 节点与边的操作7.3 颜色与标签设置8:高级功能8.1 社会网络分析8.2 文献演化路径分析8.3 排他性分析8.4 自定义分析9:常见问题解答9.1 安装与配置问题9.2 数据导入问题9.3 可视化分析问题9.4 其他常见问题附件:本文档涉及附件,请参见附件部分。
法律名词及注释:1: CiteSpace:一款用于科学文献可视化分析的软件工具。
2:可视化分析:通过图形化的方式呈现数据,以便于观察、分析和发现数据中的模式、趋势和关联。
3:数据预处理:在数据分析之前对原始数据进行清洗、转换和归一化等处理,以达到更好的分析效果。
4:关键词共现图:展示关键词之间的共现关系,以便于分析研究领域内的热点和关联性。
5:簇分析:将文献根据某些相似性指标进行聚类,从而发现相关研究领域的研究集合。
6:社会网络分析:通过分析研究者之间的合作关系,揭示研究者、团队和机构之间的科学合作网络。
7:文献演化路径分析:分析文献之间的引用关系,揭示研究领域中的演化过程和研究方向的变化。
Citespace常见问题500问及解答(一)
1、时区图中关键词重叠怎么办?
答:放大图标,上下拉动与时间对应即可,注意不要左右拉动。
2、CNKI的数据作机构分析时出现英文怎么处理?
答:(1)检查下载的数据看看是否有问题,如有问题手动进行修改(2)与相同的中文机构进行合并(3)如果不重要,将这个点隐藏了。
3、引文半衰期是指什么
答:Citation half-life引文半衰期一一是描述引文(文献)老化程度的指标半衰期越大显示引文的有效价值越大。
4、用Citespace处理后图谱比较分散怎么回事
答:(1)数据量过少,一般应在200条以上记录,效果会比较好;(2)降低数据处理的阈值。
5、连线颜色太淡怎么处理
答:display——lixxxxnk transparency——1.
6、下载的数据有某一个机构,但分析时却不显示怎么回事?
答:共现强度不够。
7、关键词图谱中,入耳好看关键词的频次?
答:在可视化界面左侧,能看到单个关键词的频次,如果想看总共多少关键词及频次,可以copy到excel里面看。
8、term和keyword能不能同时分析?
答:不能同时分析,每次只能分析一个。
9、Citespace软件内存如何提升?
答:用文本格式打开startcitespace.bat,将Xmx1g改为Xmx4g即可。
10、在关键词可视化界面,space 右边的数字329,左下角的Records in the dataset: 2618,Records withinthe chosen range: 2365,数字的具体含义是什么?
答:329是在其中一年中的keyword的个数,2618 是总数,2365是在From-To年份之间的总数。
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士得科学网博客)(8)如何在CiteSpace中控制节点得取舍CiteSpace提供了几种方式来控制最终生成得网络将由哪些节点构成:1.TopN2.TopN%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法得细节。
TopN:系统设定N=30,意为在每个time slice中提取N个被引次数最高得文献、N越大生成得网络将相对更全面一些。
Top N%: 将每个time slice中得被引文献按被引次数排序后,保留最高得N%作为节点。
Threshold Interpolation:设定三个timeslices得值,其余timeslices得值由线性插值赋值、三组需要设置得slices为第一个,中间一个,与最后一个slice。
每组中得三个值分别为c,cc,与ccv。
c为最低被引次数。
只有满足这个条件得文献才能参加下面得运算。
cc为本slice内得共被引次数。
ccv为规范化以后得共被引次数(0~100)。
Select Citers:与以上方法不同得就是这个方法先选施引文献,然后需再用方法1-3之一、先Check TCDistribution然后填写Use TC Filter后面得两个数字:最低与最高TC值(TimeCited),选定UserTCFilter前得选项。
按Continue,再设定方法1,2,或3、节点总数在ProgressReports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络得连接密度、CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace得功能类似一架照相机,只就是它拍摄得对象就是科学文献而不就是自然景色。
设置CiteSpace得各项参数大致相当于取景,调焦,对光圈。
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
Citespace下载、出图入门教程(图文版)
一.简单介绍二.下载与安装三.知网示例四.术语解释五.常见问题•下载——官方下载网址:/~cchen/citespace/download/•开发者陈超美科学网博客(有软件最新相关内容)/home.php?mod=space&uid=496649•作用——辅助分析的工具,帮助我们找出学术文献中文字的关系(包括:作者,杂志,关键词,被引用词汇等等),并可视化表示出来。
但不能作为独立的分析结果,需要该领域的专家对其进行解释和分析。
•用途——帮助刚进入某领域研究的学者建立全面的认识;有利于分析学科的发展脉络;能够识别学科研究热点;帮助预测学科未来的发展走向。
•软件下载软件下载按钮Java运行环境下载按钮◆注意下载与电脑配置相匹配的版本(64位&32位)。
◆注意CiteSpace与Java下载对应版本。
•软件安装安装包解压后,点击该按钮,开始运行•_windows&_mac分别对应windows和mac系统电脑1.等待几秒之后,出现该界面;2.随后在光标处输入数字“2”,3.等待软件启动。
点击“不”点击“同意”1.数据导入与格式转换2.创建新项目3.设置时间分隔与阈值4.聚类分析与调整5.结果解读•操作流程注意:1.知网一次最多导出500条文献,最好按时间或者内容主题等分组导出。
2.将下载txt文件重命名为download开头,例:download_民族教育3.新建四个文件夹:input\output\data\project4.初始下载的文件存入input文件夹,格式转换后存入output文件夹,再将output文件夹中数据复制到data文件夹备用。
数据格式转换注意:分别对应选择刚刚建立的四个文件夹,导出文件存入output文件夹创建新项目项目名称项目保存目录数据所在目录保存开始停止聚类以标题给类命名以引文关键词命名以摘要命名命名算法节点大小的依据配色出现频次中心性最早出现年份•点击以上任意数据,可复制粘贴导出•可剔除不相关项关键词类标签节点标签连线标签每个节点为一个关键词。
citespace介绍及使用
CiteSpace
介绍及使用
软件作者简介:陈超美,博士,美国德雷塞尔大学 (Drexel University, Philadelphia, PA, USA) 信息科学与技术学院教授(终身教职)。大连理工大 学长江学者讲座教授,Drexel– DLUT知识可视化与科学发现联合研究所美方 所长。
点击“Make Map”得到一个Google Earth 可以打来的KMZ文件。执行完后,对话框会提 示你KMZ文件的保存位置。
在Google Earth中点击节点可以获取相对应的地址处的文献链接,点击可进入该文献页面 (在图书馆可以直接下载)
CSSCI篇
输入路径,对文本格式进行 转换
Q:什么是CiteSpace?
A: Citespace是一款应用于科学文献
中识别并显示科学发展新趋势和新动态
的软件。
CiteSpace能解决的问题:
• 在某个研究领域中,哪些文献是具有开创 性和标志性的? 含有研究前沿术语词汇的文 • 在某个研究领域的发展历程中,哪些文献 某个科学领域中科学文献的 献的引文,实际上,它们反 起着关键作用? 暂时性成分。CiteSpace中, 映的是研究前沿中的概念在 一个科学的研究前沿表现为 • 哪些主题在整个研究领域中占据着主流地 科学文献中的吸收利用知识 涌现的施引文献群组。 位? 的情况。 • 不通的研究领域之间是如何相互关联的? • 基于一定知识基础的研究前沿是如何发生 演变的?
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
CiteSpace常见问题解答Part2
方法2:导出.net格式,Gephi, Pajek以及Ucinet都可以识别
Pajek
此图是使用CiteSpace得到的图形, 下页将呈现使用Pajek和Gephi的可 视化结果
Gephi
2.CiteSpace 2 other tools:Visualization software- Carrot2- Jigsaw
������������ ������������������, ������������, ������������; ������
=
21������������������������ ������������������ + ������������������ 1������
CiteSpace提供了三种可以用于计 算网络中连接强度的方法,分别 为Cosine,Dice和Jaccard方法。 通常大家都默认使用的是Cosine 方法,至于那种方法好,这里不 好下结论。
Carrot2软件下载: /download.html Jigsaw软件下载(需要提交基本的注册信息)/gvu/ii/jigsaw/
打开CiteSpace,以此在菜单中 打开“Data”, “Import/Export”,“WOS”。 可以看到在CiteSpace对WoS数 据处理的四种功能,Remove duplicates(数据除重)、WoS (Tab)格式向WoS格式转换、 WoS格式转换为Jigsaw格式以 及WoS格式转换为Carrot2可分 析的格式。
常见问题解答 Part 2
李杰1,2,陈超美3
1.上海海事大学 海洋科学与工程学院 2.上海海事大学 科技情报研究所
3. Drexel University- College of Computing and Informatics
Citespace软件操作问答
Citespace软件操作问答(摘自陈超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice内的共被引次数。
ccv为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要内存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
CiteSpace常见问题解答
• 如何选取CiteSpace中的各项参数 /blog-496649-378974.html
• 如何在CiteSpace中控制节点的取舍 /blog-496649-394695.html • 如何在CiteSpace中提取名词短语/blog-496649-675216.html • 如何增强CiteSpace处理数据的多少和快慢/blog-496649-455758.html • 如何用CiteSpace分析专利概况/blog-496649-433660.html • 关于CSSCI 的数据转换问题 (更新) /blog-496649-427780.html • 如何解决“Could not create the Java virtual machine”的问题/blog-496649-396909.html • 如何用CiteSpace整理数据/blog-496649-386310.html • 如何解读CiteSpace产生的图谱/blog-496649-379517.html • CiteSpace中的Burst Detection/blog-496649-566289.html • Chen, C. (2014) The CiteSpace Manual. /~cchen/citespace/CiteSpaceManual.pdf
CiteSpace常见问题解答
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:/u/jerrycueb
写在前面
对于初学者使用CiteSpace来讲,会遇到一些常见的问题。笔者将比较重要的 总结为以下几点,欢迎大家继续添加。 ① 下载的WoS数据为什么不能做文献共被引分析? ② 图谱左上角的参数是什么意思?图谱参数在什么范围比较合理?
3
7.在CiteSpace中关键文献如何确 定?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Citespace软件操作问答(摘自超美博士的科学网博客)(8)如何在CiteSpace中控制节点的取舍CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成:1.Top N2.Top N%3.Threshold Interpolation4.Select Citers第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。
其余几种办法逐渐变得复杂,最好等熟悉系统之后再考虑。
下面简要介绍一下各个方法的细节。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%: 将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性插值赋值。
三组需要设置的slices为第一个,中间一个,和最后一个slice。
每组中的三个值分别为c,cc,和ccv。
c为最低被引次数。
只有满足这个条件的文献才能参加下面的运算。
cc为本slice的共被引次数。
ccv为规化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3之一。
先Check TC Distribution然后填写Use TC Filter 后面的两个数字:最低和最高TC值(Time Cited),选定User TC Filter前的选项。
按Continue,再设定方法1,2,或3。
节点总数在Progress Reports中给出。
节点总数越大需要存越多。
下回将介绍如何选择网络的连接密度。
CiteSpace提供了多项参数选择,初学者难免有时不知从何下手。
这里介绍一些要点以供参考。
CiteSpace的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景色。
设置CiteSpace的各项参数大致相当于取景,调焦,对光圈。
不过这些过程在如今的相机中基本都已完全透明。
所以,参数设置对CiteSpace所产生的图谱有直接影响。
最初使用时,最简单的办法是先采用系统的预定参数;熟悉之后,再按下面提供的要点调整参数。
那么什么样的CiteSpace图谱才算好图谱呢?CiteSpace的设计实际上是有针对性的。
能满足CiteSpace设计要求的图谱才视为好图谱。
CiteSpace要展现的是一个领域的知识发展的历史和现状。
这是CiteSpace的取景围。
由于深受库恩《科学革命的结构》的影响,对CiteSpace来说,焦点自然是在式(paradigm)和式转移(paradigm shift)。
近年来大家倾向于这种认识:式是一种更为广泛的现象,可以在各个层次上出现。
换句话说,并非50年一遇或100年一遇。
所以CiteSpace竭尽全力所要甄别,显示,突出的就是在广义的式转移中起关键作用的转折点。
与广义式相对应的是科学文献中自然呈现的聚类。
转折点便是联结不同聚类的桥梁。
如果CiteSpace生成的图谱能清晰的显示出这些要素,这种图谱便属上乘之作。
关于解读CiteSpace图谱的要点,来日再写。
有了这个目标以后,图谱如能显示俩三个或更多的自然网络聚类,而且各聚类之间有少量的联系,便为最佳。
这样的图谱很容易带来有趣的和有意义的发现。
相反,如果图谱中所有节点都纠缠在一起,则很难理出头绪。
如果碰到这种情况,检查下面几种原因:数据围是否过窄,门槛设置是否过高(threshold),曝光时间是否过短(time slice)。
另外,可用CiteSpace中的剔除功能(pruning)来剔除一些次要的以突出核心结构。
成像以后,CiteSpace可提供进一步的指标。
比如,modularity大约在0.4~0.8时的图谱通常会符合或接近上述要求。
另外,如果可能从每年或每个时间段中选取数量大致相当的数据,会比每年都使用同样的门槛要更有效(相对于上述目标而言)。
做专利分析的时候,发现转换德温特专利的数据;还有就是,C、CC和CCV阈值的选择有没有什么标准呢?TopN 和TopN% 更直接,建议你用这两项。
c,cc,ccv的选择灵活但较为复杂,参考2004年我的PNAS文章。
从前,c有选5次以上的,ccv有选25%以上等等在文献中都可见到。
阈值低的覆盖面会稍微广一些。
考虑到文献数据本身的误差,以及大部分人的注意力往往集中在最有代表性的工作,所以阈值的选择总是相对的。
WOS并不包括所有的文献。
另外,信息和噪音比也是一个考虑因素。
关于阙值的选择,我是不是可以这样理解,就是说,知识图谱是需要不断探索和试验的,对所选择领域文献的分析必须是基于文献实际情况的,而不只是就图说图,理想的知识图谱应该是能够正确反映文献实际情况的那一图。
所以,知识图谱的绘制并不是一蹴而就的,阈值的不断切换就是为了找到符合实际情况的知识图谱;在操作过程中经常会遇到有的文献被引频次很高,但是中心度却很低,而有的文献被引频次很低,中心度却很高,对于这样的现象我该怎样去理解?这两类文献中那一种才是关键文献或重要文献?为什么会出现这样的情况。
另外,阈值设定中:top N per slice 或者Threshold(c,cc,ccv)数值大小,选用Pathfinder或者Minimum Spanning Tree,即使小小的变化,软件选择出的被引文献或者关键词其中心度变化很大。
如果选择了其中的一组数据进行分析,自己都无法解释选择为什么要选择这组数据?我应该依据什么去选择分析?被引频次和中心度是两种不同的度量。
中心度是定义在网络结构上的。
至于什么是关键文献或重要文献,取决于你要研究什么问题。
如果波动很大说明你选的top N还不够大。
使用默认的top30与设置c、cc,ccv的差别很大,不知什么原因常常软件跑不动了,能给出点阈值调节的具体知道吗?c/cc/ccv的选法不太容易掌握(由下往上选),所以现在系统界面推荐top N的选法(由上往下选)。
建议先用系统预定参数,然后根据选入节点的数量等在调节参数:top N: 30, 50, 100, ... 由低望高增加。
c/cc/ccv:,c: 30, 25, 20, 15, 10, 5, ... 由高往低减少。
cc: 30, 25, 20, 15, 10, 5, ...,ccv: 30, 25, 20, 15, 10, 5,(9)如何解读CiteSpace产生的图谱CiteSpace的核心功能是产生由多个文献共被引网络组合而成的一种独特的共被引网络,以及自动生成的一些相关分析结果。
每个文献共被引网络对应于一个历时一年或几年的时间段。
最终显示的网络不是各个网络之间的简单叠加,而是要满足一些条件(详见2004年PNAS的论文)。
解读这样的网络(我称为递进式知识领域分析)的要点包括:网络整体结构,网络聚类,各聚类之间的关联,关键节点(转折点)和路径。
解读时可从直观显示入手,然后再参照各项指标。
结构:是否能看到自然聚类(未经聚类算法而能直观判定的组合),是否包括转折点(有紫色外圈的节点),通过算法能得到几个聚类?每个节点大小代表它的总被引次数。
大圈则总被引高。
时间:每个自然聚类是否有主导颜色(出现时间相对集中),是否有明显的热点(节点年轮中出现红色年轮,即被引频率是否曾经或仍在急速增加)?通过各个年轮的色彩可判断被引时间分布。
时间线显示将每一聚类按时间顺序排列,相邻聚类常常对应相关主题(聚类间共引)。
聚类之间的知识流向也可从时间(色彩)上看到(由冷色到暖色)。
容:每个聚类的影响(被引时涉及的主题,摘要,和关键词)和几种不同算法所选出的最有代表性的名词短语?指标:每个聚类是否具有足够的相似性(silhouette值是否足够大,太小则无明确主题可言),整个聚类是否有足够节点(太少则很可能全都出自同一篇文献的参考文献,因而缺乏普遍意义)?Tips:每个节点上,右键弹出的选择中,有一项是通过DOI连接到原文提供的网页。
可用CiteSpace的图谱作为一个直接浏览相关文献的界面点是理想的?(我目前运行时得到节点关键词308个,连线2057条);第二,在进行时间线视图时(timeline),每一个聚类后面的名称是依据什么来标注的?(通过运行,发现有的聚类名称和研究领域联系不大)1. 这个问题可参考我以前的博客。
主要考虑是网络结构是否能回答在比节点本身更高抽象层次上的一些问题。
2。
是由引用各聚类的论文决定的,具体词组可选自论文的标题,摘要,和索引词,再由3种办法之一度量。
如“联系不大”,可解释为施引/被引之间的“距离”较大,参照silhouette值。
, 1.在关键词可视化视图生成过程中,左边会出现相应的按词频排列的关键词排序,一些关键词会出现两次,这该怎么解释呐?而有些关键词只是单复数的区别,如library和libraries。
在分析时应该将两者的频次相加,还是只取其中一个的数据呢?在图中右键将要保留的词选为Alias Primary,再将另一词选为Alias secondary. 重新GO!一下, 会将二者合并。
问article labeling 和term labeling 分别是指什么类别?Term: TermsArticle: Authors, Cited References, Institutions, Countries, Keywords, etc.“The most active citer to the cluster is 0.45 ISI:0018 Mines, M (2000) ocular injuries sustained by survivors of the oklahoma city bombing.”里面的0.45指的是什么指标呀?0.45=45%. Mines, M. 引用了该类中45%的文献。
检索结果与主题相关程度:右键弹出的菜单上有个Citation History里面的第二个tab列出了施引文件,点击这些条目可得到两种结果:1。
如果有DOI信息,将直接打开原文的网上地址。
2。
否则,将显示标题和摘要。
你可根据这些信息进一步判断引用的原因。
我用的中文数据,节点类型选择cited reference .在阈值选择上,如果所有c=3的情况下,每个slices的节点最多只有10个左右,连钱每个slices 都只有几条,构不成聚类,而所有的c=2的情况下,每个slices的节点就都有几百个,连线上千条。
生成的图谱一盘散沙,都是小型聚类,并且聚类之间都没有连线。
这样的数据好像缺乏主题和核心- 所以有可能还算不上一个领域。
CiteSpac也没办法:-)(数据去重复与阈值选择类问题)如何运用citespace这个软件除重呢?Data -> Import/Export -> WoS -> Duplicate Removal 1)从WOS下载的文本中有重复文献,CiteSpace 能直接对重复文献过滤吗?若不能,该如何处理这些重复文献呢?用NoteExpress去重后,再重新导入CiteSpace可以吗?(本人还没尝试)2)Project一旦建立,其“Data Directory”便不能更改了吗?为什么点了“Edit”之后没有反应?3)在“Process Reports”中显示" Records in the dataset: 95676",这里的Records是指所有.txt文件中包括的的文献吧,但实际数量只有1万条左右,这是为什么呢?4)设定slice为1 year,在“Process Reports”中,每一年的记录情况均显示了两次,是代表CiteSpace对每一年的情况都做了两次统计吗?1. Data>Import/Export>Web of Science>Duplicates Removal2. 可以更改。