引文分析词频分析
词频分析研究的现状、方法及工具
词频分析研究的现状、方法及工具今天主要跟大家介绍词频分析研究现状、方法及工具。
词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。
它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。
词频分析使用现状如何?以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论文题目中出现“词频”二字,其中206篇核心期刊;如果以“主题”为检索条件,则有3423条文献以“词频”为主题开展了研究,其中1722篇在核心期刊发表。
由图可知,将“词频”分析工具来队研究对象进行分析,一直都处于增长态势。
说明有越多越多的论文开始基于词频分析来开展研究工作。
由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。
要彻底了解词频分析,必须先了解次词频统计方法。
TF-IDF (term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。
/view/920592.htm目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。
SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。
它采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在90-95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。
引文分析法
引文分析法除了前面两节介绍的内容分析法,内容相关分析涉及到的另外两个主要的领域是情报检索和引文分析。
本节在扼要阐述和比较这两者之后,集中介绍引用相关分析的方法—引文分析法如何进行内容相关分析。
一、检索相关检索相关是指以情报检索为目的的内容相关分析。
可以说,各种情报检索理论和方法都围绕着准确、高效地显示、识别和判断检索对象内容或概念上的相关关系。
例如,任何一种检索语言在编制技巧上的一个最重要而又最困难的问题就是如何显示概念之间的相互关系。
不能充分显示或未显示概念之间真正的相关关系,就会影响检索语言的缩检扩检功能,发生漏检误检。
从相关分析的角度上,可以将查全率理解为相关内容的菠盖程度,将查准率理解为内容真正相关的显示程度。
又如,在数据库检索中,发展出了详尽显示概念或内容相关关系的词典,这种词典可以帮助用户揭示相关的主题词从而提高检索效果。
美国能源部的一个能源数据库配有约1000页及2.5万个表的词典,能显示出相关的代替词或不同层次的相关词项,如词典在“蒸馏”之下列出的拓宽词为“分离处理”,而缩小词为“干馏”和“真空蒸馏”,还显示出约12个相关的代替词,包括“共沸混合物”、“蒸发”等。
情报检索的相关分析在方法上的特征是:(1)以标引和标识为基础。
由此发展出了多种情报检索语言和查找途径。
概念内容是通过标识来显示的;(2)以标识是否一致或符合作为判断是否相关的判据。
我们将这种相关分析称之为“符合相关”,即标识相符时才被看作是相关的,否则为不相关。
二、引用相关引用相关是指通过科学活动中的引用行为来揭示文献内容之间的相关关系。
由于在科学活动中,任何一个人的劳动及其知识产品都不是孤立存在的,而是以前人的劳动为前提和条件的,因此,知识劳动的主要形式一一科技文献在内容上存在必然的相关联系。
通过引用行为来显示这种内容上的相关联系并进而作出种种推论,是一种独特的途径。
尽管关于引用能否从本质上真正揭示出相关,以及引用行为的复杂性等间题,尚有种种的讨论,但在统计的意义上,通过引用分析来反映相关,的确是一种有特色、有价值的方法,其有效性已经被大量实例所证明和肯定。
词频分析法在学科发展动态研究中的应用综述_张勤
知识、学习与管理Knowledge,Learn ing &Management[基金项目] 本文系中国博士后科学基金第二批特别资助项目(200902448);北京物资学院工商管理创新基地资助项目(WYJD200904)成果之一。
[作者简介] 张勤,女,1976年生,博士,副教授,发表论文10余篇,出版学术著作、译著各1部。
词频分析法在学科发展动态研究中的应用综述Rev ie w o n the W or d Fre quency Analys is Emplo yed to Disco v er the De v elo pment o f Scienc e Rese arch in China张 勤(北京物资学院商学院,北京,101149)[摘要] 词频分析法能够用于揭示某一学科的发展动态和研究进展。
本文通过对国内词频分析法的相关学术期刊论文(112篇)进行梳理和挖掘,总结了词频分析法目前的主要运用学科领域和发展阶段,分析了词频分析法在运用中的数据处理与计量方法,发现了词频分析法在运用中存在的问题,在此基础上,对词频分析法的未来发展进行了展望,提出词频分析法的运用改进措施。
[关键词] 词频分析法 研究进展 文献综述[中图分类号] G 350 [文献标识码] A [文章编号] 1003-2797(2011)02-0095-04[Abstract] Word frequency analysis can be employed to discover the development of science res earch.This arti cle,on the basis of analyzing the 112papers on word frequency analys i s study issued in correlati ve Chinese periodicals,di scovers i ts mainly suppl yed subject fields and developmemt phases,discusses how to deal wi th the data in applying,findes out the exis-t ing problems in applying;and puts forward the countm easures to improve the m ethod i n applying.[Key words] Word frequency analysis;R esearch development;Literature review1 引言词是文献中承载学术概念的最小单位。
词频分析
共词聚类分析法
借助数据挖掘中的聚类分析法,对共词关 系网络中的词与词之间的距离进行数学运算 分析,将距离较近的主题词聚集起来,形成一个 个概念相对独立的类团,使得类团内属性相似 性最大,类团间属性相似性最小。
共词关联分析法
关联规则是描述一个事物中物品之间同时 出现的规律的知识模式,更确切地说,就是通过量 化的数据描述物品A的出现对物品B的出现有多 大的影响。共词关联分析以此为原理,通过关联 统计方法,揭示主题词间的依存关系,在这基础上 可现实对文献知识的提取以及组织文献数据库 的作用。在共词关联分析的过程,涉及到4个重要 的概念:a.支持度(Support) b.可信度(Confidence) c.期望可信度(Expected Confidence)d.作用度 (Lift)。
突发词监测法
它关注焦点词-相对增长率突然增长的词。突发 词监测与高频词词频不同,前者主要是从关注词自身 的发展变化出发,关注单个词发展的阶段性,而后者主 要是对领域中各个词的增长势头进行比较。由于科 技领域中的局部热点变化不一定会引起全领域的注 意或者研究,但又是领域发展中不可缺少的部分,比如 关于某学科的教育研究,不一定会引起全领域范围的 讨论,但是它的研究本身也会不断发展。因此基于单 个词的词频增长率变化更有可能涉及到领域局部热 点的变化。突发词监测法更注重的是研究领域内,那 些研究活跃、有潜在影响研究热点的因素,因此,突发 词监测有助于发现推动学科(或主题)研究发展中的微 观因素。
三、高频词的选定
为简化统计的过程及减少低频词对统计过 程带来的干扰,通常共词分析选择高频主题词 为分析的对象。共词分法对高频词数量的选 择没有统一的见解,如果主题的范围过小,则不 能如实反映学科知识点的构成;如果主题的范 围选择过大,则给共词分析过程带来不必要的 干拢。用域值表示高频词划分的频次值,高频 词域值越高,高频词的数量越多。高频词阈值 是被认定高频词的词频总和,占所有词频总和 的比率。
第七章 引文分析法
第七章引文分析法第一节引文分析概述1. 引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法对科学期刊、论文、著者等各种分析对象的引证或被引证现象进行分析,以便揭示出研究对象所具有的特征或它们之间的关系及其规律性的一种文献计量研究的方法。
2.引文分析的特点:(1)良好的易用性和实用性。
(2)引文具有丰富的内涵。
引文丰富的内在含义是由多种引用动机所造成的。
(3)引文分析可以反映多种文献的特征。
引文分析可以针对受引文献的各种特征来反映学科发展的规律,能为优化文献管理与利用提供有益的参考。
如引用文献的引文量,语种分布,年代分布等。
(4)引文分析可以反映自我回馈。
第四节科学引文的结构分析1 引文年代分布:从时间的角度对引文分布规律进行分析是引文分析的主要内容之一。
它可以反映出被引文献的出版、传播和利用情况,特别是在文献老化和科技史的研究中,引文年代分布的分析更是一种广泛应用的有效方法。
2引文语种分布:引用文献是由不同语种文献构成的。
某一语种的文献被引用量越大则说明该语种比较重要和常用。
考察和分析引文语种分布对于人们有计划的引进外文文献、译文选题、外文教育都有参考价值。
3引文按文献类型分布:科学研究中引用的文献面很广,如期刊、图书、专利说明书、科技报告、会议文献、学位论文等类型。
引文类型就是研究所有引文中各种类型文献所占的比率。
4引文国别分布:由于科学研究的需要,任何一个国家的科技工作者都不可避免的要用别国的科学文献,这样就形成了引文按国家分布的情况。
引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。
一般采用抽译分析法。
5引文按学科专业分布:通过此分析,可以了解相关学科。
6引文按著者分布:推出这个专业的核心作者。
第五节科学文献的自引和双引分析1、文献自引在引用文献的行为中,限于本身范围内的引用称为“自引”。
自引的最主要的原因是作者把目前工作与先前的工作相联系。
[指南]词频分析法
一、词频【释义】:一定范围的语言材料中词的使用频率。
TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
原理在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
这个数字通常会被正规化,以防止它偏向长的文件。
(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。
)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:以上式子中 ni,j 是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。
某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到例子有很多不同的数学公式可以用来计算TF-IDF。
这边的例子以上述的数学公式来计算。
词频(TF) 是一词语出现的次数除以该文件的总词语数。
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是0.03 (3/100)。
一个计算文件频率(DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。
所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 9.21( ln(10,000,000 / 1,000) )。
最后的TF-IDF的分数为0.28( 0.03 * 9.21)。
23种常用的资料分析方式汇总
23种常⽤的资料分析⽅式汇总社会科学的研究步骤在每⼀个环节都需要理论的指导。
其中,在检验研究假设结束之后,需要与现有的⽂献对话,再次发现新问题,开始新⼀轮的研究过程。
在这个环节之中,资料分析作为重要⼀环,对于社会科学的研究极为重要。
资料分析的⽅式分类教育研究包含多样化的研究⽅法及分类。
⼀般情况下,按照认识论基础,研究⽅法可以分为定量研究、定性研究和混合研究。
也有部分学者按照研究⽬的、⼿段等对研究⽅法进⾏分类。
⽐如别敦荣和彭阳红将研究⽅法分为:理论思辨、经验总结、历史研究、调查研究、⽐较研究、数学分析、质的研究和个案研究;在国内,根据刘良华对研究⽅法的分类⼤体上有三个基本类型:实证研究(量化的、质化的)、思辨研究(⼜称理论研究)、实践研究(常以教育对策、教育反思、教育改⾰形式显现)。
实证研究是基于“事实”的⽅式进⾏论证并有规范的研究设计和研究报告。
陈向明指出,“研究⽅法”⼀般包含三个层⾯:第⼀,⽅法论,即指导研究的思想体系,其中包括基本的理论假定、原则、研究逻辑和思路等;第⼆,研究⽅法或⽅式,即贯穿于研究全过程的程序与操作⽅式;第三,具体的技术和技巧,即在研究的某⼀阶段使⽤的具体⼯具、⼿段和技巧等。
⽂中所采取的分类是按照陈向明定义中的第三个层⾯为标准进⾏的分类。
在实际的研究过程中⼤多数时候是以⼀种研究⽅法为主,其他为辅,交叉使⽤的。
以下内容是介绍每⼀种具体的⽅式。
那么资料搜集上来了?该如何分析呢?具体的资料分析⽅式- 01 -思辨分析1、历史研究⽅法历史研究法是运⽤历史资料,按照历史发展的顺序对过去事件进⾏研究的⽅法。
亦称纵向研究法,是⽐较研究法的⼀种形式。
在政治学领域中,它着重对以往的政治制度、政治思想、政治⽂化等的研究。
历史研究的⽬的在于解决政治制度的现状及其演变趋向。
但不是断章取义地分析政治制度的现状,⽽是系统地研究它们以往的发展及其变迁的原因。
历史研究法主要是研究政治制度的发展历史,从各种事件的关系中找到因果线索,演绎出造成制度现状的原因,推测该制度未来的变化。
文献计量学六大规律
文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。
文献信息源的定量研究开始于20世纪初。
在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。
布拉德福定律:也称文献分散定律。
是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。
它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。
经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。
布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。
”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。
布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。
洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。
在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。
那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。
他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。
其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。
国内引文分析领域研究状况的可视化分析———基于论文数量、作者、主题词的知识图谱分析
收稿日期:2010-11-26㊀㊀㊀㊀修回日期:2010-03-15基金项目:中央高校基本科研业务费专项资金资助(编号:006)㊂作者简介:邓㊀蓓(1972-),女,馆员,研究方向:信息资源管理;宋艳辉(1981-),男,博士研究生,研究方向:信息计量;冯㊀莲(1963-),女,馆员,研究方向:情报技术;谢雨君(1970-),女,副研究馆员,研究方向:情报技术㊂国内引文分析领域研究状况的可视化分析*基于论文数量㊁作者㊁主题词的知识图谱分析邓㊀蓓1㊀宋艳辉2㊀冯㊀莲1㊀谢雨君1(1.九江学院图书馆㊀九江㊀332005;2.武汉大学中国科学评价研究中心㊀武汉㊀430072)摘㊀要㊀以国内引文分析领域的3266篇论文作为统计对象,揭示了引文分析研究的文献增长规律㊂对论文的作者进行数量统计和社会网络分析发现并公布了引文分析领域具有重要地位的几位作者,肯定了中文社会科学引文索引(CSSCI )研制者 苏新宁等人对国内引文分析研究的重要贡献㊂借助CiteSpaceⅡ突变检测算法检测到引文分析领域的研究前沿术语,并借助CiteSpaceⅡ提供的复杂混合网络的可视化方法,将研究前沿与作者建立对应关系,揭示国内引文分析领域的研究状况㊂关键词㊀引文分析㊀社会网络分析㊀可视化分析中图分类号㊀G306㊀㊀㊀㊀㊀㊀㊀㊀文献标识码㊀A㊀㊀㊀㊀㊀㊀文章编号㊀1002-1965(2011)06-0091-07Visualization Analysis of Domestic Citation Analysis Research FieldDENG Pei 1㊀SONG Yanhui 2㊀FENG Lian 1㊀XIE Yujun 1(1.Llibrary ,Jiujiang University ,Jiujiang ㊀332005;2.Research Center for Chinese Science Evaluation ,Wuhan University ,Wuhan ㊀430072)Abstract ㊀Based on the analysis of domestic citation statistic papers ,the paper revealed its growth mode.Through quantity statistics and social network analysis of the authors of the papers ,we found and published several important authors in the field of citation analysis ,and confirmed the great contribution of Su Xinning --the Chinese social sciences citation index (CSSCI )-on domestic citation analysis.With CiteSpace Ⅱmutations detection algorithm ,we detected the research frontiers terms in the field of citation analysis.With the complex hy-brid network visualization method provided by CiteSpace Ⅱ,we established with will research frontiers corresponding relation of space and time between research front and author ,revealed research situation of domestic citation analysis from the two dimensions of space and time.Key words ㊀citation analysis ㊀social network analysis ㊀visualized analysis0㊀引㊀言引文分析作为一个广阔领域,是否业已形成一门作为相对独立学科的引文分析学?对此,直到2007年刘则渊[1]在‘科学知识图谱:方法与应用“一书中才明确指出: 从普赖斯㊁加菲尔德到斯莫尔,已确立起日臻完备的引文分析理论与方法,构成科学计量学的基础与主流,在一定意义上也可以说在科学计量学中已形成一门成熟的分支学科 引文分析学 ㊂虽然 引文分析学 是否成为一门独立的学科还没有形成统一的定论,但是引文分析领域经过数十年的发展已经日渐成熟却是不争的事实㊂国内最早的引文分析文章出现在1981年左右,而国外引文分析的研究可以追溯于20世纪60年代加菲尔德对SCI 的研制,因此相对于国外的引文分析发展来说,国内的引文分析研究起步较晚,但是国内的引文发展究竟呈现一种什么态势㊂在国内已经有人开始从事引文分析的可视化研究,主要是从两个角度展开研究:a.理论研究㊂胡利勇等[2]利用计算机信息系统的开发方法和可视化技术,结合引文分析的理论基础,研究了一种直观㊁快速查第30卷㊀第6期2011年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志JOURNAL OF INTELLIGENCE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.30㊀No.6June㊀2011看引文网络图的方法,并提出引文可视化系统的总体结构和主要模块㊂李运景等(2007)对国外在引文时序可视化㊁被引分析可视化等方面的研究中所涉及的技术和应用进行了分析,总结了引文分析可视化所采用的图形种类,引文分析可视化对研究中尚未解决的问题进行了简要的探讨㊂b.实证研究㊂国内这方面的研究主要是梁永霞㊁刘则渊㊁杨中楷[4-6]研究团队承担的,他们在2009-2010两年间分别对SCI 和SSCI 中联合检索到1974-2006年期间747篇文献,23487条引文进行引文分析㊁聚类分析㊁多维尺度分析㊁社会网络分析;以SCI 和SSCI 中引文分析领域1906篇论文为研究对象,借助可视化技术CiteSpace 等软件工具,揭示引文分析领域的初始形成期㊁发展㊁繁荣期㊁深化拓张期三个阶段的演进历程,通过加菲尔德㊁普赖斯㊁斯莫尔等主要代表人物文献的可视化图谱,具体呈现出他们各自在不同时期对引文分析领域发展的独特贡献以及他们有关引文分析的经典文献对引文分析领域演化路径的关键作用㊂对CSSCI 中检索到的1998-2007这10年间527篇引文分析文献绘制引文分析领域的重要作者和重要文献图,反映引文分析领域的重要人物和重要著作,展现引文分析领域的知识结构关系㊂综合起来看,国内引文分析可视化研究的不足之处有:a.论文数量不足㊂b.实证研究中侧重于国外的引文分析研究状况的揭示,笔者分析可能是各种可视化工具是用英文开发的,面向的数据库也是英文数据库,因此在处理中文数据时不方便㊂c.针对国内的引文分析领域研究的系统性不够强,以10年间的527篇文献不足以系统地揭示国内引文分析研究的状况㊂基于国内这方面研究的不足,我们以国内自1981年出现的第一篇引文分析论文至今30年间的3266篇论文为研究样本,借助第二代信息可视化工具,从论文数量的增长规律㊁高频作者分布与合作㊁研究热点的演化变迁等角度系统揭示国内引文分析领域的研究状况㊂1㊀数据来源与研究方法本文的数据样本来自于中国知网(CNKI ),以关键词 引文分析 进行主题检索,共检索到3266篇论文(检索时间:2010-09-27)㊂研究工具为:统计软件EXCEL 2003;统计分析软件SPSS 13.0;社会网络分析软件UNCINET 和可视化工具NETDRAW ;探索科学知识前沿可视化软件CiteSpace Ⅱ㊂本文拟采用的研究方法:在各年发文统计的基础上,以SPSS 13.0进行回归分析,揭示引文分析领域的文献增长规律;借助UN-CINET ㊁NETDRAW 分析高频作者的中心度大小,比较他们对资源的控制能力,并以可视化的形式展示他们之间的合作关系和中心度㊂运用CiteSpace Ⅱ的突变检测算法探索引文分析领域的研究前沿术语,并基于作者与前沿术语的共现复杂网络分析方法,进一步探析作者的研究前沿领域和某些研究前沿领域的代表人物以及他们出现的时间㊂2㊀论文数量分布根据引文分析论文的年度发文量以及各年累积发文量绘制论文增长曲线图(如图1所示),并添加累积发文量的趋势线(图1中的虚线)㊂图1㊀引文分析论文增长曲线在文献增长规律的研究中,一般都是以文献累积数据为依据的㊂尤其是在研究某一学科或者知识领域的文献在一定时间范围内的增长规律时,更是如此[7]㊂各年出版的文献逐年相加而得到的文献累积数量总是增加的,就有可能趋于某种固有的规律,所得到的结果,往往是较为规则的曲线,就能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研究;非累计数据,即每一年所出版的文献数量,容易受到各种复杂的社会因素的影响,一般来说都是波动的,很难确定它是否近似的趋于某种固定的规律,其结果往往是一些非规则的曲线,难以用某种函数来描述,也给文献的定量分析带来困难,正如图1所显示的论文的各年年度论文分布情况,各年呈现较大的波动性,尤其是在最初的几年,更无任何规律可寻,也正如米哈伊洛夫所指出的: 如果按每年问世的出版物的数量来判断科学文献的增长,那么它的进展甚至连几何性的都不是,而仅仅是算术性 [3]㊂基于以上的分析,我们根据论文年度累计数量绘制图1研究引文分析领域论文的增长规律㊂一条较为光滑曲线连接各点十分近似㊃29㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷地表征了引文分析论文随时间增长的趋势,普赖斯曾在‘小科学,大科学“一书中论述 一般科学领域的文献是按指数增加的规律,且指数型规律终将成为逻辑型 [7]㊂普赖斯最先注意到科学文献增长与时间呈指数函数关系㊂如果F (t )表示时刻t 的文献量,则指数定律可以表示为:F (t )=ae bt (a >0,b >0)t 时间,以年为单位;a 条件常数,即统计年的初始时刻(t =0)的文献量;e 自然对数的底(e =2.718 );b 时间常数,即持续增长率:某一年文献的累积增加量与前一年的累积总数的比值㊂笔者对1981-2010年这30年间的论文累积数据进行指数增长定律的回归拟合分析㊂结果显示,R square =0.870,P -值<0.005㊂一般认为R square 在0.870左右表示拟合结果理想,由此可见,拟合优度比较理想,回归方程有效㊂但是笔者在同样的数据的基础上做了幂函数的回归拟合检验,却意外发现拟合优度非常理想,其中R square =0.983㊂R square 是验证一个模型的拟合优度常用的参数,被称为判定系数㊂R square 越接近于1表示回归效果越好,当R square =1时表示所有观察点完全落在回归线上㊂R square =0.983,极其接近于1,意味着拟合优度非常理想,方程显著有效,大部分的点都落在了幂函数的回归线上,如图2所示:图2㊀引文分析论文累积数据的幂函数回归分布表1为笔者分别进行指数拟合和幂函数拟合的回归方程以及重要的回归参数㊂通过对比可以发现冥函数的回归优度比指数函数好很多㊂也就是说,从1981年出现第1篇引文分析论文,至2010年的国内的引文分析学文献将是沿着幂函数增长规律演进,其表达式为,F (t )=0.985txp 2.3725㊂F (t )为文献的累积量;0.985为初始文献量,近似于1;2.3725为常数㊂因此,我们 引文分析学文献是按照冥函数的模式增长 的这一结论是与普赖斯指出的一般科学领域的文献是按指数增加的规律是相悖的㊂我们分析主要是以下原因:a.研究对象的不同㊂普赖斯当年选取的是国外相关学科的文献作为统计对象,而我们选取的是国内引文分析领域的文献㊂b.学科发展的不同㊂国内引文分析学的发展应该处于发展的初步阶段,还远远没有成熟㊂事实上,在国内很少有将引文分析学作为一种独立的学科来研究的,往往是被当做科学计量学和文献计量学等学科的一种成熟的研究方法对待㊂表1㊀引文分析学论文时间分布的回归方程学科拟合方式R square F 值P -值回归方程引文分析学指数函数0.870180.7850.000F (t )=12.410exp (0.217t )冥函数0.9831576.0000.000F (t )=0.985txp 2.37253㊀论文作者分布㊀3.1㊀作者发文分布㊀本文对引文分析领域的3266篇论文的作者进行统计,共得到2052位作者,现将发文量在5篇以上的作者列出,如表3所示㊂发文27篇,排在第1位的作者是被称为 国内科学计量学之父 的刘则渊[1];排在第2位的是有 国内文献计量学奠基人 之称的邱均平[8]㊂引文分析方法,自美国情报学家加菲尔德创立科学引文索引,后经其本人㊁普赖斯和斯莫尔等人将该索引应用于科学研究形成引文分析法以来,一直被科学计量学和文献计量学的学者视为较为成熟和科学的分析方法,并得到广泛的应用㊂刘则渊曾系统地对引文分析学进行过研究,例如他的 引文分析学的学科地位 ㊁ 引文分析学的知识流动理论探析 ㊁ 引文分析学形成与发展的可视化分析 等文章都是关于引文分析学最基本的理论性探讨[4,9-10];而 基于专利共被引的企业技术发展与技术竞争分析:以世界500强中的工业企业为例 ㊁ 干细胞人体组织工程技术研究文献㊃39㊃㊀第6期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀邓㊀蓓,等:国内引文分析领域研究状况的可视化分析计量分析及其政策启示[11-12] 等文章是引文分析方法对具体实际中的应用研究㊂而刘则渊最近的兴趣是引文分析方法的可视化研究,其代表性工具是CiteSpace ㊂CiteSpace 是由美国德雷赛尔大学华人学者陈超美研制,该工具实际上也是基于文献的共被引理论[13]㊂该时期的代表性作品其发表在权威期刊上的 引文分析领域前沿与演化知识图谱 ㊁ 力学各分支学科研究前沿和发展趋势的可视化分析 等[6,14]㊂如果说刘则渊对引文分析的发文主要集中在科学学领域和图书情报领域的期刊,那么邱均平的发文则主要集中在图书情报领域,与刘则渊不同的是,邱均平关于引文分析的研究明显偏向于实证研究㊂其代表性的论文,如 专利计量的概念㊁指标及实证 以全球有机电激发光技术相关专利为例 ㊁ 期刊同被引的实证计量研究 ㊁ 改革开放30年来我国情报学研究的回顾与展望(二) 情报学研究论文的作者分析 基于引文分析法的国内 参考咨询 的研究现状分析 都明显带有实证的色彩[15-20]㊂发文量排名第3的杨华则是侧重于医学领域的引文分析研究的学者,她关于引文分析的17篇文章都是对医学文献的分析,而且她的研究成果主要集中在2005-2006这两年,近年来几乎没有引文分析的文章问世㊂发文排名第4的赵星的引文分析研究成果也是集中在近两年,他的研究特色是引文分析与h 指数结合起来研究,他的13篇引文分析论文中有近半数的论文是关于h 指数的研究,例如他于2010年在情报学报上发表的 h 指数与论文总被引C 的幂律关系 中,为更深刻地理解h 指数的特性,收集了学者㊁期刊㊁研究机构㊁大学和国家5个层面共8组h 指数以及论文被引指标数据,实证研究h 指数与论文总被引C 之间的关系,揭示了论文总被引的增量对于h 指数的增长具有规模效应递减的规律[21]㊂排名第5的姜春林和排名第6的侯海燕师从刘则渊,他们的研究在某种程度上与刘则渊具有相似性㊂㊀3.2㊀高频作者合作关系分布㊀对发文量大于4的62位作者构造作者共现矩阵,然后导入UNCINET 绘制作者之间的合作关系网络图,如图3所示㊂图3中的每一个圆点代表一位高频作者,点之间的连线表示表2㊀引文分析论文作者的发文频次及排名排名作者发文量排名作者发文量1刘则渊2719颜志森62邱均平1920何佳讯63杨华1721苏新宁64赵星1322梁立明65姜春林1123李江66侯海燕1024周晓彬67滕洪松925张静海68马晓军826陈悦69王惠翔827杨思洛610袁培国828王崇德611梁永霞829王孝宁512杨中楷830徐剑513吴向东731马瑞敏514栾春娟732侯汉清515高小强733王桂清516黄晓鹂734孟连生517崔雷735彭爱东518叶鹰736王续琨5图3㊀高频作者合作网络图他们之间的合作关系,连线越粗表示他们的合作次数越多,圆点的大小表示作者的中间中心性的大小㊂中间中心性的概念是由美国社会学家弗里曼教授提出来的,他认为,处于这种位置的个人可以通过控制或者曲解信息的传递而影响群体[22]㊂一般而言,如果一个行动者处于许多交往网络路径上,可以认为此人居于重要地位,因为他具有控制其他两人之间的交往的能力,因此中间中心性测量的是行动者对资源控制的程度,是一种 控制能力 指数[23]㊂图3显示,中间中心性最大的两个节点是刘则渊和苏新宁㊂刘则渊与众多人具有合作关系,这62位高频作者中就有13位作者与刘则渊有直接或者间接的合作关系,因此刘则渊居于中㊃49㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷间中心性最高㊂值得注意的是发文量居于21位但是中间中心性却居于第2位的苏新宁㊂我们分析,苏新宁之所以具有如此高的中间中心性是因为他是南京大学中文社会科学引文索引(CSSCI )的研制者,正如加菲尔德成功研制科学引文索引(SCI )并成为国际引文分析领域的领军人物,苏新宁的CSSCI 使得他具备足够的权力影响或者支配他人,具有很强的资源控制资源的能力,因此苏新宁以仅仅6篇文章的发文量而成为仅次于发文27篇的刘则渊,就可以理解㊂而且我们认为,苏新宁在引文分析领域的中间中心性也会随着发文量的增加很迅速的扩大,其扩大速度会远远高于其他作者㊂为表示这62位高频作者对资源的控制能力,显示他们各自在引文分析领域的地位,表3列出了16位作者的中间中心度值㊁排名以及与发文量排名的比较(其他46位作者因为没有进行合作或者合作次数较少,因此中间中心度为0,排名无意义,故不予列出)㊂中间中心性排名前3名的是刘则渊㊁苏新宁㊁袁培国㊂刘则渊的排名没有变动;发文排名第2的邱均平下降为第5名;排名第3的杨华下降为第9名㊂排名上升最快的3位作者依次是王昊㊁王贤文㊁王续琨㊂王昊由发文排名的51位跃为第4位,上升至47位,应该得益于他与中心度排名第2的苏新宁建立的合作关系;王贤文㊁王续琨排名的陡升应该是他们直接或间接地与刘则渊建立的合作关系,成功地进入刘则渊合作子群体中,并且占据了子群体中的有利位置㊂4㊀研究热点与前沿分布CiteSpace Ⅱ软件能够通过绘制聚类视图和时区视图显示一个学科或知识域在一定时期发展的趋势与动向,展示若干研究前沿领域的演进历程[1]㊂对3于266篇论文的题录数据进行相应的处理,使之转化为CiteSpace Ⅱ可以处理的格式,然后导入CiteSpace Ⅱ㊂在CiteSpace 软件界面,设置 Time Scaling 的值为2,即将1981-2010年分成15个时段进行处理㊂网络节点选择author ,主题词来源选为文献标题(title )㊁摘要(abstract )㊁叙词(descriptor )和标识符(identifiers ),主题词选取为名词短语(noun phrases ),数据抽取对象为top 60(软件默认值为30,因本次研究划分2年为一个时段,故此数值设置为30*2)㊂运行CiteSpace ,得到有关引文分析领域研究前沿和高频作者共现的综合性分析图谱,如图4所示㊂其中,圆形节点代表高频作者,三角形节点代表研究热点,它们相互之间的连线代表共现㊂表3㊀高频作者的中间中心度排名及与发文排名比较排名作者between nbetween 发文排名排名上升1刘则渊39.52.15812苏新宁201.09321193袁培国15.50.8471074王㊀昊70.38351475邱均平30.1642-36赵㊀星20.1094-27栾春娟20.1091478张静海20.10925179杨㊀华20.1093-610侯海燕1.8330.16-411王续琨1.50.082362512王贤文1.1670.064493713姜春林10.0555-814陈㊀悦0.6670.036261215吴向东0.50.02713-216梁永霞0.3330.01811-5图4㊀研究热点与高频作者的共现混合网络㊀4.1㊀研究热点的分布分析㊀图谱中处于中心网络外延的三角形节点即是引文分析研究领域的研究热点,它们是: 文献计量学 ㊁ 文献计量 ㊁ 科技期刊 ㊁ 期刊 ㊁ 核心期刊 ㊁ 统计分析 ㊁ 载文分析 ㊁ 引文 ㊁ 作者分析 ㊁ 被引分析 ㊁ CSSCI 等㊂下面从引文分析的整体理论体系的角度分析引文分析的研究热点:a.从研究方法看,引文分析属于 文献计量学 的一种分析方法;b.从研究对象看,引文分析的分析对象必定是 期刊 (或 科技期刊 ㊁ 核心期刊 等);c.从原理上看,引文分析也就是对该研究主题的论文 作者 的 引文 和 被引关系 的 统计分析 ;d.从㊃59㊃㊀第6期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀邓㊀蓓,等:国内引文分析领域研究状况的可视化分析数据源看,目前国内有关文献计量学分析的论文,其数据源的选择基本上是 CNKI数据库 或 CSSCI数据库 ㊂可以看出研究热点居于整个图谱的核心位置㊂㊀4.2㊀研究前沿的作者分布㊀出现频次增长率快速增加的专业术语将被确定为研究前沿术语㊂CiteSpace 可以通过突变检测算法识别出突然涌现的专业术语㊂根据圆形节点和三角形节点的连接状况,可以判定作者的研究领域,也可界定研究前沿的代表人物㊂例如,前沿术语 网络引文 与杨思洛互连,表示在网络引文研究领域的代表人物应该是杨思洛和邱均平等人,据近期统计数据,杨思洛的网络引文的发文量排名第一,且多为水平较高的权威和核心期刊;刘则渊与姜春林㊁侯海燕㊁梁永霞等组成的研究团队则对 科学知识图谱㊁ 信息可视化 ㊁ 共被引分析 等研究前沿有着较深入的研究,他们共同撰写的‘科学知识图谱:方法与应用“一书对科学知识图谱和信息可视化做了系统的研究,并发表了很多基于知识图谱分析方法的论文,对国内科学计量学和信息可视化的发展产生了推力作用;发文量排名第4的赵星对 h指数 ㊁ 信息计量学 等研究前沿感兴趣;依据此方法我们几乎可以找到所有高频作者的研究领域,也可根据研究前沿术语锁定其代表性人物㊂我们还发现,跟研究热点居于图谱的核心位置不同,邱均平所代表的 网络引文 研究前沿㊁刘则渊代表的 信息可视化 研究前沿以及赵星所然会代表的 h指数 研究前沿均处于图谱的边缘位置,因此该图谱能较好地表现研究热点引发研究前沿的演化过程,即研究热点发展到一定程度必然会出现的新的研究热点而成为时下的研究前沿㊂因此,我们预测, 网络引文 ㊁ 科学知识图谱 ㊁ 可视化 ㊁ h指数 会成为未来引文分析研究的热点领域㊂我们还可以看到综合网络图谱的中间核心网络的外围有2个小型网络,这是引文分析研究的早期作者和研究术语构成的网络㊂其中右下角的网络是以高频作者王崇德为研究核心㊁citation analysis为研究术语所构建的㊂citation analysis即为引文分析的英文翻译,它成为引文分析研究领域的早期研究前沿,可以看出文献计量学家王崇德等人从国外引入引文分析的研究所作出的不懈努力,彰显了他们对国内引文分析研究的重要贡献和先驱作用㊂5㊀结㊀论本文以引文分析领域的3区性266篇论文进行年度发文统计发现,国内引文分析研究之初由于受到诸多因素的影响,出现明显的不稳定性,自1986年之后才开始稳步的发展㊂对论文按年进行累积数据的统计分析发现,引文分析论文的增长近似的按指数增长,基本符合普赖斯科技文献的指数增长规律,但我们发现引文分析研究论文更加符合幂函数的增长规律㊂同时我们认为国内引文分析学仍然是一门发展中学科,还远远没有达到成熟阶段㊂对3266篇论文的2052位作者进行发文量统计分析和高频作者的社会网络分析发现:a.科学计量学和文献计量学的专家学者成为引文分析领域研究的领军人物,由他们构建的研究团队占据了高频作者的前列,从而显示了引文分析方法作为科学计量学和文献计量学核心研究方法的重要性和受重视的程度㊂b.高产作者并不一定就能成为引文分析研究领域的居于重要地位的作者,或者说作者发文的高低与其处于社会关系网络中的权力地位不平衡㊂很多高产作者在影响和支配他人方面却要逊色于低发文量的作者㊂c.南京大学的苏新宁教授依靠CSSCI的成功研制具备了较强的控制资源的能力,而成为国内引文分析领域具有重要地位的作者,他也是高频作者合作关系网络图中第2关键性节点,而与他具有合作关系的王昊等人也迅速抬高自身的地位㊂因此看来,发文的高低并不唯一决定作者在引文分析研究领域的地位㊂d.与社会关系网络中的关键性作者建立合作关系,无论这种关系是直接或者是间接的,都将可以迅速提升自身在网络中地位㊂实际上,社会网络分析方法因其可视化和定量化等诸多优点而已经成为众多评价机构和管理部门在评价个人的绩效或者根据地位和关系安排任务㊁进行职务任命的普遍使用方法㊂基于以上的分析,我们发现他们的这种社会关系地位可以根据作者在关系网络图中的地位而轻易的改变㊂因此我们建议有关机构和部门在使用此种方法时,应该谨慎的对待㊂或许定量分析和定性分析相结合的方法能做出正确的决策㊂本文借助CiteSpace检测到引文分析领域的研究热点: 文献计量学 ㊁ 文献计量 ㊁ 科技期刊 ㊁ 期刊 ㊁ 核心期刊 ㊁ 统计分析 ㊁ 载文分析 ㊁ 引文 ㊁作者分析 ㊁ 被引分析 ㊁ CSSCI 等;研究前沿: 网络引文 ㊁ 科学知识图谱 ㊁ 信息可视化 ㊁ 共被引分析 ㊁ h指数 ㊁ 信息计量学 ㊂引文分析研究较好地表现为研究热点引发研究前沿的演化态势㊂运用CiteSpace提供的复杂混合网络的可视化方法,将研究前沿与作者建立对应关系,揭示国内引文分析领域的研究状况㊂我们发现,杨思洛㊁邱均平等人近年来在网络引文研究领域颇有代表性;刘则渊与姜春林㊁侯海燕㊁梁永霞也是在近年来的合作较多,而且基本可以代表国内信息可视化㊁科学知识图谱的研究前沿;赵星可㊃69㊃㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情㊀报㊀杂㊀志㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第30卷。
词频统计法
词频统计法1. 介绍在自然语言处理(NLP)领域中,词频统计法是一种常用的方法,用于分析文本中各个词语的出现频率。
通过统计文本中词语出现的次数,可以获得词语的使用频率信息,从而对文本进行进一步的分析和理解。
2. 数据预处理在进行词频统计之前,需要对文本数据进行预处理。
数据预处理的步骤可以包括以下几个方面:2.1 去除特殊字符和标点符号在进行词频统计时,通常会去除文本中的特殊字符和标点符号。
这些字符和标点符号不具备明确的语义信息,在词频统计时可以被忽略。
2.2 去除停用词停用词是指在文本中频繁出现但含义相对较弱的词语。
常见的停用词包括“的”、“是”、“在”等。
在进行词频统计时,可以去除这些停用词,从而获得更有价值的统计结果。
2.3 分词分词是将文本按照一定规则切分成词语的过程。
在中文文本处理中,可以使用中文分词工具,如jieba分词,对文本进行分词操作。
分词后的文本可以更方便地进行词频统计。
3. 词频统计方法3.1 单词级别的词频统计在进行词频统计时,可以统计文本中每个单词出现的次数。
可以使用字典(Dictionary)或哈希表(Hashtable)等数据结构来存储单词及其对应的频率。
通过遍历文本中的每个单词,将其添加到字典或哈希表中,并更新对应的频率,最终可以得到每个单词的出现次数。
3.2 词组级别的词频统计除了对单词进行词频统计外,还可以对词组进行词频统计。
词组是由多个单词组成的固定短语或连续文本片段。
常见的词组可以是“人工智能”、“机器学习”等。
在进行词组级别的词频统计时,需要将文本按照一定规则进行分组,然后统计每个词组的出现次数。
4. 词频统计应用4.1 文本挖掘词频统计可以作为文本挖掘的基础工具。
通过统计文本中各个词语的频率,可以发现词汇的重要性和相关性。
词频统计也可以用于构建词云,通过词云可以直观地展示文本中重要的词语。
4.2 文本分类在文本分类任务中,词频统计可以用来提取文本的特征。
引文分析
参考文献与引用文献
例如,如果论文R将论文 C做为参考文献,则论文R就f 一篇参考文献C,而论文C则 有了一篇引用文献(引文)R。 如果以射线箭指向被引文献, 而箭尾指向引用文献,就可清 楚地表现出科学文献之间纵向 继承和横向联系的交流态势, 通常将这种相互引证的关系结 构称为引文网络(Citation Network)。
评价期刊的其他相关指标
重要性系数(Importance index) 在给定的主题领域内,期刊集合(组)中的一种期刊相 对重要性的测度。 1992年Salancik在其论文中,首次提出了重要性系数, 并用它比较了应用心理学中的两种期刊。这两种期刊被看 作是本领域中的一组期刊中的“成员”。他所赋予重要性 系数的定义是:“对其它(成员期刊)的相关重要性以及同 这些成员自己本身的重要性的比值。”重要性的界定则是: 一种期刊所登载论文所实施的引证数量比值。重要性系数 通常是分析一组期刊并且收集它们之间互相引证频次的数 据,再把数据置于引证文献矩阵中,经计算而得出。 1992年Kim著文计算了9种图书馆学情报学期刊的重 要性系数。在给定时间内,A期刊对B期刊重要性系数的 计算公式如下:
引用动机
文献被引用的正常动机 对开拓者表示尊重;对有关著作给予荣誉; 核对其所用的方法及仪器;提供背景阅读材料; 对自己的著作予以更正;对别人的著作予以更正; 评价以前的著作;为自己的主张寻求充分的论证; 提供研究者现有的著作;鉴定数据及物理常数等; 对未被传播,很少被引或未被引证的文献提供向导; 核对原始资料中某个观点或概念是否被讨论过; 核对原始资料或其他著作中的起因人物的某个概念或 名词; 承认他人的著作或概念;对他人的优先权要求提出争 议。
评价期刊的指标
什么是引文分析
什么是引文分析?引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
引文分析方法的数学基础是概率论与数理统计。
基本简介:引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
引文分析方法的数学基础是概率论与数理统计。
在进行分析比较时,已将其作用排除在测度结果之外了。
科技文献的引证与其被引证现象进行研究的过程。
使用的方法有图论、模糊集合、数理统计等数学方法和逻辑思维方法,目的在于揭示文献所蕴含的情报特征和相关关系。
现代科学论文的一个重要特征是,在“参考文献”标志下依序列出所援引文献的著录事项。
参考文献(被引用文献)与正文(引用文献) 的简单逻辑关系就是引文分析的基础和背景。
致力于引文分析理论和技术研究的文献学家主要有格罗斯、.布朗等。
普赖斯于1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础,E.加菲尔德于1953年受法律业务工具书《谢泼德引文》的启发,于1961~1963编成《科学引文索引》(SCI),使引文分析具备了实用的工具。
引文分析适于探索科学的微观结构,便于超越时间空间,跨学科组织文献,同传统的分类法和主题法截然不同,使文献有序化,有利于对文献由表及里地深入展开分析,更易于量化。
引文分析中还有一些辅助概念,运用也较普遍:①文献耦合。
一篇参考文献被两篇文献引用便构成一个引文偶,引文偶愈多,说明两篇文献关系愈密切。
②同被引。
两篇论文共同被后来的一篇或多篇论文所引用的现象,其量度是同被引强度,即两篇(或多篇)文献同被后来的文献所引用的频次,显然,同被引频次愈高,两篇论文相关性愈强。
③自引。
作者引用自己以前发表的独撰与合撰论文的现象,自引还可以扩展到杂志、学科、地区、团体乃至国家对文献的反身自用。
CiteSpace引文分析工具操作实验
文献检索及数据准备
文献检索:在SCI-WOS库查到 131条记录 数据准备: 选择记录并以 download*.txt 文件名保存
应用案例分析步骤——CiteSpace数据导入与调谐
建立“六维力” 文件夹“
设定年代范围 产生的“调谐数”“引文 数”“节点数”“连线数”
数据导入与调谐
选定时间段 勾选聚类词的来源 勾选聚类词的类型
突显点 表示新兴学科
CiteSpace 使用——图谱判读 2
显示聚类节点及其标题词的图谱
聚类环包括一 组相关节点 各节点对应一 高引文献
聚类标题词显示 研究前沿主题
CiteSpace 使用——图谱判读 3
研究进展时间图
按年代显示 研究前沿
聚类标题词 表示研究热点
CiteSpace 使用——图谱判读 4
Psychological sequelae of the September 11 NEW ENGLAND JOURNAL OF MEDICINE English Article POSTTRAUMATIC-STRESS-DISORDER; NATIONAL Background: post-traumatic stress disorder
年代色标 图谱背景色 保存图谱/ 图像
寻找聚类 寻找最佳 聚类 用标题词 标记聚类
用主题词 标记聚类 用摘要词 标记聚类
图谱大小调谐
按词频显示聚类 高引频文献
类
CiteSpace 使用——图谱调谐 2
参数调谐板 调谐标示的字体、 节点大小 调谐论文标示的 字体、节点大小 突显词选择
聚类视图
时间视图
研究进展时区图
CiteSpace 使用——分析结论/研读高共引文提取研究热点
引文分析法共词分析法浅析
附:IF值计算方法(以1992年为例) A=1992年的全部引文(指定数据库中的 记录) B=1992年某期刊发表在1990和1991的论 文的被引次数 C=某期刊1990 和1991 年发表的全部论 文的总和 D(期刊1992的影响因子)=B/C
例如,某期刊2005年影响因子的计算 1.本刊2004年的文章在2005年的被引次数: 48 本刊2004年的发文量: 187 2.本刊2003年的文章在2005年的被引次数: 128 本刊2003年的发文量: 154 3.本2003-2004的文章在2005年的被引次 数总计 : 176 4.本刊2003-2004年的发文量总计: 341 5.本刊2005年的影响因子:0.5161 = 176÷341
二、确定分析单元
有学者选择文献中的主题词、关键词为 共词分析的基本单元。在共词分析中借助数 据库管理软件以及SPSS统计软件进行识别统 计,对计算机而言同义不同词的词在统计过程 中,被看作两个完全不相关的词汇,对统计分析 的结果产生很大干扰。因此,被分析的词汇最 好是受控的、被统一标引的主题词。只有这 样,共词分析方法利用文章中词语对的共现频 次来反映包含在文章中的概念才能成立。
共引(co-citation)
就是两篇文献同时被其他文献引用。一 般认为同被引用的文献在主题上具有或多或 少的相似性, 因此同被引次数即共引强度可以 测度文献在内容方面的相关度。由此, 通过一 组文献之间的共引关系可以形成共引网络, 该 网络内节点之间的远近便可以反映它们主题 内容的亲疏关系。
共引分析方法始于small于1973年提出的 以文献为单位的共引分析, 但共引概念可以推 广到与文献相关的各种特征对象上, 形成各种 类型的共引概念,如词的共引、文献共引、著 者共引、期刊共引、主题共引和类的共引等。
科学知识图谱绘制方法、步骤及工具
科学知识图谱绘制⽅法、步骤及⼯具科学知识图谱绘制⽅法、步骤及⼯具科学知识图谱(简称知识图谱)是现实科学知识发展进程与结构关系的⼀种图形[1]。
其作⽤是使研究者对学科结构、研究内容、学科关系和研究热点有清晰的把握,并可预测学科发展前沿和趋势。
但在当前科研数据总量庞⼤、增长快速、信息含量低、数据种类多样[2]的背景下,传统的知识图谱绘制⽅法、步骤和⼯具已经难以应对,急切需要针对⼤数据环境的科学知识图谱的绘制的⽅法及其关键技术研究。
1 知识图谱的起源与发展科学知识图谱以科学知识为计量研究对象,因此属于科学计量学的范畴。
科学知识图谱的研究最早可以追述到普赖斯开创科学计量学[3]之时。
当时普赖斯在数据⽅程式来表达科学发展规律的基础上,以曲线形式讲科学发展规律绘制为⼆维图形是并形成了最初的科学知识图谱[4]。
科学知识图谱的另⼀个演化前⾝是科学知识地图。
科学知识地图是⼀个以⼆维或者三维空间表现出来的地形和⼈类活动以及相关特征的地理学概念,⽽科学知识图谱是对其的拓展和延伸。
它是⼀个图像以⼀定空间形式在⼀定时间范围内展现与变化的系统概念,⽐知识地图更能揭⽰知识间的关系和进化规律。
现代科学知识图谱概念正式提出是2003年在Arthur M. Sackler学术研讨会上。
⽽Shiffrin[5],Borner[6]和陈超美[7]等⼈的贡献奠定了现代科学知识图谱(Mapping Science)的研究基础,之后对其相关研究就如⾬后春笋般涌现。
我国对于科学知识图谱的研究是由刘则渊等⼈[8]于2004年率先引⼊。
2 知识图谱的绘制⽅法知识图谱的绘制需要综合运⽤⽂献计量、统计分析、数据挖掘、信息可视化、社会⽹络分析和信息分析等领域的研究⽅法,⼤致可分为⽂献计量⽅法、统计分析⽅法、数据挖掘⽅法三⼤类⽅法(如图1所⽰)。
但⽬前为⽌还未有对这些⽅法实现并⾏化算法实现⽅⾯的研究。
图1知识图谱绘制⽅法(1)⽂献计量⽅法科学知识图谱属于科学计量学,因此必然⽂献计量学的⽅法,主要包括:1)引⽂分析⽅法引⽂分析是利⽤各种数学、统计学⽅法和⽐较、归纳、抽象、概括等逻辑⽅法,对科学期刊、论⽂、著者等各种分析对象的引⽤与被引⽤现象进⾏分析,以便揭⽰其数量特征和内在规律的⼀种⽂献计量分析⽅法[9]。
引文分析
引文分析引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
引文分析方法的数学基础是概率论与数理统计。
引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
引文分析方法的数学基础是概率论与数理统计。
在进行分析比较时,已将其作用排除在测度结果之外了。
科技文献的引证与其被引证现象进行研究的过程。
使用的方法有图论、模糊集合、数理统计等数学方法和逻辑思维方法,目的在于揭示文献所蕴含的情报特征和相关关系。
现代科学论文的一个重要特征是,在“参考文献”标志下依序列出所援引文献的著录事项。
参考文献(被引用文献)与正文(引用文献) 的简单逻辑关系就是引文分析的基础和背景。
致力于引文分析理论和技术研究的文献学家主要有格罗斯、.布朗等。
普赖斯于1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础,E.加菲尔德于1953年受法律业务工具书《谢泼德引文》的启发,于1961~1963编成《科学引文索引》(SCI),使引文分析具备了实用的工具。
引文分析适于探索科学的微观结构,便于超越时间空间,跨学科组织文献,同传统的分类法和主题法截然不同,使文献有序化,有利于对文献由表及里地深入展开分析,更易于量化。
引文分析中还有一些辅助概念,运用也较普遍:①文献耦合。
一篇参考文献被两篇文献引用便构成一个引文偶,引文偶愈多,说明两篇文献关系愈密切。
②同被引。
两篇论文共同被后来的一篇或多篇论文所引用的现象,其量度是同被引强度,即两篇(或多篇)文献同被后来的文献所引用的频次,显然,同被引频次愈高,两篇论文相关性愈强。
③自引。
作者引用自己以前发表的独撰与合撰论文的现象,自引还可以扩展到杂志、学科、地区、团体乃至国家对文献的反身自用。
10引文分析法
相同点
Bradford
Grafield
揭示了科学文献的集中与分散现象和规律, 可用于选择核心期刊
差异
期刊载文的分布 (输出信息)
被引论文按期刊的 分布(反馈信息)
描述单一学科(专 业、主题)论文分 布规律
揭示自然科学领域 多学科论文分布规 律
第十章 引文分析法
四、引文分析的基本类型与步骤
基本类型
• 1. 引文数量分析 – 主要用于评价期刊和论文;研究文献情报流的规律等。
• 2.引文链状分析 – “引文链”,对这种引文的链状结构进行研究可以揭示科 学的发展过程并展望未来的前景。
• 3.引文网状分析 – 主要用于揭示科学结构、学科相关程度和进行文献检索等。
信息计量学
引文分析概述
引文分析的基本假设
假设1:如果文献间形式上存在关联,则内容上必然也存在某种联系。 假设2:若引用形式一样,则文献间内容联系的程度一样,对于每种 文献间的联系均可定义相应的计量单位。 假设3:文献间存在的联系强度(程度)均具有简单的可加性。
信息计量学
第十章 引文分析法
第一节 引文分析概述
信息计量学
第十章 引文分析法
第一节
三、引证机制和基本假设
科学文献引证的机制
引文分析概述
科学知识具有明显的累积性和继承性; 科学是一个统一的整体,学科之间是相互联系、交叉、渗透的。
引用
说明资料的出处,强调其可靠性; 便于读者查考、核对; 尊重他们劳动成果。
信息计量学
第十章 引文分析法
第一节
三、引证机制和基本假设
– 理论与方法:借鉴与利用; – 技术与手段:应用与发展
10引文分析法
Subject
第十章 引文分析法
第一节 引文分析的基本概念和方法
一、引文分析的相关概念 引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概
括等逻辑方法,对期刊、论文、著者等各种分析对象的引证和被引证 现象进行分析,以揭示其数量特征和内在规律的一种文献计量学分析 方法。
信息计量学
第十章 引文分析法
第一节 引文分析的基本概念和方法
二、引文行为与引证动机
科学知识具有明显的累积性和继承性; 科学是一个统一的整体,学科之间是相互联系、交叉、渗透的。
引用
说明资料的出处,强调其可靠性; 便于读者查考、核对; 尊重他们的劳动成果。
信息计量学
第十章 引文分析法
第一节 引文分析的基本概念和方法
二、引文行为与引证动机
• 索恩(F.C.Thorne)
– 为阿谀某人引用; – 以自诩为目的引用; – 为相互吹捧而带有偏见的引用; – 为支持某一观点牵强的引用; – 为维护某一学术研究派别利益的不正常引用; – 因迫于某种压力的引用。
——Thorne F.C. The citation index: author case of spurious validity[J]. Journal of Clinical Psychology,1977, (33):1157-1161
信息计量学
参考论文 参考书
参考专利
引证关系示例
一篇论文
这篇论文的 参考文献
单一引文关系
1957
1992
2004
Related Records
该课题的起源、 修正、变迁、发展
相关文献
该课题的演变、 最新进展