文献计量学

文献计量学
文献计量学

文献计量学

一.科技文献的增长规律

什么是科学指标

科学指标(Scientific indicators)是指人类科研活动的数量研究首先应确定的定量对象。

科学指标的类型

- 人员与机构的数量。其中人员数量包括科学工作者、工程师、教师和学生的数量等。机构数量是指各类科研院所、学会及高等学校的数量。

- 科研成果的数量。其中主要有:重大理论问题突破的次数以及理论在实际应用中获得重要成果的次数等。

- 科研过程及成果记录载体的数量。其中主要有:科技期刊及其刊载论文的数量;专利文献的数量;科技书籍的数量等。

- 科研资金投入的数量。主要指直接投入于理论与应用研究的资金数量。

文献指标使用最为频繁,主要原因:

- 绝大部分人类科研活动及其成果都是以文献方式记录和贮存。其它三者都没有与科研活动和成果有如此直接密切的数量关系,单纯的成果数量不能详尽的反映人类取得成果的整个科研过程。

- 与其他指标相比,科技文献数量巨大、易于收集。这对于主要依靠数学统计方法来揭示存在于科学发展过程中的数学规律的研究人员来说,无疑是一个极大的优点。

- 与其他指标相比,科技文献易于统计分类,可以对各类科研过程进行有选择的定量研究。

文献量度指标

1)绝对值指标,是表示文献数量多少的指标。

2)相对值指标,是表示不同部分文献的数量比例的。

3)累计数指标,以文献累积数为依据,因为,各年出版的文献逐年相加而得到的文献累积数总是增加的,就有可能趋于某种、固定的规律,所得到的结果,往往是较为

规则的曲线,能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研

究。

4)非累积数指标,即一年出版的文献数量,易于受到各种复杂的社会因素的影响,一般来说是波动的,很难确定它是否近似的趋于某种固定的规律,结果往往是一些非

规则曲线,难以用某种函数来描述。

文献指数增长模型

文献指数增长规律

文献指数增长规律的局限性

(1)科学文献并不总是按指数函数关系增长。普赖斯指数增长模型与所研究的文献的学科和时间有关。所研究的学科范围越广泛,符合指数规律的时间就越长。

(2)指数增长规律不能预测文献的未来增长趋势。这就是说,随着时间的推移,科学文献的增量会趋向无穷大。这显然是不符合客观规律的。

文献指数增长规律存在局限的原因:

(1)对科学文献增长的机理研究不够,难以对影响文献增长的各种因素全面考虑、衡量,并给出恰当的分析和定量的描述。

(2)在确立科学文献的指数增长规律时,没有考虑到文献的日益老化因素。

(3)在统计某年的科学期刊累积总数时,没有排除已停刊的期刊。

(4)普赖斯的指数增长规律只是建立在科学期刊这种出版类型的文献和某些知识领域的文献在他所统计的时间范围内的增长特点的基础上的,不能代替全部。

文献逻辑曲线增长模型

所谓的逻辑曲线是指广泛存在于自然界与人类社会中的一类增长模式,在生物学中即为有名的生长曲线。另外在有限条件下的人口增长、经济发展等过程也属于此类。与纯粹的指数型增长曲线相比,它被称为饱和的指数增长曲线。

文献逻辑曲线增长模型的局限性

1)当科学发展到一定阶段时,科学文献的增长率趋于零,科学文献总量达到了它不可逾越的最大值.这就意味着某个年代后,再也没有新的科学文献产生,这显然又走

向了另一个极端,科技文献数量增长速度的减慢,并不意味着科学发展的速度将会

下降。

2)它揭示了科学随着时间的延续而经历着一个“前期缓慢发展,中前期加速发展,中后期减速发展,直至后期饱和发展”的过程。这种所谓的“饱和发展”并不意味着

科学发展的终结,而是指科学的发展达到一种系统的动态平衡。显然,科学发展的

这一过程与科学文献的逻辑增长过程是对应的、相辅相成的。

3)从科学史来看,整个科学领域中的每一门学科分别处于诞生、发展、相对成熟等不同历史阶段。诞生和发展时期文献呈现指数增长,寿命很短。相对成熟时期,科

学文献的增长率变小,曲线变得平缓,文献寿命相对变长。但是,文献增长率变小,绝不意味着科学发展的停滞,可能意味着该知识领域正面临着新的突破,将产生出

更新的分支领域,而内容上更新的文献又将进入一个新的急剧增长时期,此后又会

进入一个稳定时期,文献的增长往往会出现几个急剧增长时期和几个相对稳定时

期,呈现出错综复杂的格局。

4)一般的说,对不同的学科,描述其文献增长的逻辑曲线中的常数也是不相同的

指数和逻辑曲线存在局限性的原因:

第一,指数增长模型存在一定的局限性;

第二,利用上述两种曲线对科技文献增长所做的预测,依据的是预测学中的趋势外推法,但是科技文献作为科学交流这一复杂系统中的子系统,其增长规律受

到许多方面的影响和制约,只有利用系统论的观点对其做系统分析,才可望

获得比较合乎实际的结果。这应该成为我们修正指数曲线和逻辑曲线、探求

新的科学文献增长模型的出发点。

科技文献增长的其他模型

1 线性增长模型

F(t)=bt+a F(t)——t年的文献累积量b——文献的年增长率a——当t=0时的文献数量(理论值)

线性增长的特点是:文献量的增长速度为一常数,与文献的初始量无关。

2 分级滑动指数模型模型

雷舍指出①每篇科技文献的贡献大小是不一样(质量不一样);

②质量不同的文献增长速度也不相同,质量越高的文学其数量增长的速度越

慢。不同质量的文献,其增长速度不同,越重要的文献增长速度越慢。数

量较少的高质量的论文总量是伴随着大量的一般性的论文而同时出现的。

网络信息增长规律新特点(与文献增长规律进行了比较)

?在研究对象上,文献信息增长规律主要研究文献或图书信息,而网络信息增长的研

究对象多种多样,如网络链接、网页/网站和网络文献等;

?在研究方法上,文献信息增长规律研究采用科学文献计量和数学方法,而网络信息

增长规律研究常采用链接分析法,还借助特殊的统计工具,如网络日志;

?在应用上,文献信息增长规律用来判断和预测科学知识的增长状况;网络信息增长

规律应用较广,如评估搜索引擎、控制网络信息等;

?网络信息的数量变化规律更加复杂,速度更快,文献信息的复制相对来讲变化较慢。

网络信息增长的特点

(1)信息在传递中的不守恒性

(2)网络信息传递的全达性

网络信息增长机制:

(1)网络信息总量的增长模型

网络信息总量Im由网络节点数n、网络节点的平均信息创新能力A和网络的信息转发轮次数(即时间)m共同决定,即:

Im=n[(m-1)n+1]A

也就是说,网络信息总量Im与网络节点的信息创新能力A和网络的信息转发轮次数(时间)m成线性函数关系,而与网络节点数n成二次函数关系。

(2)网上真实信息量的增长模型

网络上的真实信息量(即非重复信息量,用Ir表示),有如下关系:

Ir=mnA

即网络上的真实信息数量与网络节点数n、网络节点的信息创新能力A和网络信息转发的轮次数m均呈线性关系.

(3)网上泡沫信息量的增长规律

网络信息总量中含有大量重复发布的信息(即转发信息量或泡沫信息量,用If表示)If =Im-Ir =n[(m-1)n+1]A-mnA=n(n-1)(m-1)A

(4)网络信息的乘数扩张律

网络节点数n就是网络信息扩张乘数,正式它把网络信息总量扩张和放大为真实信息量的n倍。它就是操纵网络信息扩张、造成网上重复信息泛滥的“看不见的手”

我们将包括网络信息乘数扩张律在内的上述几个网络信息增长模型统一称为“网络

信息增长的乘数扩张模型”

二.科技文献的老化规律

布鲁克斯肯定老化与分散之间有一定的联系,而且老化与分散均可以由增长率来加以确定,增长速率越快,分散越弱而老化越快。

什么是文献老化

科技文献的老化是科技文献随着其“年龄”的增长失去了作为科学情报的价值,以及因此越来越少被科学工作者和专家利用的过程。

文献老化的测度指标

(1)半衰期

文献老化的半衰期是指某学科(专业)现时尚在利用的全部文献中较新的一半是在多长时间内发表的,即在全部参考文献中50%的文章是在多长时间内发表的。注意这一定义仅适用于对采用同时法所获得数据的处理。严格的讲,应称为“中值引文年龄”(mediancitation age)。

半衰期或中值引文年龄短小,说明该学科被引用的近期文献众多,文献新陈代谢频繁,新的近期文献得到大量的应用。

(2)普赖斯指数

即指在一个具体学科内,把对年限不超过5年的引文数量与引文总数之比当做一个指标,用以量度文献的老化速度与程度,普赖斯指数越大,文献老化越快。

Pi=近5年被引用的文献数量/被引用的文献总量*100%

“普赖斯指数”和半衰期是既有联系又有区别的两个衡量文献老化的指标。他们都是从文献被利用的角度出发,但以不同的方式来反映文献老化的情况。普赖斯认为“有现时作用”的引文数量与“档案性”引文数量的比例,是比引文的“一半寿命”更为重要的特征。文献的“半衰期”只能笼统的衡量某一学科领域全部文献的老化情况,而“普赖斯指数”既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构、甚至某一作者和某篇文献的老化特点。

(3)期刊有益性系数

1970年布鲁克斯提出期刊的有益性(Utility)的概念。所谓一种科学期刊的有益性,是指可望在某种程度上被科学家或专家利用(在书目中被引用)的文章数。即某一年份某一期刊被用户所利用的文章数。

文献老化的数学模型

(1)负指数模型

一般的说在一个指定的时期内,被引用的论文数与发表年度服从负指数规律。

(2)巴顿-开普勒老化方程

(3)莫蒂列夫修正式

(4)布鲁克斯的累积指数模型

(5)阿弗拉米斯库方程

什么是网络信息老化

网络信息资源的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐步降低直至存档甚至销毁。

网络信息资源老化主要原因:

- 网络信息资源的增长- 网络信息的更新

- 网络信息的消失- 网络信息的语用衰减

- 替代性网络信息的出现- 网络信息的吸引力

网络信息老化的特点

-快速性- 非载体依赖性- 动态性- 复杂性

网络信息老化的测度指标

1)半衰期

网络信息资源的基本构成元素有半数发生变化所需的时间。

(1)被引半衰期。针对某个站点的被引用过程而言,可以定义为某一站点的全部信息在某一时间段内被引用或被链接的所有信息中较新的一般式在最近多长

时间内发表的。

(2)引用半衰期。针对某一站点上信息的引用行为而言,可以定义为某一站点的全部信息在某一时间段内引用或链接的所有信息中较新的一半是在最近多长

时间内发表的。

(3)静态半衰期。是指在不考虑增长的情况下,网络信息资源的基本构成元素有半数发生变化的时间。

(4)动态半衰期。是在考虑增长的情况下,网络信息资源的基本构成元素中较新的一半产生于多长时间内。

(5)宏观网络信息资源半衰期。指某主题领域网络信息资源所含链接的链宿所指资源中较新的一半是在多长时间内产生的。

(6)微观网络信息资源半衰期。是指指向该网络信息资源的全部其他网络信息资源的二分之一是在其发布后的多长时间内出现的。

2)普赖斯指数

3)生存期

是指特定网络信息资源的URL存续时间

文献计量学综述演示教学

文献计量学综述

文献计量学综述 一、起源及发展 早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。 三阶段:萌芽、发展和分化 萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础 发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。 迁移衍生: 专利计量学 文献计量学网络计量学 政策计量学 二、概念界定 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。 三、三大定律 布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。 齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。 洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。

文献计量学综述

文献计量学综述 一、起源及发展 早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。 三阶段:萌芽、发展和分化 萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础 发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到 成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。 迁移衍生: 专利计量学 文献计量学网络计量学 政策计量学 二、概念界定 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法, 研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。 三、三大定律 布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。 齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。 洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。 从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。该体系被称为布-齐-洛体系。如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。

文献计量学复习要点

《文献计量学》复习要点(初稿) 一、题型 1、填空题(共10分,每空1分) 2、选择题(共20分,每空2分)(不定项) 3、问答题(共50分,每题10分) 4、计算题(共20分,每题10分) 二、复习要点 1、文献计量学、统计目录学各是谁提出来的。 文献计量学起源于英国学者休姆(E .W .Hulme)于1923年提出的统计书目学(statistical bibliography )。1969年,英国学者普里查德(A .Pritchard)提出用文献计量学命名这个领域的研究,以替代统计书目学。 2、科学文献数量增长的规律是由科学发展的客观过程决定的,而科学发展的实际过程主要受哪两种因素的制约? 科学文献数量增长的规律是由科学发展的客观过程决定的,而科学发展的实际过程主要受两种因素的制约:一是科学自身固有的发展规律,二是科学所处的环境条件。 3、半衰期的定义。比较普赖斯指数和半衰期。普赖斯指数的计算。 物理学中的半衰期:任何放射性物质都以这样的方式衰变:在相等的时间间隔内它按相同的比率减少。减少到一半量的时间间隔就是“半衰期”,也是表示这种物质的放射性特性。 文献半衰期:某学科(专业)现时正在被利用的全部文献中的一半的出版年限。它是衡量文献老化的指标之一。 “普赖斯指数”和“半衰期”是既有联系又有区别的两个衡量科学文献老化的指标。半衰期是指某一学科或专业领域的文献总和而言的;而普赖斯指数既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构、甚至某一作者的文章的老化特点。一般而言,如果某一学科或专业的文献的普赖斯指数越大,则半衰期就越短,说明其老化速度就越快。 “普赖斯指数”:就是在某一个知识领域内,把对年限不超过5年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式为: 5P 100%= ?出版年限不超过年的被引文献数量 被引文献总量 4、从文献利用的角度来说,科学文献的老化有以下哪几种情形? 有五种情形: ① 献包含的信息失效。如被证明是不可靠的、或者是错误的。②文献包含的知识已经被人 们广泛接受而不再被提及③文献被新的文献取代④研究兴趣的下降及研究转移⑤信息不通而不被引用致使老化。 5、文献信息老化的影响因素。 文献的老化要受到许多因素的影响,其机理可从以下5个方面来分析: (1) 文献的增长 在文献的动态规律中,增长与老化是一个事物的两个方面,它们从不同的方面来阐述

信息计量学

1.文献计量学:是采用数学统计方法,对各类文献的诸计量特征进行统计分析,进而揭示、研究文献情报规律,文献情报科学管理以及科学发展趋势的一门学科。 2.质量牵制原则:出版物的增长数量与其质量有关,不同质量的出版物有不同的出版速度;质量高的文献增长速度慢。 3.文献老化:科学文献随着其年龄的增长,逐渐失去了作为科学情报源的价值,越来越少的被用户利用的过程。 4.半衰期:某学科现在尚在被使用的全部文献中,较新的一半是在多长时间内发表的。 5.普赖斯指数:指在某一领域内,出版年龄不超过5年的被引证文献与被引证文献总数之比。 6.文献耦合:是指引用文献通过参考文献建立起来的耦合,如果A、B两篇文献共同引用了一篇或多篇相同的论文,则A、B两篇论文的关系即为耦合关系,也叫文献合配。 7文献信息流:文献所含情报的汇流称文献信息流。 8文献老化:科技文献随着其"年龄"的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。 9科学生产率:个体科研人员在一定时期内所撰写的论文数量。 10引文分析:利用各种方法对科学期刊、论文、著者等分析对象的引证和被引证现象进行分析,以揭示其特征和内在规律。 11影响因子:即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。 12信息计量学:是以信息作为对象进行计量研究的学问,采用数学、统计学等定量方法,对信息基本循环图式所描述的社会化的信息交流过程中的信息组织,存储,分布,传递,相互引用和开发利用等进行定量描述和统计分析,以便揭示社会信息交流过程的数量特征和内在规律。 13网络信息计量学是采用数学、统计学等定量分析方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以揭示七数量特征和内资规律的一门新兴学科。 文献信息老化的主要度量指标有哪两个?两者有何异同? 文献信息老化的主要度量指标是半衰期和普赖斯指数。两者既有联系又有区别。它们都是从文献被利用的角度出发,但以不同的方式来反映文献老化的情况。普赖斯认为,“有现时作用”的引文数量与“档案性”引文数量的比例,是比引文的“一半寿命”更为重要的特征。文献的“半衰期”只能笼统地衡量某一学科领域全部文献的老化情况,而“普赖斯指数”既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构,甚至某一作者或某篇文章的老化特点。半衰期概念可以适用于一般情报老化,而普赖斯指数只适用于文献情报。 简述布拉德福定律的基本内容。 布拉德福定律的文字表述为:如果将科学期刊按照其登载某个学科论文载文率的大小,按渐减顺序排列,那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时,核心区期刊的数量与相继各区期刊数量的关系将是1:a:a 2 ……。 a 为布拉德福常数,或称比例系数。图象描述:如果取上述登记排列的期刊序号(级数)的对数1gn为横坐标,以相应的论文累积数R(n)为纵坐标进行图象描述,可得到一条曲线。

基于文献计量的我国信息可视化研究

一、引言 信息可视化就是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对抽象信息的认知。随着海量信息的猛增,信息可视化研究与应用也不断深化;诚然,信息可视化已成为提高信息产品质量、追求更高经济效益与社会效益的重要手段。为了解我国信息可视化研究状况,笔者对我国信息可视化研究文献进行计量分析,以期探索我国信息可视化研究的现状及趋势。 二、数据收集、整理及分析方法 关于数据的收集整理,本文以中国学术期刊网全文数据库(cnki)和重庆维普作为统计来源,从中筛选出样本文献。在选取样本时,主要采用“篇名=信息可视化or摘要=信息可视化”的检索策略,以精确查询的方式分别从两个数据库中提取1994年至2015年的文献作为研究数据。通过剔除无分析意义的文本、填补或删除数据项缺失的文本、合并重复的文本等操作,最终获得1548篇样本文献。 关于样本的分析,本文主要通过文献信息统计方法,并辅以内容分析法,从论文总量的变化趋势、核心作者、机构分布、高频词等方面对信息可视化领域的总体研究趋势、研究主体及研究主题进行统计分析。 三、总体研究趋势 首先,本文通过年度论文发表数量来分析信息可视化领域的总体研究趋势。从信息可视化领域文献数量增长趋势图(图1)中可看出,1998年之前的有关信息可视化研究成果较少,究其原因是由于信息可视化还未受到足够的重视,研究领域也较为局限,只是初步将科学可视化的研究成果应用于gis、管理信息系统等。而从1999年开始,信息可视化领域逐渐受到不同学科领域、甚至是国家的重视,有关该领域的研究成果不断涌现,虽然在2005、2010年该领域的文献量有所下降,但总体上,该领域的文献量呈快速增长的趋势,这从一定程度上反映了其受重视的程度。 四、研究主体分析 信息可视化领域的研究主体包括作者及所在机构。通过对核心作者及相应机构的分析,我们可以发现信息可视化领域的科研精英及核心研究力量。 (一)论文核心作者情况分析 信息可视化研究所涉及的核心作者及发文量也从另一个侧面反映出该研究的成熟程度。本文应用普赖斯的杰出科学家定理,来计算核心作者,公式如下: m=0.794(nmax)1/2式中m为论文篇数,nmax为统计样本中发文最多的作者的论文数,其中发文m篇以上的人即被定义为核心作者。本例中nmax为28,因此发文在6篇以上的作者为核心作者,共有21人。表1列出了这些核心作者以及它们的发文数、所在机构。 从上述分析可以看出,信息可视化领域的学者较多,然而高产作者群还未成型,该领域还处于发展阶段,需不断发展。 (二)论文机构分布情况分析 通过对机构进行统计分析,发现高校在信息可视化研究领域发挥着重要科研作用。虽然也有企业的参与,但比例很小,在602个机构中仅有61个企业,占总机构数的10.17%;而高校有344所,占总机构数的57.28%。表2所示为发文量排在前列的机构及其发文数,通过对照排在前列的发文机构和核心作者所属机构,可以发现,正是这样一大批杰出科技工作者的存在,使得他们所处的单位成为我国当前信息可视化研究的核心力量。 五、主要研究领域分析 关于研究领域的分析,本文主要采用内容分析法,关键词词频分析法、关键词共现网络图谱相结合的方式来锁定信息可视化的核心研究领域。

文献计量学

文献计量学 一.科技文献的增长规律 什么是科学指标 科学指标(Scientific indicators)是指人类科研活动的数量研究首先应确定的定量对象。 科学指标的类型 - 人员与机构的数量。其中人员数量包括科学工作者、工程师、教师和学生的数量等。机构数量是指各类科研院所、学会及高等学校的数量。 - 科研成果的数量。其中主要有:重大理论问题突破的次数以及理论在实际应用中获得重要成果的次数等。 - 科研过程及成果记录载体的数量。其中主要有:科技期刊及其刊载论文的数量;专利文献的数量;科技书籍的数量等。 - 科研资金投入的数量。主要指直接投入于理论与应用研究的资金数量。 文献指标使用最为频繁,主要原因: - 绝大部分人类科研活动及其成果都是以文献方式记录和贮存。其它三者都没有与科研活动和成果有如此直接密切的数量关系,单纯的成果数量不能详尽的反映人类取得成果的整个科研过程。 - 与其他指标相比,科技文献数量巨大、易于收集。这对于主要依靠数学统计方法来揭示存在于科学发展过程中的数学规律的研究人员来说,无疑是一个极大的优点。 - 与其他指标相比,科技文献易于统计分类,可以对各类科研过程进行有选择的定量研究。 文献量度指标 1)绝对值指标,是表示文献数量多少的指标。 2)相对值指标,是表示不同部分文献的数量比例的。 3)累计数指标,以文献累积数为依据,因为,各年出版的文献逐年相加而得到的文献累积数总是增加的,就有可能趋于某种、固定的规律,所得到的结果,往往是较为 规则的曲线,能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研 究。 4)非累积数指标,即一年出版的文献数量,易于受到各种复杂的社会因素的影响,一般来说是波动的,很难确定它是否近似的趋于某种固定的规律,结果往往是一些非 规则曲线,难以用某种函数来描述。 文献指数增长模型 文献指数增长规律 文献指数增长规律的局限性 (1)科学文献并不总是按指数函数关系增长。普赖斯指数增长模型与所研究的文献的学科和时间有关。所研究的学科范围越广泛,符合指数规律的时间就越长。 (2)指数增长规律不能预测文献的未来增长趋势。这就是说,随着时间的推移,科学文献的增量会趋向无穷大。这显然是不符合客观规律的。 文献指数增长规律存在局限的原因:

《Information Systems Research》1998~2017文献计量分析 —基于Citespace可视图谱

Advances in Social Sciences 社会科学前沿, 2018, 7(9), 1521-1530 Published Online September 2018 in Hans. https://www.360docs.net/doc/691097940.html,/journal/ass https://https://www.360docs.net/doc/691097940.html,/10.12677/ass.2018.79225 Bibliometrics Analysis of Information Systems Research during 1998~2017 —Based on Citespace Viewable Spectrum Bing Wu, Peng Li School of Economics and Management, Tongji University, Shanghai Received: Aug. 21st, 2018; accepted: Sep. 4th, 2018; published: Sep. 13th, 2018 Abstract The bibliometric analysis software Citespace is used to analyze the 747 articles in the “Informa-tion Systems Research” (ISR) journal from 1998 to 2017 from four aspects of literature output analysis, national cooperation network analysis, institutional cooperation network analysis and citation network clustering. The research results show that 1) according to the literature output analysis, the volume of document output of the ISR journal presents a volatility increase; 2) ac- cording to the analysis of the national cooperation network, the United States is the core node in the national cooperation network, and China needs to strengthen international cooperation the- reby to increase its influence; 3) in the cooperation network of research institutions, the top five universities in the literature output are all located in the United States, and according to the cen-trality analysis of the cooperation network, of the 12 institutions centered above 0.1, 9 institutions are located in the United States, and only Hong Kong city university in China is listed; in addition, the University of Texas at Dallas, Georgia Institute of Technology, National University of Singapore, and University of Texas at Austin have great potential in the research field of information systems; 4) according to citation network cluster analysis, the evolution of research hotspots can be divided into three phases: the focus of research in the field of information systems from 1998 to 2001 is information integration of enterprise applications, research spots during the period of 2002 to 2011 shift from the traditional organization to measure virtual organization, trust and influencing factors, and during the period 2012 to 2017of research topics shift from electronic word of mouth to knowledge dissemination in online knowledge community. Keywords Information Systems Research, Citespace, Cooperation Network, Central Analysis, Citation Network 《Information Systems Research》 1998~2017文献计量分析 —基于Citespace可视图谱

科学计量学 综述

2005 - 2010年我国网络计量学研究现状浅析 摘要 本文通过对中国知网全文数据库和万方数据资源系统收录的近六年国内关于网络计量学研究文献的统计,从文献数量、主题分布、期刊分布等角度进行了分析,并对网络计量学基础理论、方式方法以及应用方面的相关问题进行简单总结说明。 关键词:网络计量学统计分析 网络计量学是在传统文献计量学的基础上发展起来的,是对网络信息资源进行分析研究的一门新兴学科,是信息计量学的一个新的发展方向和重要的研究领域。它主要采用数学、统计学等各种定量研究方法,对网上信息的组织、分布、传递、相互引用和挖掘利用等进行统计分析和定量描述,以揭示其数量特征和存在规律,从而为网络信息资源的有序化组织、合理化配置和有效的利用提供必要的依据。 “网络计量学”的概念最早是在1997年,由丹麦皇家图书情报学院的Almind T. C和Peter Ingwersen提出;在我国,最早引用此概念的是武汉大学的邱均平教授,他在2000 年发表了《信息计量学(一) 》一文,在这篇文章中对网络计量学的产生和发展做了深入的分析。其后我国学者纷纷对网络计量学展开了探讨,这些探讨对网络计量学理论和实践的发展具有积极的指导意义。为能了解网络计量学研究的现状,笔者对2005—2010年国内网络信息计量学研究成果进行统计,以期能对网络计量学的基本知识有简单的认识。 1 研究方法与数据统计 1.1 研究方法 本文采用内容分析法。笔者选择中国知网全文数据库和万方数据资源系统作为本次研究数据的来源。由于这两个数据库数据来源广泛,收录齐全,因此基本上能够满足笔者的研究要求。在这两个数据库中分别选择检索时间跨度为2005—2010年,篇名或标题中含有“网络计量学”或“网络信息计量学”的学术文献。共检索出论文159篇,去重、剔除会议通知、不符合本文研究要求的文章,剩余文献90篇。将数据导入NoteExpress软件,用该软件进行数据统计。

Bibexcel进行文献计量分析和引文分析快速指南

Bibexcel进行文献计量分析和引文分析快速指南 Alan Pilkington 【a.pilkington@https://www.360docs.net/doc/691097940.html,】 概述与安装 本人使用Bibexcel业已多年,一直向大家推荐这个工具。但是,总是被人们问及如何上手使用,每次拿它进行分析的时候,总是要回头再次读一读自己手写的笔记。所以,我感到有必要就如何利用Bibexcel进行文献计量分析写出一个介绍性的东西,希望能给大家提供有用的信息。如果有任何建议或者发现任何错误,请通知我。 Bibexcel是一个用于文献计量分析、特别是引文分析的完美工具。用户可以在www.umu.se/inforsk网站上获得最新版本。其安装也十分简单,只需要把文件拷贝到硬盘的目录下即可,记住要把帮助文档也放在一个目录下。如果本指南不能满足你的需求请到该网站上浏览网页。 利用Bibexcel进行引文分析 第一步要有用于分析的来源数据。在引文分析中,来源数据就是从《科学引文索引》、《社会科学引文索引》中检索到来源文献。这两个数据库是商业数据库,是Web of Science或者ISI数据服务的组成部分,你所在的大学可能已经订购了它们。 《科学引文索引》和《社会科学引文索引》的使用 和平时一样,使用WOS/ISI检索功能检索到来源文献。在开始下载文献之前,必须了解你研究的内容。如果是对一种期刊的文章内容进行分析,其来源文献很容易确认下来。比较复杂的研究有可能是针对某一作者或者大学的某个系的文献记录。无论你的计划是什么,如果你是要从《科学引文索引》和《社会科学引文索引》中下载数据,下载和准备数据的步骤都是一样的: 在WOS,下载前需要对要下载的记录进行标记。然后开始下载所选择的论文,保证下载项目中包括论文的引文。可以通过“download for future analysis (为进一步分析而下载)”或者通过电子邮件发给自己,两种方式都生成纯文本文件。 如果下载的文献记录过多,下载中有的时候会导致数据传输超时。可以打开已经得到的文件查看(可以用Bibexcel中左上角的窗口找到文件,在左下角的窗口中可以看到文件的内容,也可以使用文本编辑器),找到文件的最后几行,看看是否存在HTML格式错误,如果有错误就表明下载中出现了超时。如果出现超时,解决的办法只有重新下载并注意减少下载记录的数量,比如减少检索的年限。如果是分段下载的,必须记住,在下一步分析之前,要把分离的文件重新组合到一起。用文本编辑器(如记事本)打开这些文件,剪切和粘贴,要保证在合成的文件的顶部只有一个文件头,而不是在已下载的每一个部分的开头: FN ISI Export Format VR 1.0 利用文本编辑器可以很容易查看纯文本中的数据,但是在使用诸如MS wor d之类的字处理器时候要当心,因为它们会增加字符、重新定义过的行格式和其他可以在后来引起问题的东西。

文献计量学专业复习资料

信息计量学复习预测参考 一.名词解释信息论:采用数理统计方法来研究信息的度量,传输和变换规律的一门学科。 信息计量学:采用定量方法来描述和研究情报(信息)的现象,过程和规律的一门学科。 期刊载文量:在给定时间内,期刊发表的全部论文数量。 期刊引证率:在给定时间内,期刊引证的全部参考文献数量。 期刊被引率:在给定时间内,期刊被引证的全部次数。平均引文率:反映期刊平均引文水平的统计量,以修正由于载文量大小不同带来的偏差。 知识发现:对数据中隐含的,以前不知道的,潜在的有用的信息的有价值的提取。 聚类:利用论文间的同被引关系把本来无外部联系的论文“聚”在一起而形成“类”的过程。引文聚类:引文之间都具有一定程度的学科专业相关性,根据专业属性,引文可聚集成为一个个聚类群体。 引文耦合:引证文 献通过其参考文献 (被引证文献)建 立的耦合关系。 文献同被引:指两 篇(或多篇)文献 同时被后来的一篇 或多篇论文所引 证,则称这两篇论 文具有“同被引“关 系。 期刊同被引:以期 刊为基本单元而建 立的同被引关系。 普赖斯定律:撰写 全部论文一半的高 产作者的数量,等 于全部科学作者总 数的平方根,这就 是普赖斯定律. 普赖斯指数:普赖 斯指数等于(出版 年限不超过5年的 被引文献数量/ 被引文献总量) X100% 文献信息流:在信 息计量学中,通常 把文献所含信息的 汇流称为文献信息 流。由于文献是信 息的最基本的载体 形式,文献信息流 是具有一系列主题 特征的科学文献的 集合,所以有时将 文献信息流简称为 文献流。 文献信息老化:科 学文献随其“年龄” 的增长,其内容日 益变得陈旧过时, 作为情报源的价值 不断减小,甚至完 全s丧失其利用价 值。过程观认为文 献老化是一种过 程,状态观认为文 献老化是一种状 态,过程状态辩证 观认为文献老化既 是一种过程又是一 种状态。 半衰期:某学科(专 业)现时尚在利用 的全部文献中较新 的一半是在多长一 段时间内发表的 (共时半衰期);该 学科一半文献失效 所经历的时间(历 时半衰期)。 引文分析法:就是 利用各种数学及统 计学的方法和比 较,归纳,抽象, 概括等逻辑方法, 对科学期刊,论文, 著者等各种分析对 象的引证与被引证 现象进行分析,以 便揭示其数量特征 和内在规律的一种 文献计量分析方 法。 核心期刊:指针对 某一学科或专业领 域来说,刊载大量 专业论文和利用率 较高的少数重要期 刊,就称为该学科 (专业)的核心期 刊。 影响因子:评价和 比较一种期刊相对 于同学科中其他期 刊影响力和重要性 的指标。影响因子 等于某刊前两年发 表论文在该年的被 引证次数除以该刊 前两年发表论文总 数。 即年指标:评价期 刊中的论文被引证 的速度,或者在同 一年内期刊中的论 文被引证的频率。 即年指标等于该刊 某年发表的论文在 当年的被引次数除 以当年发表论文的 篇数。 科技预测:根据预 测学的基本原理以 及科技发展的历史 和现状,对科学技 术的发展前景及其 对社会进步的影响 程度进行分析和推 测,从而得出预见 性的结论。 网络信息计量学: 是综合采用文献计 量,信息计量,统 计学方法,计算机 技术和网络技术等 对网络信息规律进 行计量分析的一门 科学。 格鲁斯下垂:布拉 德福曲线在进入直 线部分后,并非无 休止的直伸下去, 后来总要弯曲下 垂,因而使得布拉 德福的图形变为明 显的三个部分:上 升的曲线部分—直 线部分—弯曲下垂 部分。

基于文献计量分析的新生代农民工研究综述

基于文献计量分析的新生代农民工研究综述 运用文献计量学的方法,通过中国知网(CNKI)提供的文献和数据,对2000年以来“新生代农民工”的研究文献从时间、空间、期刊、著者、主题四个方面进行统计分析,对“新生代农民工”研究的现状特征、存在问题和发展趋势进行探讨,并为今后的“新生代农民工”问题研究提出四点启示。 标签:新生代农民工;文献计量;研究发展趋势 2001年,中国社会科学院王春光研究员首次提出了“新生代农村流动人口”的概念,并将其定义为“20世纪90年代外出务工经商、年龄在25岁以下、与第一代农民工在社会阅历上有着明显差距的农村流动人口”[1]。这一研究引发了人们对改革开放以后形成的“农民工”这一特殊群体代际分化问题的关注。近年来,随着大量“80后”“90后”农村人口走出学校进入城市就业,农民工中代际分化的特征显得越发明显。学者们对此也给予了极大的关注,经过初步的文献检索我们发现最早使用“新生代农民工”这一术语的是上海市房地产科学研究院,2005年以后学者和媒体开始较为广泛地使用,发表的学术文献也逐年增多。2010年1月,随着国务院发布的2010年中央一号文件《关于加大统筹城乡发展力度进一步夯实农业农村发展基础的若干意见》中正式使用“新生代农民工”的提法,表达了中央对逐渐成为进城务工人员主体的新生代农民工的高度关注后,引起了社会各界对新生代农民工的热烈讨论和研究[2]。那么,经过几年的研究和探索,对新生代农民工这一较为特殊的群体究竟形成了怎样的认识,学者们又是从哪些角度进行探讨的,新生代农民研究的未来发展趋势又是什么样的?对此,我们采取文献计量分析的方法,对2000年至今公开发表的有关新生代农民工学术文献进行分析,对这些问题进行逐一的梳理。 一、研究方法 (一)研究方法和数据分析原理 本文研究采用文献计量学的方法对新生代农民工问题的研究进行分析和总结。文献计量学是运用数学和统计的方法,定量分析一切知识载体的交叉学科,它集数学、统计、文献学为一体,注重量化的综合性知识体系[3]。文献计量学计量分析的主要内容包括文献数量、时空分布、作者数量、核心作者、核心期刊、主题分布、词汇数量等内容。运用该方法对新生代农民工问题研究的文献进行计量分析,有利于发现新生代农民工研究方面的规律性内容,对今后新生代农民工问题的研究能够起到一定的指导作用。 (二)数据和文献来源 本文研究使用的数据和文献来自中国知网(CNKI)的《中国学术期刊网络出版总库》。该数据库是目前世界上最大的连续动态更新的中国学术期刊全文数据库,收录的期刊种类多、数量大、覆盖学科范围广、更新及时,因此从中获取

文献计量学实务

第三章文献计量学实务 (1) 第一节Web of Science (1) 第二节运用Excel (2) No.1 文章类型 (5) No.2 语言 (6) No.3 期刊 (6) No.4文章页数 (6) 参考文献数 (6) No.5国家分析 (6) No.7国家分析 (9) No.6作者分析 (11) No.7成长趋势 (12) 影响因子 (13) 作者关键词 (13) 研究领域 (14) 文献计量模式分析 (14) 被引用率 (14) 第三节 (14) 第四节 (15) 第五节 (15) 第三章文献计量学实务 第一节Web of Science 进行搜索: 在search框内敲入所需要查找的关键词,不同关键词间用and或or连接。如通常格式可为:(XX or XX or XX)and XX*。*可要可不要,表示后续内容可任意。点击search。 (如:搜索吸附领域粘土的文献,可敲入:(adsorption or sorption) and clay*。点击Refine your results下的Subject Categories从众多领域中选出所需要关注的领域内的文章,点击VIEW RECORDS。对所有文献进行了初步筛选。 Add to marked list 在网页右下方Output Records:下的Records选择所需要输出的文献序号,ISI一词输出可以最多500篇, 所以我们通常选1-500,依次501——1000,等等。点击右下Add to marked list。此时网页整上方会出现有红勾的Add to marked list,点击。

Step 1. Select the fields to include in the output下选择所需要输出的数据项。通常我们做分析时候应选上除cited references和abstract外的所有项。这两项是由于内容较多,EXCEL 处理起来不便,所以通常不选。 Step 2. Select an option.我们需要选择的是Tab Delimited(Windows). 接下来很重要的一步是我们应在“Automatically delete selected records from the Marked List after output is complete.”前打勾,否则在后续输出时候会因对前面输出项目的记忆造成干扰。 点击SAVE TO FILE。在下个网页中会输出一个记事本(.txt)格式的文档,对其内容全选复制贴贴入新建EXCEL中,便自动输出各项数据。 此时可进行下一查找:直接点击BACK,然后RETURN 即可。需要注意的是在后续贴入EXCEL时,每次再贴入EXCEL的第一行都是标题,应该删除。 重复执行,最终便可得到我们所需领域的文献数据。 如果我们在电脑里安装有软件Reference Manager或者 EndNote,也可直接将文献输出其中进行管理。前面的操作基本雷同,只是再Add to marked list后Step 1. Select the fields to include in the output后所选项重点可变为选择Author(s),Title,Title,abstract*,keywords及times cited等所需项。Step 2. Select an option.我们需要选择的是 Field Tagged.然后在下面小方框打勾,再点击SAVE TO FILE。 第二节运用Excel 通过第一节我们对所需查找领域文献全部已经输出为EXCEL形式数据,接下来可对其进行整理分析。 (一)前期处理步骤: 1.首要的工作是保存好原始数据,在EXCEL里将其所在sheet命名为OD (original data的缩写),方便我们在后续处理工作中进行核对。 2.数据的初步处理,包括: (1)先从原始数据库中找到我们想要进行分析的部分保留,其它意义不大的可直接删除。新建一个sheet,将OD的全部数据复制过来,将其命名为D。可删除的列有:CA,SE,AB,EM,CR,PU,PI,PA,J9,JI,PD,VL,IS,PN,SU,SI,BP,EP,AR,DI,GA 。(注:各列title所代表的含义见附二。) (2)可将年份PY进行排列,如从按Z→A降序排序得2006→1995,按A→Z则相反。因为我们从WOS中所下当年的文献只是一部分,数据不完全,所以在分析

文献计量学六大规律

文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。 文献信息源的定量研究开始于20世纪初。在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。 布拉德福定律:也称文献分散定律。是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的…核心?区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。 洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。如撰写了2篇论文的作者数量大约是撰写了一篇论文的作者数量的1/4 (即1/2 2 ),写3篇论文的作者数量大约是一篇论文作者数量的1/9(即1/32),写n篇论文的作者数量大约是写一篇论文作者数量的1/n 2。洛特卡定律,探讨了科学论文著者的不平衡分布规律。通过他的研究成果,我们可以明确:在宏观的科学著述活动中,少数作者写出了大量的文章;反之,而大多数人的著述则是不多的。研究科技工作者及其论著间的数量关系有很重要的现实意义。在信息资源管理和信息利用过程中,可以用它来预测著者数量和文献数量,掌握作者的研究动态,提示不同领域中文献现状和趋势,便于对文献信息源进行有效的选择,搜集和科学管理。在科学学中,还可用它来研究科研工作者的创造活动规律,研究人才及其成果分布规律。如普赖斯就从洛特卡定律推论出“杰出科学家数量仅仅是科学家数量的平方根”。 齐普夫定律:是由美国语言学家齐普夫(G.K.Zipf)于1935年研究发现的关于文献中的词频分布规律。其具体表述如下:如果将一篇达到一定长度的文章中的词按其出现频率递减排序,根据频率高低编上相应的等顺序号,次最高的为 1 级,其次为2 级…… ,这样一直到若干级,如果用 f 表示词在文章中出现的频率,用r 表示词的等级序号,则有: fr = c (c 为常数) 应用词频分布规律及其参数,可以预测关键词的数量,计算各词汇的重要程度,对于文献标引与词汇控制、词表的编制、文献信息检索等方面都具有重要的应用价值。文献增长规律:随着科学的不断发展,科学文献的增长也成为一种客观的社会现象。对于这一现象人们在20 世纪初就已注意到。但一直到20 世纪40 年代后,由于当时图书馆管理的需要,特别是科学史研究以及科技情报工作发展的需要,文献增长规律才被研究者重视,取得了一系列研究成果。其中最具代表性的是普赖斯(D.Price )提出的科学文献的指数增长规律。普赖斯在其著作《巴比伦以来的科学》中考察统计了科学期刊的增长情况,发现科学期刊的数量大约每50 年增长10 倍。他以科技文献量为纵轴,以历史年代为横轴,不同

基于文献计量的大数据研究综述_李贺

收稿日期:2013-12-10 基金项目:国家科技支撑计划(课题编号:2013BAH21B05)作者简介:李 贺(1964-),女,吉林长春人,教授、博士生导师,主要从事知识管理、竞争情报分析、信息系统开发与设计 研究. 基于文献计量的大数据研究综述 李 贺,袁翠敏,李亚峰 (吉林大学管理学院,吉林长春130022) 摘 要:本文通过检索Web of Science 中有关大数据的论文,采用文献计量分析法、可视化分析法 和内容分析法等对文献进行梳理,分析了该领域的研究现状和发展趋势,并从大数据基本理论、大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,对未来研究进行展望。关键词:大数据;Web of Science ;文献计量;综述中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2014)06-148-08 A Review of Big Data Research Based on Bibliometrics LI He,YUAN Cui-min,LI Ya-feng (School of Management,Jilin University,Changchun 130022,China) Abstract:The paper analyzes related literatures in the field ofbig data retrieved from Web of Scienceus ?ing methods of bibliometric analysis,visualization analysisand content analysis,and analyzes the research status and development trends.The paper shows the current research focus of big data from three angles: basic theory,technology of big data storage,analysis and processing,as well as big data applied research,and gives prospects of the future research. Key words:big data;Web of Science;bibliometrics;review 1大数据概述 1.1大数据定义 从学术角度来讲,大数据一词最贴切的概念最早出现在2008年《Nature 》杂志所设立的“Big Data ”专刊中,该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战【1】。自此以后,大数据研究在各国兴起。2011年5月,大数据的概念由信息存储资讯科技公司EMC (易安信)在“云计算相遇大数据”大会 正式提出。同年6月,IBM 及麦肯锡等著名研究机构也相继发布大数据研究报告,掀起了大数据研究的浪潮。然而,各界对大数据的定义尚未统一。Gartner 结合其特征将大数据定义为数据量大、高运转速率和多样性的信息集合,它需要新的处理形式以加强决策支持、深入发现和优化处理【2】。我国学者孟小峰【3】通过将大数据与数据库的概念进行对比,并将两者分别比喻为“大海捕鱼”和“池塘捕鱼”,从数据规模、数据类型、模式和数据的关系、处理对象以及处理工具几个方面分析了大数据这一概念,较为准确、形象。总体上讲,大数据不仅指数据量巨大,且数据主要是以半结构化和非结构化形 - -148

相关文档
最新文档