文献计量与引文分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
他认为,在语言交流过程中,“省力法则”同时体现在说话人和听 话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精 力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配, 减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词 频的双曲线型分布。

齐普夫定律

齐普夫定律的基本内容
• 1917 年,文献学家科尔和伊尔斯在《科学进展》期刊上发表文章, 通过分析研究比较解剖学文献,介绍了最基本的书目统计分析技术。
• 1923年,休姆提出了统计书目学。自此,文献计量的研究活动日益 活跃。 • 1926年,美国数学家、化学家洛特卡在题为《科技生产率的频率分 布》一文中首次阐述了著者与文献数量的关系,并建立了数学模型, 即洛特卡定律。 • 1934年,英国情报文献学家布拉德福提出了定量描述文献序性结构 的经验定律,揭示了定期出版物中文献分布规律。 • 1935年,美国语言学家齐普夫通过大量的统计分析工作,从而宣告 了齐普夫的词频分布定律的正式诞生。
定参数,k等于分布曲线中直线部分的斜率,可用
实验方法求得,当N足够大时,k≈N,s的数值等于 图形直线部分反向延伸与横轴交点的n值。β是参数, 与收藏的杂志(核心杂志)数量有关,大小等于分布 图中曲线部分的曲率,β总小于1.
布拉德福定律



布拉德福定律的应用
确定核心期刊,指导读者利用重点文献
选择核心期刊是布氏定律最基本、最常见的应用之一,这可以直接仿照布拉德 福方法进行。近年来,这种应用已被广泛地运用到各个学科的期刊文献工作中。

洛特卡的数据抽取方法有欠科学,只有在研究的学科满 足以下条件时预测结果才会比较客观:学科必须相对稳 定、研究的论文时间区间必须足够长、研究的作者数目 必须足够大。否则对该定律必须作相应的修正。
洛特卡定律


洛特卡定律的发展
在洛特卡定律的基础上,普赖斯(Price)进一步研究了 科学家人数与科学文献数量,以及不同能力层次的科学 家之间的定量关系,提出了著名的普赖斯定律和一些其 他重要结论。 普赖斯 (Price) 是著名的科学家与科学史学家 , 他在其代 表名著《小科学, 大科学》一书中曾有如下的论述 : “在 同一主题中 , 半数的论文为一群高生产能力作者所撰 , 这 一作者集合在数量上约等于全部作者总数的平方根,此 即普赖斯定律。
布拉德福定律


布拉德福定律的基本内容
布拉德福定律的区域分析:如果将科学期刊按其登载某个学科的论 文数量的大小,以减序排列,那么可以把期刊分为专门面向这个学 科的核心区、相关区、非相关区,3个区的论文数量相等,此时核心 区、相关区,非相关区期刊数量之比为1:a: a2, a是布拉德福常 数。
每个区的期刊刊登的某个学科的论文数量都是所有期刊关于这个学 科所发表的论文总数的三分之一。 第一区(核心区)所发表的论文来自数量不多但是效率最高的期 刊——n1; 第二区是数量较多的中等效率的期刊——n2; 第三区是外围区,数量众多但效率最低的期刊——n3。

齐普夫定律


齐普夫定律的局限性及发展
由于齐普夫定律是一个纯粹的经验定律,只是通过一般的统计方法得到,所 以它的使用范围有一定的局限性。其过于简单的形式和结论对于出现频次特 别高和频次特别低的词都不能完全满足。
之后,一些学者对齐普夫定律进行了一些修正。这些修正主要在增加参数方 面,有的学者把参数增加到两个,有的学者把参数增加到三个,使其更加精 确的描述词频分布规律。比较突出的有美国语言学家朱斯(M.Joos)的双参
I I1
2 n(n 1)
齐普夫定律


齐普夫定律的应用

洛特卡定律


洛特卡定律的应用
1、在情报学、图书馆学方面的应用。一般是用它来预测发表不同数 目文章的著者数量和特定学科的文献数量。这样,便于掌握文献的 增长趋势,便于进行文献情报的科学管理以及情报学的理论研究等。
2、在预测科学方面的应用。按照洛特卡定律,可以从统计或估算的 科学著者数量来预测文献数目的增长速度和文献流的动向,便于掌 握文献的交流规律;同时,从文献计量的角度出发,也可预测科学 家数量的增长和科学发展的规模及趋势等。

如果把一篇较长文章(约5000 字以上)中的每个不同的 词按其出现频次的递减顺序排列起来(高频词在前,低 频词在后),并用自然数给这些词编上等级序号,出现 频次最高的为1级,其次为2级……一直到L级,那么等级 值和频次值的乘积是一个常数,即:
fr c


其中f表示某个词在文章中出现的频次,
r表示该词的等级序号,c为常数。

• •
1、文献作者的分布理论--洛特卡定律
2、文献分散的理论--布拉德福定律 3、词频分布理论--齐普夫定律
洛特卡定律


洛特卡定律的产生
1926年,洛特卡最先研究了科学文献数量与著者数量之间的关系,并创造性 地提出了“科学生产率”的概念。所谓“科学生产率” 是指科学家(科研人 员)在科学上所表现出的能力和工作效率,通常用其生产的科学文献的数量 来衡量。洛特卡就是从“科学生产率”这个概念出发,通过统计和分析科研 人员的论著数量,首次揭示了科学文献按著者的分布规律。


3、在科学学和人才学方面的应用。可以用它来研究科学家的活动规 律,研究人才的著述特征,从而为整个科学学和人才学的研究提供 新的途径和手段。
布拉德福定律


布拉德福定律的产生
1933年,英国科学博物馆图书馆的布拉德福选择了“应用地球物理 学”和“润滑”专业领域为样本,组织图书馆的工作人员统计所收 集的科技期刊上发表的相关论文,共统计了490种期刊,1727篇论文, 并将期刊按照相关论文载文量的多少减序排列。
他采用3种不同的方法,即区域分析、图像观察和数学推导的方法对 文献统计数据进行了分析研究,结果发现,尽管学科不同,但相关 论文在相应的期刊中有着同样的分布规律。


布拉德福于1934年1月在《工程》发表了题为《专门学科的情报源》 一文,首次公开提出了定量描述文献分散规律的经验定律,即布拉 德福定律。


文献计量学的发展历史
1969年,普里查德(A.Pritchard)发表了《统计书目学还是文献计量学》 一文,首次提出了文献计量学这一概念。从此之后,文献计量学这个术语 代替统计书目学得到广泛应用。普里查德在这篇文章中对文献计量学下了 定义——“文献计量学是把数学和统计学应用于图书和其他交流媒介的一 门学科”。
齐普夫定律


齐普夫定律的基本内容
如果建立f与r的直角坐标系,横坐标表 示词的等级序号,纵坐标表示出现频次, 就得到一条双曲线。

如果对f和r都取对数,则双曲线变成一 条直线。
美国德克萨斯大学图书情报研究生院 R.E. 威利斯( Wyllys )曾经以含 21354 个单词的文集进行频次与等级的统计, 得到下图
• •
文献计量学:用数学和统计学的方法,定量地分析一切知识载体的交叉科
学;集数学、统计学、文献学为一体,注重量化的综合性知识体系;
其计量对象主要是:文献量(各种出版物,尤以期刊论文和引文居多)、作
者数 (个人或团体)、词汇数(各种文献标识);
文献计量学概述

文献计量学的发展趋势


网络和网络计量的研究日益成为文献计量学的研究前沿;


科技期刊导购,确定最佳文献收藏
对一个单位来说,如何使用有限的经费,选择什么范围的期刊,订购多少期刊, 才能收到最佳的效果,应是图书情报部门关心的问题。而应用布拉德福定律即 可解决这一问题。


考察检索工具的完整性
将期刊按照布拉德福排序,排名最前的n(c<n<N)种期刊,设其所刊载的论文 数与全部期刊载文量之比为f,则有:
文献计量法与引文分析法
目录
一、文献计量学概述
文献计量学发展历史 文献计量学发展趋势
二、文献计量学方法
文献计量学三大定律 文献增长规律 文献老化规律
三、引文分析法
文献计量学概述

文献计量学的发展历史
• 文献计量学的发展历史最早追溯到 1911 年,俄国化学家瓦尔金用引 文分析法研究了一些国家的化学家所做的贡献。
R(n) n , (1 n C ) R(n) k log(n s), (C n N )
R(n)是相关论文累积数;n是杂志等级排列的序号 (级);a是第一级杂志中的相关文章数R(1),也就是 载文章最高的杂志中的相关文章数;C是"核心区" 中的杂志数量;N是等级排列的杂志总数;k,s是待
在对数据的研究过程中,洛特卡发现,科学领域的论著数量与著者频率有一 定的关系。他在《科学生产率的频率分布》一文中,论述了化学与物理学领 域中作者频率与论文数量的分布规律,提出了描述这两者关系的一般公式, 同时还阐明了科学生产率的经验规律,即洛特卡定律(Lotka’s Law),又 称“倒数平方定律”。
文献计量学内容体系中的指标 , 从提出到现在一直都是 文献计量学研究的热点 , 目前有关指标的研究是文献计 量学研究前沿, 且以指标的应用为主要的研究前沿; 文献计量学呈现与其他学科相结合的趋势 , 特别是医学。 文献计量学研究日益呈现应用化、综合化和网络化的态 势。
• •
文献计量学方法

文献计量学三大定律

f ( n ) = C /n 2 : 写 n 篇 论 文 的 作 者 数 量 约 为 写 一 篇 论 文 作 者 数 量 的 1/n2……
1 1 1 C ( 2 2 ... 2 ) 1 1 2 n
洛特卡定律


洛特卡定律的局限性
只是根据化学和物理学两大学科得出的理论估计,并非 精确的统计分布,在其他学科的应用时就需要作一定的 修正。

数等级分布率(
f (r ) cr , b 0, c 0, f (r ) 1
b r 1
n
),美籍法国数学
b 家曼德尔布罗(B.Mandelbrot)的词的三参数 频 率 规 律 f (r ) c(分 r 布 a)
( (
) , 布 思 ( A . D . B o o t h ) 的n 低 频词的分布规律 ) 。
n N ln s n s( N ) f f N s N ln s
如果等级排列分布中的N,s已知,对于确定的f, 可以由左式检验检索工具的完整性。
齐普夫定律


齐普夫定律的产生
1949 年,美国语言学家齐普夫发表了专著《人类行为与最省力法 则》,提出了最省力法则这个概念。齐普夫通过研究大量的统计资 料,试图证明自然语言词汇在文献中的分布服从一个简单的定律, 他称这一定律为“最省力法则”。齐普夫认为:人们在解决任何一 个问题时,总是力图把所能付出的平均工作消耗最小化,达到最省 力的地步。
洛特卡围绕科学生产率这个崭新的课题,为了考察文献作者分来自百度文库规律做了大 量艰苦的统计工作。他选取化学和物理两门学科的论著数量和著者数量为研 究对象。


洛特卡对这些数据的统计结果包含两部分内容:1、与论著数量相对应的作 者数量;2、著者频率,即相应的著者数占著者总数的百分比。这两个部分 均按论著数量增序排列。


• •

三个区中的期刊数量成下列关系:
n1 : n2 : n3 1: a : a
2
布拉德福定律


布拉德福定律的发展
英国情报学家布鲁克斯(B.C.Brookes)首次用数学公式描述了布拉 德福的经验定律,发展了图像描述方法,从而完成了布氏定律的这一 重要的后续工作。并创造性地提出用两个部分组成的数学表达式来 描述布拉德福定律,分别表示图像的曲线部分和直线部分:
C f ( x) 2 x
洛特卡定律


• •
洛特卡定律基本内容
C f ( x) 2 x
f(1)=C=6/π2:写一篇论文作者的数量约占所有作者数量的60%;
f(2)=C/4:写两篇论文的作者数量约为写一篇论文的作者数量的1/4; f(3)=C/9:写三篇论文的作者数量约为写一篇论文作者数量的1/9;

洛特卡定律


洛特卡定律基本内容
从洛特卡定律的产生过程可以看出,该定律的目的和基本内容是:描述科学 工作者人数与其所著论文之间的关系。
如果设f(x)为写了x篇论文的作者数占作者总数的比例,则洛特卡定律可表 示为:

C f ( x) a x
• •
其中,C和a是某特定主题领域的特征常数。 洛特卡统计的数据约:a=2,即“平方反比率”。
相关文档
最新文档