信息计量学期末复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、 信息计量学有代表性的各种定义,其有共同之处,构成的基本要素为:
a 是一门学科;
b 采用数学、统计学等方法;
c 以各类文献为基础;
d 对文献及其各种特征进行定量统计分析
2、 信息计量学研究的内容是由研究的对象与任务决定的,形成三大模块:时间序列、信息
分布、引证研究。
是以文献计量学为基础,向网络计量学发展
3、 信息计量学研究的方法体系:统计分析法,数学模型分析法,引文分析法,计算机辅助信
息计量分析法
4、 信息计量学形成的三个基本条件:文献可计量;大数量;有规律
5、 文献计量学的特点(现象):人为的计量、近似的统计、精确的计算
6、 信息计量学研究对象:消息、数据、事件、实物、文本和文献
7、 信息计量学研究的基本规律有哪些?文献增长/分散/老化/引用/著者/词频/利用……
P19
8、 图书馆有那些可量度的单位? 枚举图书馆常用的文献计量学单位(量度)或衡量一个图
书馆的基础指标是哪些?馆藏量/馆舍/TDB/用户数。
藏书,建筑面积,年经费,工作人员…… 成为衡量一个馆大小的量度
9、 文献计量学特征变量:文献量/类型/读者/馆空间容量/文献信息检索点。
如:期刊,学位
论文,专利,DB
10、 图书馆工作中的计量单位:利用率,满意度,文献购置结构,差错率,借阅率,拒
借率。
藏书利用率=全年出借册数/全馆藏书总册数x100%
11、 从图书馆OPAC 查书,(小于100),可借状态下,在架的拒借率是与什么因素有关?
12、 信息计量工具:SCI (WOS ), SSCI A&HCI, ESI, JCR CSCD, CSSCI, CNKI
SPSS
13、 文献计量学研究的是情报的“载体”表象—形式特征。
信息计量学研究的是情报
的“信息”知识—内容特征
14、 文献信息统计分析法类型有:出版物、著者、科技用语、引文分析、信息利用等统
计
15、 统计一般过程:收集 (聚集)\整理 (分类 / 整序)\分析(找规律)\推断(预测)
16、 统计特征值有:中位数,极差,众数,平均值,加权,环比
17、 情报吸收系数 I=N/M 统计时内发文总数/被利用的文献总数P262
18、 文献信息统计原则: 针对性,准确性,代表性,可比性,累积性
19、 文献增长规律研究的模型:与质量有关,指数;逻辑;滑动;直线
20、 增长模型。
按指数曲线增长,其翻番如何计算,年增长量又如何计算
21、 普赖斯曲线的主要性质,特点时的文献累积量当年的文献累积量∞→---->+=-t t t F b ae
k t F kbt κ)()0(1)( 22、 文献老化机理(现象) 内容:知识的时效性, 载体:物理的破损性, 理论:用户兴趣与
数模相对稳定性 (成本信价比提高)
23、 文献老化: 定义。
利用的减少论 内容的过时论 使用价值的衰减论
24、 方向: 文献老化理论—文献传播动态规律 /定量描述文献数模方法与老化规律 /文
献老化应用研究,指导馆藏建设等
25、 半衰期:在被使用的学科文献中,近期文献增长并占全部文献一半所花去的时间
26、 普赖斯指数 bt Ae t F A bt F =+=)(ln %100*)5(被引文献总引
量年被引文献P r ≤=λ
λλ)(Ae t F ,bt ==)(0
,4/1,2/1,4/31
27、
文献老化过程定量研究方法 引文分析法 统计分析法 数学方法 综合方法 28、 文献老化级数学模型 ⎪⎪⎩⎪⎪⎨⎧==-=∑∑==-n i i n i ix i )
(n i e Y 111),...,2,1(1边界条件αα 29、 巴顿-开普勒方程 112=+⎪⎪⎭⎫ ⎝⎛+-=b a e b e a y x x
30、 文献老化规律在图书馆哪些方面的应用
31、 布拉德福定律 区域表达法:如果将科技期刊按其刊载某专业论文的数量多少,以
递减顺序排列,则可分出一个核心区和相继的几个区域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n :n 2……的关系
32、 格罗斯“下垂”属布拉德福定律 的哪段: 曲线+直线 假设:均匀分布
33、 齐普夫第一定律,适合高频词,第二定律适合低频词 C r F r =*
应用于学术不端的检测,大学综合排名等。
34、 高夫曼 最少核心/最大划分:数
参仅刊登一篇论文的期刊区域划分最大值总论文数)Z ;m A Z m A (2>
35、 洛特卡方程一般式 )8.32.1(/)(≤≤=ααx C x f x 的区间
36、 数
为只有一篇论文的作者洛特卡定律另一表达式经典洛特卡定律)1()
1()(:60793.06,2:...)3,2,1()(22y x y x y C n x x C x y n ===
===
π
37、 普赖斯定律 m = 0.749 (n max )0.5 全部论文的一半是由该领域全部作者的平方根的
那些人所产生的,即 最低产出的论文量是最高产出论文平方根的0.749倍。
38、 普赖斯定律的推论之一:当某个国家的科学论文作者人数和科学成果数超过全世界
的1/4时,则科学活动的中心转入该国。
P201
39、 所谓二八律,是指主体与主体完成的成果间分布的不均匀性,即大部分(80%)成果
是由少部分(20%)的主体完成的。
40、 引文的种类:引用关键词、引用原文、引用原意。
41、 引证分析就是用数学和统计学的方法,以及比较、归纳、抽象、概括等逻辑学方法
对期刊、论文、专著等研究对象的引用和被引用现象和规律进行分析,以揭示出它们所蕴含的研究对象所具有的特征或对象之间的关系的一种研究方法。
42、 引文分析类型 从引用与被引用的关系去分析科学论文之间的相互联系,揭示学科
的发展与联系,展望未来前景。
从引用文献和被引用文献反映出的主题相关性进行研究,用于揭示科学的结构和进行文献检索。
若从被引证文献的其它不同特征出发,还可以派生出许多类型的引证分析,如从被引证文献的话种、国别、年代、类型和著者等方面进at Ke t C -=)(
行的引文分析
43、引文分析的基本程序选取统计对象(学科、专业、期刊、年限)/统计被引数据(一
定时间内特定期刊的参考文献数量、年代、语种、类型、作者自引等)/进行引文分析(在引文数量基础上,对研究目的,分析,理论分布,集中或离散,增长规律,被引文的主要指标,自引量等)/得出结论判断(根据数据判断与预测,研究得出相应的结论)44、引文分析的特点:直观性/易用性/可操作性/反映多种文献特征/自引情况. 引文分
析的局限性。
45、引文分析测度期刊引文量/期刊平均引用量/自引率/被引用量/影响因子/当年指标
46、平均引文数引文数/刊载量(时间)计算总的情况一刊一年共1800引文,载180
文,有引文的150,平均篇引文量为10
47、自引率:自引数/引用该种(类)刊的总量自引数: 一作者/期刊/地区/学科/国家自己
引用本种(类)刊的数量
48、影响因子(数) IF(n)=某年期刊被引用前两年的文章数/该刊前两年所发表的文章总
数如《中国科学》2010年的影响因数IF(2010)=在2010年被2009,2008引用数/ 2009,2008年所发表的论文数。
一般来说,影响因子越大,其影响力和学术作用也越大。
49、当年指标IM= n k / N k某刊当年发表文章的被引用数/ 该刊当年论文总数
50、引文分析法统计方法/比较方法/图解方法/数模方法
51、引文分布按引文频数/按引文年代/按学科主题/按文献类型/按语言文种/按国别/
按著者/按期刊
52、h指数其定义为:如果一位科学家的Np篇论文中有h篇论文被引次数至少为h,
其他(Np-h)篇论文中每一篇的被引次数都≤h,那么这位科学家的h指数就为h。
53、一个人的h指数是指他至多有h篇论文分别被引用了至少h次。
例如,赫希本人的
h指数是49,这表示他已发表的论文中,每篇被引用了至少49次的论文总共有49篇。
h指数能够比较准确地反映一个人的学术成就。
一个人的h指数越高,则表明他的论文影响力越大。
(1)信息计量学的定义:信息计量学是一门采用定量方法来描述和研究情报(信息)的现象、过程和规律的科学,是由数学、统计学、运筹学和情报学紧密结合而成的交叉性学科。
信息计量学有代表性的各种定义,其有共同之处,构成的基本要素为:a是一门学科;b采用数学、统计学等方法;c以各类文献为基础;d 对文献及其各种特征进行定量统计分析。
(2)信息计量学研究目的:
①引进量的概念和定量分析方法,进一步揭示信息单元的体系结构和数量变化规律,从理论上提高情报学及信息管理科学的科学性和精确性,促使这些学科向定量阶段发展。
(学术探索的计量方法,定量分析的逻辑思维,图情研究的数理基础。
)
②为改善情报信息系统提供定量依据,达到高效能的科学管理,使信息交流系统经常处于最佳运行状态,提供最优化的信息服务,以便更好地解决信息服务工作中的基本矛盾,克服“信息危机”,使信息管理工作更有效地为科学技术、经济和社会发展服务。
(3)信息计量学研究意义:其意义在于从理论上总结各种经验定律,使实践经验上升为理论科学,从而充实理论的广度与深度,在新环境条件下进行检验和修
正,探讨其适用性和科学性,同时又为实际工作提供理论指导。
2、信息计量学研究内容
(1)信息计量学研究的内容是由研究的对象与任务决定的,形成三大模块:时间序列、信息分布、引证研究。
以文献计量学为基础,向网络计量学发展。
(2)从“狭义信息计量学”角度展开,其内容体系一般由理论、方法和应用三个部分构成。
具体地说,其内容体系主要包括以下七个方面:
①信息计量学若干基本问题的探索。
②信息的基本测度,建立“信息量”等一整套测度指标,确定信息计量的准绳;关于比特、知识单元、信息熵、信息场、信息势等计量概念的讨论。
③几个基本定律的研究,包括布拉德福定律、齐普夫定律、洛特卡定律等。
④信息流模型的研究,如文献增长、老化、离散、引文分布等模型的建立与评价。
⑤信息计量化方法的探讨,如等级排序方法、对数透视原理及方法以及模糊数学、信息论、集合论等的应用,情报利用和效益的定量评价等。
⑥信息计量方法和工具的自动化实现方面的研究,如聚类。
相关分析,引文数据库等。
⑦在图书情报工作、信息资源管理、信息检索、信息分析与预测、科学学与科学评价等领域的应用。
3、信息计量的方法体系
(1)统计分析法
(2)数学模型分析法
(3)引文分析法
(4)计算机辅助信息计量分析法
(5)词频分析法
(6)共现分析法
(7)聚类分析法
4、信息计量学与文献计量学
从信息计量学的概念和内容体系来看,信息计量学与文献计量学彼此交叉渗透,既有着许多不同的研究内容,又有着不尽相同的地方。
(1)信息计量学着眼于“信息”本身的计量问题,文献计量学主要以作为情报载体的“文献”为计量对象(有时也涉及文献情报)。
(2)信息计量学较之文献计量学来说,其研究范围更广泛一些(如情报领域出现的“零次信息”)。
但,文献信息是整个科学情报的主体,对文献计量学的深入研究将为信息计量学的发展打下良好基础。
(3)从任务和方法上来看,信息计量学研究的任务更为艰巨,更难找到恰当的定量方法及途径。
(主要由于信息这种社会现象更多受到人为控制因素的影响,具有明显的主观性、模糊性。
)
5、信息计量学与科学评价
(1)从实践来看,科学评价(广义)中的各种方法已经形成了一个谱系,以“同行评议”为原型的定性评价和以信息计量学为核心的定量评价构成了该谱系的两极。
(2)信息计量学的理论原理和方法技术都被广泛应用于定量科学评价中,对科学评价起到了巨大的推动作用。
(3)即使是“同行评议”和计量分析方法也从来都不是各自完全独立的,它们总是在一定程度上相互联系着。
6、文献指数增长模型:普赖斯曲线
通过对曲线的分析研究,普赖斯最先注意到科学文献增长与时间呈指数函数关系。
如果用F(t)表示时刻t的文献量,则指数定律可以表示为:F(t)=ae bt(a>0,b>0) 其中t表示时间,以年为单位;a为条件常数,即统计的初始时刻(t=0)的文献量;e为自然对数的底(e=2.718...,可近似为2);b为时间常数,即持续增长率。
文献增加一倍所需的时间d=ln2/b。
7、文献增长逻辑曲线
基于科学文献指数增长规律,弗.纳里莫夫研究后认为,科学文献开始要经历一个急剧增长的过程,随后增长速度减缓,指数增长过程变为逻辑曲线增长过程。
其数学表达式为:F(t)=k/(1+ae-kbt) (b>0).其中,F(t)表示t年的文献累积量;k 为当t→∞时文献的累积量,即文献累积量之最大值;a,b为参数。
(当t<lna/kb 时,文献急剧增长,即增长率是渐增的;当t>lna/kb时,文献增长减慢,即增长率是渐减的。
但是,增长速度的减慢只有在F(t)值快接近k时才是明显的。
)8、文献增长分级滑动指数模型
美国科学史学家和情报家勒希尔指出:出版物的数量增长与其质量有关,不同质量的出版物的增长速度是不同的,从而提出了描述科学文献增长规律的分级滑动指数模型。
他引入一个文献的质量等级指标λ,且0<λ<1。
如果在时刻t的文献总量为F(t),那么在λ级上文献量则为[F(t)]λ,对应于各λ级的文献增长方程依次为:F(t)λ=1=ae bt;F(t)λ=3/4=(ae bt)3/4;F(t)λ=1/2=(ae bt)1/2
F(t)λ=1/4=(ae bt)1/4;F(t)λ=0=lna+bt.
模型说明:不同质量的文献,其增长速度不同,越重要的文献增长速度越慢。
数量较少的高质量的论文总是伴随着大量的一般性的论文而同时出现的。
但却很难用具体数据来验证这一模型的正确性。
9、文献增长原因分析
科学文献的增长有多方面的原因,最根本的原因是科学技术事业的大规模发展和科技成果的不断涌现。
具体来说,主要表现在以下几个方面:
(1)科研经费和科技人员数量的激增
(2)专业范围的扩大和细分化
(3)学科之间的相互渗透
(4)科学技术的国际化
(5)研究的合作化和集体化
(6)研究的周期缩短、产生成果和转化的速度加快
(7)通讯、出版技术的改进和情报工作的加强
10、半衰期:在被使用的学科文献中,近期文献增长并占全部文献一半所花去的时间。
11、普赖斯指数:在某一个知识领域内,把对年限不超过5年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。
其计算公式为:
P r(普赖斯指数)=(出版年限不超过5年的被引文献数量/被引文献总量)x100%.一般来说,某一学科或领域文献的“普赖斯指数”越大,半衰期就越短,说明其文献老化速度就越快。
12、文献信息老化研究的主要方法
(1)文献管理统计数据分析方法
(2)引文分析方法
(3)数学方法
(4)综合分析方法
13、文献信息老化模型
(1)负指数模型
(2)巴尔顿-开普勒老化方程
(3)布鲁克斯累积指数模型
(4)阿弗拉米斯库方程
14、文献信息老化的情形
(1)文献包含的信息失效
(2)包含情报的文献已老化
(3)被更新文献代替
(4)研究兴趣下降引起利用减少
15、文献信息老化的机理(影响因素)
(1)文献的增长。
在文献的动态规律中,增长与老化是一个事物的两个方面,它们从不同的侧面来阐述科学知识的修正率,亦即科学进步,因此文献的老化首先是与文献的增长联系在一起的。
一般来说,文献增长愈快,文献的老化也相应加快。
文献增长得越快,文献的半衰期就越短。
(2)文献的学科特点。
文献内容所属学科的性质和特点不同,其老化率差异甚大。
如:基础理论学科的文献半衰期要长,而应用技术学科的文献半衰期相对短一些。
(3)学科的不同发展阶段。
在学科发展的整个时域中,每个学科均要经历诞生、发展和相对成熟等不同历史阶段。
即使是同一个学科不同的发展时期或阶段,文献的半衰期也不尽相同,其老化曲线也并非全部符合负指数曲线。
(初期:文献数量指数增长,文献老化符合负指数函数关系;相对成熟:文献增长速率减小,老化曲线平缓,半衰期加长;质的飞跃:文献呈指数增长,文献老化回归负指数曲线)
(4)文献的类型和性质。
例:科学专著要比期刊论文、科技报告、会议文献等的半衰期长。
(5)用户需要及情报环境。
不同素质的用户、发展程度不同的国家对不同文献的需求存在很大差异。
16、布拉德福定律的区域描述:如果将科学期刊按其登载某个学科的论文数量的大小,以渐减顺序排列,那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。
这时,核心区与相继各区的期刊数量成1:a:a2....的关系。
17、格鲁斯下垂:格鲁斯分析指出,布拉德福曲线在进入直线部分后,并非无休止地直伸下去,后来总是要弯曲下垂,因而使得布拉德福定律的图像变为明显的三个部分:上升的曲线部分——直线部分——弯曲下垂部分(即格鲁斯下垂)。
布拉德福曲线最后会弯曲下垂,正是由于期刊数和文献量统计不足,未能代表全部文献之故。
而格鲁斯下垂恰好反映了这种理论值与实际值之间的差异。
18、布拉德福定律应用的基本方法
(1)区域分析法
(2)图像分析法
19、布拉德福定律的主要应用
(1)确定核心期刊
(2)用于文献检索
(3)考察专著分布
(4)动态馆藏的维护
(5)检索工具完整性的检测
(6)学科幅度的比较
(7)指导读者利用期刊
(8)指导期刊订购工作
20、齐普夫定律基于省力法则:每一个人的运动,不管属于哪种类型,都是在一定道路上进行的,而且都将受一个简单的基本法则的制约,千方百计地选择一条最省力的途径。
在各种运动中,人们也都有意无意地按照这个基本法则行事。
齐普夫把这样一个他认为普遍存在的法则称为“最省力法则”。
21、齐普夫定律
(1)齐普夫第一定律:如果把一篇较长文章(约5000字)中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,......,频次最小的词等级为D(或L)。
若用Fr表示频次,r表示等级序号,则有:F r• r=C(其中C为常数)
(2)低频词分布规律——齐普夫第二定律:I n/I1=2/n(n+1) (n=2,3,4,...).其中,I n 指刚好出现n次的词的数量;I1指出现一次的词的数量;n指频次。
22、科学生产率:个体科研人员在一定时期内所撰写的论文数量。
23、洛特卡定律
(1)经典洛特卡定律:在某一时间内,写了x篇论文的作者数占作者总数的比例f(x)与其所撰写的论文数x的平方成反比。
即:f(x)=C/x2(C=6/π2=0.6079) (2)广义洛特卡定律:f(x)=C/x n( 1.8≤n≤3.8 )
24、合作度与合作率
(1)合作度=(某种期刊一定时期内)作者总数/(某种期刊一定时期内)论文总数
(2)合作率=(某种期刊一定时期内)合作论文数/(某种期刊一定时期内)论文总数x100%
25、普赖斯定律:m = 0.749 (n max)0.5全部论文的一半是由该领域全部作者的平方根的那些人所产生的,即最低产出的论文量是最高产出论文平方根的0.749倍。
26、文献信息集中与分散规律解释机理
(1)科学发展客观规律的制约
(2)人为控制主观因素的影响
①“马太效应”的影响
②“最省力法则”的影响
27、文献信息统计的原则要求
(1)针对性
(2)准确性
(3)代表性
(4)可比性
(5)累积性
28、文献信息统计的主要指标
(1)流通指标
(2)藏书利用率
(3)图书周转率
(4)读者借阅率
(5)拒绝率
(6)时差系数
(7)情报吸收系数
29、文献信息统计的主要类型
(1)出版物统计
(2)著者统计
(3)科技用语统计
(4)引文统计
(5)其他有关文献信息利用的统计
30、文献信息统计分析的基本步骤
(1)统计调查(确定具体方法、选准统计工具、明确指标项目、统计原始数据)(2)统计整理(计算、排序、表示)
(3)统计分析(理论指导下的分析、数值分析、图像分析)
31、数学模型分析方法的特征
(1)定量性
(2)抽象性
(3)精确性
(4)预测性
(5)适用性
32、图情研究中的数学模型类型
(1)按照研究对象的性质来划分
①必然现象的数学模型
②随机现象的数学模型
③模糊现象的数学模型
④突变现象的数学模型
(2)按照表达的形式来划分
①解析式和图像模型
②方程组模型
③图表模型
(3)按照描述的方法来划分
①集合论模型
②概率模型
③代数模型
33、数学模型法的基本步骤
(1)明确目标
(2)搜集原始数据
(3)建立模型
(4)确定参数
(5)验证理论模型
(6)预测和决策
34、莫尔斯模型:y(t)=a+by(t-1)
35、引文分析
(1)引文分析的定义:引证分析就是用数学和统计学的方法,以及比较、归纳、抽象、概括等逻辑学方法对期刊、论文、专著等研究对象的引用和被引用现象和规律进行分析,以揭示出它们所蕴含的研究对象所具有的特征或对象之间的关系的一种研究方法。
(2)类型:
①从引文数量上进行研究,主要用于评价期刊和论文等。
②从引文间的网状关系或链状关系进行研究。
③从引文反映的主题相关性方面进行研究,主要用于揭示科学的结构和进行文献检索等。
若从被引证文献的其它不同特征出发,还可以派生出许多类型的引证分析,如从被引证文献的话种、国别、年代、类型和著者等方面进行的引文分析。
(3)步骤
①选取统计对象(学科、专业、期刊、年限)
②统计被引数据(一定时间内特定期刊的参考文献数量、年代、语种、类型、作者自引等)
③进行引文分析(在引文数量基础上,对研究目的,分析,理论分布,集中或离散,增长规律,被引文的主要指标,自引量等)
④得出结论判断(根据数据判断与预测,研究得出相应的结论)
36、引文分布的类型
(1)按引文频数的分布
(2)按引文年代的分布
(3)按学科主题的分布
(4)按文献类型的分布
(5)按语言文种的分布
(6)按国别的分布
(7)按著者的分布
(8)按期刊的分布
37、自引率
(1)学科自引率:某一学科或专业领域的文献引证本学科或专业的文献的现象。
自引率=引证本学科文献的次数/引证文献的总次数x100%
(2)期刊自被引率
期刊自被引率=被该刊自己引证的次数/期刊被引证的总次数
38、影响因子:IF(n)=某刊前两年发表论文在该年的被引证次数/该刊前两年所发表的文章总数
39、h指数:如果一位科学家的N篇论文中有h篇论文被引次数至少为h,其他(N-h)篇论文中每一篇的被引次数都≤h,那么这位科学家的h指数就为h。
40、文献耦合:指引证文献通过其参考文献(被引证文献)建立的耦合关系。
41、引文分析的主要应用领域
(1)预定学科的影响和重要性
(2)研究学科结构
(3)研究学科情报源分布
(4)确定核心期刊
(5)研究科学交流和情报传递规律
(6)研究文献老化和情报利用规律
(7)研究情报用户的需求特点
(8)科学水平和人才的评价
42、核心期刊确定的主要方法
(1)以载文量为标准的方法(布氏定律法、百分比补偿法、累积百分比法)(2)以摘引率为标准的方法(文摘法、引文法)
(3)以流通量为标准的方法
(4)综合评价法。