文献计量学及其在情报分析中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献计量方法与情报分析工作
-理论研究及应用进展
杨立英 2008年9月
目录
• • • • • 什么是文献计量研究 文献计量方法的基本过程 文献计量分析的三种类型 文献计量研究常用的方法 文献计量学的经典定律
基本方法介绍
• 情报分析工作应用 • 文献计量研究进展
应用及进展
文献计量研究的含义
文献计量研究是以文献作为数据基础进行的定量研究,通过运用数学方 法分析科学研究的成果,描述科学的体系结构,分析科学系统的内在 运行机制,揭示科学发展的时空特征,探索整个科学活动的定量规律 性。
文献计量学的经典定律4
• 科学生产率的频次分布-洛特卡定律:是由美国 的统计学家、情报学家洛特卡( A.J.lotka )研究 出来的描述科学论文作者分布的规律。在科研活 动中,不同人的科研能力及其成果著述数量肯定 是不同的。那么,在同样的一段抽样时间内,不 同的科技工作者的论著数量分布有没有什么规律 呢? 1926 年,洛特卡发表了论文“科学生产率 的频率分布”。他在文中统计分析了化学和物理 学两大学科中一段时间内科学家们的著述情况, 提出了定量描述科学生产率的平方反比分布规律, 又被称为“倒平方定律”。
ห้องสมุดไป่ตู้ 文献计量学的经典定律1
• 科技文献数量增长的规律 经验公式:指数增长(Price),逻辑斯蒂曲 线,直线增长 • 应用范围:文献管理,情报预测
文献计量学的经典定律2
• 文献老化规律
科技文献随着其“年龄”的增长,其内容日益变得陈旧过时,失去了 作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利 用的过程。科学文献老化既是一种客观的社会现象,又是一个复杂的 动态过程。 • 1971年,美国科学学家D. 普赖斯提出了一个衡量各个知识领域文献 老化的数量指标,即后人所称的“普赖斯指数”。就是在某一知识领 域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指 数,用以量度文献的老化速度和程度。其计算公式如下: P(普赖斯指数)=被引文献数量(小于或等于5年)×100%/被引文献总 量。 布鲁克斯的负指数模型等等
作者同被引图示(方框表示同被引作者)
共现研究(co-occurrence and occurrence )的研究原理
研究基础:特征项之间存在文献计量关系(共现关系) 研究目的:分析共现特征项之间的关系,发现科学活动特点及规律。 研究方法: -多元统计方法(聚类分析、因子分析、多维尺度分析) -社会网络分析方法 -其它数据挖掘方法
P(x, y),其中,P是由x, y决定的论文数据集,x, y为论文 特征项
文献计量研究常用的方法2
• 基于引文特征的统计方法
论文在发表时,作者将研究过程中参考或引用过的文献列出,形成引文(参 考文献),论文的引用与被引关系形成一种重要的文献计量特征。文献计量 学家曾经对文献引用原因作过很多研究,指出引用与被引是一种相对可靠的 联系。论文的质量在很大程度上与论文受关注的程度相关。统计分析数据表 明,越是重要的研究成果被引用的频次越高,受国际同行关注的程度越大。 因而,引文特征是评价论文影响力,反映研究成果质量的计量指标。
• 应用范围:文献管理
文献计量学的经典定律3
• 专业论文在期刊中的分布规律-布拉德福定律:是由英国文献学家布 拉德福( S.C.Bradford ) 1934 年首先提出。它是定量描述科学论文 在相关期刊中集中——分散状况的一个规律。经过后来的许多研究者 的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述 为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排 列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和 包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区 中所含的期刊数成 1:a:a 2 …… 的关系( a>1 )。”布氏定律主要反 映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布 规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指 导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建 设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值 以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和 科学评价的科学性。
R(x, y),其中,R是由x, y决定的引文频次(以下简称引 文),x, y为论文特征项。
文献计量研究常用的方法3
• 论文与引文的捆绑指标H-指数及方法
• h指数是美国物理学家Jorge E. Hirsch于2005年提出的一项个人科研绩效评价指标。 h指数的定义是:当且仅当一个科学家有h篇被引频次至少为h次的论文,同时剩 余论文的被引频次都小于h时,该科学家的成就分值为h。
• 将其它领域的数学概念、模型移植到文献计量研究中。
例如生物学“生长曲线“,”传染病模型”,经济学中的“人口增长模型”, 物理学中的”半率期“
文献计量研究常用的方法1
• 基于论文特征的统计方法
论文是科研成果的主要载体,因此,论文的数量及其变化是最基础的 统计指标。除此之外,论文中还蕴含着诸多表征科学成果特性的特征 项,例如论文的关键词、作者、作者机构、作者所在的国家、期刊等 等。这些隶属于论文的特征项从多个角度反映了学科的发展水平。
H-指数等于5
•
h指数最大的优势在于它将论文与引文捆绑在一起,可以避免单纯追求论文数量的 倾向。 h指数还可以推广到期刊、科研团队与机构以及国家的绩效评价。
文献计量研究常用的方法4
• 共现研究(co-occurrence and occurrence ) 科技论文中的共现是指相同或不同类型特征项共同出现的现象,如多篇论文 之间共同出现的主题(关键词)、共同出现的合作作者、共同出现的合作机 构以及论文与关键词、机构与作者共同出现等都属于共现研究的范畴。
文献计量研究的基本过程
数据机理分析
数据集构建 统计处理 结论
文献计量研究的三种类型
• 依据大量积累的统计数据提出经验统计模型
例如文献计量三大定律
• 依据时间序列数据的发展趋势提出合理假设,建立数学模 型,进行模拟和预测。
例如普赖斯通过观察科技期刊的增长曲线,提出科技文献指数增长规律,并成 功推广到科学交流的大部分领域。
共现研究(co-occurrence and occurrence )
文献耦合图示(方框表示耦合论文)
论文同被引图示(方框表示同被引论文)
共现研究(co-occurrence and occurrence )
共词图示(方框表示共同出现的关键词)
作者合作图示(方框表示合作作者)
共现研究(co-occurrence and occurrence )
-理论研究及应用进展
杨立英 2008年9月
目录
• • • • • 什么是文献计量研究 文献计量方法的基本过程 文献计量分析的三种类型 文献计量研究常用的方法 文献计量学的经典定律
基本方法介绍
• 情报分析工作应用 • 文献计量研究进展
应用及进展
文献计量研究的含义
文献计量研究是以文献作为数据基础进行的定量研究,通过运用数学方 法分析科学研究的成果,描述科学的体系结构,分析科学系统的内在 运行机制,揭示科学发展的时空特征,探索整个科学活动的定量规律 性。
文献计量学的经典定律4
• 科学生产率的频次分布-洛特卡定律:是由美国 的统计学家、情报学家洛特卡( A.J.lotka )研究 出来的描述科学论文作者分布的规律。在科研活 动中,不同人的科研能力及其成果著述数量肯定 是不同的。那么,在同样的一段抽样时间内,不 同的科技工作者的论著数量分布有没有什么规律 呢? 1926 年,洛特卡发表了论文“科学生产率 的频率分布”。他在文中统计分析了化学和物理 学两大学科中一段时间内科学家们的著述情况, 提出了定量描述科学生产率的平方反比分布规律, 又被称为“倒平方定律”。
ห้องสมุดไป่ตู้ 文献计量学的经典定律1
• 科技文献数量增长的规律 经验公式:指数增长(Price),逻辑斯蒂曲 线,直线增长 • 应用范围:文献管理,情报预测
文献计量学的经典定律2
• 文献老化规律
科技文献随着其“年龄”的增长,其内容日益变得陈旧过时,失去了 作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利 用的过程。科学文献老化既是一种客观的社会现象,又是一个复杂的 动态过程。 • 1971年,美国科学学家D. 普赖斯提出了一个衡量各个知识领域文献 老化的数量指标,即后人所称的“普赖斯指数”。就是在某一知识领 域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指 数,用以量度文献的老化速度和程度。其计算公式如下: P(普赖斯指数)=被引文献数量(小于或等于5年)×100%/被引文献总 量。 布鲁克斯的负指数模型等等
作者同被引图示(方框表示同被引作者)
共现研究(co-occurrence and occurrence )的研究原理
研究基础:特征项之间存在文献计量关系(共现关系) 研究目的:分析共现特征项之间的关系,发现科学活动特点及规律。 研究方法: -多元统计方法(聚类分析、因子分析、多维尺度分析) -社会网络分析方法 -其它数据挖掘方法
P(x, y),其中,P是由x, y决定的论文数据集,x, y为论文 特征项
文献计量研究常用的方法2
• 基于引文特征的统计方法
论文在发表时,作者将研究过程中参考或引用过的文献列出,形成引文(参 考文献),论文的引用与被引关系形成一种重要的文献计量特征。文献计量 学家曾经对文献引用原因作过很多研究,指出引用与被引是一种相对可靠的 联系。论文的质量在很大程度上与论文受关注的程度相关。统计分析数据表 明,越是重要的研究成果被引用的频次越高,受国际同行关注的程度越大。 因而,引文特征是评价论文影响力,反映研究成果质量的计量指标。
• 应用范围:文献管理
文献计量学的经典定律3
• 专业论文在期刊中的分布规律-布拉德福定律:是由英国文献学家布 拉德福( S.C.Bradford ) 1934 年首先提出。它是定量描述科学论文 在相关期刊中集中——分散状况的一个规律。经过后来的许多研究者 的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述 为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排 列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和 包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区 中所含的期刊数成 1:a:a 2 …… 的关系( a>1 )。”布氏定律主要反 映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布 规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指 导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建 设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值 以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和 科学评价的科学性。
R(x, y),其中,R是由x, y决定的引文频次(以下简称引 文),x, y为论文特征项。
文献计量研究常用的方法3
• 论文与引文的捆绑指标H-指数及方法
• h指数是美国物理学家Jorge E. Hirsch于2005年提出的一项个人科研绩效评价指标。 h指数的定义是:当且仅当一个科学家有h篇被引频次至少为h次的论文,同时剩 余论文的被引频次都小于h时,该科学家的成就分值为h。
• 将其它领域的数学概念、模型移植到文献计量研究中。
例如生物学“生长曲线“,”传染病模型”,经济学中的“人口增长模型”, 物理学中的”半率期“
文献计量研究常用的方法1
• 基于论文特征的统计方法
论文是科研成果的主要载体,因此,论文的数量及其变化是最基础的 统计指标。除此之外,论文中还蕴含着诸多表征科学成果特性的特征 项,例如论文的关键词、作者、作者机构、作者所在的国家、期刊等 等。这些隶属于论文的特征项从多个角度反映了学科的发展水平。
H-指数等于5
•
h指数最大的优势在于它将论文与引文捆绑在一起,可以避免单纯追求论文数量的 倾向。 h指数还可以推广到期刊、科研团队与机构以及国家的绩效评价。
文献计量研究常用的方法4
• 共现研究(co-occurrence and occurrence ) 科技论文中的共现是指相同或不同类型特征项共同出现的现象,如多篇论文 之间共同出现的主题(关键词)、共同出现的合作作者、共同出现的合作机 构以及论文与关键词、机构与作者共同出现等都属于共现研究的范畴。
文献计量研究的基本过程
数据机理分析
数据集构建 统计处理 结论
文献计量研究的三种类型
• 依据大量积累的统计数据提出经验统计模型
例如文献计量三大定律
• 依据时间序列数据的发展趋势提出合理假设,建立数学模 型,进行模拟和预测。
例如普赖斯通过观察科技期刊的增长曲线,提出科技文献指数增长规律,并成 功推广到科学交流的大部分领域。
共现研究(co-occurrence and occurrence )
文献耦合图示(方框表示耦合论文)
论文同被引图示(方框表示同被引论文)
共现研究(co-occurrence and occurrence )
共词图示(方框表示共同出现的关键词)
作者合作图示(方框表示合作作者)
共现研究(co-occurrence and occurrence )