第3章信息源及其分布规律
信息管理学基础
《信息管理学基础》大纲第1章信息与信息管理1、信息的含义、具有哪些基本特征和性质★信息的定义:信息是事物的一种普遍属性。
而在通信领域,信息被看做有序程度(或组织程度)的度量和负熵,是用以不确定性的东西。
从本体论层次上来看,信息是事物存在的方式和运动状态的表现方式。
即:“事物”泛指存在于人类社会、思维活动和自然界中一切可能的对象。
“存在方式”指事物的内部结构和外部联系。
“运动”泛指一切意义上的变化,包括机械的、物理的、化学的、生物的、思维的和社会的运动。
“运动状态”则是指事物在时间和空间上变化所展示的特征、态势和规律。
从认识论层次上来看,信息是主体所感知或表述的事物存在的方式和运动状态。
即:在本体论层次上,信息的存在不以主体的存在为前提。
在认识论层次上,没有主体就没有信息。
认识论层次的信息概念比本体论层次的信息概念具有更为丰富的内涵。
首先,作为主体的人具有感知能力,能够感知到事物的存在和运动状态;其次,人具有理解能力,能够理解事物的存在和运动状态的特定含义;第三,人具有目的性,能够判断事物的存在方式和运动状态对其目的而言的效用价值。
认识论层次和本体论层次信息概念比较认识论层次的信息是同时考虑语法信息、语义信息和语用信息的全信息。
以申农为代表的信息论所研究的基本上不涉及信息的含义和效用,是纯粹的语法信息.全信息:把同时考虑到事物存在方式和运动状态的外在形式、内在含义和效用价值的认识论层次上的信息称为“全信息”语法信息:把仅仅考虑其中形式因素的信息称为“语法信息”语义信息:把考虑其中内容(含义)因素的信息称为“语义信息”语用信息:把考虑其中效用因素的信息称为“语用信息”信息的特征和性质:1.信息存在的普遍性和客观性2.信息产生的广延性和无限性3.信息在时间和空间上的传递性4.信息对物质载体的独立性5.信息对认识主体的相对性6.信息对利用者的共享性7.信息的不可变换型和不可组合性8.信息产生和利用的时效性2、社会信息化发展阶段、我国经济信息化社会信息化发展的阶段:①建立并普及信息工业阶段②建立与发展先进的通信系统阶段③企业信息化阶段④社会生活的全面信息化我国经济信息化:☆ 1993年底,我国经济信息化建设的协调和决策机构“国民经济信息化联席会议”在北京正式成立,当时的国务院副总理邹家华担任主席。
信息管理基本原理PPT课件
4.3 信息宿与信息使用
从信息宿谈信息使用
(1)信息行为就是人们满足其信息需要的活 动。
所谓信息需要就是指人们在从事各项实践 活动的过程中,为解决所遇到的各种问题而产 生的对信息的不足感和求足感。从信息需要的 形成到信息需要的满足是一个完整的信息行为 过程。
从信息需要的形成到信息需要的满足是一 个完整的信息行为过程。
我们通过各种手段采集到大量的信息后, 必须按照一定的原则和方法对信息进行加工整 理,使之有序化,才便于信息的管理和使用。
信息组织的目的是将无序信息变为有序信 息。 整序的主要方法是分类。大量的信息不加 以分类,将会杂乱无章,没有条理性、系统性 和完整性,即不便于保留和存储,也不便于查 找和利用,信息的作用也很难发挥。
第二阶段:技术支持管理阶段。从开始 应用计算机于企业业务管理到管理信息 系统的兴起。在这个阶段中,信息管理 主要是针对企业的生产经营活动进行技 术支持。信息系统开发主要面向信息处 理的过程而不是面向信息资源的管理。 在这一阶段,信息的使用部门和信息的 供应部门也不可能直接联系,因为工作 都集中在信息处理部门。
信息分类的任务就是通过分类把各种能够 信息归入适当的位置,把性质相同的聚在一个 类里,性质相近的聚在相近的类里,性质不同 的聚在不同的类里。这样,便于合理地存储和 组织信息。
信息组织从内容来看,主要包括信息描述、 信息揭示、信息分析三个方面。其中信息描述 是对信息的初级组织,信息揭示是对信息的中 级组织,信息分析是对信息的高级组织。信息 描述、揭示和分析的主要作用是向用户提供并 帮助用户选择他们所需要的一次信息、二次信 息和三次信息。
信息传输实现信息从发方到收方的流 动。具体地说,信息的传输实现了系统 内部各个组成部分之间的信息共享以及 系统与外界的信息交换。
第三章 信息资源的分布
巴尔顿–凯普勒老化方程
b a y = 1− x + 2x e e
a +b =1
y ---经过一定时间该学科尚在利用的文献之相对数量 相对数量 x ---时间,以10年为单位 当y = 0.5 时,可以计算文献的半衰期。
某学科现时尚在利用的全部文献中较新的一半是在多 长一段时间内(X年)发表的 意义:经过X年,某学科领域其一半文献的利用价值已 逐渐衰减。
3.1 信息资源的增长、老化规律 3.2 信息资源的分布规律 3.3 信息资源的分布格局
马太效应
《圣经》中的一句话:“凡是有的,还要给他, 使他富足;但凡没有的,连他所有的,也要夺 去。” 贫者越贫,富者越富。 一步领先,步步领先;
信息及相关因素在社会信息流的产生、 信息及相关因素在社会信息流的产生、传递和利用过程中出 核心趋势和集中取向,如核心期刊、出版机构、 现核心趋势和集中取向,如核心期刊、出版机构、核心作者 马太效应所导致的信息资源分布的富集现象的积极意义
第三章 信息资源的分布
信息资源分布
研究信息资源分布规律和特征, 研究信息资源分布规律和特征,可以 揭示信息管理学奠基性的定律, 揭示信息管理学奠基性的定律,提高信息资 源开发、管理和利用率,从横向( 源开发、管理和利用率,从横向(在不同载 领域和空间的分布状态)和纵向( 体、领域和空间的分布状态)和纵向(随时 间变化的分布状态) 间变化的分布状态)来考察信息分布的特征 和规律。 和规律。
Brookes文献老化
1970年Brookes提出描述文献老化的规律, 反映文献利用率的衰减现象。 负指数函数
c (t ) = Re − at
•t ------ 文献- 表示t 年所发表的文献之引用频率 •R ----- 常数,随不同学科而异 •e ------ 自然对数的底,等于2.718… • a ------文献的老化率
信息资源管理导论复习整理资料
信息资源管理导论复习整理资料第一章、信息和信息资源1、信息的定义来说,信息是事物运动的状态与方式,具体地讲,是事物内部结构和外部联系运动的状态与方式。
(2)从认识论的角度来说,信息是主体所感知或表达的事物运动状态和存在的方式。
2、如何从本体论角度理解“信息”的定义?“事物”泛指一切可能的研究对象,包括外部世界的物质客体,也包括主管世界的精神现象;“运动”泛指一切意义上的变化;“运动方式”是指事物运动在时间上所呈现的过程和规律;“运动状态”是事物运动在空间上所展示的形状与态势;3、信息的特点绝对性,普遍性,相对性,特殊性,最广泛的适应性4、数据,信息,知识之间的关系(1)信息和数据之间的关系:数据+背景=信息(2)信息与知识之间的关系:信息+经验=知识传输者的知识数据信息接受者的知识(3)信息、数据、知识三者的关系5、信息的性质(1)信息存在的普遍性和客观性(2)信息产生的广延性和无限性(3)信息对认识主体的相对性(4)信息具有抽象性和动态性(时效性)(5)信息具有异步性(6)信息具有依附性(7)信息在时间和空间上的传递性(8)信息对利用者的共享性(9)信息具有可变换性和可转化性(10)信息具有可伪性6、信息资源的概念(1)广义:信息资源是人类社会信息活动中积累起来的信息,信息生产者,信息技术等信息活动要素的集合。
(2)狭义:是经过人类开发与组织的信息的集合。
7、信息资源的特征(1)与信息相比,其特征有:智能性、有限性、不均衡性、整体性。
(2)作为一种经济资源,其特征有:人类需求性、稀缺性、使用方向的可选择性、共享性、时效性、生产和使用中的不可分性、不同一性、驾驭性。
第二章、信息资源管理1、信息资源管理是介于信息资源生产和信息资源消费之间的一种人类活动。
作为一种科学实践,信息资源管理源起于20世纪中期而迅速发展于70年代中期以后;作为一种学科理论,信息资源管理形成于70年代末期而成熟于80年代中后期和90年代。
《信息资源管理》期末复习知识点资料
《信息资源管理》期末复习知识点资料信息安全可以从两个角度来理解信息安全,面向数据的安全包括数据的保密性、完整性和可获性;面向使用者的安全则是鉴别、授权、访问控制、抗否认性和可服务性以及基于内容的个人隐私、知识产权等的保护。
总之,现代信息安全是物理安全、网络安全、数据安全、信息内容安全、信息基础设施安全与公共信息安全的总和。
安全问题的解决一方面要依靠技术手段,如密码技术、身份验证技术、防火墙技术、防病毒防黑客入侵等安全机制,更需要的是一个良好的政策法规环境做保障。
信息安全政策法规是一个国家或国际组织在一定时期内为处理信息自由传播与有限利用的矛盾而制定的一系列行政规范和法律制度的总和,它以国家意志为后盾,以政策为指导、法律为手段,对一定范围内的信息安全管理具有宏观导向和监督制约作用。
自由词与受控词标引区别所谓标引即在文献的处理过程中,对文献的内容特征和外部特征用检索标识符加以标识的过程。
其目的在于使文献管理者能够有效地组织文献并使文献的利用者能够迅速地查找文献。
受控词是一种事先规范化的语言,取自于主题词表、叙词表、分类表等。
所谓自由词,顾名思义,是不受词表控制的词,取自于文献篇名、文摘和非受控索引字段,如作者字段、机构字段等。
自由词标引,它是直接使用未经规范化处理的自然语言词汇, 作为描述和表达文献内容主题的一种标引。
受控词标引,它是经过优选和规范化处理的自然语言词汇,作为描述和表达文献内容主题的一种标引。
进行自然语言与受控语言的比较:自然语言在这里是指索引词汇直接来自系统所处理的文献或提问本身,使用前未经优选和规范化处理的一类检索语言。
受控语言指索引词汇在使用前经过优选和规范化处理,并且整个语言经常处于某种权威机构或检索系统的管理和控制之下的各种检索语言的总称,又称规范化语言。
受控语言按索引词汇的组配特征来划分,又可分为先组式语言和后组式语言两大类型。
控制索引词汇的目的是消除或减少它们的歧义性,保证信息表示的一致性和准确性,使词间语义关系由隐含的转变为显性的,并把全部索引词汇组织成某种知识体系,以便使其具有良好的表达和组织功能。
信息理论基础第三章课件
波形信源可以用随机过程来描述。
§3.2 离散单符号信源
模型:
X x1 p( x ) p( x ) 1
定义
假定信源每次输出的都是N长的符号序列(记为XN= X1X2…XN),序列符号之间统计依赖,称该信源为 离散有记忆N次扩展信源。
信息熵:
H ( X N ) H X1 X 2
X N H ( X i | X i 1 )
注:1.这说明N维随机变量的联合熵等于X1的熵和各阶条 件熵之和。 2.熵率如何?有如下定理。
lim H X N | X N m X N m 1 lim H X m 1 | X1 X 2
N N
注:对于齐次遍历的马尔可夫信源,根据状态与符号序列 之间的关系,有
p( s j | si ) p( xim1 | xi1 xi2
于是,有:
xim ) p( xim1 | si )
H m 1 H X m 1 | X1 X 2 E ( I ( xim1 | xi1 xi2
qm qm q
Xm xim )) E ( I ( xim1 | si ))
i 1 im 1 1
p( si ) p( xim1 | si )log( p( xim1 | si ))
序列在任意时刻的概率分布完全相同,称该信源为 离散平稳信源。
注:1.平稳信源指的是各维概率分布与时间起点无关。 2.信息量该如何描述?
信息熵(平均符号熵的极限(熵率、极限熵)):
定义 在随机变量序列中,对前N个随机变量的联合熵求
信息管理学复习
第一章信息与信息管理题型:一、选择题2X10分二、判断题2X10分三、名词解释4X5分四、简答题5X4分五、论述题10X2分1.信息的定义•本体论层次的信息:事物存在的方式和运动状态的表现形式。
•认识论层次的信息:主体所感知或表述的事物存在的方式和运动状态。
2.信息管理的概念•信息管理(狭义)就是对信息本身的管理,即采用各种技术方法和手段(如分类、主题、代码、计算机处理等)对信息进行组织、控制、存贮、检索和规划等,并将其引向预定目标;•信息管理(广义)不单单是对信息的管理,而是对涉及信息活动的各种要素(信息、人、机器、机构等) 进行合理的组织和控制,以实现信息及有关资源的合理配置,从而有效地满足社会的信息要求。
3.信息管理的对象信息管理的对象主要包括信息资源和信息活动。
•信息资源:狭义的信息资源等同于知识、资料和消息,即指信息本身的集合。
广义的信息资源是指信息、信息技术和信息人员的有机集合。
•信息活动:与信息的产生、记录、传播、收集、加工、处理、存储、检索、传递、吸收、分析、选择、评价、利用以及系统开发、技术更新、运行维护、管理决策等与信息行为有关的全部社会活动统称为信息活动。
即是信息资源的开发利用过程。
第二章信息交流1. 共时交流与历时交流⏹ 共时信息交流或横向信息交流的主要功能是克服交流的空间障碍,达到及时的信息共享;⏹ 历时信息交流或纵向信息交流的主要功能在于消除交流的时间障碍,填补过去和现在的鸿沟,将古代与现代联系起来,为继承和发展提供条件。
2.信息栈(1)定义:是信息从S向R流动过程中所经过的环节。
(2)信息栈的特征与职能根据信息栈W的功能特征将其分为时间栈和空间栈。
•时间栈主要实现信息的时间传递,有档案馆、博物馆、图书馆、美术馆、文献中心等;•空间栈主要实现信息的远距离传递,有新闻、报纸、互联网、邮政系统、广播电视等。
3.社会代理(1)定义:是指信息交流双方(S或R)在信息交流过程中由于无法直接将信息传递给另一方(R或S),于是将信息交流行为转移到社会中的信息栈,由信息栈代理S或R来传递交流信息,从而完成信息交流。
第三章 信息分布
第三章信息分布1、信息产生与分布中的“马太效应”:在社会信息流的产生、传递和利用过程中,我们发现信息及相关因素常常表现出明显的核心趋势和集中取向。
(马太效应真实概括了人类社会生活中的惯性,描述了优势和劣势的积累过程:一经存在有优势,这种优势局面就会不断增加,反正若处于劣势,则这种不利条件也会继续加剧。
)2、马太效应A积极意义:(1)在实际的信息管理工作中,它可以帮助我们突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,为降低信息管理成本,提高信息利用效益提供指导和方法。
(2)在理论上,可以帮助我们认识信息集中和分散的特征、趋势和规律,发现信息管理学的基础性定律。
B负面影响:(1)信息的优势和劣势过度积累,容易使信息工作者因循守旧、不求变革创新,按经验和简单的规则从事复杂多变的信息管理工作(2)马太效应所形成的信息分布富集有时仅仅是表面的、外在的。
(3)核心信息源是马太效应优势积累的结果,但过分注重核心信息源,就会忽略分布在其他信息源中有价值的信息,造成过度专门化,这是信息管理和信息服务之大忌。
(4)信息生产者的成长和数量无疑对信息的产生和分布具有较大影响,马太效应青睐名人、拒绝新人的习惯不利于信任成长。
C由以上分析可知,马太效应的积累要适度,不能任其发展,为保证信息的产生和分布计较科学合理,适当的干预是必需的。
3、普赖斯的平方根定律:受洛特卡定律的启示,普赖斯提出了核心生产者分布的“平方根定律”,即在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。
“那些人”无疑是核心或高产的。
4、信息离散分布规律:是信息的重要属性,它表现为信息的内容单元以不同的方式,从不同的角度,分布于各种载体中。
(它具有复杂的机理,本质上是由信息的生产和利用决定的)5、布拉德福定律:或称为布氏定律,如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1:a:a2的关系。
信息分布
科学的测度和分析。
(1)信息计量方法
• 信息计量学(Informetrics)是信息计量 方法的理论基础,是应用数学方法研 究、描述信息过程、现象与规律的一 门学科,综合利用了各种应用数学理 论方法并吸收了纯数学理论知识作为 基本方法论,对信息活动中一切可计 量单元进行科学分析并揭示其规律。
• 二进制0和1两个数码可以采用电信号的 两个状态(如电压的高低、脉冲的有无) 进行表示。现在的计算机都是基于二进 制的。
• 各种信息,包括文本、数据、图片、声 音等,都必须转换为二进制形式,才可 以被计算机接受和处理。
(2)字符信息
• 字符信息需要进行编码,建立与0和1之间 的对应关系,才能实现识别、存储和处理。
准确信息后所消除对事物认识的
不确定性较小,其信息量就小。
信息量
• 申农把信息量定义为“两次不确定性之 差”,因而信息量也就是不确定性减少 或消除的数量。
• I=S(Q/X)-S(Q/X’)
• 其中I代表信息量;Q代表对某件事的 疑问;s代表不确定性;x为收到消息 前关于Q的知识;x’为收到消息后关于 Q的知识。
过程
二、教学内容
• 1.信息产生分布中的马太效应 • 2.信息按生产者的分布规律 • 3.信息离散分布规律 • 4.信息按时间的分布规律 • 5. 网络环境下的信息分布规律的
实证研究
三、本章重点
• 1.布拉德福定律 • 2.齐夫定律 • 3.济特卡定律 • 4.普赖斯定律 • 5.指数增长律 • 6. 网络环境下的信息分布规律的
第三章 信息分布
第三章 信息分布(6学时)
• 一、教学目的
– 了解信息产生分布中的马太效应, – 了解马太效应的数学模拟, – 理解信息按空间、作者、时间等分布的基
CIDP_3 文化信息资源分布规律
第3讲 文化信息资源的分布规律
时间: 1月11日 14:00~16:00 地点: A306
目录
信息资源分布的一般规律 文化信息资源的分布格局 文化信息资源分布规律探讨
1.信息资源分布的一般规律
(1)信息资源增长的普赖斯曲线:
1944年,美国韦斯莱大学图书馆馆员弗里蒙特· 赖德(Fremont Ryder)发现: 美国主要大学图书馆的藏书量 平均每16年递增1倍 普赖斯 把这一发现推广到科学知识的全部领域,并进行了一系列研究。
1.信息资源分布的一般规律
如果将期刊按其刊载某专业论文的数量的多寡以递减顺序排列, 就可以分出载文率最高的‘核心’部分和包含着与核心部分同等 数量论文的随后几区,这时核心区和后继各区中所含的期刊数成 1∶a∶a2的关系(a>1)。例如:应用地球物理学论文的布氏分布:
分区 1 2 3 期刊载文量 >4 1~4 1 期刊数量 9 55 258 论文数量 429 499 408
1.信息资源分布的一般规律
(4)信息资源分布的洛卡特定律
洛特卡通过对《化学文摘》和《物理学史一览表》分析 化学、物理两个领域A、B字母为首的著者6891位进行分 析,按论文从少到多的顺序排列后发现在写一定篇数论 文的作者频率与其所撰写的论文数量间存在着一定的规 律性。 ‚写了2 篇论文的科学家人数大约是写了1 篇论文科学 家人数的1/4; 写了3 篇论文的科学家人数大约是写了 1 篇论文科学家人数的1/9; ⋯⋯写了n 篇论文的科学 家人数大约是写了1 篇论文科学家人数的1/ n2 ”。这就 是著名的洛特卡定律。
1.信息资源分布的一般规律
以文献量为纵轴 以历史年代为横轴 从1750年起,科学期刊的数量大 约每50年增长10倍。
第3章信息分布
图中的虚线表示理想化形式,一般地,斜率为b的任 一直线可表示为: k lg r lg f lg c
3.2 信息内容的离散分布规律
2、齐夫定律
齐夫定律的理论基础
“省力法则”假说。齐夫认为,在语言交流过程中,说话人希望
用词少,一词多义,以节省其精力。听话人希望一词一义,使听到 的词与其确切涵义容易匹配,减少理解的功夫。这2种节省精力的
7
8 9 10
58
50 44 40
1.94
2.08 2.20 2.30
4.06
3.91 3.78 3.69
3.2 信息内容的离散分布规律
2、齐夫定律(Zipfs
Law)
000字以上)中每个词按其出现频
齐夫定律的表述
如果将一篇较长文章(约5
次递减排列起来(高频词在前,低频词在后),并用自然数给
信息分布富集可能仅仅是表面的、外在的(炒作?)。
马太效应的积累要适度, 不能太任性。 适当的干预是必须的。
3.2 信息内容的离散分布规律
信息内容在各载体中的离散分布是信息的重要属性,因此, 研究和揭示信息的离散分布规律是信息管理学的重要课题。
研究成果主要以科学文献信息为对象。
3.2 信息内容的离散分布规律
3.3 信息生产者分布规律
3.3 信息生产者分布规律
1、洛特卡定律
统计学家洛特卡试图通过对发表论著的统
计来探明科技工作者的生产能力及对科技进 步和社会发展所作的贡献。
选择美国《化学文摘》和德国奥尔巴赫《
物理学史一览表》为数据源研究科技工作的 论著数量分布。
1926年,在美国著名学术刊物《华盛顿科
1、布拉德福定律
信息管理学基础(第2版) 自己整理的
《信息管理学基础(第2版)》序言国家教育部于1998年7月6日公布了新的《普通高等学校本科专业目录》,将原来的经济信息管理、信息学、科技信息管理、林业信息管理和管理信息系统等专业合并为管理学科门类中的信息管理与信息系统专业。
可以认为,这次合并既是学科相融的必然,也是国家信息化发展的需要。
据有关资料介绍,到目前为止,全国已有超过200所高校开设了信息管理与信息系统专业。
自20世纪40年代以来,信息技术经过60余年的高速发展,它对人类社会各个领域的影响越来越广泛和深入,其影响最大、受益最多的当属管理和经济领域。
信息作为最主要的经济资源,已经被人们所接受,并且愈来愈受到重视。
信息技术的普及和推广,信息资源的组织、开发和利用,促进了企业的发展和产业结构的调整。
当前所实施的电子商务、电子政务和数字图书馆等工程直接加速了生产力的发展和促进了社会的进步。
我国政府提出的“以信息化带动工业化”的战略举措,必将有力提升我国的综合国力,同时也为信息管理与信息系统专业带来极大的发展机遇和发展空间。
信息管理与信息系统是一门交叉学科,它不是信息技术和管理科学的简单组合,而需要融合管理学、经济学、系统科学、运筹学和计算机科学于一体,因此,必须要有一套具有本专业特点的知识结构体系和适合本专业需要的教材体系。
信息管理与信息系统专业从1998年设立至今的10多年来,许多专家学者在专业建设和教材建设方面倾注了大量的心血,有力地促进了专业和学科的发展。
但是,由于该专业具有跨度大、内容新和变化快等特点,如何培养适应现代信息技术高速发展需要的、具有创新能力的、既懂信息技术又懂管理的复合型人才,对广大教育工作者而言是一个巨大的挑战。
在科学出版社的直接推动下,在我国信息管理领域的知名学者薛华成教授、侯炳辉教授和马费成教授的指导下,在湖北省信息产业厅和经济贸易委员会及相关企业的支持下,武汉地区包括华中科技大学、武汉大学、华中师范大学、中南财经政法大学和武汉理工大学等20余所高校联合编写了这套针对本科生的信息管理与信息系统专业规划教材。
3 信息分布
• 式(3-15)和(3-16)就是布拉德福定律的图形表述 形式。
布拉德福分散曲线
R(n) R(N) R(N’) D B C A O C n1 N’ N Loge n
R(n1)
布拉德福定律数学描述
• 令m1,m2,m3为一、二、三各区中的论文数量, p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每 种杂志的平均论文数量,则有: • r1p1=r2p2=r3p3=m1 • p2/p1=r1/r2=a1 • p3/p2=r2/r3=a2, • 令a1=a2=a, • 于是p1:p2:p3=1:a:a2
• 拉维昌德拉· 劳在1987年提出累积优势分 布的替代形式: • 设u和v为两个随机变量 (u=1,2,3,…,0≦v<1) • P(u/v)=(1-v)u-1;P(v)=(α+1)(1-v)α • P(v)= P(u/v)v P(v) • = (α+1)β(u,α+2) • u=1,2,3,…
3.2.2普赖斯定律
在某一特定领域中,全部论文的半数系由 该领域中全部作者的平方根的那些人撰写的。 该定律可表示为: I (3-6) n( x ) = N m 1 式 中 , n(x) 为 撰 写 x 篇 论 文 的 作 者 数 ; I=nmax为该学科规定时期内最高产的作者数;N 为该学科领域全部作者总数。m可由下式确定:
第三章 信息分布
3.1 信息产生与分布中的马太效应
3.1.1马太效应的表现和作用形式
• 核心趋势
– 高产作者群体的形成 – 期刊信息密度增大 – 高频词汇的确立
• 集ቤተ መጻሕፍቲ ባይዱ取向
– 一篇论文多次被引 – 一个网站被众多用户点击
3.1.2 马太效应的负面影响
第三章 信息分布
科学的测度和分析。
(1)信息计量方法
信息计量学(Informetrics)是信息计量 方法的理论基础,是应用数学方法研 究、描述信息过程、现象与规律的一 门学科,综合利用了各种应用数学理 论方法并吸收了纯数学理论知识作为 基本方法论,对信息活动中一切可计 量单元进行科学分析并揭示其规律。
所谓实得信息,就是信宿在信息输入过程中消除
了的不确定性,以及认识主体在认识过程中所获 得的信息量,可以用H(x)表示。
H(x)=H1(x)一H2(x)
导先息入知后道知基事道于件事概发件率生发的的生信概的息率概量;率概,念P2则,后当P验1P概先1率验≥ ,概P2是率时获,得是信事
H(x)=-log P1/ P2
②引文分析方法
在信息统计分析法中,引文分析(Citation Analysis)方法最为常用,即以引文统计 数据为基础,对信息可计量单元之间的引 用和被引用现象进行分析研究,从而揭示 其数量特征和内在规律。
信息与信息之间并不是毫无联系的,特别
是文本信息之间突出地表现出一种引用与 被引用关系,其原因包括
GB(GigaByte ,千兆字节)
1 GB:装满一卡车的图书 20 GB:贝多芬作品精品集 100 GB:图书馆一层楼的科学杂志
TB(TeraByte)
1 TB:用50 000棵树木造纸印成的书 2 TB:一家科学研究图书馆 10 TB:美国国会图书馆馆藏所有印
刷型文献 400 TB:美国最大的国家海洋和大气
对信息的质的规定性(如信息使用价值、 信息准确度、信息经济性等)经过指标转 换后进行定量化分析。
信息内涵(信息源的定量评价、信息管理 和服务效益的定量分析等)的定量评价。
第3章信息源及其分布规律
即年指标是期刊某年发表的论文当年被引用的次数,除 以该刊这一年所发表文章的总数。
3.4.3引文分析的作用与局限
引文分析的局限性 (1)引文关系假联系的影响 (2)文献被引用并不完全等于重要 (3)著者选用引文受到可获得性的影响 (4)马太效应的影响
引文分析的作用
研究信息所反映的客观事物之间的关联性及组织 结构;
(1)表述: 若将科学期刊按其刊载某一学科主题论文数 量的多少,以递减顺序排列,便可以在这些期刊 中区分出载文率最高的核心部分及与核心部分包 含等数量论文的随后几区。这时,核心区域与后 继各区中的期刊数量呈 1 :a :a2 …… 的关 系。 a是一比例常数,或称布拉德福常数。布氏 经统计分析得出,a值大约为5.0。对于不同的学 科专业而言,其a也不尽相同。
(2)按信息的可保存性
正式记录的信息源 非正式记录的信息源
(3)按信息的生产过程
原始信息源 二次信息源 三次信息源 精粹信息源
(4)按信息存在的形式
个人信息源 及时性、新颖性、主观随意性、职业性 实物信息源 年轮、各种展品等 直观性、客观性、隐蔽性 文献信息源
用文字、图形、符号、声频、视频等技术手段将 系统化的信息内容存储在纸张、胶片、磁带和光盘等 物质载体上而形成的一类信息源 系统性、时滞性、稳定性
普赖斯曲线
bt F(t)=ae a—统计初始时刻的文献量
b—文献的持续增长率
F(t)—t时刻的文献量
e—自然对数的底数,约等于2.718
(2)逻辑增长规律—逻辑曲线
b—老化率 k—t→∞时科技文献的累计量,即科技文献累积量的最大值, F(t)为t年的文献累积量,
科技文献逻辑增长曲线呈“S” 型。对式中的时间变量t二阶求导, 并令二阶导数为0,则可知曲线的 拐点A的坐标为(lna/kb,k/2)。 应当指出,在表征科技文献增 长规律方面,逻辑曲线比普莱斯曲 线更符合客观实际。但逻辑曲线也 其局限性,它表明科学技术发展到 一定阶段是,科技文献的增长率趋 于零科技文献总量将达到不可逾越 的最大值k,这显然是与实际情况 不相符的。
信息计量学:第3章 作者分布规律
3
0.11
文献7
1
1
1
文献8
3
2
0.29
小计
22
3.05
合作率=7/8*100%=87.5
对发表不同数量的论文著者数量或特定 学科的文献总量及著者总数进行预测
前提:通过实际调查数据进行预测 n,c保持不变
例1 :未来作者总量A已知,预测论文总量P及不 同科学生产率的作者人数yx
平均论文作者数量=作者总数/论文总数=A/P P=A/平均论文作者数量
平均论文作者数量=作者总数/论文总数
合作率:
1982年,学者K . Sabramanyam:
C=NM/(NM+NS)
NM:一年内出版的多著者论文数 NS:一年内出版的单著者论文数 C:合作程度
文献1
论文作者总数
排序
A
文献2
3
1
0.59
文献3
4
2
0.28
文献4
2
1
0.67
文献5
5
3
0.11
文献6
4
ηmax为最高产作者的论文数
撰写论文数量大于N者为核心作者
方法
• 发文量:第一作者或正规计数法,科研积极性 • 贡献量:调节计数法,科研贡献量 • 被引量:引文分析法,科研影响力 • 贡献量与被引加权法,科研学术水平
Z=0.6A+0.4B
A:贡献量 B:被引量 Z:加权值
删去1%的高产作者
3、定律的普适性问题
(1)是否任何学科均存在倒数反比定律? (2)平方是否永远成立? 帕欧:48组各学科、各专业数据
39组数据符合反比定律 9组因各种可以解释的原因不符合反比定律
信息资源管理(马费成 赖茂生)复习重点整理解析
信息资源管理第1章绪论小题1、信息:在认识论层次上,我们可以将信息定义为:主体所感知或表述的事物存在的方式和运动状态。
2、信息资源:就是指人类社会信息活动中积累起来的以信息为核心的各类信息活动要素(信息技术、设备、设施、信息生产者等)的集合。
3、依据信息源的层次及其加工和集约程度,信息源可分为一次信息源,二次信息源,三次信息源,四次信息源。
4、依据信息源的内容类别,信息源可分为五类信息源:1. 自然信息源;2. 社会信息源;3. 经济信息源;4. 科技信息源;5. 控制信息源。
5、依据信息源的运动方式,信息源还可分为静态信息源和动态信息源两大类。
6、信息资源作为经济资源的一般特征:1. 作为生产要素的人类需求性2. 稀缺性3. 使用方向的可选择性7、信息资源与物质资源和能源资源相比较特殊性:1. 共享性2. 时效性3. 生产和使用中的不可分性4. 不同一性5. 驾驭性6. 累积性与再生性8、信息资源与物质资源和能源资源一起,已经成为现代社会经济发展的三大支柱。
9、信息资源管理(Information Resource Management,简称IRM),是指管理者(如中央或地方政府部门、企业或事业单位)为达到预定的目标,运用现代化的管理手段和管理方法来研究信息资源在经济活动和其他活动中利用的规律,并依据这些规律对信息资源进行组织、规划、协调、配置和控制的活动。
10、信息资源管理的总目标可以确定为:保证信息资源的开发利用在有领导、有组织的统一规划和管理下,协调一致、有条不紊地进行,使各类信息资源以更高的效率、效能和更低的成本在国家社会进步、经济发展、人民物质文化生活水平的提高中充分发挥应有的作用。
11、信息资源管理活动也可相应地划分为宏观管理、中观管理和微观管理三个层次。
简答1、信息资源管理的主要手段是什么?包括哪些内容?从其性质来划分,信息资源管理的手段主要有技术手段、经济手段、法律手段和行政手段四大类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Fx = C / X2
c---常数,c≈0.6079
3.3.5词频分布规律—齐普夫定律 如果某个文献信息单元中含有N个词 (N≥5000),统计其中每个词汇出现的频次f, 并按递减顺序排列。给这些词汇编上等级序号 r,则每个词汇出现的频次f与相应的等级序号 r之积为常数。 f*r=c
最省力法则
单一化力 多样化力
科技文献逻辑增长曲线
3.3.2文献信息的老化律
(1)老化的表现: 有些文献的内容会被之后的证明是不可靠的或错误 的,有些文献信息的内容尽管仍是正确的 ,被新的 文献形式所替代,导致原有文献逐渐很少被人使用。 文献信息尽管仍有用,但正处于一个人们对其兴趣 下降的时期; 文献信息不再有用。 文献老化≠文献没有用 科技文献的这种逐渐失去使用价值而不再被人 们利用或越来越少地被人利用的现象就是科技文献 的老化现象。
引用文献的分布类型
引文按出版年分布:文献半衰期,文献利用的 最佳年限; 引文按语种的分布:作者掌握和使用外语情况 引文按期刊的分布:核心期刊评估; 引文按文献类型的分布:情报源被利用程度的 评价 引文按主题(学科)的分布:主题(学科)间 的关系 引文按作者的分布:评价专家
3.4.2 引文分析的测度
(2)文献老化的量度指标
普莱斯经过研究,将科 技文献的老化过程用图2—3 所示的负指数曲线来描述。 一般来讲,利用半衰期及普 莱斯指数等具体指标来衡量 文献的老化过程,能够比较 客观地反映科技文献老化的 规律。
普莱斯老化曲线
①文献的半衰期:
是指某学科领域内,现在尚在利用的全部 文献中的一半是在多长一段时间内发表的。 半衰期越大,文献老化越慢。
3.3.7长尾理论
2004年,美国人克里斯.安德森提出的“长尾理论”, 打破了人们的传统思维方式。过去,只关注重要的人或 重要的事,本章所讨论的几个信息源的分布规律,都毫 不例外的把重心放在了高频对象,尽管在方法上也关注 到了低频的对象,但是主要关注点仍是所谓的“权威” 和“核心”。
3.4引文分析
-at C(t)=ke
C(t)表示发表t年的文献的被引次数;k是常 数,随学科不同而变化;a为老化率。
(3)影响文献信息老化的因素 文献的增长 学科的差异 学科发展阶段的差异 用户需求及信息环境 文献的种类和性质
3.3.3文献信息的集中与分散规律(离散规律) ----布拉德福定律
布拉德福认为:科学技术的每一个学科 都或多或少,或远或近地与其他任何一个学 科相关联,从而导致一个学科的文献出现在 另一个学科的期刊杂志之中,这就是从学科 角度对文献分散规律的描述。
常见的测度指标:
自引率就是对主体本身范围内文献引用的次数与主体引 用的文献总数的比值。 被自引率就是主体文献被自引的次数与主体被引用的总 次数的比值。 影响因子即某期刊前两年发表的论文在统计当年的被引 用总次数除以该期刊在前两年内发表的论文总数。 期刊引证率等于该刊中参考文献量除以期刊载文量。
即年指标是期刊某年发表的论文当年被引用的次数,除 以该刊这一年所发表文章的总数。
3.4.3引文分析的作用与局限
引文分析的局限性 (1)引文关系假联系的影响 (2)文献被引用并不完全等于重要 (3)著者选用引文受到可获得性的影响 (4)马太效应的影响
引文分析的作用
研究信息所反映的客观事物之间的关联性及组织 结构;
引文耦合
耦合关系的程度可用「耦合强度」(或称耦合频率) 的指标來衡量;耦合强度取决于A和B共有的參考文 献的数量 “引文耦合”理论基本的出发点是,凡共同引用一篇 或多篇文献的两篇文献之间必有相互关系 “耦合”的概念并不仅只局限于同时引用的两篇论文 本身之间的关系,并可推广至相对于文献的学科主题、 期刊、著者…等特定对象的耦合关系。
第3章信息源及其分布规律
目的: 1.理解信息源的类型及特点 2.掌握信息源分布的规律 3.掌握引文分析的作用及局限
3.1信息源概述 信息源:即信息的来源。 一般包括:原始信息源 信息服务机构 信息系统
3.2信息源的种类
(1)按信息产生的时间顺序
先导信息源 信息产生时间先于社会活动,起预警作用,或为 决策提供依据,减少决策的不确定性和风险。天气 (地震)预报、股市展望 实时信息源 实验记录、产品测试报告、股市行情 滞后信息源 绝大部分信息都是滞后信息,如报刊文章、科技报 告、论文等。
马太效应的这种核心趋势和集中取向便于选 取核心信息源,提高信息选择和筛选的效率,但 是马太效应也有一些负面的影响。(1)马太效应描 述信息对象的优势和劣势过度集中,容易使信息 工作者按简单的优劣进行信息的选择、评价、传 播和利用,而且使评价工作落入俗套,不利于评 价工作的创新和激励创新人才的发展。(2)马太效 应形成的信息分布有时只是表面的、外在的,背 后还隐藏着许多不为人知的多种因素,会造成一 些虚假的繁荣现象,使得学术界的评价和信息的 选择太过于浮躁。(3)不利于年轻学者的发展,过 于纵容权威学者等。
(1)文献耦合(引文耦合)
1963年M. M. Kessler首次提出“引文耦合”
(Bibliographic Coupling,书目对)的概念
引文耦合是指两篇或多篇文献同时引用别的文献,
则称两篇文献或多篇引文献为“引文耦合” 具体來說,如果A和B两篇文献共同引用了一篇 或多篇相同的文献,则称A和B两文献在引用上 具有耦合关系,而称A与B为文献耦合。
普赖斯曲线
bt F(t)=ae a—统计初始时刻的文献量
b—文献的持续增长率
F(t)—t时刻的文献量
e—自然对数的底数,约等于2.718
(2)逻辑增长规律—逻辑曲线
b—老化率 k—t→∞时科技文献的累计量,即科技文献累积量的最大值, F(t)为t年的文献累积量,
科技文献逻辑增长曲线呈“S” 型。对式中的时间变量t二阶求导, 并令二阶导数为0,则可知曲线的 拐点A的坐标为(lna/kb,k/2)。 应当指出,在表征科技文献增 长规律方面,逻辑曲线比普莱斯曲 线更符合客观实际。但逻辑曲线也 其局限性,它表明科学技术发展到 一定阶段是,科技文献的增长率趋 于零科技文献总量将达到不可逾越 的最大值k,这显然是与实际情况 不相符的。
(2)图像和数学模型
如果横坐标取期刊按载文量递减排列时的顺序号n 的对数,纵坐标取1至n号期刊所载论文的累积数,我们 将绘制出的曲线称为布拉德福分散曲线。 布拉德福分 散曲线由三部分构成,先是一段上升的曲线AC,然后 是一段直线CB,最后是下垂的曲线。
布鲁克斯用下述模式来表示布拉德福定律: R(n)=αnβ (1≤n≤C R(n)=klog (n/s) (C≤n≤N)
③ 剩余有益性 某一年份的某一期刊被用户所利用的文献数 被称为期刊有益性。剩余有益性是指若干年后, 期刊还保留的有益性,是期刊老化程度的一个 量度。剩余有益性只适用于满足一定类型和内 容的信息需求的几种期刊才有用,适用面非常 窄。
(2)文献老化模型
如果用纵坐标表示现在正被利用文献的被引 量,横坐标表示时间,文献老化规律可以用公 式表示为:
组织机构信息源 研究机构、信息中心、图书馆、档案馆、标 准化组织、学术团体、高校、新闻出版单位等。 权威性、垄断性 数据库信息源 清华同方、重庆维普 提高了信息检索效率;有利于信息共享 动态管理性、多用性、技术依赖性
(5)按信息源的形式
文献型信息源 档案型信息源
统计型信息源 图像型信息源
3.3信息源的分布 规律
3.3.1文献信息的增长规律
解决文献增长同时间的关系。以文献 为计量单位研究科学知识的增长,是建立 在两个假设之上:所有的知识都包含在已 发表的文献中;每篇文献含有等量的知识。
(1)指数增长规律—普赖斯曲线
期刊的增长:
1750年 10种
1800年 100种
1850年 1000种
1900年 10000种
(1)表述: 若将科学期刊按其刊载某一学科主题论文数 量的多少,以递减顺序排列,便可以在这些期刊 中区分出载文率最高的核心部分及与核心部分包 含等数量论文的随后几区。这时,核心区域与后 继各区中的期刊数量呈 1 :a :a2 …… 的关 系。 a是一比例常数,或称布拉德福常数。布氏 经统计分析得出,a值大约为5.0。对于不同的学 科专业而言,其a也不尽相同。
(2)按信息的可保存性
正式记录的信息源 非正式记录的信息源
(3)按信息的生产过程
原始信息源 二次信息源 三次信息源 精粹信息源
(4)按信息存在的形式
个人信息源 及时性、新颖性、主观随意性、职业性 实物信息源 年轮、各种展品等 直观性、客观性、隐蔽性 文献信息源
用文字、图形、符号、声频、视频等技术手段将 系统化的信息内容存储在纸张、胶片、磁带和光盘等 物质载体上而形成的一类信息源 系统性、时滞性、稳定性
可以追本溯源,展现事物的发展过程,及这一过 程中的相关要素;
对引用次数的测度结果可以对信息进行有序化处 理,并指导用户利用; 为研究信息变化的动态规律,建立用户行为图景 提供了充分的依据。
3.4.4常见的引用关系
引文耦合(bibliographic coupling) 同被引 (Co-citation) 自引 (self-citaton)
R(n)——相关论文累积数。 n——杂志等级排列的序号(级)。 α ——第一级杂志中的相关文章数R(1)。也就是载文章最高的杂 志中的相关文章数。 C——“核心区”中的杂志数量。 N——等级排列的杂志总数。 k,s——待定参数,k等于分布曲线中直线部分的斜率,可用实验 方法求得。当N足够大时,k≈N。 β ——参数,与收藏的杂志(核心中杂志)数量有关,大小等于分 布图中曲线部分的曲率,β 总小于1。