网络环境下的信息计量研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评选方法 ① 基于超文本链接的核心网站评价(单指标评价方法); ② 基于多指标的综合评价方法:
定性评价:网站的权威性、准确性、客观性、时效性、主 题覆盖度; ① 定量评价:网站被访量、网站被链量、网站的权威作者 数、网站被文献引用量、重要搜索引擎被索度等。
信息计量学
网络信息计量的热点问题
一、核心网站的评选 综合评价法评选核心网站的步骤: ① 相关网站初始集的采集(利用合适的搜索引擎); ② 构建评价体系(针对不同的指标,对网站进行分组); ③ 确定核心网站选取比例(直接确定、布拉德福定律、其它); ④ 核心网站的可靠性检验(检验评价指标的可靠性、核心网站
自主开发的网络爬行器 优点:检索算法更科学,能更准确有效地计算网站的总网页数及链 接数。 缺点:不适合大面积Web网的搜索。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取 (二)其他数据收集方法
Web日志文件数据库 Cookie 网上数据调查方法 用户注册信息 离线数据收集方法
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络信息计量学的获取与处理
二、网络信息研究方法 (三)可视化方法
可视化方法是从图形的角度,运用网络绘图和信息技术来研究 网页超级链接的拓扑结构,描述整个网络的结构。 运用图形进行分析的方法,可以使人们更好地理解网络的复杂结 构。
信息计量学
第十四章 网络环境下的信息计量研究
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (一)链接术语
链接耦合:如果网站A和网站B同时指向某一网站,则称网站 A和网站B之间存在着链接耦合,链接相同站点的次数称为链 接耦合数。 共链:如果网站A和网站B共同被其他网站链接,则称网站A 和网站B共链。A与B共同被链的网站数,称为共链强度。
中国大学网络排名 由中国科学评价中心主持 指标:网页规模、 学术文件数、文档丰富度(包括pdf、ps、doc、ppt条浏览数按比例合并计算) 结果: 北京大学 清华大学 浙江大学 山东大学 上海交通大学 厦门大学 复旦大学 武汉大学 华东师范大学 南京大学 东南大学 西安交通大学 中国人民大学 华中科技大学 北京师范大学 南开大学 吉林大学 华中师范大学 武汉理工大学 兰州大学
施链与被链:如果网站A的网页链接了网站B的网页,即网站 A是施链网站,而网站B为被链网站。 外部链接:又叫站外链接、链入、入链、external link、 inbound link。指外部网站或网页指向某网站资源的链接。 站内链接:又叫内部链接、自链、内链、自引、self-link、 inlink,某网站内部一种资源指向其内部另一种资源的链接。 出链:又叫链出、outlink,某网站指向其他网站资源的链接 。
1.网络信息计量学的基本问题研究 2.网络信息计量学的理论问题研究 3.网络信息计量学的方法问题研究 4.网络信息计量学的技术问题研究 5.网络信息计量学的应用问题研究 6.网络信息资源计量管理对策问题研究
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (一)链接术语
链接分析的思想基于两个基本假设: 假设1:从网页A指向网页B的链接是网页A对网页B的推荐或认可。 假设2:如果一个链接将网页A和网页B连接起来,说明网页A和网页B 可能有共同的主题。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (二)数据挖掘法
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的 数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模 式的过程。
网络信息计量学的诞生, 本质上说, 乃是科学计量学、文献计量 学、情报计量学和技术计量学在新的信息网络时代经过革命改造 的结果。
信息计量学
第十四章 网络环境下的信息计量研究 网络信息计量学
第一节 网络信息计量学概述 第二节 网络数据的获取与处理 第三节 网络信息计量学的应用
信息计量学
第十四章 网络环境下的信息计量研究
外部网络影响因子:评价网站影响力 内部网络影响因子
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取
(一)网络信息计量工具
搜索引擎: 条件:(1)数据库的覆盖范围是否足够大, 这样才能保证结果的准确 性。(2)数据库必须经常更新, 因为网络上每天都有成千上万的新网 页产生和旧网页消失。(3)能够检索特定网站的全部网页。(4)能够检 索网站页链接的所有网页。(5)能够很好地支持布尔逻辑运算。(6)性 能稳定,即在一个数据更新期内, 用具有相同含义的检索表达式进 行检索所得到的结果应该一样。
信息计量学
第十四章 网络环境下的信息计量研究
第三节 网络信息计量学的应用
二、网络信息计量研究的局限性
网络计量学缺乏有效的理论依据 网络数据可再现性差 网络计量研究缺乏完善、有效的工具 网络信息计量研究方法还不成熟
信息计量学
网络信息计量的热点问题
一、核心网站的评选
核心网站:由某种评价指标体系确定的、满足用户需求的 、并符合少量的资源具有较大的产出原则的若干个网站。
网络影响因子指的是在某个特定的时间,某个网站(或某个国 家的网站)被其他网站和其自身所链接的网页数目的逻辑和除 以该网站(或该国家的网站)的所有网页数。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (二)网络影响因子(web impact factors,WIF)
第二节 网络数据的获取与处理
二、网络信息研究方法 (四)内容分析法
内容分析法是“一种对具有明确特性的传播内容进行的客 观、系统和定量的描述的研究技术”。它通过对信息内容 “量”的分析,找到能反映信息内容的一定本质性并且易 于计数的特征,从而克服定性研究的主观性和不确切性的 缺陷,达到对信息“质”的更深刻、更透彻的理解。
③网络结构单元的信息计量问题,网络结构单元包括站点、布告栏、 聊天室、讨论组、电子邮件等,对以上网络结构单元的信息计量研 究可以从宏观上揭示网络文献的特征和规律,帮助人们更好地管理 和利用网络信息资源。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
二、网络信息计量学的研究对象和研究内容
第一节 网络信息计量学概述
一、网络信息计量学的产生与发展
1990 年Paisley 提出将信息计量方法应用于电子通信领域,他明 确指出电子信息将成为文献计量学研究的主流。
1996年,Mckiernan根据引文含义,提出了“sitation”的概念, 用以研究网页之间的引用关系。
1997 年Almind等人在“Journal of Documentation”上发表的文 章《万维网上的情报计量学: 网络计量方法门径》( Imformation Analysis on the WWW:Methodological Approaches to “Webometrics”) ,首先提出了网络信息计量学一词,开创了网 络信息计量学研究的先河。
在网络信息计量学中,可以使用数据挖掘方法对一个站点的各种 特征进行深度研究,也可以利用链接挖掘技术代替自然语言对网 络资源进行描述,帮助实现网络信息资源的自动标引。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (三)可视化方法
可视化方法是从图形的角度,运用网络绘图和信息技术来研究 网页超级链接的拓扑结构,描述整个网络的结构。 运用图形进行分析的方法,可以使人们更好地理解网络的复杂结 构。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念
施链网站
链 接 术 语
站内链接
被链网站
出链、链出、outlink:指向其他网站资源的链接
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (二)网络影响因子(web impact factors,WIF)
常用工具:AltaVista、AlltheWeb 优点:适用于大范围Web网的搜索。 缺点:覆盖范围有限,且存在国家和地区的偏见;算法属于商业机 密,限制了在科学研究中的使用;结果是不可靠和波动的。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取 (一)网络信息计量工具
(五)统计分析法
聚类分析、相关分析
信息计量学
第十四章 网络环境下的信息计量研究
第三节 网络信息计量学的应用
一、网络信息计量学的应用领域
链接动机
核心网站评选 学术网络分析 世界大学评价 网络引文分析 Web2.0测度 对搜索引擎进行研究
信息计量学
大学评价
世界大学评价 2004年起,由西班牙网络计量研究中心主持 指标:规模size、能见度visibility、学术档案rich files、学术论文 scholar
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
二、网络信息计量学的研究对象和研究内容
①网络最基本的信息单元“比特”,包括数字信息或文字信息,集文字 、图像和声音为一体的多媒体信息,以字节为单位的信息量和流量 的计量分析等;
②网上文献信息及其相关特征信息的计量问题。如网上电子期刊、论 文、图书、报告等各种类型的文献,既涉及网上一次文献,又包括 二次、三次文献的计量问题;对网上文献著者分布规律、分散规律 、文献增长规律、老化规律、引文分析规律的分析与研究。
的质量)。
信息计量学
网络信息计量的热点问题
二、网络影响因子 1.WIF的计算
信息计量学
网络信息计量的热点问题
二、网络影响因子
1.WIF的计算
分子的改进: 链接指标:总链接数、外部链接数、内部链接数、来自不同类型链 源的链接数 计量单位:网页、网站、目录、域名 分母的改进: 链接指标:网页总数、非网络数据
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (一)网络链接分析
链接分析(link analysis)就是对网页之间的链接进行量化研究。 链接分析法就是运用网络数据库、数学分析软件等工具,利用数学和 情报学方法,对网络链接自身属性、链接对象、链接网络等各种对象进 行分析,以便揭示其数量特征和内在规律,并用以解决各方面问题的一 种研究方法。
1997年,网络电子期刊Cybermetrics创刊。 在每隔两年召开的国际文献计量学、信息计量学及科学计量学研
讨会上,从1997 年开始加入了网络计量学这个论题议程。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
一、网络信息计量学的产生与发展
网络信息计量学是采用数学、统计学等各种定量方法, 对网上信息的组织、存贮、分布、传递、相互引证和开发 利用等进行定量描述和统计分析,以便揭示其数量特征和 内在规律的一门新兴分支学科。它主要是由网络技术、网 络管理、信息资源管理与信息计量学等相互结合、交叉渗 透而形成的一门交叉性边缘学科,也是信息计量学的一个 新的发展方向和重要的研究领域。
网 网络信息计量学概述
一、网络信息计量学的产生与发展
20 世纪60 年代以来, 在图书馆学、文献学、科学学和情报学领 域相继出现了3 个类似的术语:Bibliometrics、Scientometrics、 Informetrics, 分别代表着三 个十分相似的定量性的分支学科, 即文献计量学、科学计量学和信息计量学(情报计量学)。
随着信息科学和信息技术的迅速发展以及互联网的普及应用, 信 息资源由早期的实物化、纸质化阶段进入到电子化、数字化和网 络化阶段, 网络信息交流活动迅速激增, 原有的信息计量指标已 不再适用于测度评估网络信息资源了, 其结果就是导致了信息计 量学进一步发展成为“互联网上的信息计量分析”(Webometrics)。
定性评价:网站的权威性、准确性、客观性、时效性、主 题覆盖度; ① 定量评价:网站被访量、网站被链量、网站的权威作者 数、网站被文献引用量、重要搜索引擎被索度等。
信息计量学
网络信息计量的热点问题
一、核心网站的评选 综合评价法评选核心网站的步骤: ① 相关网站初始集的采集(利用合适的搜索引擎); ② 构建评价体系(针对不同的指标,对网站进行分组); ③ 确定核心网站选取比例(直接确定、布拉德福定律、其它); ④ 核心网站的可靠性检验(检验评价指标的可靠性、核心网站
自主开发的网络爬行器 优点:检索算法更科学,能更准确有效地计算网站的总网页数及链 接数。 缺点:不适合大面积Web网的搜索。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取 (二)其他数据收集方法
Web日志文件数据库 Cookie 网上数据调查方法 用户注册信息 离线数据收集方法
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络信息计量学的获取与处理
二、网络信息研究方法 (三)可视化方法
可视化方法是从图形的角度,运用网络绘图和信息技术来研究 网页超级链接的拓扑结构,描述整个网络的结构。 运用图形进行分析的方法,可以使人们更好地理解网络的复杂结 构。
信息计量学
第十四章 网络环境下的信息计量研究
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (一)链接术语
链接耦合:如果网站A和网站B同时指向某一网站,则称网站 A和网站B之间存在着链接耦合,链接相同站点的次数称为链 接耦合数。 共链:如果网站A和网站B共同被其他网站链接,则称网站A 和网站B共链。A与B共同被链的网站数,称为共链强度。
中国大学网络排名 由中国科学评价中心主持 指标:网页规模、 学术文件数、文档丰富度(包括pdf、ps、doc、ppt条浏览数按比例合并计算) 结果: 北京大学 清华大学 浙江大学 山东大学 上海交通大学 厦门大学 复旦大学 武汉大学 华东师范大学 南京大学 东南大学 西安交通大学 中国人民大学 华中科技大学 北京师范大学 南开大学 吉林大学 华中师范大学 武汉理工大学 兰州大学
施链与被链:如果网站A的网页链接了网站B的网页,即网站 A是施链网站,而网站B为被链网站。 外部链接:又叫站外链接、链入、入链、external link、 inbound link。指外部网站或网页指向某网站资源的链接。 站内链接:又叫内部链接、自链、内链、自引、self-link、 inlink,某网站内部一种资源指向其内部另一种资源的链接。 出链:又叫链出、outlink,某网站指向其他网站资源的链接 。
1.网络信息计量学的基本问题研究 2.网络信息计量学的理论问题研究 3.网络信息计量学的方法问题研究 4.网络信息计量学的技术问题研究 5.网络信息计量学的应用问题研究 6.网络信息资源计量管理对策问题研究
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (一)链接术语
链接分析的思想基于两个基本假设: 假设1:从网页A指向网页B的链接是网页A对网页B的推荐或认可。 假设2:如果一个链接将网页A和网页B连接起来,说明网页A和网页B 可能有共同的主题。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (二)数据挖掘法
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的 数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模 式的过程。
网络信息计量学的诞生, 本质上说, 乃是科学计量学、文献计量 学、情报计量学和技术计量学在新的信息网络时代经过革命改造 的结果。
信息计量学
第十四章 网络环境下的信息计量研究 网络信息计量学
第一节 网络信息计量学概述 第二节 网络数据的获取与处理 第三节 网络信息计量学的应用
信息计量学
第十四章 网络环境下的信息计量研究
外部网络影响因子:评价网站影响力 内部网络影响因子
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取
(一)网络信息计量工具
搜索引擎: 条件:(1)数据库的覆盖范围是否足够大, 这样才能保证结果的准确 性。(2)数据库必须经常更新, 因为网络上每天都有成千上万的新网 页产生和旧网页消失。(3)能够检索特定网站的全部网页。(4)能够检 索网站页链接的所有网页。(5)能够很好地支持布尔逻辑运算。(6)性 能稳定,即在一个数据更新期内, 用具有相同含义的检索表达式进 行检索所得到的结果应该一样。
信息计量学
第十四章 网络环境下的信息计量研究
第三节 网络信息计量学的应用
二、网络信息计量研究的局限性
网络计量学缺乏有效的理论依据 网络数据可再现性差 网络计量研究缺乏完善、有效的工具 网络信息计量研究方法还不成熟
信息计量学
网络信息计量的热点问题
一、核心网站的评选
核心网站:由某种评价指标体系确定的、满足用户需求的 、并符合少量的资源具有较大的产出原则的若干个网站。
网络影响因子指的是在某个特定的时间,某个网站(或某个国 家的网站)被其他网站和其自身所链接的网页数目的逻辑和除 以该网站(或该国家的网站)的所有网页数。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (二)网络影响因子(web impact factors,WIF)
第二节 网络数据的获取与处理
二、网络信息研究方法 (四)内容分析法
内容分析法是“一种对具有明确特性的传播内容进行的客 观、系统和定量的描述的研究技术”。它通过对信息内容 “量”的分析,找到能反映信息内容的一定本质性并且易 于计数的特征,从而克服定性研究的主观性和不确切性的 缺陷,达到对信息“质”的更深刻、更透彻的理解。
③网络结构单元的信息计量问题,网络结构单元包括站点、布告栏、 聊天室、讨论组、电子邮件等,对以上网络结构单元的信息计量研 究可以从宏观上揭示网络文献的特征和规律,帮助人们更好地管理 和利用网络信息资源。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
二、网络信息计量学的研究对象和研究内容
第一节 网络信息计量学概述
一、网络信息计量学的产生与发展
1990 年Paisley 提出将信息计量方法应用于电子通信领域,他明 确指出电子信息将成为文献计量学研究的主流。
1996年,Mckiernan根据引文含义,提出了“sitation”的概念, 用以研究网页之间的引用关系。
1997 年Almind等人在“Journal of Documentation”上发表的文 章《万维网上的情报计量学: 网络计量方法门径》( Imformation Analysis on the WWW:Methodological Approaches to “Webometrics”) ,首先提出了网络信息计量学一词,开创了网 络信息计量学研究的先河。
在网络信息计量学中,可以使用数据挖掘方法对一个站点的各种 特征进行深度研究,也可以利用链接挖掘技术代替自然语言对网 络资源进行描述,帮助实现网络信息资源的自动标引。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (三)可视化方法
可视化方法是从图形的角度,运用网络绘图和信息技术来研究 网页超级链接的拓扑结构,描述整个网络的结构。 运用图形进行分析的方法,可以使人们更好地理解网络的复杂结 构。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念
施链网站
链 接 术 语
站内链接
被链网站
出链、链出、outlink:指向其他网站资源的链接
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
三、网络信息计量学的基本概念 (二)网络影响因子(web impact factors,WIF)
常用工具:AltaVista、AlltheWeb 优点:适用于大范围Web网的搜索。 缺点:覆盖范围有限,且存在国家和地区的偏见;算法属于商业机 密,限制了在科学研究中的使用;结果是不可靠和波动的。
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
一、网络数据的获取 (一)网络信息计量工具
(五)统计分析法
聚类分析、相关分析
信息计量学
第十四章 网络环境下的信息计量研究
第三节 网络信息计量学的应用
一、网络信息计量学的应用领域
链接动机
核心网站评选 学术网络分析 世界大学评价 网络引文分析 Web2.0测度 对搜索引擎进行研究
信息计量学
大学评价
世界大学评价 2004年起,由西班牙网络计量研究中心主持 指标:规模size、能见度visibility、学术档案rich files、学术论文 scholar
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
二、网络信息计量学的研究对象和研究内容
①网络最基本的信息单元“比特”,包括数字信息或文字信息,集文字 、图像和声音为一体的多媒体信息,以字节为单位的信息量和流量 的计量分析等;
②网上文献信息及其相关特征信息的计量问题。如网上电子期刊、论 文、图书、报告等各种类型的文献,既涉及网上一次文献,又包括 二次、三次文献的计量问题;对网上文献著者分布规律、分散规律 、文献增长规律、老化规律、引文分析规律的分析与研究。
的质量)。
信息计量学
网络信息计量的热点问题
二、网络影响因子 1.WIF的计算
信息计量学
网络信息计量的热点问题
二、网络影响因子
1.WIF的计算
分子的改进: 链接指标:总链接数、外部链接数、内部链接数、来自不同类型链 源的链接数 计量单位:网页、网站、目录、域名 分母的改进: 链接指标:网页总数、非网络数据
信息计量学
第十四章 网络环境下的信息计量研究
第二节 网络数据的获取与处理
二、网络信息研究方法 (一)网络链接分析
链接分析(link analysis)就是对网页之间的链接进行量化研究。 链接分析法就是运用网络数据库、数学分析软件等工具,利用数学和 情报学方法,对网络链接自身属性、链接对象、链接网络等各种对象进 行分析,以便揭示其数量特征和内在规律,并用以解决各方面问题的一 种研究方法。
1997年,网络电子期刊Cybermetrics创刊。 在每隔两年召开的国际文献计量学、信息计量学及科学计量学研
讨会上,从1997 年开始加入了网络计量学这个论题议程。
信息计量学
第十四章 网络环境下的信息计量研究
第一节 网络信息计量学概述
一、网络信息计量学的产生与发展
网络信息计量学是采用数学、统计学等各种定量方法, 对网上信息的组织、存贮、分布、传递、相互引证和开发 利用等进行定量描述和统计分析,以便揭示其数量特征和 内在规律的一门新兴分支学科。它主要是由网络技术、网 络管理、信息资源管理与信息计量学等相互结合、交叉渗 透而形成的一门交叉性边缘学科,也是信息计量学的一个 新的发展方向和重要的研究领域。
网 网络信息计量学概述
一、网络信息计量学的产生与发展
20 世纪60 年代以来, 在图书馆学、文献学、科学学和情报学领 域相继出现了3 个类似的术语:Bibliometrics、Scientometrics、 Informetrics, 分别代表着三 个十分相似的定量性的分支学科, 即文献计量学、科学计量学和信息计量学(情报计量学)。
随着信息科学和信息技术的迅速发展以及互联网的普及应用, 信 息资源由早期的实物化、纸质化阶段进入到电子化、数字化和网 络化阶段, 网络信息交流活动迅速激增, 原有的信息计量指标已 不再适用于测度评估网络信息资源了, 其结果就是导致了信息计 量学进一步发展成为“互联网上的信息计量分析”(Webometrics)。