信息计量学:第8章 网络信息计量
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2021/4/18
26
B、运用图论的方法对数据进行可视化研究
即运用网络绘图和信息技术研究网页(站)间 超链接的拓扑结构,直观反映网页(站)间的链接 关系。
2021/4/18
27
C、运用提示数据聚簇和分散的工具进行数据挖掘 研究
统计分析方法 粗集算法 神经网络方法 聚类算法 分类方法
遗传算法 决策树方法 模糊算法 可视化算法
一个访问的停留时间是用户访问 的第一次请求时间至最后一次请求时间 加上每个页面请求的平均时间
各个访问的停留时间之和除以用 户访问数为每个访问的平均停留时间
2021/4/18
46
• 流量时段特征 • 目录特征指标
2021/4/18
47
2、网络数据流量分析的应用
• WWW服务器的选择、优化 • 网站管理和维护 • 用户调查和市场营销 • 网络广告发布和广告效果的评估
• 让用户在不键入密码和用户名的情况下进入曾经 浏览过的一些站点
• 帮助站点统计用户资料以实现个性化服务
Cookie:administrator@ptlogin .txt
ptcz957c646c7006e11c5bcb385f1962d8 169d38ae6b5686951e83e5e8d42ce553 /1024247350886430 785791124336344030298485*
曲奇是一种软件构件,能够在用户端(临 时)、服务器端(永久)存储用户访问服务器的 信息
其一般格式是:“name’expiry-date, path, domain,s ecurity-level”。
服务器利用COOKIE机制能够跟踪用户的活 动了解用户的需求。
2021/4/18
36
• 跟踪特定访问者的访问次数 • 最后访问时间 • 进入站点的路径 • 广告被 单击的次数
2021/4/18
48
四、链接分析及其应用
A
B
C
D
E
F
2021/4/18
49
1、链接有关概念
施链网页
• 主动实施链接的网 页
被链接网页 • 被实施链接的网页
2021/4/18
50
出链
• 某网站指向其他网 站的链接
入链
• 其他网站指向某网 站的链接
网站内部链接 (站内链接):
• 其链路指向同一 网站内部不同部 件,或同一部件 不同部分。
2021/4/18
32
用户的IP地址 提交请求的日期和时间
• 218.75.41.11--[06-DEC/2012:00:00:00+0000] • “GET/image/logolun1.gif HTTP/1.1 “304 0 • /bbs/b.htm • “IE/8.0 (Window NT 5)’
用户请求的内容
服务器响应状态
该请求的引用地址
内容大小
用户浏览器类型 用户操作系统
Hale Waihona Puke 用户注册信息:用户通过WEB页在屏幕上提交给服务器的相 关信息 信息比较全面、具体、客观
在WEB数据挖掘中,可以和访问日志结合起来, 以提高数据挖掘的准确度,从而进一步地了 解用户的特点。
2021/4/18
34
曲奇数据挖掘(COOKIE)
2021/4/18
43
页面阅览(页面印象、阅览)
访问者在其浏览器上完整地看到页面内容
度量方法:将一次浏览器的请求算作一次页面 阅览
2021/4/18
44
用户特征指标
用户使用的浏览器 用户的域名和主机 用户的计算机操作系统
2021/4/18
45
用户行为特征指标
• 用户的入站路径 • 用户的入站页面 • 用户的出站页面 • 用户浏览站点的常用路径 • 每个访问的停留时间
2021/4/18
10
运用文献计量和其他计量方法对网络信息现 象、信息过程和信息规律进行量化研究的一门新 型学科。
2021/4/18
11
1、定义
采用数学、统计学等各种定量研究方法、对网
上信息的组织、存贮、分布、传递、相互引证和开
发利用等进行定量描述和统计分析,以便揭示其数
量特征和内在规律的一门新兴分支学科。主要是由
网站间链接 (站外链接)
• 其链路指向不同 网站
2021/4/18
52
网站结构链接
站
内 链
页内链接
接
信息关联链接
2021/4/18
不同页面链接
53
网站结构链接: 将一个网站的所有网页及其它部件联系成一个
整体,并反映出其结构和层次关系。
信息关联链接: 则是根据信息的关联关系对其所作的链接
2021/4/18
第八章 网络信息计量学
2021/4/18
1
一、网络信息计量学的兴起与背景
1、兴起
1990年, Paisly:现在的书、刊、报纸中 的大部分信息将来都会包括在电子数据中,所 收藏的大量电子信息将来会成为文献计量学研 究的主流。
2021/4/18
2
伍德鲁夫:1996年在巴黎召开的第五次国际万维 网大会上提交了一篇题为《关于万维网文献的研 究》的论文,首次对网络特征作了计量研究。
作链接的网站并未直接引用链接所 指向网站的信息内容, 仅仅是网站制作者 向访问者推介其它内容相关的网站。
2021/4/18
58
信息来源链接的特点:
作链接的网站引用了链接所指向网站 的信息内容, 以说明信息内容来源。
2021/4/18
59
网络结构链接的特点:
网页的链接指向属于同一组织机构 的不同网站或其镜像网站, 所指向网站 的信息内容属于同一整体的不同部分, 或完全相同。
Webliography:
将某一主题的相关网站链接列在一起
2021/4/18
4
美国爱荷华州立大学图书馆的理论馆员 GerryMcKiernan,,1996 :
Sitation
Cited Sites
2021/4/18
5
Webmetrics: 1997年,阿曼德(T.C Almind) 和英格维森(Peter Ingwersen)
18
基本问题
网络信息的类型和特点 网络信息计量的新概念 网络信息计量的基本原理、基本方式 网络信息计量的意义作用 网络信息计量的发展趋势等。
2021/4/18
19
理论问题
网络信息分布规律 网络信息增长规律 网络信息老化规律 网络信息关联规律 网络信息离散规律等。
2021/4/18
20
方法问题
基本测度指标 网络信息内容和结构的测度 网页的链接分析 网络影响因子 网络信息使用规律的测度 统计分析方法 数据挖掘方法等。
三、网络数据流量分析 1、主要指标
网站访问量指标 用户特征指标 用户的行为特征指标
2021/4/18
39
网站访问量指标
访问数 页面请求数 惟一访问者 页面阅览
2021/4/18
40
访问数:用户会话数
美国传播审计局:用户访问网站,如果期间中断时 间不超过30分钟。则用户在该网站的活动被一次 访问。
CNNIC:用户访问网站,如果期间中断时间不超过 20分钟。则用户在该网站的活动被一次访问。
测度网站受欢迎程度
2021/4/18
41
页面请求数
为了进入目标页面,浏览器和它连接的服务器 之间进行的每次单一连接的次数总和
美丽的西藏
2021/4/18
42
惟一访问者数
在一特定的时间内第一次进入网站、具有惟一 访问者标识(惟一地址)的访问者数目
2021/4/18
60
站内链接 链接
站外链接
网站结构链接
信息关联链接 信息推介链接 信息来源链接
页内链接 页面间链接
网络结构链接
2021/4/18
61
2、常见的链接关系 自链接:
链接指向它所在的网络实体(网页或网站)
互链接:
两个链接的起止点恰好相反
2021/4/18
62
传递链接:
如果甲实体链接到乙实体,而乙实体又链接 到丙实体,则称甲实体传递链接到丙实体。
类型分布 时间分布
一次文献
学科分布 主题分布
二次文献
著者信息
出版信息
三次文献
…
2021/4/18
16
*网络结构单元的信息计量问题。
站点、 布告栏 聊天室 讨论组 电子邮件 …
2021/4/18
17
4、主要内容
基本问题 理论问题 方法问题 技术问题 应用问题 信息资源计量管理对策问题
2021/4/18
8
二、网络信息计量学概论
对因特网上的文献进行统计分析的一门学科 研究因特网上数据文章互相引用的科学
2021/4/18
9
一门利用基于web的软件计量分析工具,集 计算机技术、网络技术、计量学方法、统计学方 法于一体,对网络文献规律进行统计分析的科学, 其应用范围覆盖了所有基于网络通信技术的信息 测度
2021/4/18
28
2021/4/18
8所 29 所
13 所
29
6、网络信息计量的主要工具
数据处理软件 网上动态跟踪软件 交互式调查软件 数据挖掘分析工具 搜索引擎
2021/4/18
30
7、网络数据获取的主要方法
• 连续抽样方法 • 网站日志方法 • 用户注册信息 • Cookie数据挖掘
2021/4/18
31
Web服务器日志
记录了用户访问的数据,由一条条的记录组成, 一般情况下,一条记录就记录了用户对WEB的一次 访问。
不同WEB服务器的日志记录格式不同
访问者的IP地址、访问时间、访问方式、被请求 文件的URL、HTTP服务器版本号、返回码、传输 字节数、访问的页面、协议、错误代码等。每当 站点被访问一次,WEB日志就增加一条相应记录。
网络技术、网络管理、信息资源管理与信息计量学
等相互结合、交叉渗透形成的一门交叉性边缘学科,
也是信息计量学的一个新的发展方向和重要的研究
领域。
2021/4/18
---邱均平
12
2、研究目的
通过网上信息的有序化组织和合理分布、为 网络信息资源的优化配置和有效利用、为网络管 理的规范化和科学化提供必要的定量依据,从而 改善网络的组织管理和信息管理,提高其管理水 平,促进其经济效益和社会效益的充分发挥。
同被链接:
甲乙两网络实体都被丙实体所链接,则称为甲 乙两网络实体同被链接。
2021/4/18
21
技术问题
网络信息计量系统的机制与设计 文本信息计量技术 多媒体信息计量技术 多语言信息计量技术 智能代理计量技术 网络信息的计量评价系统
2021/4/18
22
应用问题
图书情报工作 信息资源管理 网络管理 科学学 科学评价、科技管理与预测等
2021/4/18
23
信息资源计量管理对策研究
网络信息资源配置计量问题 网络信息价值 网络信息过滤及网络信息服务的定量评价 网络信息共享效率的计量 网络信息的成本效益定量评价等。
2021/4/18
24
5、主要研究方法
A: 文献信息统计方法 数学模型分析法 引文分析法 书目分析法 系统分析法 ….
2021/4/18
25
如中国互联网实验室、中国网络研究与 发展中心,中国互联网络信息中心、赛迪资 讯顾问公司等就是通过对网站和服务器的数 量、网络用户特征及网络发展的增长率指标 进行统计分析。
国际科学与信息计量学协会(The International Society of Scientometri And Informetrics, ISSI)举办的一个论坛: 传播互联网上定量分析的研究结果。
2021/4/18
7
2、产生背景 信息资源电子化、网络化以及网上文献信息激增 网络及其资源进行有效管理和利用的需要 电子文献信息的分析与研究成果 文献计量学、信息计量学发展的客观和必然趋势
2021/4/18
13
3、研究对象 网络中传播的电子媒介和资源
网站及其网页 电子数据库资源 数字图书馆 电子信息系统 域名分布 …
2021/4/18
14
三个层次:
*网上信息的直接计量问题
对以字节为单位的信息量和流量的计量研究等, 既包括文本信息,又包括非文本的数字信息。
2021/4/18
15
*网上文献信息及其相关特征信息的计量 问题。
信息计量学的各种方法完全可以用于万维网 上的信息计量分析,只不过是将万维网看着引文 网络,而传统的引文由WEB页面取代。
2021/4/18
6
Cybermetrics
西班牙科学文献信息中心的一个电子刊物 (Cybermetrics: Internation Journal of Scientometrics, Informetrics and Bibliometrics):研究学术交流的定量分析
54
信息关联链接链接点的位置:
页内某一知识点的相关词汇 参考文献的编号 文末参考文献 ….
2021/4/18
55
信息关联内容:
某一相关文献 某一相关文献的作者 取得计算、分析结果的某一软
件等等
2021/4/18
56
信息推介链接
网
站
间
信息来源链接
链
接
网络结构链接。
2021/4/18
57
信息推介链接的特点: