web使用挖掘介绍及趋势

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.2.2 Preprocessing
Usage Data:数据的抽象[4]
1.User 2.Page View(Click) 用户在某个时刻看到的浏览器中的内容 3.Click Stream 一组连续的page view 请求 4.User Session (transaction)用户的阶段性的click stream,可以跨多个服务器 5.Server Session 用户的,在一个服务器上的阶段性的click stream 6.Episode 用户session中的一段有意义的click stream
A=>B=>C A=>B=>D
A=>B Cached: C、D
1.1.2功能
*与传统的销售途径不同的是：网上零售系统可捕捉到大量的采购过程的细节，提供了更加深入分析的可能
1.1.2功能
Personalization
定义：根据发现的用户喜好，动态地为用户定制观看的内容或提供浏览建议。
直接实现形式：Recommender系统([10]J. Ben Schafer)。
作用： 1)方便用户查询和浏览 2)增强广告的作用 3)促进网上销售 4)提高用户忠诚度
1.2 基本的过程
*1).Data Gathering 2).Preprocessing 3).Pattern discovery 4).Patterns analysis
1.2 基本的过程
1).Data Gathering Site Files,Raw Usage Data,User Profile
优点是全面和准确收集到用户数据，缺点是需要吸引或强制用户使用
1.2.1 Data Gathering
Proxy Level Collection: 这种数据收集方式适合有大量静态页面的网站
1.2.2 Preprocessing
1) .Content & Structure 2) .Usage Data
1).Site Improvement 2).Web Caching and Network Transmission (E. Cohen[5])
1.1.2功能
1).Site Improvement
根据实际用户的浏览情况，调整网站的网页的连接结构和内容，更好的服务用户
A =>B => C=> D
1.1.1 定义(Jaideep Srivastava[1])
“ the process of applying data mining techniques to the discovery of usage patterns from Web data ”
1.1.2功能
System Improvement源自文库
4). Patterns analysis
Knowledge
1.2.1 Data Gathering
可以利用的Web Data包括: 1). Content:页面的实际内容 2). Structure: 包括intra-structure和 inter-structure 3). Usage: 例如：Click Stream 4). User Profile:例如：registration data 和 customer profiles 5. Business Data ？
*具体种类的划分跟应用的环境相关
1.2.2 Preprocessing
Usage Type 1)Head Page 例如：Index 2)Media Page 例如：B,E,F 3)Navigation Page 例如：1,C 4)Mixed Page 例如：A
1.2.2 Preprocessing
Navigation
1A
Mixed
Media
Page Type
B
1C
F
E
1.2.2 Preprocessing
ABC Site Map的结构可表示为：
M=<F1,F2,F3,F4,F5,F6,F7> F1={index,(frame,1,left | frame,A,main)} F2={1,(get,A,main),(get,C,main)} F3={A,(get,B,top)} F4={C,(get,E,top), (get,F,top)} F5={B} F6={E} F7={F}
2).Preprocessing Site Content&Structure, Server/Session/Episode Data
3).Pattern discovery Usage Statistics,User Clusters, Association Rules,Sequential Patterns
1.2.2 Preprocessing
Usage Data:数据的抽象[4]
Episodes
Server Session User Session
Click Stream Page View
Raw Data
1.2.2 Preprocessing
Usage Preprocessing的流程
4.识别 Episode
202.120.224.4 15:30:01/2-Jan-01 GET 1.htm
http://ex.edu/index.htm Mozilla/4.0(IE5.0W98)
202.120.224.4 15:30:01/2-Jan-01 GET A.htm
http://ex.edu/index.htm Mozilla/4.0(IE5.0W98)
1.2.2 Preprocessing
2.User and Session identification:
1.IP Address & Agent 2.Embedded Session ID 3.Registration(User Profile) 4.Cookie 5.Software Agent (Applet&Scrtipt) 6.Modified Browser
Web Usage Mining
Introduction and Trends
提纲
1. 简介 1.1 WUM的定义和应用 1.2 WUM基本的过程 1.3 原型系统和商用系统 2. 趋势
Web Mining 分类
Web Mining 的分类[1][2]： 1.Content Mining 2.Structure Mining 3.Usage Mining
http://ok.edu/res.php http://ex.edu/index.htm http://ex.edu/index.htm http://ex.edu/A.htm
1.2.2 Preprocessing
Content & Structure: 解决两个问题第一、page的独特性的表示方法？第二、page 的内容和结构的量化形式（quantifiable form）
1.2.2 Preprocessing
structure举例： ABC Site Map
index
1.2.1 Data Gathering
数据来源: 1)Server Level Collection 2)Client Level Collection 3)Proxy Level Collection
1.2.1 Data Gathering
Server Level Collection:
1) Web Log File 2) Packet Sniffing 技术缺点是扩展性差（加密通道
1.2.2 Preprocessing
在只有IP/Agent的情况下，我们假设User 和 Session 是等同*的:
User1:
Mozilla/4.0(IE5.0W98) 202.120.224.4
15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm
和用户跟踪） 3) Web Page Content &structure 4) Application Server
1.2.1 Data Gathering
Client Level Collection:
优点是可以比较全面和准确收集到用户数据 • Applet & Script
缺点:不支持代理，功能会被用户关闭。 • Modified browser
1.数据清理
2.识别 User/Session
3. 识别Page View
1.2.2 Preprocessing
1.Data cleaning:
*把log条目分割成对应的数据项目 *剔除图片或其它非page类的log条目 *剔除spider/agent的访问条目 *规格化URI *提取POST数据项
202.120.224.4 15:33:04/2-Jan-01 GET A.htm
http://ex.edu/index.htm Mozilla/4.0(IE4.0NT)
202.120.224.4 15:35:11/2-Jan-01 GET C.htm
http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)
15:30:01/2-Jan-01 GET 1.htm
http://ex.edu/index.htm
15:30:01/2-Jan-01 GET A.htm
http://ex.edu/index.htm
15:35:11/2-Jan-01 GET C.htm
http://ok.edu/A.htm
15:37:09/2-Jan-01 GET E.htm
202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT)
202.120.224.4 15:33:04/2-Jan-01 GET 1.htm
http://ex.edu/index.htm Mozilla/4.0(IE4.0NT)
202.120.224.4 15:35:11/2-Jan-01 GET B.htm
http://ex.edu/A.htm Mozilla/4.0(IE4.0NT)
202.120.224.4 15:37:09/2-Jan-01 GET E.htm
http://ex.edu/C.htm Mozilla/4.0(IE5.0W98)
1.2.2 Preprocessing
清理后的Sample Log
IP Address
Time/Date
Method/URI
Referrer
Agent
202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98)
1.2.2 Preprocessing
Map的结构表示了用户可能的click访问的路径
Index => 1-A => 1-C => E Index => 1-A => B
1.2.2 Preprocessing
Content Classification: 1)Usage Type 2)Content Features
Content Features ( [22] Soumen Chakrabarti ) : 1。可以使用vector space model来表示page的内容：把page的示成一个在此高维空间中的一个向量 page出现的term作为向量的维,维对应的值是通过某种方式计算出来的权重(例如：TFIDF), 它反映了term在此page区别其他page的时候的重要程度。 2。Clustering &Classification
http://ex.edu/C.htm
User2:
Mozilla/4.0(IE4.0NT) 202.120.224.4
15:33:04/2-Jan-01 GET Index.htm 15:33:04/2-Jan-01 GET 1.htm 15:33:04/2-Jan-01 GET A.htm 15:35:11/2-Jan-01 GET B.htm
A => D 极端：Adaptive web sites(Mike Perkowitz[7][8])
1.1.2功能
2).Caching & Network Transmission (E. Cohen[5])
例如：从proxy 的访问信息中可以分析用户的访问模式，从而可以预测用户的Page访问，提高Web Caching的性能