web数据挖掘课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Dependency Modeling
建立模型来表示web中各个变量之间的依赖关系 建立模型来表示web中各个变量之间的依赖关系 使用的方法: Hidden Markov Model Bayesian Belief Network 对用户行为模式的建模,不仅提供了分析用户行为的 理论框架,还可以预测未来Web资源的需求,提高网 理论框架,还可以预测未来Web资源的需求,提高网 上产品的销量。
内容和结构预处理
解决两个问题: 1. Page的独特性表示方法 Page的独特性表示方法 通过向量空间模型来表示Page内容 通过向量空间模型来表示Page内容 还可以通过聚类和分类的方法 2. Page 的内容和结构的量化形式 把Page的内容和结构形式化 Page的内容和结构形式化
Pattern Discovery
System Improvement
Web Usage Mining 可以用来改善Web Caching,network 可以用来改善Web transmission ,load balancing ,data distribution . 在Security方面,可以帮助检测intrusion,fraud,attempted Security方面,可以帮助检测intrusion,fraud,attempted breakbreak-in Almeida et.al.:建立一个模型,帮助Proxy选择preet.al.:建立一个模型,帮助Proxy选择prefetching和caching策略。 fetching和caching策略。 Schechter et.al:从服务器日志数据中生成path profile,用 et.al:从服务器日志数据中生成path profile,用 于预先生成动态HTML,减少网页生成时的延迟。 于预先生成动态HTML,减少网页生成时的延迟。
发现session之间的pattern,可以用于预测未来的访问模 发现session之间的pattern,可以用于预测未来的访问模 式,以针对特定的用户群做广告。此外还有trend 式,以针对特定的用户群做广告。此外还有trend analysis,change point detection 或者similarity analysis 或者similarity
Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling
Statistical Analysis
对Page Views,Viewing time 和navigational path的长度作 path的长度作 频率,平均值,中值等统计分析。 网络流量分析工具可以提供统计信息,如: 最经常访问的网页 页面平均访问时间 一个站点的平均路径长度 还可以提供简单的错误分析,如:发现非授权的进入 点和经常访问的死链接。 尽管缺乏深层次的分析,这种知识可能会提高系统性 能,提高系统的安全性,提供市场决策支持
Pattern Analysis
除去无趣的规则和模式,严格的分析方法取决于网络 挖掘的应用。Pattern Analysis最常见的形式包括一个查 挖掘的应用。Pattern Analysis最常见的形式包括一个查 询机制,如SQL.另一种方法是把行为数据放入一个数 询机制,如SQL.另一种方法是把行为数据放入一个数 据立方体中进行OLAP. 据立方体中进行OLAP. 可以使用可视化技术 内容和结构信息
数据源(二)客户端收集
优点是避免了Cache和session identification,可以比较全面 和准确收集到用户数据

Applet & Script 缺点:不支持代理,功能会被用户关闭。 Modified browser (Mosaic和Mozilla) 缺点是需要吸引或强制用户使用

数据源(三)代理服务器收集
Association Rules
传统的关联规则主要应用于超市的销售上。如:买牛 奶的顾客中有90%买了面包。 奶的顾客中有90%买了面包。 在Web Usage Mining 中,关联规则是指经常同时访问 的网页(有阈值)。这些网页间可能没有超链。 例如:用Apriori 例如:用Apriori 算法可以计算访问电子产品网页的用 户和访问体育器材网页的用户之间的关系。 这可以帮助网站设计者重构网站。还可以帮助预先取 得文档,减少用户感觉的延迟。
Personalization
根据用户的行为对其动态推荐 WebWatcher:一开始对每个用户的兴趣有一个简短的描 WebWatcher:一开始对每个用户的兴趣有一个简短的描 述,每个页面请求都要通过WebWatcher。 述,每个页面请求都要通过WebWatcher。学习特定用 户和同类别用户的浏览行为。 SiteHelper:把用户经常访问的网页中的关键词反馈给用 SiteHelper:把用户经常访问的网页中的关键词反馈给用 户,让用户选择。 Letizia:Client Side agent.找出与用户已浏览网页相似的 agent.找出与用户已浏览网页相似的 网页。 Yan et. al.:使用Web服务器日志发现相似行为的用户群。 al.:使用Web服务器日志发现相似行为的用户群。 每个用户放入一个用户群中,然后向用户发送同用户 群其他用户访问的网页
Web Data
可利用的数据主要包括以下部分: 1). Content:页面的实际内容 2). Structure: 包括intra-structure和 inter-structure 3). Usage: 例如:Click Stream 4). User Profile:例如:registration data 和 customer profiles
Classification
在Web Usage Mining 中,研究如何把用户分类。 分类可以使用有指导的学习方法如: Decision tree naïve Bayesian k-nearest neighbor Support Vector Machines等。 Machines等。
Sequential Patterns
Major Application Area for Web Usage Mining
Web Usage Mining
Personalization
System Improvement
Site Modification
Business Intelligence
Usage Characterization
数据源(一)服务器端收集
途径: 1) Web Log File 2) Packet Sniffing 技术 3) Web Page Content &structure 4) Application Server 缺点: Cached Page View 没有办法记录 post 方法传出的重要信息不能收集 跟踪每个用户并不是一件容易的事
使用数据预处理(二)
如何将每个用户的Click-Stream切分成一个个session。 如何将每个用户的Click-Stream切分成一个个session。 尽管每个用户行为的精确信息经常存在于服务器日志 里,有时还需要访问内容服务器。内容服务器为每个 活动的session保留了状态变量,在URI里没有有关的信 活动的session保留了状态变量,在URI里没有有关的信 息(?) Cache:唯一可证实的方法是在用户端。 Cache:唯一可证实的方法是在用户端。
Raw Logs
Preprocessed Clickstream Data
Rules Patterns Statistics
百度文库处理
使用数据预处理 内容和结构预处理
使用数据预处理(一)
只有IP 只有IP Address ,agent ,server side click stream 数据用来标 识用户和对话。主要问题有 Simple IP address/Multiple Server Sessions 如:ISP提供的Proxy 如:ISP提供的Proxy server Multiple IP address/Single Server Session 如:有些ISP为用户的每一个请求随机分配一个IP 如:有些ISP为用户的每一个请求随机分配一个IP Multiple IP address/Single User 如:一个用户使用多台机器 Multiple Agent/Single User 如:一个用户使用多个浏览器
可以记录多个Client与多个Server之间的访问信息 可以记录多个Client与多个Server之间的访问信息
数据提取
1.User 2.Page View(Click) 用户在某个时刻看到的浏览器中的内 容 3.Click Stream 一组连续的page view 请求 4.User Session (transaction)用户的阶段性的click stream,可 以跨多个服务器 5.Server Session 用户在某个服务器上的阶段性的click stream 6.Episode 用户session中的一段有意义的click stream
Web Usage Mining
张凯
提纲
概述 Web Data Web Usage Mining Taxonomy and Project Survey
概述
Web Mining 可以分为三类: Web Structure Mining Web Content Mining Web Usage Mining Web Usage Mining是指使用数据挖掘技术从网络数据 Mining是指使用数据挖掘技术从网络数据 中发现使用模式。 应用领域:电子商务
数据提取(续)
Episodes User Session Click Stream Page View Raw Data Server Session
Web Usage Mining的简要过程
Site Files
Preprocessing
Pattern Discovery
Pattern Analysis Interesting Rules Patterns Statistics
通用的原型系统
WebSIFT: SpeedTracer: IBM Watson .从日志文件中重建user .从日志文件中重建user traversal path,然后识别出user session。利用数据挖掘算 path,然后识别出user session。 法发现 most common traversal path 和 frequently visited page group WUM:提供一个“挖掘”语言,来指定对分析者有用 WUM:提供一个“挖掘”语言,来指定对分析者有用 的frequent path的特征。提供树结构的sequence pattern path的特征。提供树结构的sequence 显示方式 WebLogMiner:把web服务器日志放入数据立方体进行 WebLogMiner:把web服务器日志放入数据立方体进行 数据的roll-up和drill-down,发现关联规则,分类,进行 数据的roll-up和drill-down,发现关联规则,分类,进行 时序分析。 Shahabi :Rely on Client Side data collection.
Clustering
把有相似特征的东西放在一起。 Usage Clustering:把具有相似浏览行为的用户放在一 Clustering: 起。可以用来做电子商务的市场划分。 Page Clustering:发现具有相关内容的网页。可以用于搜 Clustering:发现具有相关内容的网页。可以用于搜 索引擎。
Taxonomy Dimensions
the data sources used to gather input the types of input data the number of users represented in each data set the number of Web sites represented in each data set the application area focused on by the project 大多使用single-site,multi-user,server大多使用single-site,multi-user,server-side usage data
相关文档
最新文档