Web挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010-11-11 数据挖掘的技术及应用 14
Web日志挖掘
Web日志文件:对用户的每次访问,记录访问时间、用 户网络地址、目的信息网络地址及传输信息量等 Web日志挖掘:通过分析Web服务器的日志文件,以发 现用户访问站点的浏览模式,为站点管理员提供各种利 于Web站点改进或可以带来经济效益的信息。
根据用户的行为模式,动态地生成想要去的网页的超链接,让用 户更有效地访问目标网页,提高“回访率”
用户分类
记录用户在一段时间内访问某个网站网页的集合,根据这些信息 将用户归类,然后根据这个类中用户的历史行为向他推荐在同类 用户接下来所浏览的网页。
利用聚类发现兴趣模式
首先将文档转化为由关键词构成的向量,然后利用聚类算法从特 征向量集合产生用户的兴趣主题
数据挖掘的技术及应用
Web上的数据挖掘
2005-11-20
2010-11-11
数据挖掘的技术及应用
1
Web上的数据挖掘
Web数据的特点 Web挖掘的分类 Web挖掘的应用 XML与Web挖掘 XML Web 电子商务与Web挖掘
2010-11-11
数据挖掘的技术及应用
2
Web数据的增长
世界范围 Internet软件协会(http://www.isc.org)的统计,到 2002年1月,Web主机的数量已经超过了1亿4千万台 comScore(http://www.comscore.com)2002年5月 14日的统计报告,全球已逾3亿2千万用户使用 我国 CNNIC于2005年1月19日发布的第15次《中国互联网 络发展状况统计报告》中的数据,我国大陆的上网用 户总人数已经超过9400万,比去年同期增长了8%, 上网计算机4160万台,增长14.6%,CN下注册域名数 和网站数分别达到66.9万和43万,比去年同期增长了 34.8%和44% 对99%的用户来说,Web上99%的信息是毫无用处的
Web挖掘
Web 内容 挖掘
Web 结构 挖掘
Web 日志 挖掘
Web 页面 挖掘
查询结果 归纳
用户访问 模式分析
个性化 分析
2010-11-11
数据挖掘的技术及应用
7
Web内容挖掘
Web内容挖掘是从Web文档的内容或其描述中提取知识 的过程。Web内容挖掘可以协助用户搜索信息或者根据 用户的配置文件为用户过滤无用的信息。 Ahoy!:输入用户名,找到用户的主页 EdgeGain:分析商家的主页和电子商务站点的文档结 EdgeGain: 构,抽取价格列表 FAQ-Finder从常用问题文件(FAQ)中抽取问题的答 案。它把用户用自然语言提出的问题自动匹配到FAQ 文件中的相应问题,然后返回对应的答案 研究内容:文本挖掘和多媒体挖掘
智能查询(1)
智能查询
资源发现
信息抽取
信息归纳
基于内容 的检索
通过搜索引擎查询索引得到相关资料 查询工具元搜索 MetaCrawler是一种典型的元搜索, 有统一的查询界面和查询语言,用 户的查询要求经转换后并行地传送 给Yahoo、Infoseek、Lycos、 WebCrawler、Galaxy等索引系统 分类和聚类技术 实现查询结果的自动归类,有助于 用户按类别有选择地浏览结果 根据用户感兴趣的程度和对用户有 帮助的程度排序,过滤查询结果
2010-11-11 数据挖掘的技术及应用 11
数据转换
文档建模 根据特征词及权值建立词频矩阵,其中行对应关键词, 列对应文档,将每个文档表示为空间向量,向量值即 关键词的权值,反映关键词与文档的关联度 特征约减 利用矩阵的奇异值分解(singular value decomposition,简写为SVD)技术,将词频矩阵转化 为奇异矩阵,从而有效地约减关键词 权值调整 根据文档的访问记录和链接来调整关键词的权值。 文档被访问的时间、路径、访问方式、关键词出现的 位置等
2010-11-11 数据挖掘的技术及应用 23
提高网络传输速度
各种类型数据分别传输,多媒体数据下载速度慢 解决方法 优化传输,减少阻塞 预先传输某些页面
基于链接的方法:统计链接的点击频率 基于历史的方法
不足 基于客户端的方法 不能对新用户作出预测 不能减轻网络代理的负担
2010-11-11 数据挖掘的技术及应用 4
Web挖掘的要求
效率高:数据量非常庞大,每天都在迅速增长和更新, 从如此海量的数据中有效地提取有用的信息要求数据挖 掘速度必须很快 强大的并行性:分布在网络上各个站点的资源通过互连 网连成一个大型分布式数据库,数据的巨大规模和广泛 分布对数据挖掘的并行性要求很高 实时动态性:Web中数据更新非常迅速,有些信息可能 很快过时,所以要提供准确的决策支持要求数据挖掘具 有实时和动态的特性 有效地组织和管理数据:目前数据挖掘多应用于关系和 面向对象数据库,它们有完美的结构,按照预先定义的模 式进行组织、存储和存取,而Web的信息往往具有半结 构化或非结构化特性,难以映射到一个固定的模式,使 传统数据模型和数据库系统难以支持Web上的信息管理
2010-11-11 数据挖掘的技术及应用 12
文本挖掘和模式提取
文本挖掘 文档分类:将选取一组预分类的文档作为训练集,从 训练集中得出分类模式,然后用导出的分类模式对其 它文档加以分类 关联分析:以文档(句子或段落)为一条事务,发现 经常同时出现的关联词 文档聚类:以文档向量作为对象,根据相似性将文档 划分为不同主题的组 模式提取 根据挖掘方法和计算结果,获取各类知识,包括分类 模式、聚类模式和关联规则等
2010-11-11
数据挖掘的技术及应用
18
Web智能查询
存在问题 基于关键词匹配,返回大量的查询结果、量多 但不精,查询质量低,查询覆盖面小 有效的查询 查准率
搜索引擎返回的文档中与查询相关的百分比
查全率
与查询相关的文档中被搜索引擎返回的百分比
基于概念相关的搜索 个性化信息服务
2010-11-11 数据挖掘的技术及应用 19
2010-11-11 数据挖掘的技术及应用 3
Web数据的特点
从数据库研究的角度出发,Web的每一个站点就是一个数据源,每个 数据源都是异构的,构成了一个巨大的异构数据库环境 从数据管理的角度出发,Web页面散布在世界各地的Web服务器上, 形成的分布式数据源。每个服务器自主地管理自己的资源,没有统一 的管理机制,这为数据分析和处理带来了更高的难度 从数据模型的角度出发,半结构化是Web上数据的最大特点。与传统 的数据库中的数据不同,Web数据非常复杂,是一种非完全结构化的 数据,称为半结构化数据 从数据内容的角度出发,Web包含了各种信息和资源,有文本数据、 超文本数据、图表、图像、音频数据和视频数据等各种多媒体数据, 体现了数据的多样性和复杂性 从数据更新的角度出发,Web是一个动态性极强的信息源,不仅增长 的速度极快,而且信息也在不断地更新,各站点的链接信息和访问记 录的更新非常频繁 从用户的角度出发,Web面对的是一个庞大的用户群体,而且用户群 在不断地扩张之中,每个用户具有不同的背景、兴趣和使用目的
2010-11-11
数据挖掘的技术及应用
21
智能查询(3)
智能查询
资源发现
Fra Baidu bibliotek
信息抽取
信息归纳
基于内容 的检索
将杂乱无章的信息组织起来的有效 机制 Yahoo把搜集到的索引信息按主题 分类,组成一个层次型的目录系统, 但对资源的分类和组织主要还是依 赖于人工 分类技术可自动组织和管理数据, 也可以用于发现用户的兴趣模式 聚类技术对Web数据进行分类且不 需要数据的类标志
2010-11-11 数据挖掘的技术及应用 13
Web结构挖掘
Web结构挖掘主要是通过对Web站点的超链接结 构进行分析、变形和归纳,将Web页面进行分类, 以利于信息的搜索 发现Web的结构和页面的结构及其蕴含在这些 结构中的有用模式 对页面及其链接进行分类和聚类,找出权威页 面 发现Web文档自身的结构,这种结构挖掘能更 有助于用户的浏览,也利于对网页进行比较和 系统化
2010-11-11 数据挖掘的技术及应用 5
Web上的数据挖掘
Web数据的特点 Web挖掘的分类 Web挖掘的应用 XML与Web挖掘 XML Web 电子商务与Web挖掘
2010-11-11
数据挖掘的技术及应用
6
Web挖掘的分类
Web挖掘是对Web文档的内容、Web上可利用资源的 使用情况以及资源之间的关系进行分析,从中发现有 效的、新颖的、潜在有用的、并且最终可理解的模式。
特征抽取
过滤特征
数据转换
文档建模
文本挖掘
关联分析
模式提取
关联规则
过滤虚词
计算权值
特征约减
文本分类
分类模式
合并词根
合并特征
权值调整
聚类分析
聚类模式
文本挖掘的步骤
2010-11-11 数据挖掘的技术及应用 9
文本预处理
分词是识别文本中短语的过程,特别对中文来说分词是必不可少的, 主要有以下几种方法 最大匹配法(MM):从文本的右部开始,选取包含6~8个英文单词 或汉字作为最大符号串,将它们与词典中的单词条目相匹配,如 果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应 的单词为止 逆向最大匹配法(RMM):匹配方向与MM法相反,是从左向右。 对汉语来说,逆向最大匹配法比最大匹配法更有效 双向匹配法(BM):比较MM法与RMM法的分词结果,决定正确的 分词 最佳匹配法(OM):将词典中的单词按它们在文本中的出现频度 的大小排列,高频度的单词排在前,频度低的单词排在后,从而 提高匹配的速度 联想回溯法(AB):采用联想和回溯的机制来进行匹配 过滤虚词:建立虚词库 合并词根:词性、名词的单复数、动词的时态
2010-11-11 数据挖掘的技术及应用 20
智能查询(2)
智能查询
资源发现
信息抽取
信息归纳
基于内容 的检索
从资源中自动抽取信息,减少手工编码 识别文档的模式结构 Ahoy!识别个人主页 ILA抽取电话号码和Email地址 文摘的自动获取 解决词的多义问题,自动语义标注 技术 基于上下文的关联词法、词性搭配 法、基于统计的最大可能义项法等
2010-11-11
数据挖掘的技术及应用
15
Web挖掘的过程
2010-11-11
数据挖掘的技术及应用
16
Web上的数据挖掘
Web数据的特点 Web挖掘的分类 Web挖掘的应用 XML与Web挖掘 XML Web 电子商务与Web挖掘
2010-11-11
数据挖掘的技术及应用
17
发现客户偏好
从用户的访问路径中发现网页之间的关联,通过网页相 关性分析可以发现客户的偏好,可在动态网页中嵌入个 性化的浏览模式
2010-11-11 数据挖掘的技术及应用 22
智能查询(4)
智能查询
资源发现
信息抽取
信息归纳
基于内容 的检索
根据媒体和媒体对象的内容语义及上下 文联系进行检索 图象中对象的形状、颜色和纹理 视频中的运动 声音的音调 查询内容转换为文本或关键词的形式 转换带有一定的主观性,描述不 准确 相似性匹配的方法,逐步求精,获得查 询结果。这是一个迭代过程,通过不断 减小查询结果的范围,定位到要求的目 标
2010-11-11
数据挖掘的技术及应用
8
文本挖掘
文本分析(Text Analysis)、文本解释(Text Interpretation)、文档分类(Document Categorization)和文档可视化(Document Visualization Visualization)
预处理
分词
2010-11-11 数据挖掘的技术及应用 10
特征抽取
过滤特征 识别出姓名、前称谓词、后称谓词、数字和日期等, 这些词将不作为关键词 计算权值 词频法:以关键词的出现次数为权值 FTIDF法:某个词在一个文档中出现的频率越高,它 越能体现该文档的主题。相反,这个词出现在其它文 档中的频率越低,它越能体现该文档区别于其它文档 的主题 合并特征 合并从每个文档中抽取的关键词作为关键词,每一个 关键词对应一个二元组集合<关键词,权值>
用户访问模式分析通过分析Web使用记录来了解用户的访问模式 用户访问模式分析 和倾向,从而帮助销售商确定相对固定的顾客群,设计商品的销 售方案,评价各种促销活动以及发现Web空间最有效的逻辑结构 个性化分析倾向于分析单个用户的偏好,根据不同用户的访问模 个性化分析 式,动态地为用户定制观看的内容或提供浏览建议,使得网站更 加生动而独特
相关文档
最新文档