Web挖掘技术精
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 由于这些对象的数据形式及含义的差异,其挖掘 技术会不同。一些比较有代表性的数据源有:
? 服务器日志数据:Web访问信息挖掘的主要数据源。 ? 在线市场数据 ? Web页面 ? Web页面超链接关系 ? 其他信息
10
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
? 信息检索可能经常被说成是 Web挖掘的初级阶段, 是为了强调 Web挖掘不是简单的信息索引或关键 词匹配技术,而是实现信息浓缩成知识的过程, 它可以支持更高级的商业决策和分析。
7
Web挖掘与信息抽取
? Web上的IE的研究目的是希望从众多的 Web文挡 中抽取可供分析的信息,与 Web挖掘的关系也有 不同的观点:
2
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
3Baidu Nhomakorabea
Web挖掘的类型
? Web挖掘依靠它所挖掘的信息来源可以分为:
? Web内容挖掘(Web Content Mining):对站点的Web页 面的各类信息进行集成、概化、分类等,挖掘某类信息 所蕴含的知识模式。
12
文本挖掘是Web内容挖掘的基础
? 文本挖掘( TD)的方式和目标是多种多样的,基 本层次有:
? 关键词检索:最简单的方式,它和传统的搜索技术类似。 ? 挖掘项目关联:聚焦在页面的信息(包括关键词)之间
的关联信息挖掘上。 ? 信息分类和聚类:利用数据挖掘的分类和聚类技术实现
页面的分类,将页面在一个更到层次上进行抽象和整理。 ? 自然语言处理:揭示自然语言处理技术中的语义,实现
? IE是Web挖掘整个过程的一部分:这是因为Web上的数据 一般是半结构化或无结构的,因此需要进行规格化的信 息抽取这样的预处理。
? Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏 的信息抽取出来,那么Web挖掘或者文本挖掘只不过是 达到这个目的的特殊技术手段。
? 信息抽取经常被说成是 Web挖掘的一个预处理阶 段,那是因为在数据挖掘领域, Web挖掘的更广 义的理解应该是一个知识提取的完整过程。
11
Web内容挖掘的主要方法
? 一种Web内容挖掘的分类方法是分为代理人方法 和数据库方法。
? 代理人方法使用软件系统(代理)来完成内容挖掘。 ? 数据库方法将所有的Web数据描述为一个数据库系统。
意味着Web是一个多级的异构的数据库系统,可以通过 多种查询语言来获得Web的信息来完成信息的抽取。
6
Web挖掘与信息检索
? 两种截然不同的观点:
? Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在 解决信息检索、知识抽取以及更宽泛的商业问题,是 Web上IR技术的延伸。这种观点大多来自于数据挖掘研 究领域。
? Web挖掘是智能化的信息检索:对于IR领域的研究人员 来说, Web挖掘是IR研究向着智能化的方向发展的结果。
Web内容的更精确处理。
?
13
搜索引擎与Web内容挖掘
? 传统的搜索引擎( Searching Engine )效率低下。 由于是基于 Web中超文本结构分解的:它从一个 网页开始的,通过查阅和记录这个网页的所有连 接并把它们排列起来,然后再从找到的新页面继 续开始重复工作。
8
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
9
Web挖掘的主要数据源
? Web挖掘的数据来源是宽泛的:凡是在 Web站点 中对用户有价值的数据都可以成为它挖掘的数据 源。
? 将Web上的丰富信息转变成有用的知识:Web挖掘是面向 Web数据进行分析和知识提取的。因特网中页面内部、页 面间、页面链接、页面访问等都包含大量对用户可用的信 息,而这些信息的深层次含义是很难被用户直接使用的, 必须经过浓缩和提炼。
? 对用户进行信息个性化:网站信息的个性化是将来的发展 趋势。通过Web挖掘,可以达到对用户访问行为、频度、 内容等的分析,可以得到关于群体用户访问行为和方式的 普遍知识,用以改进Web服务方的设计,提供个性化的服 务。
4
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
5
Web挖掘的含义
? WeB挖掘是一个看宽泛的概念,可以简单地描述 为:
? 针对包括Web页面内容、页面之间的结构、用户访问信 息、电子商务信息等在内的各种Web数据,应用数据挖 掘方法以帮助人们从因特网中提取知识,为访问者、站 点经营者以及包括电子商务在内的基于因特网的商务活 动提供决策支持。
? Web访问信息挖掘(Web Usage Mining):Web访问信息 挖掘是对用户访问Web时在服务器方留下的访问记录进 行挖掘。通过分析日志记录中的规律,可以识别用户的 忠实度、喜好、满意度,可以发现潜在用户,增强站点 的服务竞争力。
? Web结构挖掘(Web Structure Mining):Web结构挖掘 是对Web页面之间的链接结构进行挖掘。在整个Web空间 里,有用的知识不仅包含在Web页面的内容之中,而且 也包含在页面的链接结构之中。对于给定的Web页面集 合,通过结构挖掘可以发现页面之间的关联信息,页面 之间的包含、引用或者从属关系等。
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
1
Web挖掘的价值
? 从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着 大量的信息,通过简单的浏览或关键词匹配的搜索引擎得 到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜 在的、丰富的关联信息。
? 服务器日志数据:Web访问信息挖掘的主要数据源。 ? 在线市场数据 ? Web页面 ? Web页面超链接关系 ? 其他信息
10
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
? 信息检索可能经常被说成是 Web挖掘的初级阶段, 是为了强调 Web挖掘不是简单的信息索引或关键 词匹配技术,而是实现信息浓缩成知识的过程, 它可以支持更高级的商业决策和分析。
7
Web挖掘与信息抽取
? Web上的IE的研究目的是希望从众多的 Web文挡 中抽取可供分析的信息,与 Web挖掘的关系也有 不同的观点:
2
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
3Baidu Nhomakorabea
Web挖掘的类型
? Web挖掘依靠它所挖掘的信息来源可以分为:
? Web内容挖掘(Web Content Mining):对站点的Web页 面的各类信息进行集成、概化、分类等,挖掘某类信息 所蕴含的知识模式。
12
文本挖掘是Web内容挖掘的基础
? 文本挖掘( TD)的方式和目标是多种多样的,基 本层次有:
? 关键词检索:最简单的方式,它和传统的搜索技术类似。 ? 挖掘项目关联:聚焦在页面的信息(包括关键词)之间
的关联信息挖掘上。 ? 信息分类和聚类:利用数据挖掘的分类和聚类技术实现
页面的分类,将页面在一个更到层次上进行抽象和整理。 ? 自然语言处理:揭示自然语言处理技术中的语义,实现
? IE是Web挖掘整个过程的一部分:这是因为Web上的数据 一般是半结构化或无结构的,因此需要进行规格化的信 息抽取这样的预处理。
? Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏 的信息抽取出来,那么Web挖掘或者文本挖掘只不过是 达到这个目的的特殊技术手段。
? 信息抽取经常被说成是 Web挖掘的一个预处理阶 段,那是因为在数据挖掘领域, Web挖掘的更广 义的理解应该是一个知识提取的完整过程。
11
Web内容挖掘的主要方法
? 一种Web内容挖掘的分类方法是分为代理人方法 和数据库方法。
? 代理人方法使用软件系统(代理)来完成内容挖掘。 ? 数据库方法将所有的Web数据描述为一个数据库系统。
意味着Web是一个多级的异构的数据库系统,可以通过 多种查询语言来获得Web的信息来完成信息的抽取。
6
Web挖掘与信息检索
? 两种截然不同的观点:
? Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在 解决信息检索、知识抽取以及更宽泛的商业问题,是 Web上IR技术的延伸。这种观点大多来自于数据挖掘研 究领域。
? Web挖掘是智能化的信息检索:对于IR领域的研究人员 来说, Web挖掘是IR研究向着智能化的方向发展的结果。
Web内容的更精确处理。
?
13
搜索引擎与Web内容挖掘
? 传统的搜索引擎( Searching Engine )效率低下。 由于是基于 Web中超文本结构分解的:它从一个 网页开始的,通过查阅和记录这个网页的所有连 接并把它们排列起来,然后再从找到的新页面继 续开始重复工作。
8
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
9
Web挖掘的主要数据源
? Web挖掘的数据来源是宽泛的:凡是在 Web站点 中对用户有价值的数据都可以成为它挖掘的数据 源。
? 将Web上的丰富信息转变成有用的知识:Web挖掘是面向 Web数据进行分析和知识提取的。因特网中页面内部、页 面间、页面链接、页面访问等都包含大量对用户可用的信 息,而这些信息的深层次含义是很难被用户直接使用的, 必须经过浓缩和提炼。
? 对用户进行信息个性化:网站信息的个性化是将来的发展 趋势。通过Web挖掘,可以达到对用户访问行为、频度、 内容等的分析,可以得到关于群体用户访问行为和方式的 普遍知识,用以改进Web服务方的设计,提供个性化的服 务。
4
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
5
Web挖掘的含义
? WeB挖掘是一个看宽泛的概念,可以简单地描述 为:
? 针对包括Web页面内容、页面之间的结构、用户访问信 息、电子商务信息等在内的各种Web数据,应用数据挖 掘方法以帮助人们从因特网中提取知识,为访问者、站 点经营者以及包括电子商务在内的基于因特网的商务活 动提供决策支持。
? Web访问信息挖掘(Web Usage Mining):Web访问信息 挖掘是对用户访问Web时在服务器方留下的访问记录进 行挖掘。通过分析日志记录中的规律,可以识别用户的 忠实度、喜好、满意度,可以发现潜在用户,增强站点 的服务竞争力。
? Web结构挖掘(Web Structure Mining):Web结构挖掘 是对Web页面之间的链接结构进行挖掘。在整个Web空间 里,有用的知识不仅包含在Web页面的内容之中,而且 也包含在页面的链接结构之中。对于给定的Web页面集 合,通过结构挖掘可以发现页面之间的关联信息,页面 之间的包含、引用或者从属关系等。
七 Web挖掘技术
? Web挖掘的意义 ? Web挖掘的分类 ? Web挖掘的含义 ? Web挖掘的数据来源 ? Web内容挖掘方法 ? Web访问信息挖掘方法 ? Web结构挖掘方法
1
Web挖掘的价值
? 从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着 大量的信息,通过简单的浏览或关键词匹配的搜索引擎得 到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜 在的、丰富的关联信息。