web数据挖掘总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、数据挖掘
数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含
在其中的有用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从
Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从
Web 文档结构和试用的集合中发现隐含的模式。
数据挖掘涉及的学科领域和方法很多,有多种分类法。
(1)根据挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序
数据库、DNA 数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等;
(2)根据挖掘方法分:机器学习方法、统计方法、神经网络方法和数据库
方法等;
a. 机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。
b.统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。
c. 神经网络方法可细分为:前向神经网络(BP 算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
(3)根据开采任务分:可分为关联规则、分类、聚类、时间序列预测模型
发现和时序模式发现等。
a.关联规则:典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法,是A.Agrawal和R.Srikandt于1994年提出的,它是目前除AIS 算法、面向SQL的SETM 算法外几乎所有频繁项集发现算法的核心,其基本思想是:
如果一个项集不是频繁集,则其父集也不是频繁集,由此大大地减少了需要验证的项集的数目,在实际运行中它明显优于AIS 算法。
Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是
从事务数据库、关系数据库和其他数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则可以分为两步:
1)找出所有频繁项集.这部分主要由后面介绍的Apriori算法来解决.
2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信
度.
b.分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多,包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中,基于决策树的分类方法与其它的分类方法比较起来,具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。
c.数据聚类:其基本思想是:对数据进行分析的过程中,在考虑数据间的“距离”的同时,更侧重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这种分组基于如下的原理:最大的组内相似性与最小的组间相似性。
d. 时序模式:可用如下的例子描述时序模式:一个顾客先租看影片“Star Wars”,然后租“Empire Strikes Back”,再租“Return of the Judi”,注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式,称为时序模式。
e.相似模式:时态或空间—时态的大量数据存在于计算机中,这些数据库例子包括:股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间—时态数据库中搜索相似模式的目的是发现和预测风险、因果关系及关联于特定模式的趋势。
二、Web挖掘
Web 站点上的数据有其自身的特点,主要的可以归纳为以下几点:
1 、数据量巨大,动态性极强;2、异构数据库环境;3 、半结构化的数据结构。
Web 数据挖掘可以分为Web 内容挖掘,Web结构挖掘,Web 使用挖掘三类。Web 内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web 内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY 等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理, 得到更为精确和有用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web 内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web 结构挖掘是从Web 组织结构和链接关系中推导知识。挖掘页面的结构和Web 结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web 结构挖掘可以分为Web 文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有Page Rank和CLEVER,此外,在多层次Web 数据仓库( MLDB )中也利用了页面的链接结构。Web 使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。
Web 挖掘相关技术:
数据挖掘方法通常可以分为两类: 一类是建立在统计模型的基础上, 采
用的技术有决策树、分类、聚类、关联规则等; 另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。
Web 内容挖掘:
1、Web 文本挖掘
Web 文本挖掘可以对Web 上的大量文档的集合的内容进行总结、分类、聚类、关联分析,以及利用Web 文档进行趋势预测。在Internet 上的文本数据一般是一组html 格式的文档集,要将这些文档转化成一种类似关系数据库中
记录的规整且能反映文档内容特征的表示,一般采用文档特征向量,但目前所采用的文档表示方法中,都存在一个弊端就是文档特征向量具有非常大的维数,使得特征子集的选取成为Internet 上文本数据挖掘过程中的必不可少的一个环节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。。关联规则模式数据描述型模式, 发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤: ①连接数据, 做数据准备; ②给定最小支持度和最小可信度, 利用数据挖掘工具提供的算法发现关联规则;③可视化显示、理解、评估关联规则。
目前Web 内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面,尤其是基于XML的上述专题研究。
对分类挖掘而言,在预处理阶段要做的事情就是把这个Web页面集合文本信息转化成一个二维的数据库表,其中每一列是一个特征,每一行为一个Web页面的特征集合。在文本学习中常用的方法是TF工DF向量表示法,它是一种文档的词集(bag-of-words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。构造这种二维表的方法是:每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次.那么其值就为k。这样就可以表征出页面中词的频度。这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor方法进行分类挖掘。
WebSQL 是一个用于Web 页重构的查询语言,利用Web 文档的图树表示形式,可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。
分词
目前已有很多分词算法,如:正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。近几年又提出了很多新的方法旨在提高分词的精度和分词的速度,如:生成测试法通过词法ATN和语义ATN之间的相互作用来进行歧分决策,以提高分词的精确性;改进的MM分词算法采用正向增字最大匹配法和跳跃匹配法,结合词尾语义检查