第七章 数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)聚类分析 物以类聚,人以群分,聚类分析技术试图找出数据 集中的数据的共性和差异,并将具有共性对象聚合 在相应的簇中。聚类分析已广泛应用与客户细分、 定向营销、信息检索等领域。 聚类与分类是容易混淆的两个概念。聚类是一种无 指导的观察式学习,没有预先定义的类。 (3)关联分析 关联分析是发现特征之间的相互依赖关系,通常是 在给定的数据集中发现频繁出现的模式知识(又称 关联规则)。关联规则广泛用于市场营销、事务分 析等领域。
7.2 分类 分类任务就是确定对象属于哪个预定义的目标类。 分类问题是一个普遍存在的问题,有许多不同的 应用。例如,根据电子邮件的标题和内容检查出 垃圾邮件,对一大堆照片区分出哪些是猫哪些是 狗。分类任务就是通过学习得到一个目标函数, 把每个属性集x映射到一个预先定义的类标号y。 目标函数也称分类模型。
Apriori算法中候选集合的产生由连接和剪枝 两个步骤组成: 连接:为了找Lk,通过Lk-1与自己连接产生候选 K-项集的集合,该候选K选集集记为Ck。Lk-1 中的两个项集l1和l2可以执行连接操作l1∞l2 的条件是(lk[i]表示项集中的第i个元素)
7.3.2.4 基于模型的聚类 基于模型的聚类方法试图将给定数据与某个数学 模型达成最佳拟合。此类方法经常假设数据是根据 潜在的概率分布生成的。主要包括统计学方法、概 念聚类方法和神经网络方法。
7.4 关联规则 关联规则是数据中所蕴含的一类重要规律,用关联 规则进行挖掘是数据挖掘的一项根本任务,甚至可 以说是数据库和数据挖掘领域中所发明并被广泛研 究的最为重要的模型。关联规则的目标是在数据项 目中找出所有的并发关系,这种关系也称为关联。
7.4.2关联规则挖掘算法 关联规则挖掘算法中,以Agrawal等人提出的 Apriori算法最为著名,它是常用的关联规则挖 掘算法,其挖掘的过程主要包含两个阶段:第 一阶段先从数据集中找出所有的频繁项集,他 们的支持度大于等于最小支持度阈值 (min_sup)。第二阶段由这些频繁项集产生关 联规则,计算它们的置信度,然后保留那些置 信度大于等于最小置信度阈值(min_conf)的 关联规则。
7.2.2 基于规则的分类器 基于规则的分类器是使用一组“if...then...” 规则来对记录进行分类的技术。为了建立基于规则 的分类器,需要提取一组规则来识别数据集的属性 和类标号之间的关键联系。提取分类规则的方法有 两大类,直接方法和间接方法。直接方法是直接从 数据中提取分类规则,间接方法是从其他分类模型 中提取分类规则。
7.3.2 聚类分析的基本方法 聚类分析的研究主要基于距离和基于相似度的 方法,经过长时间的发展,形成不少聚类算法。 根据不同的数据类型,聚类的目的可以选择不 同的聚类算法。
7.3.2.1 划分聚类的方法 给定一个数据集,将构建数据集的有限个划 分,每个划分都是一个簇,且每一个划分应当 满足如下两个条件: (1)每个划分中至少包含一个样本; (2)每个样本只能属于一个簇。 K-Means和K-Medoids就是典型的划分聚类算 法,下面将介绍K-Means具体算法。
数据挖掘概念首次出现在1989年举行的第十一届 国际联合人工智能学术会议上,其思想主要来自 于机器学习、模式识别、统计和数据库系统。国 内对数据挖掘的研究起步较晚,1993年国家自然 科学基金首次支持该领域的研究。此后,国家、 各省自然科学基金委,国家社科基金,“863”、 “973”项目,国家、各省的科技计划,每年都 有相关项目支持。众多研究机构和大学都成立专 门的项目组。从事数据挖掘研究与应用的人员越 来越多。现今,数据挖掘的基本理论问题逐步得 到了解决,现在更多的是数据挖掘的应用。
第7章 数据挖掘
7.1数据挖掘概述 7.1.1数据挖掘概念与发展 随着科学技术的飞速发展,使得各个领域或组织 机构积累了大量的数据。如何从这些数据中提取 有价值的信息和知识以帮助做出明智的决策,成 为巨大的挑战。计算机技术的迅速发展使得处理 并分析这些数据成为可能,这种新的技术就是数 据挖掘(Data Minging),又称为数据库知识发 现(Knowledge Discovery in Database,KDD)。
7.2.1 决策树分类法 有关决策树学习在前一章机器学习已经提到,我们 已经知道决策树分类法是一种简单但广泛的分类技术。 原则上讲,对于给定的数据集,可以构造的决策树 的数目达指数级。尽管某些决策树比其他决策树更为 准确,但是由于搜索空间是指数规模的,找出最佳决 策树在计算上是不可行的。现在的许多算法都采取贪 心算法,采取一系列局部最优决策来构造决策树,比 如Hunt算法。
7.1.3数据挖掘的应用 数据挖掘就是为大数据应用而生,有大量数 据的地方就有数据挖掘用武之地。目前,应 用较好的领域或行业有生物信息学、电信业、 零售业以及保险、银行、证券等金融领域。
在数据挖掘阶段,概括而言,数据挖掘分 析员,可以使用的数据挖掘方法主要有如下 几个: (1)预估模型,包括分类和预估两种类型。 (2)聚类技术 (3)连接技术 (4)时间序列分析
7.3.2.2 层次聚类的方法 层次聚类技术是第二类重要的聚类方法。 与K均值一样,与许多聚类方法相比,这 些方法相对较老,但是它们仍然被广泛使 用。在该方法中,采用的是某种标准对给 定的数据集进行层次的分解。
7.3.2.3 基于密度的方法 大部分划分方法基于对象之间的距离进行聚类。这 样的方法只能发现球状簇,而在发现任意形状的簇时 遇到了了困难。已经开发了基于密度概念的聚类方法, 其主要思想是:只要“领域”中的密度超过了某个阈 值,就继续增长给定的簇。也就是说,对给定簇中的 每个数据点,在给定半径的领域中必须至少包含最少 数目的点。这样的方法可以用来过滤噪声或离群点, 发现任意形状的簇。
7.1.2数据挖掘的任务 数据挖掘的任务可以分为预测型任务和描述型 任务。预测型任务就是根据其他属性的值预测 特定属性的值,如回归、分类、离群点检测等。 描述型任务就是寻找概括数据中潜在联系的模 式,如聚类分析、关联分析、演化分析、序列 模式挖掘。 (1)分类分析 分类分析就是通过分析示例数据库中的数据, 为每个类别做出准确的描述,或建立分析模型, 或挖掘出分类规则,然后用这个分类模型或规 则对数据库中的其他记录进行分类。分类分析 已广泛用于用户行为分析、风险分析、生物分 析、生物科学领域等。
7.2.3 朴素贝叶斯分类器 朴素贝叶斯方法是基于统计的学习方法,利用 概念统计进行学习分类,如预测一个数据属于 某个类别的概念。主要算法有朴素贝叶斯算法、 贝叶斯信念网络分类算法等。
7.3 聚类 7.3.1概念 聚类分析的核心是聚类,聚类是一种无监督 学习,实现的是将整个数据集分成不同的 “簇”,在相关的文献中,也将之称为“对象” 或“数据点”。聚类要求簇与簇之前的区别尽 可能的大,而簇内数据的差异要尽可能的小。 与分类不同,不需要先给出数Biblioteka Baidu的类别属性。
相关文档
最新文档