2 聚类、分类、关联规则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析的含义

z聚类(Clustering)用于发现在数据库中未知的对象类

z聚类方法对象类划分的依据是“物以类聚”,即考察个体或数据对象间的相似性z在聚类之前,对象类划分的数量与类型均是未知的

分割聚类方法概述

z分割聚类方法是一种基于原型(Prototype)的聚类方法。

z其本质是首先从数据集中随机地选择几个对象作为聚类的原型,然后将其它对象分别分配到由原型所代表的最相似、也就是距离最近的类中。

z分割聚类方法通过迭代控制策略对原型不断地进行调整,从而使得整个聚类得到优化。

k-means算法的思路

z1.首先随机地选择k个对象代表k个类,每一个对象作为一个类的原型,根据距离原型最近的原则将其它对象分配到各个类中。

k-means算法的思路

z2.以每一个类所有对象的平均值(mean)作为该类新的原型,迭代进行对象的再分配,直到没有变化为止,从而得到最终的个类。

k-means算法步骤

1.首先随机地选择k个对象,每一个对象作为一个类的“中心”,分别代表将分成的k个类。

2.根据距离“中心”最近的原则,寻找与各对象最为相似的类,将其它对象分配到各个相应的类中。

i1

k-means算法步骤

3. 在完成对象的分配之后,针对每一个

类,计算其所有对象的平均值,作为该类的新的“中心”。

4. 根据距离“中心”最近的原则,重新进行

所有对象到各个相应类的分配。

5. 返回步骤(3),直到没有变化为止。

层次聚类方法概述

z层次聚类方法(Hierarchical Clustering Method)是采用“自顶向下(Top-Down)”或“自底向上(Bottom-Up)”的方法在不同的层次上对对象进行分组,形成一种树形的聚类结构。

z其包括分解型层次聚类法(自顶向下)和聚结型层次聚类法(自底向上)。

层次聚类方法思想

z层次聚类方法按照一定的相似性判断标准,合并最相似的部分,或者分割最不相似的两个部分。

z如果合并最相似的部分,从每一个对象作为一个类开始,逐层向上聚结,直到形成唯一的一个类。

z如果分割最不相似的两个部分,从所有的对象归属在唯一的一个类中开始,逐层向下分解,直到每一个对象形成一个类。

98 123467510

分类的目标

z分类的目标是通过分析训练集中的数据,对类进行准确的描述或者建立模型,然后用它对数据库中的其它数据分类或者上升为分类规则。

分类发现的处理过程

z1. 分类模型的建立

z监督学习(Supervised Learning)

z分类模型的建立是通过分析训练样本数据总结出一般性的分类规则,建立分类模型。

z分类模型以分类规则、决策树或数学公式的形式给出。

z

分类发现的处理过程

z2. 分类模型的应用

z在对建立的分类模型进行应用前,需要对建立的分类模型进行评估,在确保分类模型的准确性及精确度的情况下,才能运用该分类模型对未知其类别的数据样本进行分类处理。

分类发现的主要方法z1.基于决策树模型的数据分类z——ID3算法

z2. 基于统计模型的数据分类z——贝叶斯分类

z3. 基于神经网络的数据分类

决策树生成过程

z1. 用户根据实际需求以及所处理数据的特性,选择类别标识属性和决策树的决策属性集。

决策树生成过程

z4. 针对上一步中得到的每一个子集,重复进行上述的2、3两个步骤,直到最后的子集符合结束的三个条件之一。

三个条件

z1. 子集中的所有元组都属于同一类;

z2. 该子集是遍历了所有决策属性得到的;z3. 子集中的所有剩余决策属性取值完全相同,已不能根据这些决策属性进一步进行子集划分。

决策树生成过程

z5. 根据符合条件的不同,生成叶子节点。

z对满足“条件一”所产生的叶子节点,直接根据该子集的元组所属类别进行类别标识。

z满足步骤“条件二”或“条件三”所产生的叶子节点,选取子集所含元组的代表性类别特征进行类别标识。

决策树剪枝

z有决策树得到的初步规则中,有一些预测规则准确性较低,因此需要对上述得到的决策树进一步处理,这个进一步处理的过程由“剪枝”过程完成。

决策树剪枝

z主要是采用新的样本数据集(称为测试数据集)中的数据检验决策树生成过程中产生的初步规则,将那些影响预测准确性的分枝剪除。

贝叶斯原理

z X为未知其类标识的训练样本数据;

z H表示作出的一些假设(例如,假设训练样本数据X属于某一特定类C);

z我们想得到P(H|X),即该假设成立的可能性。

z P(H|X)被称为假设H在训练样本数据X的基础上的后验概率。

P(年龄= '21…30' | c1) = 0

简单贝叶斯分类例z由此可得:

z P(X|c1)= P(部门= '系统部' | c1)×z P(职位= '高级' | c1) ×z P(年龄= '21…30' | c1) z=0

z P(X|c1)P(c1)=0

简单贝叶斯分类例z同理可得:

z P(X|c2)= P(部门= '系统部' | c2)×z P(职位= '高级' | c2) ×

z P(年龄= '21…30' | c2) z=0.4 ×0.4 ×0.4

z=0.064

z P(X|c2)P(c2)=0.064 ×0.4545=0.029

简单贝叶斯分类例z同理可得:

z P(X|c3)= P(部门= '系统部' | c3)×z P(职位= '高级' | c3) ×z P(年龄= '21…30' | c3) z=0 ×0.5 ×0.4

z=0

z P(X|c3)P(c3)=0

相关文档
最新文档