2 聚类、分类、关联规则
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析的含义
z聚类(Clustering)用于发现在数据库中未知的对象类
z聚类方法对象类划分的依据是“物以类聚”,即考察个体或数据对象间的相似性z在聚类之前,对象类划分的数量与类型均是未知的
分割聚类方法概述
z分割聚类方法是一种基于原型(Prototype)的聚类方法。
z其本质是首先从数据集中随机地选择几个对象作为聚类的原型,然后将其它对象分别分配到由原型所代表的最相似、也就是距离最近的类中。
z分割聚类方法通过迭代控制策略对原型不断地进行调整,从而使得整个聚类得到优化。
k-means算法的思路
z1.首先随机地选择k个对象代表k个类,每一个对象作为一个类的原型,根据距离原型最近的原则将其它对象分配到各个类中。
k-means算法的思路
z2.以每一个类所有对象的平均值(mean)作为该类新的原型,迭代进行对象的再分配,直到没有变化为止,从而得到最终的个类。
k-means算法步骤
1.首先随机地选择k个对象,每一个对象作为一个类的“中心”,分别代表将分成的k个类。
2.根据距离“中心”最近的原则,寻找与各对象最为相似的类,将其它对象分配到各个相应的类中。
i1
k-means算法步骤
3. 在完成对象的分配之后,针对每一个
类,计算其所有对象的平均值,作为该类的新的“中心”。
4. 根据距离“中心”最近的原则,重新进行
所有对象到各个相应类的分配。
5. 返回步骤(3),直到没有变化为止。
层次聚类方法概述
z层次聚类方法(Hierarchical Clustering Method)是采用“自顶向下(Top-Down)”或“自底向上(Bottom-Up)”的方法在不同的层次上对对象进行分组,形成一种树形的聚类结构。
z其包括分解型层次聚类法(自顶向下)和聚结型层次聚类法(自底向上)。
层次聚类方法思想
z层次聚类方法按照一定的相似性判断标准,合并最相似的部分,或者分割最不相似的两个部分。
z如果合并最相似的部分,从每一个对象作为一个类开始,逐层向上聚结,直到形成唯一的一个类。
z如果分割最不相似的两个部分,从所有的对象归属在唯一的一个类中开始,逐层向下分解,直到每一个对象形成一个类。
98 123467510
分类的目标
z分类的目标是通过分析训练集中的数据,对类进行准确的描述或者建立模型,然后用它对数据库中的其它数据分类或者上升为分类规则。
分类发现的处理过程
z1. 分类模型的建立
z监督学习(Supervised Learning)
z分类模型的建立是通过分析训练样本数据总结出一般性的分类规则,建立分类模型。
z分类模型以分类规则、决策树或数学公式的形式给出。
z
分类发现的处理过程
z2. 分类模型的应用
z在对建立的分类模型进行应用前,需要对建立的分类模型进行评估,在确保分类模型的准确性及精确度的情况下,才能运用该分类模型对未知其类别的数据样本进行分类处理。
分类发现的主要方法z1.基于决策树模型的数据分类z——ID3算法
z2. 基于统计模型的数据分类z——贝叶斯分类
z3. 基于神经网络的数据分类
决策树生成过程
z1. 用户根据实际需求以及所处理数据的特性,选择类别标识属性和决策树的决策属性集。
决策树生成过程
z4. 针对上一步中得到的每一个子集,重复进行上述的2、3两个步骤,直到最后的子集符合结束的三个条件之一。
三个条件
z1. 子集中的所有元组都属于同一类;
z2. 该子集是遍历了所有决策属性得到的;z3. 子集中的所有剩余决策属性取值完全相同,已不能根据这些决策属性进一步进行子集划分。
决策树生成过程
z5. 根据符合条件的不同,生成叶子节点。
z对满足“条件一”所产生的叶子节点,直接根据该子集的元组所属类别进行类别标识。
z满足步骤“条件二”或“条件三”所产生的叶子节点,选取子集所含元组的代表性类别特征进行类别标识。
决策树剪枝
z有决策树得到的初步规则中,有一些预测规则准确性较低,因此需要对上述得到的决策树进一步处理,这个进一步处理的过程由“剪枝”过程完成。
决策树剪枝
z主要是采用新的样本数据集(称为测试数据集)中的数据检验决策树生成过程中产生的初步规则,将那些影响预测准确性的分枝剪除。
贝叶斯原理
z X为未知其类标识的训练样本数据;
z H表示作出的一些假设(例如,假设训练样本数据X属于某一特定类C);
z我们想得到P(H|X),即该假设成立的可能性。
z P(H|X)被称为假设H在训练样本数据X的基础上的后验概率。
P(年龄= '21…30' | c1) = 0
简单贝叶斯分类例z由此可得:
z P(X|c1)= P(部门= '系统部' | c1)×z P(职位= '高级' | c1) ×z P(年龄= '21…30' | c1) z=0
z P(X|c1)P(c1)=0
简单贝叶斯分类例z同理可得:
z P(X|c2)= P(部门= '系统部' | c2)×z P(职位= '高级' | c2) ×
z P(年龄= '21…30' | c2) z=0.4 ×0.4 ×0.4
z=0.064
z P(X|c2)P(c2)=0.064 ×0.4545=0.029
简单贝叶斯分类例z同理可得:
z P(X|c3)= P(部门= '系统部' | c3)×z P(职位= '高级' | c3) ×z P(年龄= '21…30' | c3) z=0 ×0.5 ×0.4
z=0
z P(X|c3)P(c3)=0