聚类分析原理及步骤(2020年整理).pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用这个基本思想的算法有:
学海无 涯
K-MEANS 算法、K-MEDOIDS 算法、 CLARANS 算法) 层次法
1》“自底向上”方案——将每个数据单独作为一
组,通过反复迭代的方法,把那些相互邻近的 组合并成一个组,直到所有的记录组成一个分 组或者某个条件满足为止,代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等 2》“自顶向下”方案
凑,而各聚类之ቤተ መጻሕፍቲ ባይዱ尽可能的分开。
K-MEDOIDS 算法 K-MEANS 有其缺点:产生类的大小相差不会很大, 对于脏数据很敏感。 改进的算法: k—medoids 方法: 选取一个对象叫做mediod 来代替上面的中心的作 用,这样的一个 medoid 就标识了这个类。 步骤: (1)、任意选取 K 个对象作为 medoids(O1,O2,… Oi…Ok)。 以下是循环的: ( 2 )、将余下的对象分到各个类中去( 根据与 medoid 最相近的原则); (3)、对于每个类(Oi) 中,顺序选取一个 Or,计算用 Or 代替 Oi 后的消 耗—E(Or)。选择 E 最小的那个 Or 来代替 Oi。这 样 K 个 medoids 就改变了, 下面就再转到 2。 (4)、这样循环直到 K 个 medoids 固定下来。 这
学海无 涯
聚类分析原理及步骤
——将未知数据按相似程度分类到不同 的 类或簇的过程
1》 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、
动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名
的统计分析软件包中,如 SPSS、SAS 等。
3》 聚类或分组——将数据对象分到不同的类中【划分方 法 (划分方法一般从初始划分和最优化一个聚类标准开始 , Crisp
Clustering 和 Fuzzy Clusterin 是 划 分 方 法 的两个 主要技 术,Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的
Clara 算法的效率取决于采样的大小,一般不太可能得 到最佳的结果
在 Clara 算法的基础上,又提出了 Clarans 的算法, 与 Clara 算法不同的是: 在 Clara 算法寻找最佳的 medoids 的过程中,采样都是不变 的。而 Clarans 算法在每一次循环的过程中所采用的采样都 是不一样的。与上次课所讲的寻找最佳 medoids 的过程不同 的是,必须人为地来限定循环的次数
多 距 离 度 都 应 用 在 一 些 不 同 的 领 域 一 个 简 单 的 距 离 度 量 ,如
Euclidean 距离,经常被用作反映不同数据间的相异性,一些有关相
学海无涯
似性的度量,例如 PMC 和 SMC,能够被用来特征化不同数据的概 念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两 个图形的相似性
典型应用
1》 动植物分类和对基因进行分类
2》 在网上进行文档归类来修复信息
3》 帮助电子商务的用户了解自己的客户,向客户提供更合适
的服务
主要步骤
1》 数据预处理——选择数量,类型和特征的标度((
依 据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化 为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维 数
聚类分析的主要计算方法原理及步骤
划分法 1》
将数据集分割成 K 个组(每个组至少 包 含一个数据且每一个数据纪录属
于且 仅属于一个分组),每个组成为
2》 一类 通过反复迭代的方法改变分组, 使得每 一次改进之后的分组方案都
较前一次 好(标准就是:同一分组中
的记录越近
越好,而不同分组中的纪录越远越好,
1》从 n 个数据对象任意选择 k 个对象作为初始聚 类中心;而对于所剩下其它对象,则根据它们与这些聚类中 心的相似度(距离),分别将它们分配给与其最相似的(聚 类中心所代表的)聚类;
2》计算每个所获新聚类的聚类中心(该聚类中所 有对象的均值);不断重复这一过程直到标准测度函数开始
学海无涯
收敛为止。一般都采用均方差作为标准测度函数. k 个聚类具有以下特点:各聚类本身尽可能的紧
主要算法原理及步骤
K-MEANS 算法 k-means 算法接受输入量 k ;然后将 n 个数据对象划
分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对 象相似度较高;而不同聚类中的对象相似度较小。聚类相似 度是利用各聚类中对象的均值所获得一个“中心对象”(引力 中心)来进行计算的。 k-means 算法的工作过程说明如下:
每个数据可能在任何一个类中)和层次方法(基于某个标准产生一
个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分 离性用来合并和分裂 )是聚类分析的两个主要方法,另外还有基于
密类度的聚类,基于模型的聚类,基于网格的聚类】
4》 评估输出——评估聚类结果的质量(它是通过一个类有效索引来
评价,,一般来说,几何性质,包括类间的分离和类内部的耦合,一般 都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演 了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取, 一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳 值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准, 很多已经存在的标准对于相互分离的类数据集合都能得出很好的结 果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集 合。)
学海无涯
种算法对于脏数据和异常数据不敏感,但计算量显 然要比 K 均值要大,一般只适合小数据量
Clara 算法 K-medoids 算法不适合于大数据量的计算,Clara 算法的
思想就是用实际数据的抽样来代替整个数据,然后再在这些 抽样的数据上利用K-medoids 算法得到最佳的medoids。Clara 算法从实际数据中抽取多个采样, 在每个采样上都用 K-medoids 算法得到相应的(O1,O2…Oi…Ok),然后在这当 中选取 E 最小的一个作为最终的结果。 Clarans 算法
灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数
据行为或模型的数据)
2》
为衡量数据点间的相似度定义一个距离函数——
征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特
既征然标相度类的似多性样是性定,义距一离个度类量的必基须础谨慎,那,么它不经同常数依据赖之于间应在用同,一例个如特,
通常通过定义在特征空间的距离度量来评估不同对象的相异性,很