多元作业聚类分析ppt

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[2]朱建平,应用多元统计分析[M].科学出版社.2009:62-90. [3]张良均,杨坦,肖刚,徐圣兵,等.MATLAB数据分析与挖掘实战.97107. [4]梁桦伟,均值聚类算法的改进及其应用[J]湖南大学.2012. [5]李荟娆.聚类算法的改进及其应用[D]东北农业大学,2014.
谢谢大家！
i s i
(5)重新计算中心位置.
4
预期的成果与安排
进度安排
6.实例分析
例：从21家生产同类商品的工厂中各抽取一件产品，每个产品测了两个指标，测得的数据如下表所示
为了比较各厂产品的质量，试根据表中数据对各厂质量情况进行聚类分析. 利用SPSS结果分析如下：案例汇总表，如表1
4
预期的成果与安排
3.聚类分析的方法及其应用范围
(1)直接聚类法 (2)最短距离聚类法 (3)最远距离聚类法广泛用于客户细分，结构分组和行为跟踪等问题.比如：商业上，聚类分析被用于客户细分，即通过购买模式刻画不同客户群的特征，在地理信息系统上，聚类分析一直是统计学及其他相关学科研究的热点.
1
研究的背景与意义
研究现状
3
研究的方法与思路
拟解决的问题
5.5.1算法描述
k 将样本空间的样本分成类，聚类中心为 x 为第i 个数据 c是第 j个聚类中心，聚类中心的适应度函数是聚类中心与属于该中心区域内所有元素之间的欧式距离之和。
i
j
若 f (c )越小，则中心 c 的适应度越小，聚类越紧凑.若，若则意味着该中心没有成员数据.算法通过调整聚类来使各中心的适应度函数值达到均衡，当适应 c 度均衡时，对应的聚类方案就是最终聚类结果 .
k - means聚类算法的分析与应用
汇报人：王海荣理学院:应用数学
汇报提纲
1 2
摘要摘摘要要值摘要摘摘要摘要要摘摘要&关键词 &引言要摘要
聚类分析的相关理论知识
3 k - means 算法的分析与改进
4
5
实例分析
结论&参考文献
1
研究的背景与意义
研究背景
1.引言：
聚类与分类的不同在于，聚类所要求划分的类是未知的.聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性.
2
研究的目标与内容
研究目标
式中是两个维的数据对象。 n
根据空间聚类的一般原则 ,类别的划分应使得同一类(簇)的内部相似度最大、差异度最小 ,而不同类(簇)间的相似度最小、差异度最大.空间聚类一般使用距离作为划分准则, k means k 即任一空间对象与该对象所属簇的几何中心之间的距离比该对象到任何其他 k 簇的几何中心的距离都小 . 算法设计过程.首先,由用户确定所要聚类的准确数目，并随机选择个对象(样本), 每个对象称为一个种子，代表一个簇(类)的均值或中心, 对剩余的每个对象, 根据其与各簇中心的距离将它赋给最近的簇.然后重新计算每个簇内对象的平 m 是簇c 均值形成新的聚类中心 , 这个过程重复进行, 直到准则函数收敛为止
3
研究的方法与思路
研究方法
2.k值依赖于人为的选择 3.初始中心的选 4.只能发现球状簇
5.4 k means 算法的改进
针对(1)，对于离群点，我们可以去除离群点后再聚类，可以减少离群点和孤立点对于聚类效果的影响针对(2)，可以通过在一开始给定一个适合的聚类中心.对于得到的聚类中心，根据一次 k means 算法得到一次聚类中心.对于得到的聚类中心，根据得到的 k 个聚类的距离情况，合并距离最近的类，因此聚类中心数减少,当将其用于下次聚类时，相应的聚类数目也减少了，最终得到合适数目的聚类数，可以通过一个评价值E来确定聚类数得到一个合适的位置停下来，而不继续合并聚类中心。重复上述循环，直至评价函数收敛为止，最终得到较优聚类数的聚类结果.
5.5 k means 动态算法
为了克服 k meБайду номын сангаасns算法过于依赖聚类中心的初值选择，收敛域局部极值等缺点，我们提出一种动态 k means 算法。其基本思想是：定义一个适应度函数作为聚类中心的指标，通过不断调整聚类，直至每个中心的适应度函数这一指标达到均衡。该动态 k means算法能减少能减少对聚类中心初值的依赖，改善并减少陷入局部极值引起的死区中心和中心冗余等问题.
2
研究的目标与内容
研究内容
聚类的结果可能依赖于初始聚类中心的随机选择，可能使得结果严重偏离全局最优分类。在实践中为了得到较好的结果，通常以不同的初始聚类中心，多次运行 k means算法。在所有对象分配完成后，重新计算 k 个聚类中心时，对于连续数据聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无意义，可以使用 k 众数方法。
5.典型的空间聚类算法—
算法
空间聚类是一种空间数据划分或分组的重要方法 .它是将研究对象的空间距离指标按照相似性准则划分到若干个子集中 ,使得相同子集中各元素间差别最小 ,而不同子集中各元素间差别最大.通常的空间聚类算法是建立在各种距离基础上的, 如欧几里得距离、曼哈顿距离和明考斯距离等 .其中,最常用的是欧几里得距离：
3
研究的方法与思路
研究思路
针对(3)，对于初始聚类中心的选择的优化，可以概括为：选择批次距离尽可能远的k 个点.具体选择步骤如下：首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二类初始类簇中心点，然后选择距离前两个点的距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出 k 个初始类簇中心点. 针对(4)，只能获取球状簇的根本原因在于，距离度量的方式，目前并每一很好的解决该问题的方法，如果数据集中有不规则的数据，往往通过基于密度的聚类算法更加适合，比如DESCAN算法.
7.总结
本文在聚类分析的基础上，分析了均值聚类及其算法的优缺点，并通过实例进行分析，利用MATLAB，SPSS进行分析，深入了解了聚类的基本思想，理解并掌握了不同的聚类算法的适用性，为以后的学习奠定了基础.
8.参考文献
[1]杨善林,李永森,胡笑璇,等.算法中值优化问题研究[J].系统工程理论与实践,2006,26(2):91-101.
4. k
- means 聚类的提出
基本思想在20世纪50年代由提出，第一个可行的算法在1975年由提出.术语“ ”在1967年由使用.经过多年的发展，算法被认为是最经典的基于距离和基于划分的聚类方法，同时也是一个活跃的研究领域。 k means 的改进算法不断被提出来，以适应日益变化的数据分析要求，比较著名的有聚类，聚类等。
聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、加入法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等.
聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析.聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤.
实例论证
从表列数值可见，第一步，首先将距离最近（等于1）的17号、19号观测量合并为一类（首次出现阶群集列中，群集1=群集2=0），出现复聚类的下一阶段为第二步，因此，进行第二步合并，将18号样品并入类（首次出现阶群集列中，群集1=1，群集2=0），形成类，下一阶段的复聚类将出现在第八步；第三步中将距离最近（等于1）的12号，13号样品合并为一类（首次出现阶群集列中，根据将样品分成5类设定，表11.9中列出了使用最近相邻法的最后聚类结果： {1,2,3,4,5,6}、{7,8,9,10}、{11,12,13,14,15}、{16,17,18,19,20}，孤立点 21自成一类. ④聚类树形图，如下图所示聚类树形图直观地显示了聚类的过程，从图中可以清楚的看出各样品的归属.
1
研究的背景与意义
理论基础
2聚类分析 2.1定义
聚类是将数据划分成群组（簇）的过程，根据数据本身自然分布性质，数据变量之间存在的程度不同的相似性（亲疏关系），按照一定的准则将最相似的数据聚集成簇，聚类分析属于无监督学习的一种. ♦有监督的学习：由已知的结果信息来从数据中推导和验证数据中蕴含的某个能够导出结果的模型或规律. ♦无监督的学习：通常是从结果信息未知的数据中来推导蕴含的主要特征及规律.
5.3 k means 算法的性能分析
♦主要优点： 1．是解决聚类问题的一种经典算法，简单，快速. 2．对处理大数据集，该算法是相对可伸缩和高效率的. 3．时间复杂度接近线性，而且适合挖掘大规模数据集. 4．当结果是密集的，而簇与簇之间区别明显，它的效果较好. ♦主要缺点： 1．对于离群点和孤立点敏感.
i i
这里，E是所有研究对象的平方误差总和，P为空间的点，即数据对象，的平均值，按照这个准则生成的结果趋向于独立与紧凑,如图1所示
2
研究的目标与内容
研究内容
5.1 k means 算法过程
(1)从个样本数据中随机选取个对象作为初始的聚类中心； (2)分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚中； (3)所有对象分配完成后，重新计算个聚类的中心； (4)与前一次计算得到的聚类中心比较，如果聚类中心发生变化，转至第（2）步，否则转至第（4）步； (5)当质心不发生变化时停止并输出聚类结果。
j
j
j
4
预期的成果与安排
预期成果
5.5.2动态 k means 聚类算法的过程如下：
(1)给定数据聚类数，初始化初始聚类中心和权值（为常数）， (2)根据最小距离原则将每个数据样本分配给距离最近的中心区域，进行初始聚类； (3)根据*式计算每个中心的适应度 (4)在所有聚类中心中找出具有最大适应度和最小适应度值的的中心如果，则重新分配的区域中的数据样本；将满足的 c区 c 区域，不满足该条件的样本仍归属于中心 c 域数据样本分配给中心的
实例论证
聚类进度表，如表2
实例论证
表2
实例论证
聚类过程进度表列出聚类中观测量或者类合并顺序，本例中共有21个观测量，经20步聚类所有的观测量被合并为一类.
表中各项含义如下： ♦阶，即聚类过程中的步数。 ♦群集组合：即聚类合并，将群集1和群集2合并. ♦系数：距离测度系数. ♦首次出现阶群集：即首次出现聚类的阶段，群集1和群集2二者皆为零，表示两个样品的合并；其中一个为0，另一个不为零0表示样品与类的合并. ♦下一阶：表示下一步复聚类阶段的出现.
实例论证
实例论证
为了理解最近相邻聚类的过程，将变量的每一对数值，作为二位平面上的点的坐标，作出散点图，如下图所示，根据散点的分布情况，最终聚成类的情况，如下所示.
需要指出，使用不同的聚类方法会得出不同的分类结果，建议选用其他聚类方法将各种结果加以比较.对于不同的聚类结果，究竟哪一种分类比较好？一般来说，可以通过两种方法来判断，一是根据与分类问题本身有关的专业知识来决定取舍；或者将各种结果中的共性取出来，将有疑问的样品先放在一边待判，先将其余样品进行分类.最后选用最短距离法对待判的样品作特殊处理异决定它们的归属.