基于数据分组处理方法的聚类分析模型报告

合集下载

相关主题

聚类分析实验报告

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、三种聚类方法
1、系统聚类系统聚类法是聚类分析中用得较多的一种方法。它通过建立、并逐步更新距离系数矩阵（或相似系数矩阵），找出并合并最接近的两类，直到全部分类对象被合并为一类为止。据此合并过程，可以做出聚类图（或称分群图、谱系图），并确定类的个数和最后聚成的各类。
以样本聚类为例，系统聚类法的工作步骤如下： ① 计算全部n个样品两两间的距离{dij}，并构成n维距离系数矩阵D。 ② 将每个样品作为一类，共构成n类。上述的n维矩阵 D即为类间的距离系数矩阵。 ③ 由系数矩阵找出并合并距离最近的类为一新类，于是总的类数将至少减1。记下参加合并的类的序号与距离。
2) 按子集A,B用一致性准则 c 聚类
下表给出了各聚类方案中 c 的值，由表可知，除去k=9的情况外，k=4,k=3和k=2时，都有 c 0 ，哪个是最优方案呢？
3）按子集C,D用一致性准则 c 聚类产生集合
C,D的偶极子为：
(12,11),(10,17),(3,5),(15,14),(18,13),(20,2),(19,8), (16.9),(7.6) 除去k=9的情况外，在集合C,D上没有出现一个c 为0的方案，不能为唯一确定最优聚类方案提供补充信息，一致性准则 c失效。
第二类： {8,9,3,19,20,7,6,4,5,2,1}，即中国台湾，韩国，德国，法国，英国，新加坡，丹麦，瑞典，瑞士，日本和美国。它们属于基础设施发达的国家或地区。
结论
与通常的聚类方法相比，OCA能自动，客观地确定聚类个数并找到最优聚类方案，然而，当一致性准则不能解决问题时，我们运用偶极子的概念，提出了新一致性准则。基于新一致性准则的GCA方法扩大了可聚类对象的适用范围。
2.3 进行聚类 step1：将子集A和B分别聚为k类；
把产生子集A,B的全体k个偶极子按他们的值从小到大的顺序进行编号，称该编号为这个偶极子的编号或其中两个样本的编号。
Step2：将子集A和B分别聚成k-1类；
分别将子集A和B中距离最近的两个类聚为一类，则子集A和B都被聚成k-1个类。
Step3：
在检测集C和D上进行聚类，方法与在A,B集进行的聚类过程相同，考察在A,B集上 c 0 的几种聚类方案，看哪种聚类方案在检测集C,D上也满足 c 0 ，则这个聚类是要找的最优的聚类方案。
当找不到 c 0 时怎么办？
2.新一致性准则：
假设集合A,B已分别聚为k类，偶极子总数为q，集合AUB的偶极子总数为p，该列与子集的子集形成的类的总数为r，则有：
3、动态聚类法动态聚类法是先将样品粗略地分一下类，然后再按照某种原则进行修正，直至分类比较合理为止。其过程如下图1所示。
图1 动态聚类框图
在上述介绍的三种聚类方法中，系统聚类法和分解聚类法有一个共同点，就是样品一旦被归到某个类后就不再变了，这就要求分类的方法比较准确；而且当样品个数较大时，相应的计算量过大。而动态聚类法可弥补它们的不足。
M q p N k r
c M N
新准则 c M N 表示需要拆分的偶极子的数目。
因为本文的方法是基于偶极子的聚类，偶极子被拆分的数目越少，则聚类结果越优。因此，基于偶极子定义的新准则的值越小，聚类方案越优。
c
实例研究基于信息基础设施的国家（地区）聚类分析
二、算法实现
2.2 基于偶极子的数据样本分组 2 C 从n个数据样本{x1,x2…,xn}可以得到 n个偶极子，2.1中dij为该偶极子的值。将它们由小到大排列取前k=[n/2]个彼此没有共同样本的偶极子，将这些偶极子的xi构成子集A，样本xj构成子集B，这样使用偶极子将数据样本集合平均分成两个子集A和B。在产生A和B之后，按同样的方法从剩余的偶极子可得到样本子集C和D作为检测集。
百度文库
数据分组处理（GMDH）聚类分析一、基本原理
与前面提到的通常的聚类方法相比，传统的聚类方法中关于划分方法以及层次的方法这两个重要因素需要依赖于建模人员的先验知识，因而较多的依赖于建模人员的主观因素。客观聚类分析方法（OCA）能自动、客观地确定聚类个数并找到最优聚类方案，通过算法步骤的剖析和算例分析，对客观聚类分析方法的核心构建，即一致性准则的不足进行评价，利用偶极子给出了新的一致性准则，提出了数据分组处理（GMDH）聚类分析方法。
聚类步骤如下：
1）产生偶极子以及子集A和B
偶极子(12，10),(14，13),(9，8),(19， 3),(20，7),(6，4),(18，17),(16，15),(5，2) 样本子集A={12,14,9,19,20,6,18,16,5} 样本子集B={10,13,8,3,7,4,17,15,2}
4）用新一致性准则 c 聚类：
重复2）3）两步，但用新一致性准则，结果如下表，在集合A,B上得到三种最优候选聚类方法：k=4,k=3,k=2,利用聚合C,D进行检测，k=4时， c =2，k=2时， c =3；k=3时， c =1，k=2时c 的值最小，因此最优的聚类方案分两类
第一类：{10,12,13,14,15,16,17,18,11},即巴西，墨西哥，俄罗斯，波兰，匈牙利，马来西亚，泰国，智利和印度。这一类转型的国家和亚洲以及拉美的发展中国家，这些国家经济较不发达，基础设施较薄弱，基于信息基础设施较落后的国家。
④ 若只剩下一类了，转至步骤⑤。否则计算新类与当前其他各类的距离，调整系数矩阵D，然后返回步骤③。
⑤ 根据步骤③中记录的序号和距离，画出聚类图。 ⑥ 确定类的个数，最后得到所聚成的各类。
2、分解聚类法分解聚类法是将类由少变多的聚类法。先把全部个体当作一类，然后再分为两类，三类…，直到所有的个体自成一类。
基于数据分组处理方法的聚类分析模型
牛亚旭信研1401 马超信研1402
传统的聚类方法数据分组处理聚类分析方法实例分析
传统的聚类分析一、概述
人类认识世界的一种重要方法就是将认识的对象进行分类，分门别类的对事物进行研究，要远比在一个混杂多变的集合中更清晰明了和细致。
通常，人们可以凭经验和专业知识来实现分类，而聚类分析作为一种定量方法，从数据分析的角度，给出一个更准确更细致的分类工具。
按照信息基础设施的发展现状，对世界的20 个国家（地区进行聚类），信息基础设施的发展状况的属性（变量）又六个，（1）CALL—每千人拥有的电话线长度；（2）MOVECALL---每千户居民蜂窝移动电话数；（3）FEE---高峰时期每三分钟国际电话的成本；（4）COMPUTER---每千人拥有的计算机数；（5）MIPS---每千人中计算机的功率;(6)NET---每千人互联网络户主数。各国（地区）信息基础设施的发展状况数据见下表：
重复step2，将子集A和B分别聚成k-2个类，注意各子集中类与类之间的距离由两类中距离最近的样本间的距离给出。此时集合AUB中仍有k 个列继续上述过程，直到将子集A和B聚成两个类。
Step4：
找出所有准则值c 0 的聚类方案，它们为最优聚类方案的候选方案。
2.4 运用检测集C和D找出一个唯一的最优聚类方案