基于数据分组处理方法的聚类分析模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据分组处理方法的聚类 分析模型
牛亚旭 信研1401 马超 信研1402
传统的聚类方法 数据分组处理聚类分析方法 实例分析
传统的聚类分析 一、概述
人类认识世界的一种重要方法就是将认识的对象 进行分类,分门别类的对事物进行研究,要远比在一 个混杂多变的集合中更清晰明了和细致。
通常,人们可以凭经验和专业知识来实现分类 ,而聚类分析作为一种定量方法,从数据分析的角 度,给出一个更准确更细致的分类工具。
4)用新一致性准则 c 聚类:
重复2)3)两步,但用新一致性准则,结 果如下表,在集合A,B上得到三种最优候选聚类 方法:k=4,k=3,k=2,利用聚合C,D进行检测,k=4时, c =2,k=2时, c =3;k=3时, c =1,k=2时c 的值最小,因此最优的聚类方案分两类
第一类:{10,12,13,14,15,16,17,18,11},即巴西,墨西 哥,俄罗斯,波兰,匈牙利,马来西亚,泰国,智利和 印度。这一类转型的国家和亚洲以及拉美的发展中国家, 这些国家经济较不发达,基础设施较薄弱,基于信息基 础设施较落后的国家。
3、动态聚类法 动态聚类法是先将样品粗略地分一下类,然后再 按照某种原则进行修正,直至分类比较合理为止。 其过程如下图1所示。
图1 动态聚类框图
在上述介绍的三种聚类方法中,系统聚类法和 分解聚类法有一个共同点,就是样品一旦被归到某 个类后就不再变了,这就要求分类的方法比较准确; 而且当样品个数较大时,相应的计算量过大。 而动态聚类法可弥补它们的不足。
在检测集C和D上进行聚类,方法与在A,B集进 行的聚类过程相同,考察在A,B集上 c 0 的几 种聚类方案,看哪种聚类方案在检测集C,D上也满 足 c 0 ,则这个聚类是要找的最优的聚类方案。
当找不到 c 0 时怎么办?
2.新一致性准则:
假设集合A,B已分别聚为k类,偶极子总数为q,集 合AUB的偶极子总数为p,该列与子集的子集形成的类 的总数为r,则有:
重复step2,将子集A和B分别聚成k-2个类, 注意各子集中类与类之间的距离由两类中距离最 近的样本间的距离给出。此时集合AUB中仍有k 个列 继续上述过程,直到将子集A和B聚成两个 类。
Step4:
找出所有准则值c 0 的聚类方案,它们 为最优聚类方案的候选方案。
2.4 运用检测集C和D找出一个唯一的最优 聚类方案
二、三种聚类方法
1、系统聚类 系统聚类法是聚类分析中用得较多的一种方法。 它通过建立、并逐步更新距离系数矩阵(或相似系 数矩阵),找出并合并最接近的两类,直到全部分类 对象被合并为一类为止。 据此合并过程,可以做出聚类图(或称分群图、谱 系图),并确定类的个数和最后聚成的各类。
以样本聚类为例,系统聚类法的工作步骤如下: ① 计算全部n个样品两两间的距离{dij},并构成n维距 离系数矩阵D。 ② 将每个样品作为一类,共构成n类。上述的n维矩阵 D即为类间的距离系数矩阵。 ③ 由系数矩阵找出并合并距离最近的类为一新类,于 是总的类数将至少减1。记下参加合并的类的序号与距 离。
按照信息基础设施的发展现状,对世界的20 个国家(地区进行聚类),信息基础设施的发展 状况的属性(变量)又六个,(1)CALL—每千人 拥有的电话线长度;(2)MOVECALL---每千户居 民蜂窝移动电话数;(3)FEE---高峰时期每三分钟 国际电话的成本;(4)COMPUTER---每千人拥有 的计算机数;(5)MIPS---每千人中计算机的功 率;(6)NET---每千人互联网络户主数。各国(地区) 信息基础设施的发展状况数据见下表:
数据分组处理(GMDH)聚类分析 一、基本原理
与前面提到的通常的聚类方法相比,传统的聚类 方法中关于划分方法以及层次的方法这两个重要因素 需要依赖于建模人员的先验知识,因而较多的依赖于 建模人员的主观因素。 客观聚类分析方法(OCA)能自动、客观地确定聚 类个数并找到最优聚类方案,通过算法步骤的剖析和 算例分析,对客观聚类分析方法的核心构建,即一致 性准则的不足进行评价,利用偶极子给出了新的一致 性准则,提出了数据分组处理(GMDH)聚类分析方法。
2.3 进行聚类 step1:将子集A和B分别聚为k类;
把产生子集A,B的全体k个偶极子按他们的值从小 到大的顺序进行编号,称该编号为这个偶极子的编号 或其中两个样本的编号。
Step2:将子集A和B分别聚成k-1类;
分别将子集A和B中距离最近的两个类聚为一类, 则子集A和B都被聚成k-1个类。
Step3:
聚类步骤如下:
1)产生偶极子以及子集A和B
偶极子(12,10),(14,13),(9,8),(19, 3),(20,7),(6,4),(18,17),(16,15),(5,2) 样本子集A={12,14,9,19,20,6,18,16,5} 样本子集B={10,13,8,3,7,4,17,15,2}
第二类: {8,9,3,19,20,7,6,4,5,2,1},即 中国台湾,韩国,德国,法 国,英国,新加坡,丹麦, 瑞典,瑞士,日本和美国。 它们属于基础设施发达的国 家或地区。
结论
与通常的聚类方法相比,OCA能自动,客观地确 定聚类个数并找到最优聚类方案,然而,当一致性准 则不能解决问题时,我们运用偶极子的概念,提出了 新一致性准则。基于新一致性准则的GCA方法扩大了 可聚类对象的适用范围。
M q p N k r
c M N
新准则 c M N 表示 需要拆分的偶极子的数目。
因为本文的方法是基于偶极子的聚 类,偶极子被拆分的数目越少,则聚类 结果越优。因此,基于偶极子定义的新 准则 的值越小,聚类方案越优。
c
实例研究 基于信息基础设施的国家(地区)聚类分析Biblioteka Baidu
2) 按子集A,B用一致性准则 c 聚类
下表给出了各聚类方案中 c 的值,由表可知, 除去k=9的情况外,k=4,k=3和k=2时,都有 c 0 , 哪个是最优方案呢?
3)按子集C,D用一致性准则 c 聚类产生集合
C,D的偶极子为:
(12,11),(10,17),(3,5),(15,14),(18,13),(20,2),(19,8), (16.9),(7.6) 除去k=9的情况外,在集合C,D上没有出现 一个c 为0的方案,不能为唯一确定最优聚 类方案提供补充信息,一致性准则 c失效。
二、算法实现
2.2 基于偶极子的数据样本分组 2 C 从n个数据样本{x1,x2…,xn}可以得到 n个 偶极子,2.1中dij为该偶极子的值。将它们由 小到大排列取前k=[n/2]个彼此没有共同样本 的偶极子,将这些偶极子的xi构成子集A,样 本xj构成子集B,这样使用偶极子将数据样本 集合平均分成两个子集A和B。 在产生A和B之后,按同样的方法从剩余 的偶极子可得到样本子集C和D作为检测集。
④ 若只剩下一类了,转至步骤⑤。否则计算新类与当前 其他各类的距离,调整系数矩阵D,然后返回步骤③。
⑤ 根据步骤③中记录的序号和距离,画出聚类图。 ⑥ 确定类的个数,最后得到所聚成的各类。
2、分解聚类法 分解聚类法是将类由少变多的聚类法。先把全部 个体当作一类,然后再分为两类,三类…,直到 所有的个体自成一类。
相关文档
最新文档