基于数据分组处理方法的聚类分析模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
足 c 0 ,则这个聚类是要找的最优的聚类方案。
当找不到 c 0 时怎么办?
2.新一致性准则:
假设集合A,B已分别聚为k类,偶极子总数为q,集 合AUB的偶极子总数为p,该列与子集的子集形成的类 的总数为r,则有:
M qp N kr
c M N
新准则 c M N 表示
需要拆分的偶极子的数目。
继续上述过程,直到将子集A和B聚成两个 类。
Step4:
找出所有准则值c 0 的聚类方案,它们
为最优聚类方案的候选方案。
2.4 运用检测集C和D找出一个唯一的最优 聚类方案
在检测集C和D上进行聚类,方法与在A,B集进
行的聚类过程相同,考察在A,B集上 c 0 的几
种聚类方案,看哪种聚类方案在检测集C,D上也满
除去k=9的情况外,在集合C,D上没有出现
一类个方案c提为供0补的充方信案息,,不一能致为性唯准一则确定c最失优效聚。
4)用新一致性准则 c 聚类:
在上述介绍的三种聚类方法中,系统聚类法和
分解聚类法有一个共同点,就是样品一旦被归到某 个类后就不再变了,这就要求分类的方法比较准确; 而且当样品个数较大时,相应的计算量过大。
而来自百度文库态聚类法可弥补它们的不足。
数据分组处理(GMDH)聚类分析
一、基本原理
与前面提到的通常的聚类方法相比,传统的聚类 方法中关于划分方法以及层次的方法这两个重要因素 需要依赖于建模人员的先验知识,因而较多的依赖于 建模人员的主观因素。
二、三种聚类方法
1、系统聚类
系统聚类法是聚类分析中用得较多的一种方法。 它通过建立、并逐步更新距离系数矩阵(或相似系 数矩阵),找出并合并最接近的两类,直到全部分类 对象被合并为一类为止。 据此合并过程,可以做出聚类图(或称分群图、谱 系图),并确定类的个数和最后聚成的各类。
以样本聚类为例,系统聚类法的工作步骤如下:
因为本文的方法是基于偶极子的聚
类,偶极子被拆分的数目越少,则聚类 结果越优。因此,基于偶极子定义的新
准则 c 的值越小,聚类方案越优。
实例研究
基于信息基础设施的国家(地区)聚类分析
按照信息基础设施的发展现状,对世界的20
个国家(地区进行聚类),信息基础设施的发展 状况的属性(变量)又六个,(1)CALL—每千人 拥有的电话线长度;(2)MOVECALL---每千户居 民蜂窝移动电话数;(3)FEE---高峰时期每三分钟 国际电话的成本;(4)COMPUTER---每千人拥有 的计算机数;(5)MIPS---每千人中计算机的功 率;(6)NET---每千人互联网络户主数。各国(地区) 信息基础设施的发展状况数据见下表:
① 计算全部n个样品两两间的距离{dij},并构成n维距 离系数矩阵D。
② 将每个样品作为一类,共构成n类。上述的n维矩阵 D即为类间的距离系数矩阵。
③ 由系数矩阵找出并合并距离最近的类为一新类,于 是总的类数将至少减1。记下参加合并的类的序号与距 离。
④ 若只剩下一类了,转至步骤⑤。否则计算新类与当前 其他各类的距离,调整系数矩阵D,然后返回步骤③。 ⑤ 根据步骤③中记录的序号和距离,画出聚类图。
客观聚类分析方法(OCA)能自动、客观地确定聚 类个数并找到最优聚类方案,通过算法步骤的剖析和 算例分析,对客观聚类分析方法的核心构建,即一致 性准则的不足进行评价,利用偶极子给出了新的一致 性准则,提出了数据分组处理(GMDH)聚类分析方法。
二、算法实现
2.2 基于偶极子的数据样本分组 从n个数据样本{x1,x2…,xn}可以得到 Cn2个
step1:将子集A和B分别聚为k类;
把产生子集A,B的全体k个偶极子按他们的值从小 到大的顺序进行编号,称该编号为这个偶极子的编号
或其中两个样本的编号。 Step2:将子集A和B分别聚成k-1类;
分别将子集A和B中距离最近的两个类聚为一类, 则子集A和B都被聚成k-1个类。
Step3:
重复step2,将子集A和B分别聚成k-2个类, 注意各子集中类与类之间的距离由两类中距离最 近的样本间的距离给出。此时集合AUB中仍有k 个列
2) 按子集A,B用一致性准则 c聚类
下表给出了各聚类方案中 c 的值,由表可知, 除去k=9的情况外,k=4,k=3和k=2时,都有 c 0 ,
哪个是最优方案呢?
3)按子集C,D用一致性准则 c聚类产生集合
C,D的偶极子为:
(12,11),(10,17),(3,5),(15,14),(18,13),(20,2),(19,8), (16.9),(7.6)
偶极子,2.1中dij为该偶极子的值。将它们由 小到大排列取前k=[n/2]个彼此没有共同样本 的偶极子,将这些偶极子的xi构成子集A,样 本xj构成子集B,这样使用偶极子将数据样本 集合平均分成两个子集A和B。
在产生A和B之后,按同样的方法从剩余 的偶极子可得到样本子集C和D作为检测集。
2.3 进行聚类
基于数据分组处理方法的聚类 分析模型
牛亚旭 信研1401 马超 信研1402
传统的聚类方法 数据分组处理聚类分析方法 实例分析
传统的聚类分析
一、概述
人类认识世界的一种重要方法就是将认识的对象 进行分类,分门别类的对事物进行研究,要远比在一 个混杂多变的集合中更清晰明了和细致。
通常,人们可以凭经验和专业知识来实现分类 ,而聚类分析作为一种定量方法,从数据分析的角 度,给出一个更准确更细致的分类工具。
⑥ 确定类的个数,最后得到所聚成的各类。
2、分解聚类法
分解聚类法是将类由少变多的聚类法。先把全部 个体当作一类,然后再分为两类,三类…,直到 所有的个体自成一类。
3、动态聚类法 动态聚类法是先将样品粗略地分一下类,然后再 按照某种原则进行修正,直至分类比较合理为止。 其过程如下图1所示。
图1 动态聚类框图
聚类步骤如下:
1)产生偶极子以及子集A和B
偶极子(12,10),(14,13),(9,8),(19, 3),(20,7),(6,4),(18,17),(16,15),(5,2)
样本子集A={12,14,9,19,20,6,18,16,5} 样本子集B={10,13,8,3,7,4,17,15,2}
当找不到 c 0 时怎么办?
2.新一致性准则:
假设集合A,B已分别聚为k类,偶极子总数为q,集 合AUB的偶极子总数为p,该列与子集的子集形成的类 的总数为r,则有:
M qp N kr
c M N
新准则 c M N 表示
需要拆分的偶极子的数目。
继续上述过程,直到将子集A和B聚成两个 类。
Step4:
找出所有准则值c 0 的聚类方案,它们
为最优聚类方案的候选方案。
2.4 运用检测集C和D找出一个唯一的最优 聚类方案
在检测集C和D上进行聚类,方法与在A,B集进
行的聚类过程相同,考察在A,B集上 c 0 的几
种聚类方案,看哪种聚类方案在检测集C,D上也满
除去k=9的情况外,在集合C,D上没有出现
一类个方案c提为供0补的充方信案息,,不一能致为性唯准一则确定c最失优效聚。
4)用新一致性准则 c 聚类:
在上述介绍的三种聚类方法中,系统聚类法和
分解聚类法有一个共同点,就是样品一旦被归到某 个类后就不再变了,这就要求分类的方法比较准确; 而且当样品个数较大时,相应的计算量过大。
而来自百度文库态聚类法可弥补它们的不足。
数据分组处理(GMDH)聚类分析
一、基本原理
与前面提到的通常的聚类方法相比,传统的聚类 方法中关于划分方法以及层次的方法这两个重要因素 需要依赖于建模人员的先验知识,因而较多的依赖于 建模人员的主观因素。
二、三种聚类方法
1、系统聚类
系统聚类法是聚类分析中用得较多的一种方法。 它通过建立、并逐步更新距离系数矩阵(或相似系 数矩阵),找出并合并最接近的两类,直到全部分类 对象被合并为一类为止。 据此合并过程,可以做出聚类图(或称分群图、谱 系图),并确定类的个数和最后聚成的各类。
以样本聚类为例,系统聚类法的工作步骤如下:
因为本文的方法是基于偶极子的聚
类,偶极子被拆分的数目越少,则聚类 结果越优。因此,基于偶极子定义的新
准则 c 的值越小,聚类方案越优。
实例研究
基于信息基础设施的国家(地区)聚类分析
按照信息基础设施的发展现状,对世界的20
个国家(地区进行聚类),信息基础设施的发展 状况的属性(变量)又六个,(1)CALL—每千人 拥有的电话线长度;(2)MOVECALL---每千户居 民蜂窝移动电话数;(3)FEE---高峰时期每三分钟 国际电话的成本;(4)COMPUTER---每千人拥有 的计算机数;(5)MIPS---每千人中计算机的功 率;(6)NET---每千人互联网络户主数。各国(地区) 信息基础设施的发展状况数据见下表:
① 计算全部n个样品两两间的距离{dij},并构成n维距 离系数矩阵D。
② 将每个样品作为一类,共构成n类。上述的n维矩阵 D即为类间的距离系数矩阵。
③ 由系数矩阵找出并合并距离最近的类为一新类,于 是总的类数将至少减1。记下参加合并的类的序号与距 离。
④ 若只剩下一类了,转至步骤⑤。否则计算新类与当前 其他各类的距离,调整系数矩阵D,然后返回步骤③。 ⑤ 根据步骤③中记录的序号和距离,画出聚类图。
客观聚类分析方法(OCA)能自动、客观地确定聚 类个数并找到最优聚类方案,通过算法步骤的剖析和 算例分析,对客观聚类分析方法的核心构建,即一致 性准则的不足进行评价,利用偶极子给出了新的一致 性准则,提出了数据分组处理(GMDH)聚类分析方法。
二、算法实现
2.2 基于偶极子的数据样本分组 从n个数据样本{x1,x2…,xn}可以得到 Cn2个
step1:将子集A和B分别聚为k类;
把产生子集A,B的全体k个偶极子按他们的值从小 到大的顺序进行编号,称该编号为这个偶极子的编号
或其中两个样本的编号。 Step2:将子集A和B分别聚成k-1类;
分别将子集A和B中距离最近的两个类聚为一类, 则子集A和B都被聚成k-1个类。
Step3:
重复step2,将子集A和B分别聚成k-2个类, 注意各子集中类与类之间的距离由两类中距离最 近的样本间的距离给出。此时集合AUB中仍有k 个列
2) 按子集A,B用一致性准则 c聚类
下表给出了各聚类方案中 c 的值,由表可知, 除去k=9的情况外,k=4,k=3和k=2时,都有 c 0 ,
哪个是最优方案呢?
3)按子集C,D用一致性准则 c聚类产生集合
C,D的偶极子为:
(12,11),(10,17),(3,5),(15,14),(18,13),(20,2),(19,8), (16.9),(7.6)
偶极子,2.1中dij为该偶极子的值。将它们由 小到大排列取前k=[n/2]个彼此没有共同样本 的偶极子,将这些偶极子的xi构成子集A,样 本xj构成子集B,这样使用偶极子将数据样本 集合平均分成两个子集A和B。
在产生A和B之后,按同样的方法从剩余 的偶极子可得到样本子集C和D作为检测集。
2.3 进行聚类
基于数据分组处理方法的聚类 分析模型
牛亚旭 信研1401 马超 信研1402
传统的聚类方法 数据分组处理聚类分析方法 实例分析
传统的聚类分析
一、概述
人类认识世界的一种重要方法就是将认识的对象 进行分类,分门别类的对事物进行研究,要远比在一 个混杂多变的集合中更清晰明了和细致。
通常,人们可以凭经验和专业知识来实现分类 ,而聚类分析作为一种定量方法,从数据分析的角 度,给出一个更准确更细致的分类工具。
⑥ 确定类的个数,最后得到所聚成的各类。
2、分解聚类法
分解聚类法是将类由少变多的聚类法。先把全部 个体当作一类,然后再分为两类,三类…,直到 所有的个体自成一类。
3、动态聚类法 动态聚类法是先将样品粗略地分一下类,然后再 按照某种原则进行修正,直至分类比较合理为止。 其过程如下图1所示。
图1 动态聚类框图
聚类步骤如下:
1)产生偶极子以及子集A和B
偶极子(12,10),(14,13),(9,8),(19, 3),(20,7),(6,4),(18,17),(16,15),(5,2)
样本子集A={12,14,9,19,20,6,18,16,5} 样本子集B={10,13,8,3,7,4,17,15,2}