层次聚类算法应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
安徽三联学院题目:层次聚类算法应用
姓名张翔
专业计算机科学与技术
班级计一系本科2班
指导教师张林
完成日期:2011年11 月16 日
摘要
本文围绕层次聚类分析算法展开研究.首先根据样本间的相似性关系定义分类后类与类间的分离性,以及同一个类别内部的一致性,并进行计算,从而使得计算过程得到简化.利用层次聚类算法实现分层聚类.在基于电价区域划分的实际问题中,这里结合人类视觉感知理论,提出了获取最优聚类的条件,从而实现了最佳的分类.
本文的主要研究工作如下:
第一章:说明了层次聚类分析的定义及研究方法,对层次聚类分析方法的有效性做出了细致的研究,并提出了基于相似矩阵的有效性函数.第二章:将层次聚类分析方法应用在电价区域的空间尺度划分问题中,进而实现了电价区域的划分.
关键词层次聚类分析;有效性;空间尺度
第1章绪论
目录
摘要 (2)
目录 ........................... 错误!未定义书签。第1章层次聚类分析算法及其研究 (2)
1.1 层次聚类分析算法 (2)
1.2 层次聚类分析算法的有效性研究 (2)
1.3 本章小结 (5)
第2章层次聚类算法的应用 (6)
2.1 多机系统分析意义 (6)
2.2 节点电价的特征类提取 (6)
2.3 基于尺度空间聚类的电价区域划分 (8)
2.4 本章小结 (13)
结论 (14)
安徽三联学院
第1章 层次聚类分析算法及其研究
1.1 层次聚类分析算法
层次聚类算法[1],也称为树聚类算法,它的目标是对于具有n 个样本的集合d n R X ⨯∈,首先通过相似性函数计算样本间的相似性并构成相似性矩阵n n ij r R ⨯=)(,再根据样本间的相似性矩阵把样本集组成一个分层结构,产生一个从1到n 的聚类序列.这个序列有着二叉树的形式,即每个树的结点有两个分支,从而使得聚类结果构成样本集X 的系统树图12,,,q H H H H , n q ≤使得
j j H C ∈1,l m q 且有j i C C ⊂或φ=⋂j i C C 对所有的i j ≠都成立.从系统树图形成的方式来看,层次聚类算法包括2种形式:凝聚式算法和分裂式算法.凝聚式算法是以“自底向上”的方式进行的.首先将每个样本作为一个聚类,然后合并相似性最大的聚类为一个大的聚类,直到所有的聚类都被融合成一个大的聚类.它以n 个聚类开始,以1个聚类结束,分裂式算法是以一种“自顶向下”的方式进行的.一开始它将整个样本看做一个大的聚类,然后,在算法进行的过程中考察所有可能的分裂方法把整个聚类分成若干个小的聚类.第1步分成2类,第2步分成3类,这样一直能够进行下去直到最后一步分成n 类.在每一步中选择一个使得相异程度最小的分裂.运用这种方法,可以得到一个相反结构的系统树图,它以1个聚类开始,以n 个聚类结束.与分裂式算法相比,由于凝聚式算法在计算上简单、快捷,而且得到相近的最终结果,所以绝大多数层次聚类方法都是凝聚式的,它们只是在聚类的相似性度量的定义上有所不同.
层次聚类算法是一个非常有用的聚类算法,它在迭代的过程中直到所有的数据都属于同一个簇才停止迭代,但是层次聚类也存在几个缺点,如聚类的时空复杂度[4]高、聚类的簇效率底、误差较大等.
1.2 层次聚类分析算法的有效性研究
针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的
第2章 层次聚类分析算法及其研究
聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个聚类的有效性函数.在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能.
层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛[5].虽然该类算法把数据集的多种分类结果都展现了出来,但是从算法所得到的各类分类结果中获得用户最满意的分类情况却成了一个问题.根据模糊集理论[6],系统树结构的每一层是由阈值决定的.因此,最优聚类结果的选取问题就是最优阈值的选取问题.对于最优阈值的选取问题,使用F 统计量是研究者们比较认可的方法.当然随着模糊数学研究的深入,近几年来也有新的解决方法,Nasibov 和Ulutagay 提出了一个对于噪声更为稳定的FJP(fuzzy joint points)算法.该算法的基本思想是根据样本点与样本点之间的距离计算模糊关系矩阵,对于某一]1,0(∈α,建立-α截集和等价类.此时,这些-α等价类决定了模糊聚类的每个-α截集.但并非对每个]1,0(∈α都计算-α截集,而是只计算影响聚类个数α的对应的-α截集.最终的截集是由α取值区间上的最大值确定的.FJP 算法已被证明能成功检测团装数据集及流形状数据集,即使添加噪声点后FJP 算法也能成功识别流形状数据集.如何衡量一个聚类结果的好坏,以及如何确定最优聚类个数,这些都是聚类有效性问题.关于模糊C 均值算法聚类有效性问题的研究也已经有了很丰硕的成果,从1974年开始研究者们提出了许多有效性函数.这些有效性函数构建聚类有效性指标的定义应当是客观的.通常情况下,刻画聚类有效性有2个标准:类内致密性和类间分离性.F 统计量也是从类内致密性和类间分离性2个方面考虑的.对于层次聚类算法的有效性研究,很多研究者还试图从模糊数学理论着手.范九伦和吴成茂对基于模糊集合定义的若干公式在聚类有效性方面的性质进行了讨论,并对分类性能进行实验,筛选出2有应用价值的公式.这里通过样本间的相似性关系定义类与类间的分离性以及同一个类别内部的一致性,从而使得计算过程得到简化.
1.2.1 有效性函数的定义
字典上将类定义为许多相似或同事物的综合.这个定义包含2层含义:第1
安徽三联学院
层,在同一个类内的样本相互之间具有相似或相同的属性,也就是说,聚类的致密性度量的值应该是极小化的,否则,如果属性不同的样本被划分到同一个类内,那么这个类的类内致密性度量的值就会较大;第2层是好的聚类的各个类别间的分离性[7]应该是很好的,如果本应属于同一个类的样本被分到不同类别内,那么类与类之间的重叠就会较大,也就是说,一个好的聚类结果得到的类别之间具有较大的离散性.本文将通过样本间的相似性度量给出类内致密性度量和类间离散性[7]度量的定义.
设样本集X 通过某相似性度量得到的相似性矩阵为n n R ⨯,其通过凝聚式层次聚类算法得到的系统树图为12,,n H H H H .对于此系统树图中的任何一层
k H ,设其中包含c 个聚类,每个聚类中含有i n 个样本,1,2,i c .本文将所有样本间的相似性的算术平均值叫做样本集的平均相似性向量r ,即∑==n
i i R n r 1
1.对于一个类,这里把类内所有样本间相似性的算术平均值叫做类内平均相似性向量)(i r .
类是具有相似属性样本的集合,同一类内样本相互间的相似性差异相对较小.也就是说,每个样本与其他样本的相似性与类内平均相似性向量就会相对小.于是有下面的定义:
定义1 (类内致密性度量) 设k H 是样本集X 的层次聚类系统树图中某一层,并设其中包含c 个聚类12,,
,c C C C 每个聚类i C 中含有i n 个样本,1,2,i c .样本集X 的聚类结果的类内致密性度量定义为:
21
)(1||||1∑∑==-=i n j j j c i i in r R n R (2-1)
若要类与类间的分离性较好,各类的平均相似性向量与样本集平均相似性向量的差异必然要大.由此本文通过类内平均相似性向量与样本集平均相似性向量的距离来定义类间离散性度量.
定义2 (类间离散性度量) 设k H 是样本集X 的层次聚类系统树图中某一层,并设其中包含c 个聚类12,,,c C C C ,每个聚类i C 中含有i n 个样本,1,2,i c 样本集X 的这种聚类结果的类间离散性度量定义为: