模糊聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
1引言: (3)
2 理论准备: (3)
2.1 模糊集合理论 (3)
2.2模糊C均值聚类(FCM) (4)
2.3 加权模糊C均值聚类(WFCM) (4)
3 聚类分析实例 (5)
3.1数据准备 (5)
3.1.1数据表示 (5)
3.1.2数据预处理 (5)
3.1.3 确定聚类个数 (6)
3.2 借助clementine软件进行K-means聚类 (7)
3.2.1 样本在各类中集中程度 (8)
3.2.2 原始数据的分类结果 (8)
3.2.3结果分析 (9)
3.3模糊C均值聚类 (10)
3.3.1 数据集的模糊C划分 (10)
3.3.2 模糊C均值聚类的目标函数求解方法 (10)
3.3.3 MATLAB软件辅助求解参数设置 (11)
3.3.4符号表示 (11)
3.3.5代码实现过程 (11)
3.3.6 FCM聚类分析 (11)
3.4 WFCM算法 (14)
3.4.1 WFCM聚类结果展示 (14)
3.4.2样本归类 (16)
3.4.3归类代码实现 (16)
4.结论 (17)
5 参考文献 (18)
6 附录 (18)
模糊聚类与非模糊聚类比较分析
摘要:
聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。
关键字:模糊集合,K-means聚类,FCM聚类,WFCM聚类
1引言:
聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。
本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。
2理论准备:
2.1 模糊集合理论
模糊集合定义:设U为论域,则称由如下实值函数μA:U→ [ 0,1 ],u →μ
( u )所确定的集合A 为U上的模糊集合,而称μA为模糊集合A 的隶A
属函数,μ A ( u)称为元素u 对于A 的隶属度。若μA(u) =1,则认为u完全属于A;若μA(u) =0,则认为u完全不属于A,模糊集合是经典集合的推广。
2.2模糊C 均值聚类(FCM)
预先给定类别数c ,把含有n 个样本的数据集分成c 个模糊类,用每个类的类别中心 V j 代表该类,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,聚类完成。
目标函数:
()211min ,c n m FCM i j J U P ij ij d μ===∑∑(1)
约束条件:
i 11c ij μ==∑
(2) μij ∈ 0,1 ,∀i,j 2.3 加权模糊C 均值聚类(WFCM)
算法过程与FCM 类似,只是目标函数不同,WFCM 算法考虑了各样本点对分类的重要性,在FCM 算法中加入了权值p i ,p i 称为样本点的密度,本文中p i 采用径向基函数方法来确定,当样本点x 远离类中心x c 时函数取值很小,此时该样本点对分类的重要性比较小。最常用的径向基函数是高斯核函数 ,形式为
()(){}exp ^2/2*^2c c k x x x x σ-=-- (3)
目标函数:
()211
min ,c n m FCM i j J U P ij i ij p d μ===∑∑ (4) 约束条件: μij ∈ 0,1 ,∀ i ,j ,11c ij i μ==∑ (5)
3 聚类分析实例
3.1数据准备
3.1.1数据表示
本文采用数据是上市公司2000-2003年共4年132支股票31个变量的数据进行聚类分析,表1是各变量所代表的含义。
表1 数据表示
3.1.2数据预处理
为了排除各因素变量的单位不同以及数量级间的悬殊差别带来的影响,尽可能的反映实际情况,需要对数据进行无量纲化处理。常用的处理方法有:标准化处理方法和极值处理方法。以下均采用“标准化”处理法。即取
ij j
ij j x x x s *
-= (6)
(i =1,2,...,528;j =1,2, (31)
其中x ij∗为标准观测值,其平均值和均方差分别为0和1。式中x j(j=1,2···31)为第j项指标原始观测值的平均值,s j(j=1,2,···,31)为第j项指标原始观测值的均方差。
3.1.3 确定聚类个数
如前文所述,聚类分析是无监督分类,分类之前并不知道聚多少类是合适的,所以为了保证分类的合理性,首先借助SPSS软件对数据进行系统聚类以确定合理的分类数。谱系聚类图结果显示如下,我们初步选择在距离为5处截取,确定合理聚类数为11类。
图1 系统聚类谱系图