数据分析课程设计论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于K-均值的Iris数据聚类分析

姓名谢稳

学号 **********

班级信科 14-1

成绩 _________________

基于K-均值的Iris数据聚类分析

姓名: 谢稳

信息与计算科学14-1班

摘要数据挖掘在当今大数据新起的时代是一项必须掌握的技能,聚类分析是数据挖掘技术中一项重要的研究课题,在很多领域都有具有广泛的应用,如模式识别、数据分析等。聚类分析的目的是将数据对象分成若干个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象之间相似度较低[5]。通过聚类分析,人们能够识别出数据分布密集和稀疏的区域,发现全局的分布模式以及数据属性之间一些意想不到的相互关系。本文对R.A.Fisher 在1936 年发表的Iris 数据进行数据挖掘,使用聚类分析中的K-Means对该问题进行进一步分析研究。实验证明两种方法都是适合的解决此类问题的。

关键词Iris数据;聚类分析;K-均值聚类.

0前言

本文对聚类分析的原理进行阐述,并聚类分析中的谱系聚类法和K-means对R.A.Fisher 的Iris 数据进行了数据分析,得到了几乎相同的结论,数据量太少,回带误差大约是20%。

1数据分析预处理

1.1 数据来源

分析的数据来自R.A.Fisher 在1936 年发表的Iris 数据(见附录B表B.1),据表可知前50个数据为牵牛一类,再50个数据为杂色一类,后50个数据为锦葵一类。将数据样本X变量放入matlab变量名X,,保存为matlab的huaban.mat文件。

1.2 数据分析

采用谱系聚类分析方法和K-means聚类法解决例如Iris类的分类等问题。

2聚类分析

2.1聚类的概述

聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法;聚类分析把分类对象按一定规则分成若干类,这些类非事先指定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似;职能是建立一种能按照样品或变量的相似程度进行分类的方法。聚类准则为“亲者相聚,疏者相分”。

2.2 分类

2.2.1 R型聚类分析

R型聚类分析是对变量(指标)的分类,其主要作用:不但可以了解个别变量之间的亲疏

程度,而且可以了解各个变量组合之间的亲疏程度。

2.2.2 Q 型聚类分析

Q 型聚类分析是对样品的分类,其主要作用:可以综合利用多个变量的信息对样本进行分析;分类结果直观,聚类谱系图清楚地表现数值分类结果;所得结果比传统分类方法更细致、全面、合理。其常用的统计量是距离。常用的聚类方法为谱系聚类法等。

2.3谱系聚类法 2.

3.1概念

谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。

2.3.2 选择距离(参考文献[1] p209页)

在使用系统聚类法进行聚类的过程中, 尤其是Q 型聚类是建立在样品之间距离矩阵的基础上的,通常需要对原始数据进行参考点的建立和去量纲化的处理,然后求出样 品距离矩阵D ,我们采用比较广泛的闵可夫斯基(Minkowski )距离:

1

1d (|x -x |)

p m

p

ij ik jk k ==∑

当p=2时

12

1

d (|x -x |)

p m

ij ik jk k ==∑

即为欧几里得CEuclidean )距离。

然后进行类的搜索、合并于距离矩阵的 更新涉及类间距离的计算,需要事先计算类 与类之间的距离。依据类问距离不同的计算 方法,我们可以把系统聚类法分为最短距离 法、最长距离法、重心法、离差平方和法(ward )等。

设Gp ,Gq 为前一轮操作中形成的某两个聚类,在本轮操作中归聚为新类

Gr =Gp ⋃Gq 则新类Gr 与前一轮操作中形成吨,Gq 之外的任意一类 G ,的距离递推公式如下:

最短距离法

,d min(),rl pl dql d = 其中l ≠ p,q.

最长距离法

,d min(),rl pl dql d = 其中l ≠ p,q.

中间距离法

2222lq pq 11d +,22rl pl d d d β=+ -1

04

β≤≤.

中心距离法

2

2

2

2lq pq

n n n n d +

,p q p q rl pl r

r

r r

d

d

d

n n n n =

+

其中,

n p

r

n 分别为

G p

G r

包含的聚类对象个数,

r n =

n p +

n q

.

Ward 法

2

2

2l l 2lq pq l

l

l

n +n n +n n d +

,++n +n p q l

rl pl r r r d

d

d n n n n =

-

注意,Ward 法要求初始距离矩阵采用欧式距离公式计算各个对象的距离。

2.4 得到闵可夫斯基(Minkowski )距离谱系聚类法函数(见附录A.1) (1)pdist 创建聚类对象的Minkowski 距离矩阵。

(2)squarform 拉直矩阵D 。

(3)linkage 用D 或其拉直矩阵创建信息矩阵G ,默认的类间距离为最短距离法。 (4)dendrogram 创建G 的谱系聚类图。 (5)cluster 创建G 的指定个数类。

2.5 画谱系聚类图(见图2.1)

图2.1 Iris 花瓣数据谱系聚类图

2.6 得出分类

由图 2.1得出Iris 花瓣数据截断处可选择d=1,d=0.8,d=0.666对应的分类个数为

2,3,5类。

2.7 cluster 创建G 的指定个数类。(matlab 程序见A.3) 2.7.1 分3类图(见图2.2)

相关文档
最新文档