SPSS19.0实战之聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标签: SPSS, 系统聚类, K-mean聚类, Ward法, 最短距离法
聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。
分析数据依然采用线性回归所使用的标准化后的能源消费数据。
1.1 系统聚类
本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。1.1.1 最短距离聚类法
最短距离法聚类步骤如下:
1.规定样本间的距离,计算样本两两之
间的距离,得到对称矩阵。开始每个
样品自成一类。
2.选择对称矩阵中的最小非零元素。将
两个样品之间最小距离记为D1,将
这两个样品归并成为一类,记为G1。
3.计算G1与其他样品距离。重复以上
过程直到所有样品合并为一类。
我们在SPSS中实现最短距离分析非常简单。单击“”-->“”
-->“”。将弹出如图1-1所示的对话框,设置相应的参数即可。
图1-1 最短距离法
我们的数据已经做过标准化,在“转化值”-->“标准化”选项上选无。
在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。
1.表3-1显示了数据的缺失情况:
耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。
图1-2 最短距离法聚类图
1.1.2 组间联接聚类
组间联接聚类法定义为两类之间的平均平方距离,即
。类C K 和C L 合并为下一步的C M 则C M 与C J 距离
的递推公式为:
。
我们依然贴出组间联接法的聚类表和树状图。
1. 聚类表如表1-3所示,相关解释类似
于表1-1所述。
表1-2 组间联接聚类法
2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。
最后广东和各地能源消耗特点都不同。
1.1.3 Ward法聚类
Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。公式:
递推公式:
我依然贴出ward法聚类表和树状图。
1.聚类表如表1-4所示,相关解释类似
于表1-1所述.
表1-4 Ward法聚类表
2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。
图1-4 Ward法聚类树状图
1.2 K-mean聚类
K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。
单击“”-->“” -->“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。
图1-5 K-mean聚类设置
下面输出和解释K-mean聚类结果。
1.表1-5是K-mean的迭代历史记录,
非常明了。
表1-5 迭代历史记录
2. 表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。
表1-6 聚类样品数
3. 表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。
表1-7 聚类成员
最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。
2.总结
本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x1+0.087x2+0.157
x3-0.365x4-0.105 x5-0.017x6 。该方程的残差分析也通过了。聚类分析通过比较三种不同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离最小。
3.参考文献
[1] Ronald .E et al.著.周勇等.译.理工科概率统计.[M].北京:机械工业出版社,2010:311-326.
[2] 袁志发,周静芋.多元统计分析[M].北京:科学出版社,2003:110-145,241-250.
[3] J. Han and M. Kamber. Datamining: concepts and techniques[M]. Morgan Kaufmann, 2006:251-267.
[4]SPSS for Window:分类分析[EB/OL].
/news/spss/doc3/sp10.htm#j1,1999-10/2010-12-25, 1999-10/2010-12-25
[5] 聚类分析[EB/OL].
/teachers/lidf/docs/statsoft/html/sas-5/cluster.h tml ,
2010-12-26
[6] 张文彤.SPSS 10.0高级教程十二:多元线性回归与曲线拟合[EB/OL].
/biology/spss/55215.shtml,2004-7-12/2010-12-25 [7] 了空. SPSS中多元回归分析实例(上)[EB/OL]
/liaokong/blog/item/abe0be38344e1bc9d562259c.html, 2010-1-11/2010-12-25.