SPSS操作方法：聚类分析09

合集下载

相关主题

spss聚类分析结果解释

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验指导之一

聚类分析的SPSS操作方法

系统聚类法

实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实际上就是对指标聚类。

实验数据表 2001年30个省。市，自治区城镇居民月平均消费数据

x1人均粮食支出(元／人) x5人均衣着商品支出(元／人)

x2人均副食支出(元／人) x6人均日用品支出(元／人)

x3人均烟、酒、茶支出(元／人) x7人均燃料支出(元／人)

x4人均其他副食支出(元／人) x8人均非商品支出(元／人)

系统聚类法的SPSS操作：

1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , （见图1）

图1 系统聚类法

打开层次聚类法对话如图2。

图2 系统聚类法对话框

选择需要进行聚类分析的变量进入Variable框内后，在Cluster栏中选择聚类类型，SPSS有两种层次聚类方法：

Cases 对样品聚类（Q型；系统默认），

Variable 对指标变量聚类(R型），本例选择。

在Display栏中选择默认的输出项。

2. 点击Statistics按钮，打开对话框如图

3.

图3 Statistics对话框

✧Agglomeration schedule输出凝聚状态表（聚类进度表）；本例选择。

✧Ploximity matrix 输出个体间的距离矩阵，本例选择。

✧Cluster Membership栏中显示每个观测量被分派到的类。

None 不输出。本例选择。

Simple solution 指定分类数，并输出样本所属类，单一解。

Renge of solution 指定输出从m到n类的各样本所属类。多个解。

选好后返回主对话框。

3. 单击Method按钮，打开对话框如图4-1.

✧Cluster Method：选择聚类方法：

SPSS中提供7种聚类方法，分别是：类间平均，类内平均，最短距离，最长距离，重心法，中值法，最小平方和法。本例选择类间平均。

✧Measure栏：对距离的测度方法选择

SPSS中提供了三种类型：Interval等间距度量的变量（连续型），Counts 计数型变量（离散型）和Binary二值变量。

Interval等间隔测度的变量方法包括:

Euclidean distance欧氏距离；

Squared Euclidean distance欧氏平方距离；

Cosine夹角余弦（R 型聚类）；

Pearson Correlation皮尔逊相关系数距离（R 型聚类），本例选择此项。

Chebychev契比雪夫距离；

block距离；

Minkowski明氏距离；

Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p 与r 由用户指定。

图4-1 Method对话框

Transform Values栏，选择消除数量级差的方法（见图4-2），依次是：None不作处理（系统默认）；本例选择此项。

Z scores标准化处理；

Range -1 to 1 各变量值除全距；

Range 0 to 1各变量值减最小值后除全距；

Maximum magnitude of 1各变量值除最大值；

Mean of 1各变量值除以均值；

Standard deviation of 1各变量值除以标准差。

图4-2 Method对话框

4. 单击Plots按钮，打开对话框如图

5.

图5 Plots对话框

✧Dendrogram 表示输出树形图，本例选择此项。

✧Icicle表示输出冰柱图。其中，

All clusters表示输出聚类分析每个阶段的冰柱图；本例选择此项。

Specified range of cluster 表示只输出某个阶段的冰柱图，输入从第几步开始到第几步结束，中间间隔几步。

✧Orientationk 栏中指定如何显示冰挂图：

Vertical纵向显示，本例选择此项。

Horizontal 横向显示。

图6 Save New Variables对话框

5. 单击Save按钮，打开Save New Variables对话框，如图6所示。

选择是否将聚类的结果以变量形式保存在数据文件中。变量名为：clun_m，其中n表示类数，m表示第m次分析。

✧Cluster Membership栏

None 不输出

Simple solution 指定分类数，并输出样本所属类。单一变量。

Renge of solution 指定输出从m到n类的各样本所属类。多个变量。

当选择结束后，在主对话框中点击OK，可得下面的输出表和图。

Proximity Matrix 两两变量间距离矩阵（相关系数矩阵）

Case

Matrix File Input

人均粮食支出（元/

人）人均副食支出(元／人)

人均烟、酒、茶支出(元／人)

人均其他副食支出(元／人)

人均衣着商品支出(元／人)

人均日

用品支出(元／人) 人均燃料支出(元／人)

人均非商品支出(元／人)

人均粮食支出（元/人） .000 .334 -.055 -.061 -.289 .197 .349 .319 人均副食支出(元／人)

.334 .000 -.023 .399 -.156 .716 .414 .835 人均烟、酒、茶支出(元／人) -.055 -.023 .000 .533 .497 .033 -.139 -.258 人均其他副食支出(元／人)

-.061 .399 .533 .000 .698 .478 -.171 .313 人均衣着商品支出(元／人) -.289 -.156 .497 .698 .000 .284 -.208 -.081 人均日用品支出(元／人) .197 .716 .033 .478 .284 .000 .408 .710 人均燃料支出(元／人) .349 .414 -.139 -.171 -.208 .408 .000 .399 人均非商品支出(元／人)

.319

.835

-.258

.313

-.081

.710

.399

.000

Average Linkage (Between Groups) 类间平均

凝聚状态进度表：第一列(Stage)表示聚类的进度顺序；第二、三列(Cluster

combine)表示每一步将哪两类合并；第四列(Cofficients)表示被合并的两类之间的距离；第五、六列(Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage)表示每一步形成的新类将在哪一步参与下一次合并。