SPSS操作方法:聚类分析09
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验指导之一
聚类分析的SPSS操作方法
系统聚类法
实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。
实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据
x1人均粮食支出(元/人) x5人均衣着商品支出(元/人)
x2人均副食支出(元/人) x6人均日用品支出(元/人)
x3人均烟、酒、茶支出(元/人) x7人均燃料支出(元/人)
x4人均其他副食支出(元/人) x8人均非商品支出(元/人)
系统聚类法的SPSS操作:
1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , (见图1)
图1 系统聚类法
打开层次聚类法对话如图2。
图2 系统聚类法对话框
选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:
Cases 对样品聚类(Q型;系统默认),
Variable 对指标变量聚类(R型),本例选择。
在Display栏中选择默认的输出项。
2. 点击Statistics按钮,打开对话框如图
3.
图3 Statistics对话框
✧Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。
✧Ploximity matrix 输出个体间的距离矩阵,本例选择。
✧Cluster Membership栏中显示每个观测量被分派到的类。
None 不输出。本例选择。
Simple solution 指定分类数,并输出样本所属类,单一解。
Renge of solution 指定输出从m到n类的各样本所属类。多个解。
选好后返回主对话框。
3. 单击Method按钮,打开对话框如图4-1.
✧Cluster Method:选择聚类方法:
SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。
✧Measure栏:对距离的测度方法选择
SPSS中提供了三种类型:Interval等间距度量的变量(连续型),Counts 计数型变量(离散型)和Binary二值变量。
Interval等间隔测度的变量方法包括:
Euclidean distance欧氏距离;
Squared Euclidean distance欧氏平方距离;
Cosine夹角余弦(R 型聚类);
Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。
Chebychev契比雪夫距离;
block距离;
Minkowski明氏距离;
Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p 与r 由用户指定。
图4-1 Method对话框
Transform Values栏,选择消除数量级差的方法(见图4-2),依次是:None不作处理(系统默认);本例选择此项。
Z scores标准化处理;
Range -1 to 1 各变量值除全距;
Range 0 to 1各变量值减最小值后除全距;
Maximum magnitude of 1各变量值除最大值;
Mean of 1各变量值除以均值;
Standard deviation of 1各变量值除以标准差。
图4-2 Method对话框
4. 单击Plots按钮,打开对话框如图
5.
图5 Plots对话框
✧Dendrogram 表示输出树形图,本例选择此项。
✧Icicle表示输出冰柱图。其中,
All clusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。
Specified range of cluster 表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。
✧Orientationk 栏中指定如何显示冰挂图:
Vertical纵向显示,本例选择此项。
Horizontal 横向显示。
图6 Save New Variables对话框
5. 单击Save按钮,打开Save New Variables对话框,如图6所示。
选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m,其中n表示类数,m表示第m次分析。
✧Cluster Membership栏
None 不输出
Simple solution 指定分类数,并输出样本所属类。单一变量。
Renge of solution 指定输出从m到n类的各样本所属类。多个变量。
当选择结束后,在主对话框中点击OK,可得下面的输出表和图。
Proximity Matrix 两两变量间距离矩阵(相关系数矩阵)
Case
Matrix File Input
人均粮食支出(元/
人) 人均副食支出(元/人)
人均烟、酒、茶支出(元/人)
人均其他副食支出(元/人)
人均衣着商品支出(元/人)
人均日
用品支出(元/人) 人均燃料支出(元/人)
人均非商品支出(元/人)
人均粮食支出(元/人) .000 .334 -.055 -.061 -.289 .197 .349 .319 人均副食支出(元/人)
.334 .000 -.023 .399 -.156 .716 .414 .835 人均烟、酒、茶支出(元/人) -.055 -.023 .000 .533 .497 .033 -.139 -.258 人均其他副食支出(元/人)
-.061 .399 .533 .000 .698 .478 -.171 .313 人均衣着商品支出(元/人) -.289 -.156 .497 .698 .000 .284 -.208 -.081 人均日用品支出(元/人) .197 .716 .033 .478 .284 .000 .408 .710 人均燃料支出(元/人) .349 .414 -.139 -.171 -.208 .408 .000 .399 人均非商品支出(元/人)
.319
.835
-.258
.313
-.081
.710
.399
.000
Average Linkage (Between Groups) 类间平均
凝聚状态进度表:第一列(Stage)表示聚类的进度顺序;第二、三列(Cluster
combine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage)表示每一步形成的新类将在哪一步参与下一次合并。