SPSS操作方法:聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验指导之一
聚类分析的SPSS操作方法
系统聚类法
实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。
实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据
x1人均粮食支出(元/人) x5人均衣着商品支出(元/人)
x2人均副食支出(元/人) x6人均日用品支出(元/人)
x3人均烟、酒、茶支出(元/人) x7人均燃料支出(元/人)
x4人均其他副食支出(元/人) x8人均非商品支出(元/人)
x 1
x
2
x
3
x
4
x
5
x
6
x
7
x8
北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南
湖北
湖南13.23
广东
广西
海南
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
系统聚类法的SPSS操作:
1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , (见图1)
图1 系统聚类法
打开层次聚类法对话如图2。
图2 系统聚类法对话框
选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:
Cases 对样品聚类(Q型;系统默认),
Variable 对指标变量聚类(R型),本例选择。
在Display栏中选择默认的输出项。
2. 点击Statistics按钮,打开对话框如图
3.
图3 Statistics对话框
Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。
Ploximity matrix 输出个体间的距离矩阵,本例选择。
Cluster Membership栏中显示每个观测量被分派到的类。
None 不输出。本例选择。
Simple solution 指定分类数,并输出样本所属类,单一解。
Renge of solution 指定输出从m到n类的各样本所属类。多个解。
选好后返回主对话框。
3. 单击Method按钮,打开对话框如图4-1.
Cluster Method:选择聚类方法:
SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。
Measure栏:对距离的测度方法选择
SPSS中提供了三种类型:Interval等间距度量的变量(连续型), Counts 计数型变量(离散型)和Binary二值变量。
Interval等间隔测度的变量方法包括:
Euclidean distance欧氏距离;
Squared Euclidean distance欧氏平方距离;
Cosine夹角余弦(R 型聚类);
Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。
Chebychev契比雪夫距离;
block距离;
Minkowski明氏距离;
Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p与r 由用户指定。
图4-1 Method对话框
Transform Values栏,选择消除数量级差的方法(见图4-2),依次是:
None不作处理(系统默认);本例选择此项。
Z scores标准化处理;
Range -1 to 1 各变量值除全距;
Range 0 to 1各变量值减最小值后除全距;
Maximum magnitude of 1各变量值除最大值;
Mean of 1各变量值除以均值;
Standard deviation of 1各变量值除以标准差。
图4-2 Method对话框
4. 单击Plots按钮,打开对话框如图
5.
图5 Plots对话框
Dendrogram 表示输出树形图,本例选择此项。
Icicle表示输出冰柱图。其中,
All clusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。
Specified range of cluster 表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。
Orientationk 栏中指定如何显示冰挂图:
Vertical纵向显示,本例选择此项。
Horizontal 横向显示。
图6 Save New Variables对话框
5. 单击Save按钮,打开Save New Variables对话框,如图6所示。
选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m,其中n表示类数,m表示第m次分析。
Cluster Membership栏
None 不输出
Simple solution 指定分类数,并输出样本所属类。单一变量。
Renge of solution 指定输出从m到n类的各样本所属类。多个变量。
当选择结束后,在主对话框中点击OK,可得下面的输出表和图。