SPSS操作方法:聚类分析09

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验指导之一

聚类分析的SPSS操作方法

系统聚类法

实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。

实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据

x1人均粮食支出(元/人) x5人均衣着商品支出(元/人)

x2人均副食支出(元/人) x6人均日用品支出(元/人)

x3人均烟、酒、茶支出(元/人) x7人均燃料支出(元/人)

x4人均其他副食支出(元/人) x8人均非商品支出(元/人)

系统聚类法的SPSS操作:

1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , (见图1)

图1 系统聚类法

打开层次聚类法对话如图2。

图2 系统聚类法对话框

选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:

Cases 对样品聚类(Q型;系统默认),

Variable 对指标变量聚类(R型),本例选择。

在Display栏中选择默认的输出项。

2. 点击Statistics按钮,打开对话框如图

3.

图3 Statistics对话框

✧Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。

✧Ploximity matrix 输出个体间的距离矩阵,本例选择。

✧Cluster Membership栏中显示每个观测量被分派到的类。

None 不输出。本例选择。

Simple solution 指定分类数,并输出样本所属类,单一解。

Renge of solution 指定输出从m到n类的各样本所属类。多个解。

选好后返回主对话框。

3. 单击Method按钮,打开对话框如图4-1.

✧Cluster Method:选择聚类方法:

SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。

✧Measure栏:对距离的测度方法选择

SPSS中提供了三种类型:Interval等间距度量的变量(连续型),Counts 计数型变量(离散型)和Binary二值变量。

Interval等间隔测度的变量方法包括:

Euclidean distance欧氏距离;

Squared Euclidean distance欧氏平方距离;

Cosine夹角余弦(R 型聚类);

Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。

Chebychev契比雪夫距离;

block距离;

Minkowski明氏距离;

Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p 与r 由用户指定。

图4-1 Method对话框

Transform Values栏,选择消除数量级差的方法(见图4-2),依次是:None不作处理(系统默认);本例选择此项。

Z scores标准化处理;

Range -1 to 1 各变量值除全距;

Range 0 to 1各变量值减最小值后除全距;

Maximum magnitude of 1各变量值除最大值;

Mean of 1各变量值除以均值;

Standard deviation of 1各变量值除以标准差。

图4-2 Method对话框

4. 单击Plots按钮,打开对话框如图

5.

图5 Plots对话框

✧Dendrogram 表示输出树形图,本例选择此项。

✧Icicle表示输出冰柱图。其中,

All clusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。

Specified range of cluster 表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。

✧Orientationk 栏中指定如何显示冰挂图:

Vertical纵向显示,本例选择此项。

Horizontal 横向显示。

图6 Save New Variables对话框

5. 单击Save按钮,打开Save New Variables对话框,如图6所示。

选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m,其中n表示类数,m表示第m次分析。

✧Cluster Membership栏

None 不输出

Simple solution 指定分类数,并输出样本所属类。单一变量。

Renge of solution 指定输出从m到n类的各样本所属类。多个变量。

当选择结束后,在主对话框中点击OK,可得下面的输出表和图。

Proximity Matrix 两两变量间距离矩阵(相关系数矩阵)

Case

Matrix File Input

人均粮食支出(元/

人) 人均副食支出(元/人)

人均烟、酒、茶支出(元/人)

人均其他副食支出(元/人)

人均衣着商品支出(元/人)

人均日

用品支出(元/人) 人均燃料支出(元/人)

人均非商品支出(元/人)

人均粮食支出(元/人) .000 .334 -.055 -.061 -.289 .197 .349 .319 人均副食支出(元/人)

.334 .000 -.023 .399 -.156 .716 .414 .835 人均烟、酒、茶支出(元/人) -.055 -.023 .000 .533 .497 .033 -.139 -.258 人均其他副食支出(元/人)

-.061 .399 .533 .000 .698 .478 -.171 .313 人均衣着商品支出(元/人) -.289 -.156 .497 .698 .000 .284 -.208 -.081 人均日用品支出(元/人) .197 .716 .033 .478 .284 .000 .408 .710 人均燃料支出(元/人) .349 .414 -.139 -.171 -.208 .408 .000 .399 人均非商品支出(元/人)

.319

.835

-.258

.313

-.081

.710

.399

.000

Average Linkage (Between Groups) 类间平均

凝聚状态进度表:第一列(Stage)表示聚类的进度顺序;第二、三列(Cluster

combine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage)表示每一步形成的新类将在哪一步参与下一次合并。

相关文档
最新文档