聚类分析的SPSS实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§7.5聚类分析的SPSS实现
一、系统聚类法的SPSS实现
例7.5.1利用全国30个省市自治区经济发展基本情况的八项指标数据(见数据集wyzb6_5.),用系统聚类法对这30个省市自治区作一初步的分类,并说明各类地区经济发展的特点。
操作
分析(Analyze)⇒分类(Classify)⇒系统聚类(Hierarchical Cluster)打开系统聚类分析(Hierarchical Cluster Analysis)对话框
1.变量(V ariable(s))列表框设置分析变量。
2.标志个案(Label Cases by)框设置分析对象的标志变量。
3.分群(Cluster)单选择框设置聚类分析的类型。
4.输出(Display)复选择框设置聚类分析的输出结果,统计量和图都是默认选项。
5.统计量(Statistics)按钮设置输出的统计量。
合并进程表(Agglomeration schedule)默认选项,输出聚类分析的凝聚状态表;
相似性矩阵(Proximitymatrix)为复选项,输出各样品的距离矩阵。
聚类成员(Cluster Menbership)选择框:
无(None)选项:不显示类的样品构成;
单一方案(Single solution)选项:选择此项,并输入一个确定的分类数n,并输出聚成n个类时各个类的样品构成
情况。
方案范围(Range of solutions):选择此项,并输入两个数n1,n2,将显示指定聚成n1类到n2类时各个类的样品构成
情况。
6.Plots按钮设置输出图形:树状图冰状图
7.Method按钮设置聚类分析的具体方法。
聚类方法:
组间连接:类间平均法
组内连接:类内平均法
最近临元素:最短距离法
最远临元素:最长距离法
质心聚类法:重心法
中位数聚类法:中位数法
Ward法:离差平方和法
度量方法选择框:选择计算样品距离的方法转换值选择框:选择原始数据标准化的方法Z得分,最常用的方法
8.Save按钮设置需要保存的分析结果。
输出结果的统计分析
凝聚状态表
第1列:步骤号,一共进行了29聚类
第2和3列:表示某步聚类时的哪两个样品或类进行了合并,合并后的类号为第2列的样品或类号
第4列:聚类时的两个样品或类间的距离
第5和6列:表示某步聚类时是样品还是类参与合并
第7列:表示本步所聚成的类,再下面的第几步聚类时用到。
成员表
⏹水平冰柱图
⏹树状图
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
山西 4 -+
江西 14 -+-+
内蒙 5 -+ +-------+
吉林 7 -+ | |
黑龙江 8 -+-+ |
安徽 12 -+ +---------------+
湖北 17 -+ | |
湖南 18 -+-----+ | |
四川 22 -+ +---+ |
河北 3 -+-+ | +---------------------+ 河南 16 -+ +---+ | | 辽宁 6 ---+ | | 青海 28 -+ | | 宁夏 29 -+-----+ | | 西藏 25 -+ +-------------------+ | 贵州 23 -+ | | 云南 24 -+-----+ | 广西 20 -+ | 陕西 26 -+ | 甘肃 27 -+ | 新疆 30 -+ | 江苏 10 -+-----+ | 山东 15 -+ +-----------------+ | 广东 19 -------+ | | 天津 2 -+---+ +-----------------------+ 海南 21 -+ +---------+ |
浙江 11 -+-+ | | |
福建 13 -+ +-+ +---------+
北京 1 ---+ |
上海 9 ---------------+
结果分析:
二、动态聚类法的SPSS 实现
在SPSS 中,凝聚点的指定不是必须的,系统会自动根据分类数目,结合样品情况来选取凝聚点。
形成初始分类的方法通常有两种,一是直接将每个样品按与其距离最近的凝聚点并类,二是先让每个凝聚点自成一类,将样品依此并入与其距离最近的凝聚点的一类,并计算该类的重心,以这个重心代替原来的凝聚点,再考虑下一个样品的并类,直至所有样品都归类为止。
操作: 分析(Analyze )⇒ 分类(Classify )⇒k-均值聚类(K –Means Cluster )打开k-均值聚类分析(K –Means Cluster Analysis )对话框 变量列表框 :
聚类数(Number of Clusters )输入框 输入指定的聚类数目。
1.迭代(Iterate )按钮 设置快速聚类的迭代终止条件。
2.保存(Save)按钮设置需要保存的分析结果。
3.选项(Options)按钮选择快速聚类的输出结果,并指定对缺失数据的处理方法。
输出结果的统计分析
⏹类间距离表
习题
1土壤样品聚类.sav记录了20个土壤样品的有关指标的数据,5项指标分别是:含沙量X1,淤泥含量X2,粘土含量X3,有机物X4,PH值X5。
利用系统聚类法完成样品分类,选取合适的分类数目,并通过分析各类中所含样品各指标值的统计性质,说明各类土壤的特点。
2森林及草资源.sav记录了世界18个国家的森林及草原资源的分布情况。
共有4项指标,分别是:森林面积X1,森林覆盖率X2,林木蓄积量X3,草原面积X4。
利用快速聚类法完成样品分类,选取合适的分类数目,并通过分析各类中所含样品各指标值的统计性质,说明各类国家的森林及草原资源的分布的情况。