第10章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章聚类分析

教学目的:掌握快速聚类和层次聚类的操作,了解各种距离,掌握其结果的阅读。

教学重点:重点考察K-means cluster、hierarchial cluster过程

教学时数:讲授2学时,操作2学时

教学方法:讲授与演示结合

聚类分析(Cluster Analysis)是研究将个体或变量进行分类的一种多元统计方法。是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

属于一种探索性分析,不同研究者对于同一组数据进行聚类分析,由于所使用的方法不同,常会得出不同的结论。

聚类分析方法根据统计方法的不同分为层次聚类和快速聚类

根据分类对象的不同分为两类:一类是对样本所作的分类,即Q-型聚类,一类是对变量所作的分类,即R-型聚类。聚类分析的基本思想是,据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原则,直至归为一类。

例:

不同地区城镇居民收入和消费状况的分类研究

区域经济及社会发展水平的分析及全国区域经济综合评价

在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类

研究样品间的关系常用距离,研究指标间的关系常用相似系数。

1、距离

(1)欧式(Euclidian )距离

假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n

个点,则第i样品与第j样品之间的距离记为dij

(2)欧式距离平方(系统默认)

2、相似系数

相似系数常用的有:夹角余弦与相关系数

3、类间距离

最近距离、最远距离、类间平均法等

10.1 层次聚类分析(系统聚类)

10.1.1基本概念与方法

其原理是将n个变量(观察量)看成不同的n类,然后将性质最接近的两类合并为一类,再从这n-1类中找到最接近的两类加以合并,依此类推,直到所有的变量(观察量)被合为一类。得到该结果后,使用者再根据具体的问题和聚类结果来决定应当分为几类。

其优点:可以对变量进行聚类(R型聚类),也可对观察量进行聚类(Q型聚类);变量可以是连续性变量,也可是分类变量。计算距离的方法也较丰富。

其缺点:需反复计算距离,观察量太大或变量较多时,速度较慢。

10.1.2实例1

一、例题与数据E10-1a.sav(将北京地区18区县按中等职业教育发展水平的9个指标进行聚类,)

二、统计分析过程

Analyze→Classify→Hierarchical Cluster

Variables框:X1-X9

Label Cases by框:qx 标记变量,增强分析结果可读性,只在样本聚类时可用

☉Cases

10.1.3实例2

一、例题与数据E10-1a.sav(将北京地区18区县中等职业教育发展水平的9个指标进行聚类)

二、统计分析过程

Analyze→Classify→Hierarchical Cluster

Variables框:X1-X9

☉Variables

☉Inter:Pearson correlation适用于R型聚类(变量聚类)

层次聚类分析应注意以下几个问题:

1、变量选择:在聚类前,应从专业角度考虑尽量删去对分类不起作用的变量。并非变量越多越好,因为无关变量的存在可能会影响真实分类的发现,甚至引起严重的错分。原则上应只引入在不同类间有显著差别的变量。

2、共线性问题:在对观察量进行聚类时,如果变量间存在较强共线性,则可能会对结果有较大影响。这就相当于某个变量的权重远远高于其他变量,需进行预分析,并进行剔除或提取主成分。

3、变量的标准化:如用于分析的各变量的变异程度相关非常大,则变异大的变量会影响距离计算结果(相当于其权重增大),在此情况下,应先对变量进行某种标准化处理(一般计算Z分数),然后聚类。

4、异常值:对聚类结果影响较大,目前尚无较好的解决方法,只能尽力避免。

5、分类数:一般分类数在2~8类较合适。

6、专业意义:统计学结论不是最终结论,一定要结合专业知识进行分析,对聚类分析来说,尤为如此。使用不同的聚类分析方法可能得到的结果相关很大,单纯从统计学的角度是难以判断哪个结果是正确的。

10.2 快速聚类分析

10.2.1基本概念与方法

计算过程为:

(1)首先需要用户指定聚类的数量(如分成k类)

(2)由SPSS系统确定或由用户自行指定k个类别的初始类中心

(3)按就近原则将其余观测值向凝聚点凝集,这样得到一个初始分类方案,并计算出各个初始分类的中心位置(均值)

(4)使用计算出的中心位置重新进行聚类,反复循环,直到凝聚点位置改变很小(达到收敛标准)为止由此可看出:

快速聚类分析中,各观察量的位置在计算过程中不断改变。

其优点:(1)计算速度快,可有效处理多变量、大样本(n>100)数据。

(2)分析时可人为指定初始中心位置,有利于利用前人工作的成果

其缺点:(1)应用范围有限,要求用户事先知道需要将观察量分成几类

(2)只能对观察量进行聚类(Q型),而不能对变量进行聚类

(3)要求所使用的变量必须都是连续性变量,且要求变量具有多元正态性、方差齐性

10.2.2 例题与数据

E10-1a.sav(将北京地区18区县按照各自中等职业教育发展特点分成4类)

10.2.3统计分析过程

Analyze→Classify→K-means Cluster

Variables框:X1-X9

Label Cases by框:qx

Number of Clusters框:4要求分为4类

A table

结果说明:如方差分析结果表明,各类间的差异不显著,则需要尝试其他的分析方法,如分成3类或5类,而不是最开始的4类。这说明快速聚类分析是尝试性的分析,有时需要反复快速聚类来最终确定

一个比较合理的聚类数目。

相关文档
最新文档