SPSS聚类分析教程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评估效度
聚类分析要注意的问题
ö ö ö ö ö
ö
ö
样本随机分成两组分别聚类,比较群重心
电信数据聚类分析
用什么指标(变量)表达要分析的样本? 用什么方法进行聚类? 用什么统计量描述样本间的相似程度? 分成几类比较合适? 分类变量的聚类?
7
2010/10/12
三种聚类方法的选择
ö ö ö
小结
ö
聚类的样本量多少? 聚类变量的类型? 是否指定聚类的数目?
ö
变量的标准化 – 变量变异程度相差非常大时需要进行 – 如果不同变量的数量级相差太大,那么会使得不同变 量的影响不平衡
• 与研究目的密切相关 • 能够反映分类对象的特征 • 在不同对象之间有足够的差异性 • 变量之间不应高度相关
ö
异常值 – 影响较大 – 还没有比较好的解决办法,尽力避免
变量标准化
2010/10/12
聚类分析
ö
聚类分析(Cluster Analysis)是一组将研究对象分为相对同质的群组 (clusters)的统计分析技术,每群内部成员彼此相似,而与其他群 成员不同。
聚类分析
变 量 2
对变量聚类(R-类型) 对样本聚类(Q-类型)
C B A
变量1
聚类分析
ö
聚类分析
严格说来聚类分析并不是纯粹的统计技术,它不像其它 多元分析法那样,需要从样本去推断总体。
聚类分析
定义研究问题、选择细分变量
ห้องสมุดไป่ตู้聚类方法分类
聚类方法 分层聚类(系统聚类) 非分层聚类(快速聚类)
选择聚类方法、选择距离指标
聚合法
分解法
聚类分析、确定群组数目
距离法
方差法 Ward法
重心法
解释与描述群组、评估聚类效度
最小距离
最大距离
平均距离法
2
2010/10/12
分层聚类
非分层聚类
非树形结构 数据树形结构 首先确定细分市场个数 根据标准划分
ö
非分层聚类(快速聚类)
K-Means Cluster
非分层分类(快速聚类)
非分层分类(快速聚类)
选凝聚点
初始分类
分类是否合理
最终分类
G1 1.
G2
… … … … … … … …
GK 初始聚点或分类
2.
x1 G’1
x2 G’2
xK G’K
重 心 点 xi=Gi 中 点 平均值
修改分类
• 系统聚类的特点是数据点一旦被归到某个类后就不再变了,这就要求分类 方法比较准确。 • 样本量较大时,该方法计算量较大。 • 为弥补不足,产生了快速聚类法(非分层聚类、动态聚类)
3.
以 xi为聚 点 , “就 近入学” … … x’K 重调重心点
4. . . . 直到收敛
x’1
x’2
快速聚类
ö ö ö ö ö
要求已知类别数 可人为指定初始位置 节省运算时间 样本量大于100时有必要考虑 只能使用连续性变量
6
2010/10/12
练习
ö ö ö
地区数据聚类分析 汽车数据聚类分析 电信数据聚类分析
受教育年限(年) A B C 10 16 6 年收入(万元) 2 1.5 1 年收入(元) 20,000 15,000 10,000
选择细分变量:购物态度
ö ö ö ö ö
V1:购物是有趣的 V2:购物导致超支 V3:我将购物和在外就餐结合在一起 V4:我购物时争取得到最合适的交易 V5:我对购物没有兴趣 V6:你可以通过比较不同价格省很多钱
两阶段聚类
TwoTwo -step Cluster
两阶段聚类(Two-Step Cluster)
ö ö
ö ö ö
练习
ö ö ö
系统聚类的结果不理想 数据中既有连续变量,又有分类变量
能够同时处理分类变量和连续变量 自动选择聚类数量 能够快速地处理大量数据
地区数据聚类分析 汽车数据聚类分析 电信数据聚类分析
年收入(万元) A-B B-C C-A SQRT(6^2+0.5^2)=6.02 SQRT(10^2+0.5^2)=10.01 SQRT(4^2+1^2)=4.12
年收入(元)
ö
SQRT(6^2+5,000^2)=5,000 SQRT(10^2+5,000^2)=5,000 SQRT(4^2+10,000^2)=10,000
聚类分析:
v v v
系统聚类方法 快速聚类方法 两阶段聚类方法
ö
Note:聚类分析只是在市场细分中常用的一种统计分析方法,聚类 分析不等于市场细分。
作业
ö ö ö
案例1 方差分析&回归分析 Next Week
上交报告不应该超过2页,应该用容易被审阅者 (比如经理)读懂的方式来写,报告应清楚地 说明你的观点或建议。可以用最多6页篇幅的支 持性文件(图表和计算等)来粘附在报告后。
解释与描述群组
7 6 5 4 3 2 1 0
购物是有趣的 购物导致超支 我将购物和在外就餐结 合在一起 我购物时争取得到最合 适的交易 我对购物没有兴趣 你可以通过比较不同价 格省很多钱
1 2 3
5
2010/10/12
练习
ö ö ö
地区数据聚类分析 汽车数据聚类分析 发动机规格;马力;轴距;宽;长;空车质量;燃油容 量;燃油效率;销售量;价格(组间连接;Wards方法) 电信数据聚类分析(组间连接;Wards方法)
ö
一般都涉及不到有关统计量的分布,也不需要进行显著 性检验。多数属于探索性研究。 – 数值分类 – 市场细分 – 市场结构分析 变量2 变量2
X
聚类分析方法
分层聚类 不重叠聚类 非分层聚类 聚类分析 重叠聚类 模糊聚类
不重叠 顾客1 顾客2 顾客3 1 市场1 1 1 重叠 顾客1 顾客2 顾客3 1 市场1 1 市场2 1 1 1 市场2 市场3 模糊 顾客1 顾客2 顾客3 市场3 市场1 0.1 0.6 0.2 市场2 0.1 0.4 0.3 市场3 0.8 0.0 0.5
8
2. 3. 4.
3 2
5. 6.
选择距离方法
选择距离方法 Ward’s 方法
Cluster 2 最大距离
最小距离 Cluster 1
重心方法
Cluster 1 Cluster 2
平均距离 Cluster 1 Cluster 2
选择距离指标
ö
聚类分析
定义研究问题、选择细分变量
欧氏距离(Euclidean distance):以两个变量差值平 方和的平方根为距离 欧氏距离的平方(Squared Euclidean distance):以 两个变量差值的平方和为距离 切比雪夫距离:以两个变量绝对差值的最大值为距离 …… 一般来说,连续性变量采用欧氏平方做指标,分类变量 采用Chi-square做指标
聚类分析
定义研究问题、选择细分变量
变量 1
选择聚类方法、选择距离指标
聚类分析、确定群组数目
解释与描述群组、评估聚类效度
变量 1
1
2010/10/12
定义问题与选择细分变量
v v v
定义问题与选择细分变量
ö
共线性问题 – 对聚类结果有较大的影响 – 最好先进行预处理
定义聚类分析问题的关键是聚类变量的选择。 一般来说,选择哪些变量应该有一定的理论支持。 所选择的变量应当:
3
2010/10/12
分层(系统)聚类/聚合方法
1.
6 5
构造n个类,每个类包含且只包含一个样本。 计算n个样本两两间的距离,构成距离矩阵,记作D0。 合并距离最近的两类为一新类。 计算新类与当前各类的距离。若类的个数等于1,转到 步骤(5),否则回到步骤(3)。 画聚类图。 决定类的个数,及各类包含的样本数,并对类作出解释。
确定群组数目
ö ö ö ö
聚类分析
定义研究问题、选择细分变量
树状图 聚合结果 理论或实际的思考 各组的相对大小
选择聚类方法、选择距离指标
聚类分析、确定群组数目
解释与描述群组、评估聚类效度
解释与描述群组
研究变量 V1(购物是有趣的) V2(购物导致超支) V3(购物和外在就餐结合在一起) V4(争取得到最合算的交易) V5(对购物没有兴趣) V6(可以通过比价省很多钱) 群组1 5.75 3.63 6.00 3.13 1.88 3.88 群组2 1.67 3.00 1.83 3.50 5.50 3.33 群组3 3.50 5.83 3.33 6.00 3.50 6.00
分层聚类(系统聚类)
Hierarchical Cluster
分层聚类 聚合法 分解法
1 2 3 4 5 1 0 2 9 0 D = {dik } = 3 3 7 0 4 6 5 9 0 5 11 10 2 8 0
(35) 1 2 4 (35) 0 1 3 0 2 7 9 0 4 8 6 5 0
ö
选择聚类方法、选择距离指标
ö ö ö
聚类分析、确定群组数目
解释与描述群组、评估聚类效度
4
2010/10/12
确定 群组数目
3个细分市场 2个细分市场
确定群组数目
350 300 250 200 150 100 50 0 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1