第十二讲 聚类分析和因子分析 spss
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 几个基本概念: • 因子载荷:表示该因子对变量的影响程度,代表 了因子和原先变量的相关系数。也称为变量在因 子上的载荷。 • 旋转矩阵:对因子载荷进行旋转,使系数向0和1 两极分化。(运算复杂),想让因子载荷矩阵做两 极分化,看清楚哪个因子系数作用程度更大 • 因子得分系数:每一个变量在不同因子上的具体 数据值。
层次聚类分析中的R型聚类
• 与Q型聚类不同的是, R型聚类计算的是变 量之间的距离,而不是样本之间的距离。 • 打开聚类2 • 分析---分类---层次聚类(系统聚类)---选 择变量
快速聚类分析
• 由于聚类分析对计算机要求很高,因此当 出现大样本的情况下,层次聚类分析往往 速度较慢,因此采用快速聚类分析。 • 快速聚类分析要求用户根据经验指定聚类 最终形成多少种类。
• 这里的 Initial Eigenvalues 就是特征值(数 据相关阵的特征值)。头两个成分特征值 累积占了总方差的81.142%。后面的特征值 的贡献越来越少。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
3
2
1
0 1 2 3 4 5 6
Component Number
Baidu Nhomakorabea
f1 11 x1 12 x2 f 2 21 x1 22 x2 f m m1 x1 m 2 x2
1 p x p 2 p xp mp x p
因子分析要求(p<<m) F1-FM 是原有变量 X1-XP 是新变量 (因子变量) 建立原有因子和新因子的联系
层次聚类分析中的Q型(样本间:哪 几个样本很像)聚类
• 根据样本之间的距离进行计算。 • 常用算法: • 欧式距离 各个变量相减 再求和 • 欧式距离的平方(X2+X1)2+……. • Chebychev距离 • Block距离 • Minkovsky距离 • Customized距离
• 层次聚类分析中的Q型聚类 • 打开聚类1 • 分析---分类---层次聚类(系统聚类)---选 择个案
Rot ated
Compo nent
M a t r ia x
看绝对 1 2 MATH -.387 .790 值:eg. PHYS -.172 .841 数学: CHEM -.184 .827 第二个 LITERAT .879 -.343 HISTORY .911 -.201 因子作 ENGLISH .913 -.216 用大, Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. 归为文 a. Rotation converged in 3 iterations. 科因子
• 因此需要找到一个合理的方法,减少分析 指标的同时,尽量减少原指标包含信息的 损失,对所收集的资料作全面的分析。由 于各变量间存在一定的相关关系,因此有 可能用较少的综合指标分别综合存在于各 变量中的各类信息。因子分析就是这样一 种降维的方法。
因子分析
• 用较少因子反映原始资料多个变量的信息。 • 特点: • 1。因子变量的数量远少于原有的指标变量 的数量。 • 2。因子变量不是对原有变量的取舍,而是 对原有变量信息的重构。 • 3。因子变量之间不存在线性相关关系。
聚类分析special for spss
• • • • 层次聚类分析中的Q型聚类 层次聚类分析中的R型聚类 快速聚类分析 判别分析
• 聚类分析---物以类聚。 • 特点:探索性的分析。在分类过程中,人 们不必事先给出一个分类的标准,聚类分 析能够从样本数据出发,自动进行分类。 它能够将一批一批样本数据按照他们在性 质上的亲密程度在没有先验知识的情况下 自动进行分类。 • *不同于相关系数(变量之间的关系) • 聚类分析:样本间的相关
成绩数据(student.sav)
• 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
• 重要结果分析
Tot al Va rianc e Exp laine d Initial Eigenvalues Component Total % of Variance Cumulative % 1 3.735 62.254 62.254 2 1.133 18.887 81.142 3 .457 7.619 88.761 4 .323 5.376 94.137 5 .199 3.320 97.457 6 .153 2.543 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3.735 62.254 62.254 1.133 18.887 81.142
• • • •
上式通过化简,可得: F=BX+ae X:因子变量 B:载荷矩阵 其中βij称为因子载荷,是第i 个原有变量在第j个因子变量上的负载,即βi 在第j个因子变量上的相对重要性。即βij绝 对值越大,公共因子与原有变量关系越强。
• 由于实测的变量间存在一定的相关关系,因此 有可能用较少数的综合指标分别综合存在于各 变量中的各类信息,而综合指标之间彼此不相 关,即各指标代表的信息不重叠。综合指标称 为因子或主成分(提取几个因子),一般有两 种方法:确定因子数量的因素(机器决定) • 特征值>1 • 累计贡献率>0.8(新因子至少代表就因子 80%以上的信息)
• 快速聚类分析 • 打开聚类3 • 分析---分类---K均值聚类
因子分析
降维
主成分分析与因子分析的概念
• 需要与可能:在各个领域的科学研究中,往往 需要对反映事物的多个变量进行大量的观测, 收集大量数据以便进行分析寻找规律。多变量 大样本无疑会为科学研究提供丰富的信息,但 也在一定程度上增加了数据采集的工作量,更 重要的是在大多数情况下,许多变量之间可能 存在相关性而增加了问题分析的复杂性,同时 对分析带来不便。如果分别分析每个指标,分 析又可能是孤立的,而不是综合的。盲目减少 指标会损失很多信息,容易产生错误的结论。