第十二讲聚类分析和因子分析优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 由于聚类分析对计算机要求很高,因此当 出现大样本的情况下,层次聚类分析往往 速度较慢,因此采用快速聚类分析。
• 快速聚类分析要求用户根据经验指定聚类 最终形成多少种类。
• 快速聚类分析 • 打开聚类3 • 分析---分类---K均值聚类
因子分析
降维
主成分分析与因子分析的概念
• 需要与可能:在各个领域的科学研究中,往往 需要对反映事物的多个变量进行大量的观测, 收集大量数据以便进行分析寻找规律。多变量 大样本无疑会为科学研究提供丰富的信息,但 也在一定程度上增加了数据采集的工作量,更 重要的是在大多数情况下,许多变量之间可能 存在相关性而增加了问题分析的复杂性,同时 对分析带来不便。如果分别分析每个指标,分 析又可能是孤立的,而不是综合的。盲目减少 指标会损失很多信息,容易产生错误的结论。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
Fra Baidu bibliotek
3
2
1
0
1
2
3
4
5
6
Component Number
R o t a t e d C o m p o n e n t M a t r i xa
MA TH
Co mpon ent
1
2
-. 387
.7 90
看绝对 值:eg.
PH YS CH EM LI TERA T
-. 172 -. 184
.8 79
.8 41 .8 27 -. 343
数学: 第二个
HI STOR Y
.9 11
-. 201
因子作
EN GLIS H
.9 13
-. 216
用大,
Ex Ro
trac tati
tion on M
Met etho
hod: d: V
Pri arim
ncip ax w
al C ith
• 层次聚类分析中的Q型聚类
• 打开聚类1
• 分析---分类---层次聚类(系统聚类)---选 择个案
层次聚类分析中的R型聚类
• 与Q型聚类不同的是, R型聚类计算的是变 量之间的距离,而不是样本之间的距离。
• 打开聚类2 • 分析---分类---层次聚类(系统聚类)---选
择变量
快速聚类分析
的数量。 • 2。因子变量不是对原有变量的取舍,而是
对原有变量信息的重构。 • 3。因子变量之间不存在线性相关关系。
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
fm m1x1 m2 x2 mp xp
因子分析要求(p<<m) F1-FM 是原有变量 X1-XP 是新变量 (因子变量) 建立原有因子和新因子的联系
7.619 88.761
4
.323
5.376 94.137
5
.199
3.320 97.457
6
.153
2.543 100.000
Extraction Method: Principal Component Analysis.
• 这里的Initial Eigenvalues就是特征值(数
据相关阵的特征值)。头两个成分特征值 累积占了总方差的81.142%。后面的特征值 的贡献越来越少。
• 上式通过化简,可得: • F=BX+ae • X:因子变量 • B:载荷矩阵 其中βij称为因子载荷,是第i
个原有变量在第j个因子变量上的负载,即βi 在第j个因子变量上的相对重要性。即βij绝 对值越大,公共因子与原有变量关系越强。
• 由于实测的变量间存在一定的相关关系,因此 有可能用较少数的综合指标分别综合存在于各 变量中的各类信息,而综合指标之间彼此不相 关,即各指标代表的信息不重叠。综合指标称 为因子或主成分(提取几个因子),一般有两 种方法:确定因子数量的因素(机器决定)
ComponTeonta%l of VariCaunmcuelative T%ota%l of VariCaunmcuelative %
1
3.735 62.254 62.254 3.735 62.254 62.254
2
1.133 18.887 81.142 1.133 18.887 81.142
3
.457
• *不同于相关系数(变量之间的关系)
• 聚类分析:样本间的相关
层次聚类分析中的Q型(样本间:哪 几个样本很像)聚类
• 根据样本之间的距离进行计算。 • 常用算法: • 欧式距离 各个变量相减 再求和 • 欧式距离的平方(X2+X1)2+……. • Chebychev距离 • Block距离 • Minkovsky距离 • Customized距离
• 特征值>1
• 累计贡献率>0.8(新因子至少代表就因子 80%以上的信息)
• 几个基本概念:
• 因子载荷:表示该因子对变量的影响程度,代表 了因子和原先变量的相关系数。也称为变量在因 子上的载荷。
• 旋转矩阵:对因子载荷进行旋转,使系数向0和1 两极分化。(运算复杂),想让因子载荷矩阵做两 极分化,看清楚哪个因子系数作用程度更大
ompo Kais
• 因此需要找到一个合理的方法,减少分析 指标的同时,尽量减少原指标包含信息的 损失,对所收集的资料作全面的分析。由 于各变量间存在一定的相关关系,因此有 可能用较少的综合指标分别综合存在于各 变量中的各类信息。因子分析就是这样一 种降维的方法。
因子分析
• 用较少因子反映原始资料多个变量的信息。 • 特点: • 1。因子变量的数量远少于原有的指标变量
• 因子得分系数:每一个变量在不同因子上的具体 数据值。
成绩数据(student.sav)
• 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
• 重要结果分析
Total Variance Explained
Initial EigenvEaxltureasction Sums of Squared Loadi
第十二讲聚类分析和因子 分析
聚类分析special for spss
• 层次聚类分析中的Q型聚类 • 层次聚类分析中的R型聚类 • 快速聚类分析 • 判别分析
• 聚类分析---物以类聚。
• 特点:探索性的分析。在分类过程中,人 们不必事先给出一个分类的标准,聚类分 析能够从样本数据出发,自动进行分类。 它能够将一批一批样本数据按照他们在性 质上的亲密程度在没有先验知识的情况下 自动进行分类。
• 快速聚类分析要求用户根据经验指定聚类 最终形成多少种类。
• 快速聚类分析 • 打开聚类3 • 分析---分类---K均值聚类
因子分析
降维
主成分分析与因子分析的概念
• 需要与可能:在各个领域的科学研究中,往往 需要对反映事物的多个变量进行大量的观测, 收集大量数据以便进行分析寻找规律。多变量 大样本无疑会为科学研究提供丰富的信息,但 也在一定程度上增加了数据采集的工作量,更 重要的是在大多数情况下,许多变量之间可能 存在相关性而增加了问题分析的复杂性,同时 对分析带来不便。如果分别分析每个指标,分 析又可能是孤立的,而不是综合的。盲目减少 指标会损失很多信息,容易产生错误的结论。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
Fra Baidu bibliotek
3
2
1
0
1
2
3
4
5
6
Component Number
R o t a t e d C o m p o n e n t M a t r i xa
MA TH
Co mpon ent
1
2
-. 387
.7 90
看绝对 值:eg.
PH YS CH EM LI TERA T
-. 172 -. 184
.8 79
.8 41 .8 27 -. 343
数学: 第二个
HI STOR Y
.9 11
-. 201
因子作
EN GLIS H
.9 13
-. 216
用大,
Ex Ro
trac tati
tion on M
Met etho
hod: d: V
Pri arim
ncip ax w
al C ith
• 层次聚类分析中的Q型聚类
• 打开聚类1
• 分析---分类---层次聚类(系统聚类)---选 择个案
层次聚类分析中的R型聚类
• 与Q型聚类不同的是, R型聚类计算的是变 量之间的距离,而不是样本之间的距离。
• 打开聚类2 • 分析---分类---层次聚类(系统聚类)---选
择变量
快速聚类分析
的数量。 • 2。因子变量不是对原有变量的取舍,而是
对原有变量信息的重构。 • 3。因子变量之间不存在线性相关关系。
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
fm m1x1 m2 x2 mp xp
因子分析要求(p<<m) F1-FM 是原有变量 X1-XP 是新变量 (因子变量) 建立原有因子和新因子的联系
7.619 88.761
4
.323
5.376 94.137
5
.199
3.320 97.457
6
.153
2.543 100.000
Extraction Method: Principal Component Analysis.
• 这里的Initial Eigenvalues就是特征值(数
据相关阵的特征值)。头两个成分特征值 累积占了总方差的81.142%。后面的特征值 的贡献越来越少。
• 上式通过化简,可得: • F=BX+ae • X:因子变量 • B:载荷矩阵 其中βij称为因子载荷,是第i
个原有变量在第j个因子变量上的负载,即βi 在第j个因子变量上的相对重要性。即βij绝 对值越大,公共因子与原有变量关系越强。
• 由于实测的变量间存在一定的相关关系,因此 有可能用较少数的综合指标分别综合存在于各 变量中的各类信息,而综合指标之间彼此不相 关,即各指标代表的信息不重叠。综合指标称 为因子或主成分(提取几个因子),一般有两 种方法:确定因子数量的因素(机器决定)
ComponTeonta%l of VariCaunmcuelative T%ota%l of VariCaunmcuelative %
1
3.735 62.254 62.254 3.735 62.254 62.254
2
1.133 18.887 81.142 1.133 18.887 81.142
3
.457
• *不同于相关系数(变量之间的关系)
• 聚类分析:样本间的相关
层次聚类分析中的Q型(样本间:哪 几个样本很像)聚类
• 根据样本之间的距离进行计算。 • 常用算法: • 欧式距离 各个变量相减 再求和 • 欧式距离的平方(X2+X1)2+……. • Chebychev距离 • Block距离 • Minkovsky距离 • Customized距离
• 特征值>1
• 累计贡献率>0.8(新因子至少代表就因子 80%以上的信息)
• 几个基本概念:
• 因子载荷:表示该因子对变量的影响程度,代表 了因子和原先变量的相关系数。也称为变量在因 子上的载荷。
• 旋转矩阵:对因子载荷进行旋转,使系数向0和1 两极分化。(运算复杂),想让因子载荷矩阵做两 极分化,看清楚哪个因子系数作用程度更大
ompo Kais
• 因此需要找到一个合理的方法,减少分析 指标的同时,尽量减少原指标包含信息的 损失,对所收集的资料作全面的分析。由 于各变量间存在一定的相关关系,因此有 可能用较少的综合指标分别综合存在于各 变量中的各类信息。因子分析就是这样一 种降维的方法。
因子分析
• 用较少因子反映原始资料多个变量的信息。 • 特点: • 1。因子变量的数量远少于原有的指标变量
• 因子得分系数:每一个变量在不同因子上的具体 数据值。
成绩数据(student.sav)
• 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
• 重要结果分析
Total Variance Explained
Initial EigenvEaxltureasction Sums of Squared Loadi
第十二讲聚类分析和因子 分析
聚类分析special for spss
• 层次聚类分析中的Q型聚类 • 层次聚类分析中的R型聚类 • 快速聚类分析 • 判别分析
• 聚类分析---物以类聚。
• 特点:探索性的分析。在分类过程中,人 们不必事先给出一个分类的标准,聚类分 析能够从样本数据出发,自动进行分类。 它能够将一批一批样本数据按照他们在性 质上的亲密程度在没有先验知识的情况下 自动进行分类。