主成分与因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

26
27
全部有 关变量
28
• 判断“是否适合作因子分析” • 请进行以下操作………….
29
30
31
• 输出“碎石图” 请作以下操作………..
32
33
34
• 进行因子旋转(一般都需要) • 否则所得因子无法命名(缺乏实际经济意 义) • 操作……….
35பைடு நூலகம்
36
该选项(方差最大法)最常用
税 后 利 润 增 长 率 .226 .056 .080 -.007 .009 .009 .177 .707 .710 1.000 .709
45
固 定 资 产 增 长 率 .131 -.064 .027 -.079 -.058 -.061 -.111 1.000 1.000 .709 1.000
• KMO指标大于0.7时,适合作因子分析。 0.6以上,作因子分析还可以 0.6以上,不太适合作因子分析 Bartlett 球度检验显著时(P-值较低),则 表明适合作因子分析。
于是:第一主成分y1的方差为最大特征值。
13
• 结论(以y1为例) • 原变量相关系数矩阵 的最大特征值即为y1 的方差,
• 原变量相关系数矩阵 的最大特征值对应的 特征向量。
y1 a11 x1 a12 x2 y2 a21 x1 a22 x2 y p a p1 x1 a p 2 x2
23
“Scores”对话框选项
• Method:指定计算因子值方法
– Regression:回归法 – Bartlett:巴特利特法 – Anderson-Rubin:安德森—鲁宾法
24
• Save as variables:将因子值作为新变量保 存在数据文件中。
25
例1
• • • • 对公司业绩评价,选取了11个指标。 (详见“因子分析”数据文件) 本例目的: 将11个指标进行简化综合
46
共同度
Communalities 主 营 业 务 收 入 净 利 润 净 资 产 营 业 收 益 率 净 资 产 收 益 率 总 资 产 收 益 率 净 利 润 率 总 资 产 增 长 率 主 营 业 务 收 入 增 长 率 税 后 利 润 增 长 率 固 定 资 产 增 长 率 Initial 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Extraction .862 .763 .823 .950 .953 .964 .593 .976 .977 .679 .976
Component 1 2 3 4 5 6 7 8 9 10 11
y1 a11 x x 1 a 12 2 y2 a21 x x 1 a 22 2 y p a p1 x1 a p2 x 2 1a p x p 2a p x p a pp x p
11
y1 a11 x1 a12 x2
a1 p x p
y2 a21 x1 a22 x2 a2 p x p • 可以写成向量形式: y1=a’ x yp a p1 x x 问题:在 a’a=1 的条件下,求 aa 使 y 方差最大: 1 a p 2 x2 pp 1p D(y1)= a’D( x) a 其中: D( x)为x的方差协方差矩阵。当x为 标准化后的变量向量,则D(x)为相关系数 矩阵R。 y1的方差为:D(y1)= a’R a
19
• Extract:决定提取因子的个数
– Eigenvalue over: 指定要提取因子的最小特征 值,系统默认值为1 – Number of factors:直接指定提取的因子个数。
20
• Display:指定与初始因子有关的输出项
– Unrotated factor solution:显示未旋转的因子 解 – Scree plot:显示碎石图,用于决定因子提取个 数。
17
三、因子分析法的基本操作
• Analyze →Data Reduction →Factor… 打开Factor Analysis对话框 • 将参与因子分析的变量依次选入Variables框中 • 分别对“Extraction”, “Rotation”, “Scores” 等项 进行设置. • 单击“OK”即可
统计分析方法
主成分分析 与 因子分析
第一部分
主成分分析
3
• 我们经常遇到有很多变量的数据。 • 在如此多的变量之中,有很多是相关的。 • 人们希望能够找出它们的少数“代表” (综合指标)来对它们进行描述。
4
• 下面介绍两种把变量维数降低以便于描述、 理解和分析的方法:主成分分析 ( principal component analysis ) 和 因 子分析(factor analysis)。
净 利 润 -.009 1.000 .239 .812 .789 .811 .563 -.061 -.062 .056 -.064
净 资 产 .684 .239 1.000 .190 .173 .151 .162 .025 .025 .080 .027
净 资 产 收 益 率 .070 .789 .173 .978 1.000 .995 .669 -.055 -.059 .009 -.058
21
“Rotation”对话框选项
• Method:选择因子旋转方法
– None(不进行旋转) – Varimax (方差最大法) – Equamax (等量最大法) – Quartimax (四次方最大法) – Direct Oblimin (斜交旋转)
22
• Display:指定输出选项
– Rotated solution:显示旋转后的因子解 – Loading plots:显示因子载荷图
总 资 产 收 益 率 .075 .811 .151 .984 .995 1.000 .665 -.059 -.063 .009 -.061
净 利 润 率 .207 .563 .162 .650 .669 .665 1.000 -.110 -.108 .177 -.111
总 资 产 增 长 率 .121 -.061 .025 -.076 -.055 -.059 -.110 1.000 1.000 .707 1.000
8
• 如果长轴变量代表了数据包含的 大部分信息,就用该变量代替原 先的两个变量(舍去次要的一 维),降维就完成了。 • 椭圆(球)的长短轴相差得越大, 降维效果越好。
9
主成分法的数学模型
10
• 对原变量x1,x2等变换为y1,y2, y3等使得 • y1方差最大,y2次之等等; • y1,y2,y3等相互独立。
Correlation
主 营 业 务 收 入 净 利 润 净 资 产 营 业 收 益 率 净 资 产 收 益 率 总 资 产 收 益 率 净 利 润 率 总 资 产 增 长 率 主 营 业 务 收 入 增 长 率 税 后 利 润 增 长 率 固 定 资 产 增 长 率
主 营 业 务 收 入 1.000 -.009 .684 .087 .070 .075 .207 .121 .126 .226 .131
5
主成分法的基本思想
• 考虑二维情形,即只有两个变量,它们由 横坐标和纵坐标所代表;因此每个观测值 都有相应于这两个坐标轴的两个坐标值; • 这些数据大致分布于一个椭圆形的区域中, 如下图所示:
6
-4
-2
0
2
4
-4
-2
0
2
4
7
• 这个椭圆有一个长轴和一个短轴。 • 在短轴方向上,数据变化很少;在极端的 情况,短轴如果退化成一点,那只有在长 轴的方向才能够解释这些点的变化了;这 样,由二维到一维的降维就自然完成了。
37
• 计算因子得分 • 操作…………..
38
39
40
• 要求因子载荷系数按大小顺序排列 • 操作……….
41
42
43
44
• 输出结果:相关系数矩阵 • 用于判断是否作因子分析 • 如果存在大量的接近零的相关系数,则 不适合作因子分析。
Correlation Matrix 营 业 收 益 率 .087 .812 .190 1.000 .978 .984 .650 -.076 -.080 -.007 -.079 主 营 业 务 收 入 增 长 率 .126 -.062 .025 -.080 -.059 -.063 -.108 1.000 1.000 .710 1.000
18
“Extraction”对话框选项
• Method:
– Principal components (主成分分析,系统 默认) – Unweighted least square (普通最小二乘法) – Generalized least squares (广义最小二乘 法) – Maximum likelihood (最大似然法) – Principal Axis factoring (主轴因子法) – Alpha (α因子提取法) – Image (映像分析法)
Total Variance Explained Initi al Eigenv alues % of Cum Tota Varia ulativ l nce e% 4.33 39.35 39.35 3.59 32.64 72.00 1.60 14.50 86.50 .644 5.856 92.35 .396 3.603 95.96 .250 2.269 98.23 .171 1.551 99.78 .022 .202 99.98 .002 .019 00.00 .000 .001 100.0 -005 .000 100.0 Extraction Sums of Squared Loadings % of Cum Tota Varia ulativ l nce e% 4.33 39.35 39.35 3.59 32.64 72.00 1.60 14.50 86.50 Rotation Sums of Squared Loadings % of Cum Tota Varia ulativ l nce e% 4.22 38.35 38.35 3.59 32.65 70.99 1.71 15.51 86.50
a1 p x p a2 p x p a pp x p
14
第二部分
因子分析
15
一、因子分析的作用
• 因子分析的作用主要有两个:
– 1.数据简化
• 可为进一步应用其他统计方法(如相关分析、回归 方法、判别分析法等)提供便利条件。
– 2.寻求变量的基本结构
16
二、因子分析的基本步骤
– 1.计算所有变量的相关矩阵,根据计算结果判 断应用因子分析方法是否合适。如果各变量独 立性较强,则不适合。 – 2.提取因子。该步要确定求因子解的方法,和 提取因子的个数。 – 3.进行因子旋转,对旋转后的新因子作出实际 意义解释。 – 4.计算因子值。即每个Case的各因子值(称为 因子得分值)
12
• 实际使用过程中,先将变量标准化 • 运用拉格朗日乘子法求约束条件下的极值: • 令 f aRa (aa 1)
f 2Ra 2a 0 a 得: Ra a
可见:a为R的特征向量,λ为R的特征值。
此时, D(y1)= a’Ra= a’λa= λa’ a=λ
KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett' s Test of Sphericity Approx. Chi-Square df Sig . .604 869.452 55 .000
• 表明将11个变 量简化为3个因 子后,对X1变 量的解释能力 为86.2%,对 X2的解释能力 为76.3%,等等。
Extraction Method: Principal Component Analysis.
47
特征值及方差贡献率和累计方差贡献率 旋转前,第1个因子对原11个变量的解释能力为39.35% 旋转前,前3个因子对原11个变量的解释能力为86.50% 旋转后,前3个因子对原11个变量的解释能力为86.50%
相关文档
最新文档