主成分分析与因子分析的异同比较及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
到降维的目的,我们只提取前几个主成分,由于前三个主成 ) 法的异同 ( 数据来源于 #$$! 年 《 中国统计年鉴 》 。 指标解释: 分的累计方差贡献率已达到 -ON 以上, 所以决定用三个新变 *! —食品,*# —衣着,*% —家庭设备用品及服务,*+ —医疗保 量来代替原来的八个变量。但这三个新变量的表达还不能从 健, *& —交通和通讯, *" —娱乐教育文化服务, *, —居住, *- — 输出窗口中直接得到,因为 “ LCH<C/4/= Q0=:;* ”是指因子载 荷矩阵,每一载荷量表示主成分与对应变量的相关系数,从 结果中可以看到第一个主成分与 *! A *% A *+ A *& A *" A *, A *- 的相关 性较强,第二个主成分与 *# 的相关性较强,而第三个主成分 与每个变量的相关性都不太强。为了得到三个主成分的表达 式, 以便求得分, 还需进一步操作。 将前三个因子载荷矩阵输入到数据编辑窗口 ( 为变量 +、 , 然后利用 “ 0!A 0#A 0% ) M:0/8DC:H 5 6 9CH<B=4@ A 在对话框中输 ” 入“ , 即可得到特征向量 R! 。同理, 可 R! S .! T ’UV( &) !O" ) 打开 “ 选中 /BHF4: CD D09=C:8, 输入 %、 G*=:09=;C/@ 对话框, 得 R# , 主成分表达式为: R% 。于是, 3! S $) %O- W 3*! X $) !+" W 3*# X $) %-! W 3*% X $) %%% W 3*+ X $) %,, W 3*& X $) +!& W 3*" X $) #OO W 3*, X $) + W 3*!"#$% &$’($)*+ ,-.%$()+/
;/;=;01 G;I4/>01B48 LCH<C/4/= ! # % + & " , MC=01 &) !"O !) %O) &"! ) %#" ) #", ) !+O ,) +-"G 5 $# &) +O&G 5 $# N CD E0:;0/94 "+) "$O !,) +,+ ,) $!+ +) $," %) %+% !) -"! ) O%" ) "-, LBHB10=;>4 N "+) "$O -#) $-% -O) $O, O%) !,+ O") &!, O-) %,, OO) %!% !$$) $$$ G*=:09=;C/ ’BH8 CD ’JB0:47 KC07;/I8 MC=01 &) !"O !) %O) &"! ) %#" ) #", ) !+O ,) +-"G 5 $# &) +O&G 5 $# N CD E0:;0/94 "+) "$O !,) +,+ ,) $!+ +) $," %) %+% !) -"! ) O%" ) "-, LBHB10=;>4N "+) "$O -#) $-% -O) $O, O%) !,+ O") &!, O-) %,, OO) %!% !$$) $$$
主成分分析是研究如何通过少数几个主成分来 解释多变量的方差 ) 协方差结构的分析方法,也就是 求出少数几个主成分,使它们尽可能多地保留原始变 量的信息,且彼此不相关。因子分析是研究如何以最 少的信息丢失,将众多原始变量浓缩成少数几个因子 变量,以及如何使因子变量具有较强的可解释性的一 种多元统计分析方法。这两种方法是处理多变量、大 样本时经常采用的方法,其二者的最终目的都是降 维,而且在处理方法上,许多参考文献上都强调因子 分析法是主成分方法的扩展,也就是因子分析的基础 是主成分方法,所以对初学者来说,这两种方法在 使用时很可能会用混 ’ 本文将对两者的异同进行比 较。
一般都采用因子旋转, 因 作。利用 &’()*+ 实现因子分析时, 可以选择的选项较多, 清楚地将因子与变量的关系显现, 首先是提取公因子的方法 ( , 除了主成分 子旋转的方法,在 ,-,, 中常用的有方差最大正交旋转、四 =>:489:?6@* 13:A6B) 分析法之外,还有不加权最小二乘法、普通最小二乘法、最 大似然估计法、 主因子法、 映象因子分析法。 ! 因子分析法、 次最大旋转、 平均正交旋转, 尽量使经过旋转后的因子载荷 量向 % 和 # 两极分化, 旋转后变量共同度没有改变, 但公共
・!"・
统计教育
#$$% 年第 & 期
主成分分析与因子分析 的异同比较及应用
!王 芳
( 南京经济学院 经济与统计学院 ’ 江苏 南京 #!$$$% )
摘要( 主成分分析法和因子分析法都是从变量的方差 ) 协方差结构入手, 在尽可能多地保留原始信 息的基础上, 用少数新变量来解释原始变量的多元统计分析方法。教学实践中 ’ 发现学生运用主成分分 析法和因子分析法处理降维问题的认识不够清楚, 本文针对性地从主成分分析法、 因子分析法的基本思 想、 使用方法及统计量的分析等多角度进行比较, 并辅以实例。 关键词( 主成分分析 < 因子分析 < 比较 < 应用 中图分类号: =/! 文献标识码: > 文章编号: !$$& ) &,-# ( #$$% ) $& ) $$$!" ) $"
的分类, 也可用于综合评价。 ( 有关统计量的取得。有关因子载荷的一些统计量在 !) 如变量与公共因子的相关系数, ,-,, 输出窗口可直接得到, 实际上为所求得的因子载荷量, 变量共同度 ( 反映每个变量 对所提取的公共因子的依赖程度的统计量 ) 可由输出窗口 中的 “ 实际此数值是 961H6@3@: 96110M?:NL 中直接显示出来, 因子载荷矩阵中每一行的因子载荷量的平方和,提取的因 子个数不同, 变量共同度也不同。另外, 公因子的方差 ( 反映 每个公共因子与所有变量的相关程度的统计量 ) 可由 =>O 实际此数值是因 :489:?6@ ,015 67 ,P0843B Q68B?@R5 直接读出。 子载荷矩阵中每一列的因子载荷量的平方和。我们求得的 因子变量如果含义不明显, 实用价值也不大, 所以为了能更
作者简介 ( 王芳 * !+,- ) . , 女 ’ 讲师, 主要从事多元统计分析的教学与研究
总第 !" 期
理论探讨
・#!・
量进行内部剖析, 打比喻来说, 原始变量就如成千上万的糕
这七种方法中只有用ቤተ መጻሕፍቲ ባይዱ成分分析法求解因子载荷时可以选
点, 每一种糕点的原料都有面粉、 油、 糖及相应的不同原料, 择与变量个数相等的因子变量个数 ( ,其 /012345 67 789:645) 这其中, 面粉、 油、 糖是所有糕点的共同材料, 正如因子分析 中的新变量即因子变量 $ 正确选择因子变量后, 如果想考虑 成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公 共因子的物价变动即可。所以因子分析不是对原始变量的 重新组合, 而是对原始变量进行分解, 分解为公共因子与特 殊因子两部分。即因子分析就是要利用少数几个公共因子 去解释较多个要观测变量中存在的复杂关系,它把原始变 量分解为两部分因素,一部分是由所有变量共同具有的少 数几个公共因子构成的,另一部分是每个原始变量独自具 有的因素, 即特殊因子。 对新产生的主成分变量及因子变量计算其得分,就可 以将主成分得分或因子得分代替原始变量进行下一步的分 析, 因为主成分变量及因子变量比原始变量少了许多, 所以 起到了降维的作用, 为我们处理数据降低了难度。 它方法都必须因子变量个数小于原始变量个数。而且在计 算的过程中不能像主成分分析法那样一次计算因子载荷成 功,如主因子法,往往需要经过多次尝试,才能得到因子载 荷矩阵。 ( C )模型的生成。经过 &’()*+ 过程都产生因子载荷 阵,但主成分分析模型需要的不是因子载荷量而是特征向 量,所以还需将因子载荷量输入数据编辑窗口,利用 “ 主成 分相应特征根的平方根与特征向量乘积为因子载荷量 ” 的 性质用 )+’/,&*+D* (*D-E)= 来计算特征向量,从而才 能得到主成分的线性表达式。而因子分析直接采用因子载 荷量即可得到因子模型。 ( 计算得分的方法。主成分得分是根据表达式将标准 F) 化后的相应数据代入得到的,因子得分的计算在 ,-,, 中提 供了三种方法:一是回归法,先对公共因子 7 与变量 ># $ >.$ 建立回归方程,而后将变量数值代入回归方 G G G$ >H 作回归, 程,求得因子得分;二是巴特莱特法,由于因子模型 >1 I 这部分极难观测, 但可通过 3 的协 ’& J 3 中, 3 为特殊因子, 方差矩阵转化为单位矩阵,从而求得因子得分 &;三是安德 森 K 鲁宾法,这种方法是为了保证因子的正交性而对巴特 莱特因子得分的调整, 其因子得分的均值为 % 方差为 # 。在 ,-,, 的 &’()*+ 过程中,因子分析只需简单地选择对话框 中 “ ,(*+=” 进 行 操 作 , 而 主 成 分 分 析 中 计 算 得 分 需 在 “ 两种得分应用的 :48@57641* 961H0:3L 输入主成分的表达式。 方向也不太一致,主成分得分一般用来对研究现象进行综 合评价、 排序及筛选变量, 而因子得分多用于对样本及变量
二、数据标准化的异同比较
主成分分析中为了消除量纲和数量级,通常需要将原 始数据进行标准化,将其转化为均值为 % 方差为 # 的无量 纲数据。而因子分析在这方面要求不是太高, 因为在因子分 析中可以通过主因子法、 加权最小二乘法、 不加权最小二乘 法、 重心法等很多解法来求因子变量, 并且因子变量是每一 个变量的内部影响变量,它的求解与原始变量是否同量纲 关系并不太大, 当然在采用主成分法求因子变量时, 仍需标 准化。不过在实际应用的过程中, 为了尽量避免量纲或数量 级的 影响 , 建议 在使 用 因子 分析 前 还是 要进 行 数据 标准 化。
・!"・
统计教育
#$$% 年第 & 期
因子方差发生了变化。
从输出窗口,我们可以取得每个主成分的方差,即特征 根,它的大小表示了对应主成分能够描述原来所有信息的多 少( 更多情况下是由方差贡献率来反映 ) 。一般来讲, 为了达
四、 实证分析
下面以全国 #$$$ 年城镇消费支出资料为例从降维的角 度、 输出的结果及分析来比较两种方 ’(’’!$) $ 操作的方法、
53 73!1! 73#1# 8 ・・・ 8 73313
每个主成分都是由原有 3 个变量线性组合得到 ’ 矩阵 9 满足 9: 9 6 ! 的条件, 在诸多主成分 54 中, 5! 在 总方差中占的比重最大,说明它综合原有变量 1! ’ 1#’ 其余主成分 5# ’ 5%, 2 2 2’ 13 的能力最强, 2 2 2’ 53 在总方差 中占的比重依次递减,说明越往后的主成分综合原信 息的能力越弱。以后的分析可以用前面几个方差最大 的主成分 5 来进行,一般情况下,要求前几个 54 * 4 ;3 . 所包含的信息不少于原始信息的 /&0 , 这样既减少了 变量的数目,又能够用较少的主成分反映原有变量的 绝大部分信息。如利用主成分来消除多元回归方程的 多重共线性,利用主成分来筛选多元线性回归方程中 的变量等。 通过因子分析得来的新变量是对每一个原始变
余的变量,我们要清楚地认识到,对通过主成分分析 所得来的新变量是原始变量的线性组合,如原始变量 为 1! ’ 1# ’ 2 2 2’ 1 3’ 经过坐标变换, 将原有的 3 个相关变 转换成另一组不相关的变量 54’ 我们 量 14 作线性变换, 可 以 得 到 一 组 表 达 式 (
5! 6 7!!1! 8 7!#1# 8 ・・・ 8 7!313
5 6 7 1 8 7 ・・・ 6 8
# #! !
## #
1 8 ・・・ 8 7#313
一、基本思想上的异同比较
从二者表达的含义上看,主成分分析法和因子分 析法都是寻求少数的几个变量 ( 或因子 )来综合反映 全部变量 ( 因子 ) 的大部分信息, 变量虽然较原始变量 少, 但所包含的信息量却占原始信息的 /&0 以上, 用 这些新变量来分析经济问题,其可信度仍然很高,而 且这些新的变量彼此间互不相关,消除了多重共线 性。对新变量的认识,不能错误简单地认为所寻求来 的这几个少数变量 ( 因子 )是原始变量经过筛选后剩 收稿日期 ( #$$% ) $# ) !&
三、&’()*+ 过程的异同比较
主成分分析与因子分析都可利用 ,-,, 中的 &’()*+ 过程 来实现, 在 &’()*+ 中如果全部采用默认状态 ( 或仅改变提 取公因子个数一项 ) ,则进行的是主成分分析,在使用此过 程时应注意以下几点: ( 指标的选定。指标最好有同趋势化, 一般为了评价 #) 分析的方便, 需要将逆指标转化为正指标, 转化的方式为用 逆指标的倒数值代替原指标。 ( 因子变量个数的确定。利用 &’()*+ 实现主成分分 .) 析时, 在确定公共因子个数 ( 时, 一般直 /012345 67 &89:645) 接选择与原变量数目相等的个数,这样可以避免由于采用 默认形式后累计方差贡献率达不到 ;!< 而造成的二次操