主成分分析与因子分析的比较研究与实例分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析与因子分析的比较研究与实例分析
摘 要: 比较研究了主成分分析和因子分析理论及其联系与区别,实例分析了两种方法在实际应用中的差异性,得出结论:应用中应正确选择多元统计分析方法,并且联系实际问题和专业具体分析。
关键词: 主成分分析;因子分析;实例
Comparative research and case analysis of principal
component analysis and factor analysis
Abstract: the theory of principal component analysis and factor analysis as well as their relations and distinctions are compared and studied, the differences of two methods in practical application have been analyzed, concluded that the method should be choosed rightly and contacted with the actual problem and professional to do specific analysis.
Key words: principal component analysis;factor analysis;actual example
0 引言
研究实际问题时常涉及多个指标变量,且彼此间存在一定的相关性,使得数据存在着一定的信息重叠。 单独研究单个变量会损失大量信息,选取几个综合变量又能充分反映原来变量的信息,且彼此之间不相关对实际研究带来了便利。主成分分析与因子分析是将多个指标化为少数几个综合指标实现降维的统计方法。近年来这两种方法应用范围越来越多广泛,既存在着去多共同之处,也有其各自的差异性[1]。
1 主成分分析与因子分析法理论 1.1 主成分分析法
设研究对象有P 个指标变量,分别为X1,X2,...,Xp 表示,从而有均值为µ,协方差矩阵为Σ的p 维随机向量X=(X1,X2,...,Xp )。通过主成分分析对X 进行线性变换得到新的变量Y 。即:
()
11121p 21222p 1212x x ...x x x ...x ,,...x x ...x P n n np X X X X ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦
M M M
线性变换后:
1111112212221122221122T p p
T
p p T
p p p p pp p Y U X u X u X u X Y U X u X u X u X Y U X u X u X u X ⎧==+++⎪==+++⎪⎨
⎪
⎪==+++⎩
L L M L
为了变量Y 能够充分反映原来X 变量的信息,Yi 的方差应尽可能大且Yi 之间不相关,于是有:
222
121
i i ip u u u +++=L ,(i=1,2,...,p )。主成分Yi 可由协方差矩阵或相关矩
阵求出。一般选取累计贡献率达到85%以上的前几个主成分作为研究指标。
1.2 因子分析法
因子分析有R 型和Q 型因子分析,实例中应用了R 型因子分析。式中X 为原始变量
及标准化后的变量,标准化后的公共因子为F1,F2,…,Fm (m
1122i i i im i X a F a F a ε=++++L ,
(i=1,2,...,p ;m
共同度222
1i i im h a a =++L ,(i=1,2,...,p ),是Xi 对公共因子的依赖程度。公共因子Fj 对
X 所提供的方差贡献222
1j j pj
g a a =++L ,(i=1,2,...,m ),通过该值的大小可以提炼出
最有影响的公共因子。
2 主成分分析与因子分析的联系
因子分析是主成分分析的推广和发展,两种方法都是从变量的相关系数矩阵入手, 在
损失较少信息的前提下, 把多个具有相关性变量综合成少数几个综合变量来研究总体信息,且这少数几个综合变量所代表的信息不能重叠,即新变量无相关性,是多元分析中实现降维的重要方法[2~4]。
3 主成分分析与因子分析的区别 3.1 理论思想不同
主成分分析是设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。
因子分析是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量(不可观测,通常称为因子[5])去描述多个变量之间的相关关系。然后根据相关性大小将变量分组,使得同组内的变量之间相关性较高,但不同组内相关性较低。
3.2 数学模型不同
(1)主成分分析的数学模型实质上是一种变换, 通过变量变换把注意力集中在具有较大变差的那些主成分上, 而舍弃那些变差小的主成分; 因子分析是把注意力集中在少数不可观测的潜在变量上,而舍弃特殊因子。
(2)主成分分析是将主成分表示为原观测变量的线性组合。线性变换不改变原始数据的结构[6];因子分析是描述X 协方差阵结构的一种模型,对原观测变量分解成公共因子和特殊因子两部分。
(3)主成分的各系数aij是唯一确定的、正交的,不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度[7];因子模型的系数矩阵是不唯一的,且该矩阵表明了原变量和公共因子的相关程度。
3.3 计算方法不同
主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=Σ(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到。
因子分析的综合得分=Σ(各因子得分×各因子所对应的方差贡献率),因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。
4 实例分析
4.1 数据及来源
数据来自《应用多元统计分析》习题[8],对某城市一个月30天中午12点空气污染数据。
表1 空气污染指标及数据
日期风速太阳辐射CO NO NO2 O3 HC
1 8 98 7
2 12 8 2
2 7 107 4
3 9 5 3
3 7 103
4 3
5
6 3
4 10 88
5 2 8 15 4
5 6 91 4 2 8 10 3
6 8 90 5 2 12 12 4
7 9 84 7 4 12 15 5
8 5 72 6 4 21 14 4
9 7 82 5 1 11 11 3
10 8 64 5 2 13 9 4
11 6 71 5 4 10 3 3
12 6 91 4 2 12 7 3
13 7 72 7 4 18 10 3
14 10 70 4 2 11 7 3
15 10 72 4 1 8 10 3
16 9 77 4 1 9 10 3
17 8 76 4 1 7 7 3
18 8 71 5 3 16 4 4
19 9 67 4 2 13 2 3
20 9 69 3 3 9 5 3
21 10 64 5 3 14 4 4
22 9 88 4 2 7 6 3
23 8 80 4 2 13 11 4
24 5 30 3 3 5 2 3
25 6 83 5 1 10 23 4
26 8 84 3 2 7 6 3
27 6 78 4 2 11 11 3