主成分分析数据的标准化与非标准化的对比分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析的基本理论
假设我们所讨论的实际问题中有p 个指标,我们把这p 个指标看作p 个随机变量,记为12,,
P X X X 。
这p 个指标构成的p 维随机向量为12(,,
)'P X X X X =.
设随机向量X 的均值为μ,协方差为∑。
对X 进行线性转换,可以形成新的综合变量,用Y 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足
11112121212122221122p p
p p p p p pp p
Y u X u X u X Y u X u X u X Y u X u X u X =+++=+++=++
+
由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特征也不尽相同。
因此为了取得较好的效果,我们总是希望
'i i Y u X =的方差尽可能大且各j Y 之间互相独立,由于
var()var(')'i i i i Y u X u u ==∑
而对任给的常数c ,有2var(')''i i i i i cu X cu u c c u u =∑=∑
因此对i u 不加限制时,可使var()i Y 任意增大,问题将变得没有意义。
我们将线性变换约束在下面原则下:
1. 每个主成分的系数平方和为1,'1i i u u =即22
2121i i pi u u u ++
+=
2. 主成分之间相互独立,即无重叠的信息。
即
012)i j Cov F F i j i j p =≠=(,),(;,,,
,
3. 主成分的方差依次递减,重要性依次递减,1Y 是12,,
P X X X 所有线性组合
中方差最大者;即2Y 是与1Y 不相关的12,,P X X X 所有线性组合中方差最大者;
1p Y -是与121,,
,p Y Y Y -不相关的12,,P X X X 所有线性组合中方差最大
者。
12()()p Var
F Var F Var F ≥≥≥()
基于以上三条原则决定的综合变量12,,
,p Y Y Y 分别为原始变量的第一、二、
第p 主成分。
其中,各综合变量在总方差中占得比重依次递减。
主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。
对于随机变量
12,,
,P X X X 而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间
的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。
本
文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。
下面就对二者进行讨论。
主成分求解
一、从协方差矩阵出发求解主成分
(一)第一主成分:
设X 的协方差阵为: 1112121
22
212
P P X P P PP σσσσσσσσσ⎡⎤⎢⎥⎢⎥
∑=⎢⎥
⎢
⎥⎣⎦
由于x ∑为非负定的对称阵,则有利用线性代数的知识可得,必存在正交
阵U ,使得 100p λλ⎡⎤⎢
⎥'=⎢
⎥⎢⎥⎣
⎦
X U ΣU 其中12,,,p λλλ⋅⋅⋅为x ∑的特征根,不妨假设12p λλλ≥≥⋅⋅⋅≥。
而U 恰好是由特征根相对应的特征向量所组成的正交阵。
1112
12122212(,,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦
1p U u u ()121,2,,i i pi u u u i P '
==i U ,,,
下面我们来看,是否由U 的第一列元素所构成为原始变量的线性组合是否有最大的方差。
设有P 维正交向量(
)111211,,
,p a a a '=a
11111'p p Y a X a X a X =++⋅⋅⋅+=
1
2
11111()p V Y λλλ⎡⎤
⎢
⎥'''=∑=⎢⎥⎢⎥⎣
⎦
a a a U U a
12
1
2
1111
111
()()p
i i i i p
i i i p
i i p
i i i λλλλλλλ====''='='≤''='''===∑∑∑∑a u u a
a u a u a u u a
a UU a a a
当且仅当11a u =时,即11111p p Y u X u X =++时,有最大的方差1λ。
因为
1111()'Var F U xU λ=∑=如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件12cov(,)0Y Y =下,寻找第二主成分 21212p p Y u X u X =++
因为121221121cov(,)cov(,)0Y Y u x u x u u u u λ''''==∑== 所以210u u '=
则,对p 维向量2u ,有2
2222221
1
()()p p
i i i i i i i V Y u u λλ==''''=∑=
=∑∑u u u u u u 22222221
p
i i i λλλλ='''''====∑222u u u u u UU u u u
所以如果取线性变换:21212222p p Y u X u X u X =+++则2Y 的方差次大。
类推11112121212122221122p p
p p p p p pp p
Y u X u X u X Y u X u X u X Y u X u X u X
=+++=+++=+++
写为矩阵形式:Y '=U X
11
12
121
2221
2
(,
,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥==⎢⎥⎢⎥⎣⎦
1p U u u
12(,,
,)p X X X '=X
上述推导表明:变量x 的主成分y 是以∑的特征向量为系数的线性组合,它们互不相关,方差为∑的特征根。
而∑得特征根120p λλλ≥≥⋅⋅⋅≥>,所以
12()()()0p Var y Var y Var y ≥≥⋅⋅⋅≥>。
二、由相关系数矩阵求解主成分
当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。
量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。
()*()
i i i i X E X X D X -=
数据标准化后,总体的协方差矩阵与总体的相关系数相等。
********
121**1221212112212cov(,)(())(())(())
1
1cov(,)11
1
1i j i i j j i j p p ij i j p p p p p p X X E X E X X E X E X X X X ρρρρρρρρρρρρρ'=--=⎡⎤⎢⎥===⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦
案例背景
根据35个主要城市2001年关于年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据,分别用原始变量的协方差矩阵和相关矩阵求解主成分。
(数据见附页)
数据来源及说明
采用的数据主要是中华人民共和国统计局网上搜集的,关于35个主要城市2001年年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据。
分析样例
分别从协方差矩阵和相关矩阵出发对求解主成分(对比)的步骤: 根据原始数据计算协方差矩阵 命令代码:
得到原始数据协方差矩阵是:
利用标准化数据求解的协方差矩阵(原始数据的相关矩阵)的命令代码就只需将上面的代码中b=cov(a);改为b=corrcoef(zscore(a));即可。
得到原始数据相关矩阵是:
由上面的协方差矩阵可以看出各个变量之间的离散程度很大,说明变量之间
相关程度不大。
然而在相关矩阵中可以看出除了第四个变量与其他变量离散程度大,其余变量之间都有很强的相关性,相关系数在0.7以上。
这个结果与协方差
矩阵有截然不同的解释。
这是因为原始数据各项指标的受不同度量尺度的影响。
由原始数据协方差出发求解主成分,得到如下结果:
特征根解释方差比例累积比例
2.32E+14 0.92807854916 0.92807854916
1.75E+13 0.070005925045 0.99808447421
3.58E+11 0.0014321212095 0.99951659542
8.76E+10 0.00035042965908 0.99986702507
3.31E+10 0.0001324112068 0.99999943628
1.17E+08 4.6803961315E-07 0.99999990432
2.39E+07 9.5608091918E-08 0.99999999993
13259 5.3040489152E-11 0.99999999998
4326.9 1.7309064976E-11 1
87.357 3.4945757681E-13 1
其对应特征值的标准正交特征向量见下表:
特征根1 特征根2 特征根3 特征根4 特征根5 1.47E-05 1.43E-05 -8.70E-05 -0.0001590.0005036 6.09E-05 1.12E-05 -8.71E-05 -0.000267-0.000159 0.85463 -0.50078 0.13407 -0.0035160.029032 9.71E-05 0.0008170-0.004133-0.018148 0.012006 0.0005517 0.0001702-0.001924-0.0061540.015777 0.081264 0.039067 -0.19233 0.61971 -0.75514 0.23758 0.16555 -0.90746 -0.30384 0.015577 0.44485 0.83641 0.29955 -0.094259 -0.062501 3.66E-06 8.62E-06 -6.56E-06 2.97E-05 0.0001047 0.093096 0.14387 -0.17836 0.7172 0.65145 特征根6 特征根7 特征根8 特征根9 特征根10 0.0023663 -0.009481-0.82762 0.55588 0.077126 -0.001383-0.008246-0.55461 -0.83118 0.038452 0.00026260.0007210 1.60E-05 1.91E-05 -9.78E-07
0.9531 0.30182 -0.002622-0.002828-1.21E-05 0.30157 -0.95321 0.01229 0.0007504-8.25E-05 0.023198 -0.008721-0.0002620.0001939-2.37E-05 -0.010379 0.00093730.00018939.05E-05 -1.63E-05 -0.000248-0.000702 1.37E-05 5.30E-05 -2.41E-06 9.31E-05 -0.000976-0.085475 0.010953 -0.99628 0.0022321 0.0072965 -3.98E-05 -0.0003748.50E-05 因此所得的主成分的表达式是
))(0550.8())(0778.9())(038452.0())(077126.0()(14387.0)(50078.0))(0512.1)()(0543.1()
(093096.0)(85463.0))(0509.6())(0547.1(1010332211101010332211210103322111X X E X X E X X X X Y X X X X X X E X X E Y X X X X X X E X X E Y --++----+-=-++------=-++-+--+--=
其中第一主成分保留了原有变量的92.8%的信息,所以在分析中可以把第二主成分舍掉,这样就达到了简化问题的目的。
第一主成分与原是变量的因子负荷分别
为
0.9069
/,0.7823/,0.8880/,0.9712/, 0.9709/,0.7789/,0.1161/,0.9871/,0.987805+8.82E /14+2.32E 05)-6.09E (/,0.790504+8.04E /14+2.32E )0547.1(/,10,10110,1101991199188118817711771661166155115514411441331133122112211111111=================⨯===⨯-==σλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρ)()()()()()()()()()(X Y X Y X Y X Y X Y X Y X Y X Y X Y E X Y
注:其中i λ为第i 个特征根ij γ为标准正交化后的特征向量阵中第i 行第j 列元素,ii σ为第i 个变量的方差(i ,j=1,2, (10)
由此可见,第一主成分反映了年底总人口数指标的79.05%、国内生产总值指标的98.78%、工业总产值指标的98.71%、货运总量指标的77.89%、地方财政预算内收入指标的97.09%、固定资产投资总额指标的97.12%、城乡居民年底储蓄余额指标的88.8%、在岗职工平均人数指标的78.23%、在岗职工人数总额90.69%。
所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。
它在很大程度上起到了及降维的作用,利用一个综合变量解释了九个原始变量。
而主成分分析是利用利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法,本次主成分提取为解释原有的所有变量。
因此此次用协方差矩阵求解的主成分不是很好。
现就对原始数据相关矩阵进行分析。
而由原始数据相关矩阵得到如下结果:
特征根 解释方差比例 累积比例 7.905 0.79052396843 0.79052396843 1.140 0.11396057208 0.90448454051 0.444 0.044361222693 0.94884576321 0.316 0.0315******** 0.98041992171 0.113 0.011269056571 0.99168897828 0.040 0.0039539198487 0.99564289813 0.025 0.0025293126971 0.99817221082 0.009 0.00090781455723 0.99908002538 0.008 0.00076104382044 0.9998410692 0.002 0.00015893079783 1 其对应特征值的标准正交特征向量见下表: 特征根1 特征根2 特征根3 特征根4 特征根5 0.31814 -0.20773 0.017309 0.57143 -0.63586 0.34386 0.11973 -0.26907 -0.10769 -0.1784 0.32335 0.1947 -0.49469 -0.13234 -0.13858 0.09221 -0.87202 -0.02776-0.45025 -0.1076 0.30271 -0.29124 -0.36861 0.45627 0.68279 0.33953 0.20376 -0.07807-0.2786 0.055802 0.35057 0.080886 -0.05628-0.17786 -0.10276 0.3389 0.04747 0.34361 -0.22268 0.14908 0.3233 -0.039680.56563 0.24114 0.070397 0.34396 0.08645 0.31413 -0.12828 0.1613 特征根6 特征根7 特征根8 特征根9 特征根10 0.083609 0.19101 0.28379 -0.01355 0.016935 0.36397 -0.15598 -0.51073 -0.368 0.44555 -0.34795 -0.56966 0.26936 0.20629 -0.12414 -0.10798 -0.04878-0.01277-0.03723 0.020233 0.079401 0.080728 0.0048450.006211-0.02020-0.3313 0.51701 0.19396 -0.55239 -0.1912 0.11647 0.36385 -0.43056 0.58624 -0.38753 0.63387 -0.2398 0.40302 -0.06921-0.25789 -0.39587 -0.35638 -0.39327 -0.17326 -0.20607 -0.19917 0.14688 0.21397 0.36984 0.69947 因此所得的主成分的表达式是
)(69947.0)(12414.0)(44555.0)(016935.0)(08645.0)(1947.0)(11973.0)(20773.0)
(34396.0)(32335.0)(34386.0)(31814.01010332211101010332211210103322111X X X X X X X X Y X X X X X X X X Y X X X X X X X X Y -++---+-=-++-+-+--=-++-+-+-=
其中第一、二主成分保留了原有变量90.45%的信息,所以在分析中可以把第一、二主成份提取出来,这样就达到了降维的目的。
第一、二主成分与原是变量的因子负荷分别为
利用上面求因子负荷方法求得下表
第一主成分第二主成分
0.89448838939 0.22175603172
0.96680322366 -0.33663511304
0.90913692308 -0.54742217079
0.25925936501 0.93089921909
0.85110511206 0.31090466798
0.95462891447 -0.21751797537
0.98566918548 -0.086347462484
0.95285759466 -0.050675197737
0.90899634214 0.042364550709
0.96708438553 -0.092287146499
由上表可知第一主成分反映了年底总人口数指标的89.45%、国内生产总值指标的96.68%、工业总产值指标的90.91%、货运总量指标的85.11%、地方财政预算内收入指标的95.46%、固定资产投资总额指标的98.57%、城乡居民年底储蓄余额指标的95.29%、在岗职工平均人数指标的90.90%、在岗职工人数总额96.71%。
所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。
第二主成份反映了客运总量指标的93.09%。
这说明第一、二两个主成分共同解释了原是变量的所有指标,也就是起到了降维作用,而不想协方差矩阵求解主成分那样,并没有把所有变量解释完整。
总结
一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵出发进行主成分分析,而应该考虑对数据的标准化。
在本文中采用的例子就是度量单位不同,有万人、万吨、万元、亿元,而数据见的差异性也非常大,小则65.49大则13618179,。
因此在用协方差矩阵求解主成分时存在协方差矩阵中数据的差异性很大。
在后面提取主成分时发现,只提取了一个主成分,而此时并不能将所有的变量都解释到,这就没有真正起到降维的作用。
但是在用相关矩阵求解主成分时发现,提取了两个主成分后可以很好地将所有变量都解释了,进而起到降维的作用,这就实现主成分分析的最终目的。
但是对原始数据进行标准化后更倾向于各个指标的作用在主成分分析夫人构成中相等。
对于数据取值范围不大或是度量单位相同的指标进行标准化处理后,其主成分分析的结果与仍由协方差矩阵出发求得的结果有较大区别。
这是因为对数据标准化的过程实际上就是抹杀原是变量离散程度差异的过程,标准化后方差均为1,而实际上方差是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在主成分构成中的作用趋于相等。
因此,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。
附录
年末总人口数(万人)
地区生
产总值
(GDP)
(亿元)
限额以上
工业总产
值(万元)
客运总
量(万
吨)
货运总量
(万吨)
地方财
政预算
内收入
(万元)
固定资产
投资总额
(万元)
城乡居民
储蓄年末
余额(万
元)
在岗职
工平均
人数(万
人)
在岗职工
工资总额
(万元)
北京市988.1 2697.94 27383005 22469 30550 4541676 13618179 35363232 385 7511091 天津市747.99 1649.94 26635642 3302 28151 1575648 5957854 11483600 178.52 2580319 石家庄195 462.8204674185 12718 12415 267217 1622339 3943653 57.57 668230 太原市239.2 328.871 3041318 2670 15170 191258 1116902 4212482 76.44 741534 呼和浩108.38 147.459822266 2859 2415 115899 694792 1561842 25.28 314460 沈阳市487.68 1057.157290387 6742 15156 786436 2697189 9848906 109.36 1270250 大连市270.68 933.131******** 11232 19736 837902 2363574 6452031 73.2 1047008 长春市298.02 732.6299002623 7522 10346 52159 1862037 5064461 74.56 919125 哈尔滨307.39 633.6584027314 6374 8814 524742 2417127 6318358 129.13 1343357 上海市1262.41 4893.01 69355680 6324 49499 6138500 18132746 27818200 235.09 6152145 南京市371.89 981.75915792063 16198 14120 1016425 3681075 6473958 88.15 1517214 杭州市379.49 1195.1616156245 20342 15841 884738 4132806 7976400 67.49 1279750 宁波市126.13 581.3157515766 23224 11182 605456 2156258 2939154 31.79 633904 合肥市137.95 269.2993301429 5141 2903 230490 1142612 1860466 33.71 364216 福州市153.77 507.3443795136 10172 7280 486042 1485363 3510487 45.71 617604 厦门市134.36 558.3268032877 4700 2547 653090 1842512 2622327 49.4 823834 南昌市174.68 343.5872388150 4351 3246 173281 627397 2497600 44.63 480685 济南市322.45 820.1276169652 6300 13057 490001 2388062 4474051 65.85 836911 青岛市237.62 700.83412120173 15166 29068 738006 2020380 4017218 63.5 949555 郑州市229.03 388.1232618010 11589 7373 379797 1440263 5011382 57.4 650500 武汉市758.23 1347.8010208352 11703 16244 861586 4855027 8019988 137.12 1551442 长沙市180.77 468.8732417588 8578 7550 346070 1890677 3576237 44.93 584165 广州市576.97 2448.9924469713 24451 24500 2382192 9422360 24515484 155.59 3661564 深圳市132.04 1954.17 30796298 9869 5167 2656532 6466933 13733900 94.13 2441713 南宁市137.85 242.2581093949 5266 3371 202679 804615 2427374 32.91 365956 海口市60.2 145.6451001338 6635 2018 163632 721010 1801381 17.87 233317 重庆市903.09 879.82 8708192 60087 29470 393000 3313288 7209600 123.47 1283975 成都市341.52 777.5254122258 52467 23724 503207 3877200 6665800 81.32 1096987 贵阳市191.05 249.0022079492 17334 4885 246106 1331253 2193291 41.2 438633 昆明市215.2 523.002 3037762 6437 12084 499548 1672584 4123894 61.32 780846 西安市400.08 634.94 4491390 9079 7728 515126 2269105 7140541 101.25 1130403 兰州市187.06 306.4883543034 2141 5401 180841 1541532 3155479 49.62 525485 西宁市95.89 70.6574 380018 2400 1837 63801 515987 1110932 16.69 204063 银川市65.49 82.8467 777427 2551 1573 103303 481797 989652 19.09 209061 乌鲁木159.13 310.4762511914 2346 9283 295986 1393667 2815947 48.97 633932。