主成分分析(资料分享)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
起源及发展
主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统
计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科
主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤
1)对原始数据进行标准化处理
假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。将各指标值转换成标准化指标,有
,(i =1,2,…,n ; j =1,2,…,m)
其中, , ,即为第j个指标的样本均值和样本标准差。对应地,称
,(j =1,2,…,m)
为标准化指标变量。
2)计算相关系数矩阵R
相关系数矩阵, 有
, (i,j =1,2,…,m)
式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量
计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:
︙
式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值
① 计算特征值的信息贡献率和累积贡献率。称
为主成分的信息贡献率,同时,有
为主成分的累积贡献率。当接近于1(= 0.85,0.90,0.95)时,则选择前p个指标变量作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。
② 计算综合得分:
其中为第j个主成分的信息贡献率,根据综合得分值就可进行评价。
主成分分析案例
1. 问题提出
下表给出了我国1984年-2000年宏观投资的一些数据,试利用主成分分析对投资效益进行分析和排序。
年份投资效
果系数(无
时滞)
投资效
果系数(时
滞一年)
全社会
固定资产
交付使用
率
建设项
目投产率
基建房
屋竣工率
1984 0.710.490.410.510.46
1985 0.400.490.440.570.50
1986 0.550.560.480.530.49
1987 0.620.930.380.530.47
1988 0.450.420.410.540.47
1989 0.360.370.460.540.48
1990 0.550.680.420.540.46
1991 0.620.900.380.560.46
1992 0.610.990.330.570.43
1993 0.710.930.350.660.44
1994 0.590.690.360.570.48
1995 0.410.470.400.540.48
1996 0.260.290.430.570.48
1997 0.140.160.430.550.47
1998 0.120.130.450.590.54
1999 0.220.250.440.580.52
2000 0.710.490.410.510.46s
2. 进行主成分分析
主成分分析结果如下:
序号特征根贡献率累计贡献率
1 3.1343 62.6866 62.6866
2 1.168
3 23.3670 86.0536
3 0.3502 7.0036 93.0572
4 0.2258 4.5162 97.5734
5 0.1213 2.426
6 100
3. 进行综合评价
选取前4个主成分进行分析。彼岸准话变量的前4个主成分对应的特征向量如下:
1 0.4905 -0.2934 0.5109 0.1896 -0.6134
2 0.5254 0.0490 0.4337 -0.1217 0.7202
3 -0.4871 -0.2812 0.371
4 0.6888 0.2672
4 0.0671 0.8981 0.1477 0.3863 -0.1336
由此可得4个主成分分别为
以四个主成分的贡献率为权重,构建主成分综合评价模型:
把各年份四个主成分值代入上式,可以得到综合评价值及排序结果。
名次年份综合评价值
1 1993 2.4464
2 1992 1.9768
3 1991 1.1123
4 1994 0.8604
5 1987 0.8456
6 1990 0.2258
7 1984 0.0531
8 2000 0.0531
9 1995 -0.2534
10 1988 -0.2662
11 1985 -0.5292
12 1996 -0.7405
13 1986 -0.7789
14 1989 -0.9715
15 1997 -1.1476
16 1999 -1.2015
17 1998 -1.6848
由此可见:集中在1991-1994年间投资效益较好,集中在1997-1999年间投资效益较差,其余年份投资效益一般。
附录
gj= [0.71,0.49,0.41,0.51,0.46
0.40,0.49,0.44,0.57,0.50
0.55,0.56,0.48,0.53,0.49
0.62,0.93,0.38,0.53,0.47
0.45,0.42,0.41,0.54,0.47
0.36,0.37,0.46,0.54,0.48
0.55,0.68,0.42,0.54,0.46
0.62,0.90,0.38,0.56,0.46
0.61,0.99,0.33,0.57,0.43
0.71,0.93,0.35,0.66,0.44
0.59,0.69,0.36,0.57,0.48
0.41,0.47,0.40,0.54,0.48
0.26,0.29,0.43,0.57,0.48
0.14,0.16,0.43,0.55,0.47
0.12,0.13,0.45,0.59,0.54
0.22,0.25,0.44,0.58,0.52
0.71,0.49,0.41,0.51,0.46];