主成分分析及其在综合评价系统中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析及其在统计综合评价系统中的应用
一. 文献综述
主成分分析法是在对于复杂系统进行统计分析时十分有效的一种方法。本文主要是对主成分分析法进行详细介绍,并分析其在统计综合评价中的应用[1]。突出介绍主成分分析法在学生综合成绩分析[2]、企业业绩分析[3]及景区游客服务满意度测评[4]这三个综合评价系统中的应用。并在文末,对主成分分析法进行了一定的改进[5],使得主成分分析法更加合理并贴近实际,且在一定程度上减小了统计分析过程中“线性化”产生的误差。
二.相关知识
在我们进行系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本文介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 (一)主成分分析方法的原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 个样本,每个样本共有p 个变量描述,这样可构成一个n×p 阶的数据矩阵。如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为
p
x x x 21,,它们的综合指标——新变量指标为
21,x x ,m z (m≤p)。则
11111221221122221122
(1)p p p p
m m m mp p x l x l x l x x l x l x l x z l x l x l x
=+++⎧⎪
=+++⎪⎨
⎪⎪=+++⎩ 在(1)式中,系数ij l 由下列原则来决定:
(1)i z 与j z (;,1,2,...,)i j i j m ≠=相互无关;
(2) 1z 是12,,...,p x x x 的一切线性组合中方差最大者;2z 是与1z 不相关的
12,,...,p x x x 的所有线性组合中方差最大者;……;m z 是与121,,...,m z z z -都不相关的12,,...,p x x x 的所有线性组合中方差最大者。这样决定的新变量指标
121,,...,,m m z z z z -分别称为原变量指标12,,...,p x x x 的第一,第二,…,第m 主成分。
其中,1z 在总方差中占的比例最大,21,...,,m m z z z -的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主
要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量(1,2,...,)j x j p =在诸主成分(1,2,...,)i z i m =上的载荷(1,2,...,;1,2,...,)ij l i m j p ==,从数学上容易知道,它们分别是12,,...,p x x x 的相关矩阵的m 个较大的特征值所对应的特征向量。 (二)主成分分析的解法
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1)计算相关系数矩阵
111212122
212
(2)P P P P PP r r r r r r R M M M M r r r ⎡⎤⎢⎥⎢⎥=⎢⎥
⎢
⎥
⎣⎦
在公式(2)中,ij r (i ,j=1,2,…,p)为原来变量i x 与j x 的相关系数,其计算公式为
()()
n
ki
i kj j ij x
x x x r --=
∑
因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素
即可。
(2)计算特征值与特征向量
首先解特征方程|λI-R |=0求出特征值λi
(i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(3)计算主成分贡献率及累计贡献率
∑∑∑---=p
k k
m
k k
p
k k i i p i r z 1
1
1
),,,2,1(/γ
γ
γ累计贡献率:
贡献率:主成分 。
一般取累计贡献率达85-95%的特征值m λλλ ,,21,所对应的第一,第二,……,第m (m ≤p)个主成分。
(4)计算主成分载荷
),,2,1,(),(p k i e x z p ki k i k ==γ (4)
由此可以进一步计算主成分:
Z=⎥
⎥
⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m z z z M M M M z z z z z z
2
1
22221
11211 (5)
三.主成分分析法的应用
近年来, 随着统计分析活动的广泛开展, 评价对象也越来越复杂, 简单评价方法的局限性也越来越明显。因此, 通过对实践活动的总结, 逐步形成了一系列运用多个指标对多个单位进行评价的方法, 简称综合评价方法。在综合评价方法中应用极为广泛的就是主成分分析法[1]。
采用主成分分析法进行综合评价的原因是主成分分析的降维处理技术能较好地解决多指标评价的要求且主成分分析在进行多指标综合评价时,权数是从信息量和系统效应角度来确定的。
用主成分分析法进行多指标综合评价的几个优点是:
I. 消除了评价指标间的相关影响。另外, 主成分分析用于多指标综合评价是对彼此独立的分量进行合成, 正适于采用加权线性相合成方法, 不必在合成方法选择上多做工作。
II. 减少了指标选择的工作量。在主成分分析中由于可以消除评价指标间的相关影响, 因而在指标选择上相对容易些。但主成分分析法确定评价指标的原则是宁多勿少, 尽可能地全面。主成分分析可以保留原始评价指标的大部分信息。如果指标选择不够全面, 就会先天不足,再好的分析方法也会失去效用。
III. 在主成分分析将原始变量变换为成分的过程中, 同时形成了反映成分和指标包含信息量的权数, 以计算综合评价值, 这比人为地确定权数, 工作量少些, 也有助于保证客观地反映样本间的现实关系。
主成分分析法在进行综合评价上应用得十分广泛,在很多系统的综合评价中都起到了很重要的作用。这里举出其在学生综合成绩分析[2]、企业业绩分析[3]及景区游客服务满意度测评[4]这三个综合评价系统中的应用。
(一)主成分分析法在学生综合成绩分析中的应用[2]
随着经济全球化和知识经济的强力推动,人力资源已成为人类的第一宝贵资源。各行各业高素质人才培养主要基地是高等院校,因此,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。目前高校普遍采用的方法是取学习成绩的加权平均,然而这种方法存在着许多不足,无法反映学生的整体素质,也不利于素质教育的推进。
以某数学班2009-2010 学年的大学物理①、大学英语③、概率统计、数学分