李德荃的博客:关于主成分分析方法(PCA)的理解与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

李德荃的博客:关于主成分分析方法(PCA)的理解与应用
关于主成分分析方法(PCA)的理解与应用
在实际研究中,我们经常会遇到属性复杂多样的事物。

为准确刻画这样的事物,我们必须设置一组指标或变量。

这些变量或指标所包含的信息通常存在着一定程度的重复性。

变量的数目较多,再加上变量之间的相关性,势必增加了拟分析问题的复杂性。

于是为方便后续的分析,自然产生了从众多的变量中综合归纳出少数几个具有代表性的指标或变量的需要,使之既能够涵盖原始指标或变量所包含的绝大部分信息,同时又能做到互不相关、信息不重叠。

于是便有了主成分分析法。

一、主成分分析(principle component analysis)的基本思想
假设需要用n个指标或变量才能较为全面准确地刻画出某种事物的属性。

再假定拥有m个该事物的样本。

于是得到一个m*n维样本数据矩阵。

主成分分析是一种数学降维方法:
首先,它把“信息”理解为各样本相对于“均值状态”的“差异”。

于是用“方差”来刻画指标或变量中“信息”的多少。

其次,它设法构造出n个初始指标或变量的线性组合。

其中,线性组合的数目也是n个。

这n个线性组合的方差之和等于n个初始指标或变量的方差之和,从而确保了在线性组合的过程中不丢失“信息”。

这n 个线性组合正交,从而互不相关,这就确保了“信息”在新指标或变量间的不重复出现。

然而,与对n个初始变量或指标的分析相似,对n个线性组合的分析也将过于繁琐,于是自然想到可以丧失一部分“信息”为代价,抛弃一部分线性组合,借以减少拟研究的新指标或变量的数目。

那么,应该抛弃哪些线性组合呢?
显然,应该优先考虑抛弃哪些“信息”较少(也就是方差较小)的线性组合。

为此,我们把方差最大的那个线性组合称为第一主成分;把方差次大的那个线性组合称为第二主成分;依此类推,方差由大到
小,总共会有n个主成分。

于是,我们自第一主成分算起,以累计方差占比不低于95%为限,仅保留前r<n 个主成分即可。

二、主成分分析的应用
主成分概念首先由Karl parson (1901)提出,用于对非随机变量的分析。

Hotelling(1933)则将这个概念推广到对随机变量的分析。

关于主成分分析方法的应用价值,主要有两点:
首先,如前所述,主成分分析的主要目的是将线性相关的向量转换成不相关的向量,并可实现降维,从而有利于后续的分析。

其次,使用过多的指标来描述事物的属性,其好处在于全面,劣处则在于对事物的属性难以形成综括的印象。

而在主成分分析中,设若所生成的第一主成分的方差(或第一主成分加第二主成分的累计方差)占比较高,例如超过70%,则可以认为这一个(或两个)综合性变量基本上反映了事物的核心属性,可以作为该事物的标志性指标。

于是主成分分析就可以用来帮助研究者整理思维,去繁就简,撇开枝节,抓住问题的核心或主干,从而有助于实现思维的科学化,提高思维的效率。

近年来,伴随着计算机软件的使用,主成分分析法的应用越来越常见。

其中有许多研究论文将主成分分析法应用于综合评价或排序的工作。

例如对某一行业里的众多企业实施经济效益方面的评估排序。

由于影响经济效益的指标或变量很多,所以很难直接经由这么多的指标或变量来比较企业间经营业绩的优劣。

实际上,也只有在一维空间中才有可能实施相对优劣的评估排序。

这就面临着如何将一个多变量的综合评价转换成单变量的综合评价的问题。

这是一个困扰着许多研究者的问题。

许多研究人员想到了使用主成分分析法。

最常见的做法就是计算每一个样本企业几个主成分的加权平均值,依此排序,评价经济效益的相对优劣。

不过我感觉,使用主成分分析法来实施综合评价或排序,其逻辑讲不通,或者说,其逻辑过于模糊、令人难以理解:
首先,主成分本身的含义需要准确认定。

但在许多场合,这是一
件很难做到的事情。

其次,如前所述,主成分所包含的“信息”只是“方差”,并按方差的大小依次排序。

但“方差”大者不一定为佳。

第三,设若“方差”大者为佳,则第一主成分的方差最大,而将几个主成分加权平均的做法实质上降低了综合评价排序中第一主成分的作用。

第四,第一主成分是在综合归纳所有初始指标或变量的方差信息的基础上生成的。

尽管第二主成分采集的是第一主成分所抛弃的方差信息,通常也能从中判断出影响第二主成分的初始指标或变量主要有哪几个,但这些初始指标或变量其实也在生成第一主成分的过程中发挥了作用。

将俩个主成分加权平均的做法,从第一主成分的角度来看,这是要降低这些初始指标或变量在综合排序中的作用;但从第二主成分的角度来看,则又是要强化这些初始指标或变量在综合排序中的作用。

这在逻辑上显然讲不通或者令人难以理解。

故此我认为,就解决综合评价或排序之类的问题而言,主成分分析法并不是一个适用的方法。

相关文档
最新文档