主成分分析法的步骤和原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)主成分分析法的基本思想
主成分分析(Principal Component Analysis )是利用降维的思想,将多个变
量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性
组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,
且所含的信息互不重叠。[2]
采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺
点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题
得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型
假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量
构成的p 维随机向量为X=(X 1,X 2…X p )t 。设随机向量X 的均值为μ,协方差矩
阵为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望
值,即,μk= E(xk),协方差矩阵然后被定义为:
Σ=E{(X -E[X])(X-E[X])}=(如图
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p
Z 2=μ21X 1+μ22X 2+…μ2p X p
…… …… ……
Z p =μp1X 1+μp2X 2+…μpp X p
主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组
合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,
Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤
第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始
数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数
据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之
间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。R 为实对称矩阵
(即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式为:
2211)()()
()(j kj n
k i kj j kj n k i kj ij X X X X X X X X R -=--=-=∑∑ 第四步:根据协方差矩阵R 求出特征值、主成分贡献率和累计方差贡献率,
确定主成分个数。解特征方程0=-R E λ,求出特征值λi (i=1,2,…,p )。
因为R 是正定矩阵,所以其特征值λi 都为正数,将其按大小顺序排列,即λ1
≥λ2≥…≥λi ≥0。特征值是各主成分的方差,它的大小反映了各个主成分的
影响力。主成分Z i 的贡献率W i =
∑=p
j j j 1λλ,累计 贡献率为∑∑==p j j m j j 1
1λλ。根据选取主成分个数的原则,特征值要求大于1且累计贡 献率达80%-95%的特征值λ1,λ2,…,λm 所对应的1,2,…,m (m ≤p ),其
中整数m 即为主成分的个数。
第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分Z i 与
原始指标X i 的相关系数R (Z i ,X i ),揭示了主成分与各财务比率之间的相关程度,
利用它可较好地解释主成分的经济意义。
第六步:计算企业财务综合评分函数F m ,计算出上市公司的综合值,并进
行降序排列:
F m =W 1Z 1 + W 2Z 2+…+ W i Z i
[2] 朱星宇,陈勇强.SPSS 多元统计分析方法及应用[M].北京:清华大学出版社,2011.241