主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章 主成分分析
主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n
i b a y ij j i ij ,,2,1,,2,1,' ==+=ε
主成分的模型表达式为:
p
p j i i i i diag v v v v i p
V V C λλλλλλλ≥≥≥=∧=''
==∧=∑ 2121),,,,(0
1
其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。
Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。
Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO 比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser (1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable );0.50-0.59,非常差(miserable );0.60-0.69,勉强接受(mediocre );0.70-0.79,可以接受(middling );0.80-0.89,比较好(meritorious );0.90-1.00,非常好(marvelous )。
SMC 即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。
成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。
多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T 检验。
12.1 主成分估计
Stata 可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。
(1)sysuse auto,clear
pca trunk weight length headroom
pca trunk weight length headroom, comp(2) covariance
(2)webuse bg2,clear
pca bg2cost*, vce(normal)
12.2 Estat
estat 给出了几个非常有用的工具,包括KMO 、SMC 等指标。
webuse bg2,clear
pca bg2cost*, vce(normal) estat anti estat kmo estat loadings estat residuals estat smc estat summarize
12.3 预测
Stata 可以通过predict 预测变量得分、拟合值和残差等。
webuse bg2,clear
pca bg2cost*, vce(normal)
predict score fit residual q (备注:q 代表残差的平方和)
12.4 碎石图
碎石图是判断保留多少个主成分的重要方法。命令为screeplot 。
webuse bg2,clear
pca bg2cost*, vce(normal) screeplot
E i g e n v a l u e s
12.5 得分图、载荷图
得分图即不同主成分得分的散点图。命令为scoreplot 。
webuse bg2,clear
pca bg2cost*, vce(normal) scoreplot
S c o r e s f o r c o m p o n e n t 2
载荷图即不同主成分载荷的散点图。命令为loadingplot 。
webuse bg2,clear
pca bg2cost*, vce(normal) loadingplot
C o m p o n e n t 2
12.6 旋转
对载荷进行旋转的命令格式为rotate。
webuse bg2,clear
pca bg2cost*, vce(normal)
rotate
例:对中国30个省市自治区经济发展基本情况的八项指标主成分分析,原始数据如下表:
省份
GDP
(亿元)
居民
消费
水平
(元)
固定资
产投资
(亿元)
职工平
均工资
(元)
货物周
转量
(亿吨公
里)
居民消
费价格
指数
(上年
100)
商品零
售价格
指数
(上年
100)
工业总
产值
(亿元)
area x1 x2 x3 x4 x5 x6 x7 x8
北京10488.03 20346 3814.7 56328 758.9 105.1 104.4 10413 天津6354.38 14000 3389.8 41748 2703.4 105.4 105.1 12503 河北16188.61 6570 8866.6 24756 5925.5 106.2 106.7 23031 山西6938.73 6187 3531.2 25828 2562.2 107.2 107.2 10024 内蒙古7761.8 8108 5475.4 26114 3658.7 105.7 104.7 8740.2 辽宁13461.57 9625 10019.1 27729 7033.9 104.6 105.3 24769 吉林6424.06 7591 5038.9 23486 1157.8 105.1 106.2 8406.9 黑龙江8310 7039 3656 23046 1690.9 105.6 105.8 7624.5 上海13698.15 27343 4823.1 56565 16029.8 105.8 105.3 25121 江苏30312.61 11013 15300.6 31667 4300.9 105.4 104.9 67799 浙江21486.92 13893 9323 34146 4974.9 105 106.3 40832 安徽8874.17 6377 6747 26363 5843.2 106.2 106.3 11162 福建10823.11 10361 5207.7 25702 2396.2 104.6 105.7 15213 江西6480.33 5753 4745.4 21000 2285.5 106 106.1 8499.6 山东31072.06 9573 15435.9 26404 10107.8 105.3 104.9 62959 河南18407.78 5877 10490.6 24816 5165.1 107 107.5 26028 湖北11330.38 7406 5647 22739 2526.4 106.3 106.3 13455 湖南11156.64 7145 5534 24870 2349.8 106 105.6 11553 广东35696.46 14390 10868.7 33110 4428.4 105.6 106 65425 广西7171.58 6103 3756.4 25660 2079 107.8 107.6 6072 海南1459.23 6550 705.4 21864 597.7 106.9 106.7 1103.1 重庆5096.66 9835 3979.6 26985 1490.3 105.6 105 5755.9 四川12506.25 6072 7127.8 25038 1578.7 105.1 105.3 14762 贵州3333.4 4426 1864.5 24602 805.3 107.6 107.2 3111.1 云南5700.1 4553 3435.9 24030 821.3 105.7 106.1 5144.6 西藏395.91 3504 309.9 47280 35.5 105.7 103.9 48.19