主成分分析实例

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具
主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

主成分分析的主要作用体现在五个方面，第一，主成分分析能降低所研究的数据空间的维数。

第二，可通过因子负荷的结论，弄清X变量间的某些关系。

第三，可用于多为数据的一种图形表现方法。

第四，可由主成分分析构造回归模型，即把各个主成分作为新自变量代替原来自变量做回归分析。

第五，用主成分分析筛选回归变量。

案例分析：
下表是关于全国31个省市的8项经济指标，以此为例，进行主成分分析。

省份国内生产1居民消费2固定资产3职工工资4货物周转5消费价格6商品零售7工业产值8北京11394.892505519.018144373.9117.3112.6843.43天津2920.112720345.466501342.8115.2110.6582.51河北32849.521258704.8748392033.3115.2115.81234.85山西41092.481250290.94721717.3116.9115.6697.25内蒙5832.881387250.234134781.7117.5116.8419.39辽宁62793.372397387.9949111371.7116.11141840.55吉林71129.21872320.454430497.4115.2114.2762.47黑龙江82014.532334435.734145824.8116.1114.31240.37上海92462.575343996.489279207.4118.71131642.95江苏105155.2519261434.9559431025.5115.8114.32026.64浙江113524.7922491006.396619754.4116.6113.5916.59安徽122003.5812544744609908.3114.8112.7824.14福建132160.522320553.975857609.3115.2114.4433.67江西141205.111182282.844211411.7116.9115.9571.84山东155002.3415271229.5551451196.6117.6114.22207.69河南163002.741034670.3543441574.4116.5114.91367.92湖北172391.421527571.684685849120116.61220.72湖南182195.71408422.6147971011.8119115.5843.83广东195381.7226991639.838250656.5114111.61396.35广西201606.151314382.595105556118.4116.4554.97海南21364.171814198.355340232.1113.5111.364.33四川2235341261822.544645902.3118.51171431.81贵州23630.07942150.844475301.1121.4117.2324.72云南241206.6812613345149310.4121.3118.1716.65西藏2555.98111017.877382 4.2117.3114.9 5.57陕西261000.031208300.274396500.9119117600.98甘肃27553.351007114.815493507119.8116.5468.79青海28165.31144547.76575361.6118116.3105.8宁夏29169.75135561.985079121.8117.1115.3114.4新疆30834.571469376.965348339119.7116.7428.76
将数据输入SPSS软件，选择“Analyze”—“Data Reduction”—“因子分析”，在出现的对话框中进行以下步骤：
第一步，将八个经济指标都转入到变量中去
第二步：进行各选项的设置，如图
第三步：按“确定”键，分析结果如下：
GET DATA /TYPE=XLSX
/FILE='C:\Users\11\Desktop\数据.xlsx'
/SHEET=name 'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
DATASET NAME 数据集3 WINDOW=FRONT.
FACTOR
/VARIABLES 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/PRINT UNIVARIATE INITIAL CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.
因子分析
附注
创建的输出11-二月-2012 16时31分44秒注释
输入活动的数据集数据集3
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行30 缺失值处理对缺失的定义MISSING=EXCLUDE：用户定义的缺失值作
为缺失对待。

使用的案例LISTWISE：统计量基于对所使用任何变量
都不含缺失值的案例。

语法FACTOR
/VARIABLES 国内生产居民消费固定
资产职工工资货物周转消费价格商
品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费固定
资产职工工资货物周转消费价格商
品零售工业产值
/PRINT UNIVARIATE INITIAL
CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.
资源处理器时间00:00:00.078 已用时间00:00:01.410
所需的最大内存9080 (8.867K) 字节[数据集3]
相关矩阵a
商品零售工业产值相关国内生产-.264 .874 居民消费-.593 .363
固定资产-.359 .792
职工工资-.539 .104
货物周转.022 .659
消费价格.763 -.125
商品零售 1.000 -.192
工业产值-.192 1.000 a. 行列式= .000
公因子方差
初始提取
国内生产 1.000 .945
居民消费 1.000 .800
固定资产 1.000 .902
职工工资 1.000 .875
货物周转 1.000 .857
消费价格 1.000 .957
商品零售 1.000 .929
工业产值 1.000 .903
提取方法：主成份分析。

从“解释的总方差”一表中可以得出相关系数矩阵的特征值为
λ1=3.755，λ2=2.197，λ3=1.215，λ4=0.402，5=0.213，λ6=0.318，
λ7=0.065，λ8=0.015
前三个成分的特征值都大于1，并且累计贡献值达到了89.584%，所以选取了前三个因素作为主成分。

将“成分矩阵”表中没一列值分别除以特征值的开方，就得出了每一个特征值对应的特征向量，由此可以得出第一，第二，第三主成分表达式（令各因素为X1，X2……X8）
F1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X5-1.37*X6-2.4318 *X7+6.72*X8
F2=0.1982*X2-0.4034*X2+0.1501*X3-1.1387*X4+2.0468*X5+0.6784*X6+2. 33*X7+3.4864*X8
F3=0.0624*X1+0.1828*X2+0.1923*X3+0.5804*X4-0.5959*X5+2.1455*X6+1. 718*X7+1.7228*X8
根据三个主成分表达式，通过SPSS的转换功能，就可以得出成分结果：
省份F1F2F3
北京13705.16-5881.957046.91
天津10446.78-5197.365630.69
河北15956.233467.834713.74
山西9721-1372.144315.87
内蒙7390.3-1650.263462.48
辽宁19564.533621.656335.88
吉林10015.51-1507.114506
黑龙江14049.71160.945132.78
上海21778.77-5587.419863.21
江苏22960.753202.467724.23
浙江14746.51-2511.376240.97
安徽11271.67-213.014438.96
福建9819.83-3990.124892.59
江西8197.8-1804.893979.48
山东23365.655193.377352.74
河南15953.513670.484892.37
湖北14283.24955.725312.38
湖南11746.87-168.984564.4
广东20630.81-2620.938383.58
广西9209.94-2542.964455.72
海南5248.71-5674.83899.05
四川16350.022217.645689.45
贵州6135.28-3224.343679.63
云南9817.7-2591.244871.34
西藏5522.4-8464.574950.51
陕西8549.38-1775.924085.61
甘肃8034.14-3509.364391.51
青海5266.56-6247.954221.22
宁夏4872.95-5290.883791.89
新疆8015.83-3918.564491.04
综合上述可知，各省份的8个经济指标中国内资产，居民消费，固定工资可以作为衡量经济的主要成分。