浅析主成分分析法及案例分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。第二,可通过因子负荷的结论,弄清X变量间的某些关系。第三,可用于多为数据的一种图形表现方法。第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。第五,用主成分分析筛选回归变量。
案例分析:
下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
省份国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.7116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.877382 4.2117.3114.9 5.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.965348339119.7116.7428.76
将数据输入SPSS软件,选择“分析”—“降维”—“因子分析”,在出现的对话框中进行以下步骤:
第一步,将八个经济指标都转入到变量中去
第二步:进行各选项的设置,如图
第三步:按“确定”键,分析结果如下:
GET DATA /TYPE=XLSX
/FILE='C:\Users\11\Desktop\数据.xlsx'
/SHEET=name 'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
DATASET NAME 数据集3 WINDOW=FRONT.
FACTOR
/VARIABLES 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/PRINT UNIVARIATE INITIAL CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.