主成分分析实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。第二,可通过因子负荷的结论,弄清X变量间的某些关系。第三,可用于多为数据的一种图形表现方法。第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。第五,用主成分分析筛选回归变量。
案例分析:
下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
省份
国内
生产1
居民
消费2
固定
资产3
职工
工资4
货物
周转5
消费
价格6
商品
零售7
工业
产值8
北京125058144
天津227206501
河北312584839
山西412504721
内蒙513874134
辽宁623974911114吉林718724430
黑龙
江8
23344145
上海953439279113江苏
10
19265943
浙江
11
22496619
安徽
12
12544744609
福建
13
23205857
江西
14
11824211
山东
15
15275145
河南
16
10344344
湖北
17
15274685849120湖南
18
14084797119广东
19
26998250114广西
20
131********
海南
21
18145340
四川
22
353412614645117贵州
23
9424475
云南
12613345149
24
西藏
11107382
25
陕西
12084396119117
26
甘肃
10075493507
27
青海
14455753118
28
宁夏
13555079
29
新疆
14695348339
30
将数据输入SPSS软件,选择“Analyze”—“Data Reduction”—“因子分析”,在出现的对话框中进行以下步骤:
第一步,将八个经济指标都转入到变量中去
第二步:进行各选项的设置,如图
第三步:按“确定”键,分析结果如下:
GET DATA /TYPE=XLSX
/FILE='C:\Users\11\Desktop\数据.xlsx'
/SHEET=name 'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
DATASET NAME 数据集3 WINDOW=FRONT.
FACTOR
/VARIABLES 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/PRINT UNIVARIATE INITIAL CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.
因子分析
附注
创建的输出11-二月-2012 16时31分44秒
注释
输入活动的数据集数据集3
过滤器
权重
拆分文件
工作数据文件中的 N
行
30
缺失值处理对缺失的定义MISSING=EXCLUDE:用户定义的缺失
值作为缺失对待。
使用的案例LISTWISE:统计量基于对所使用任
何变量都不含缺失值的案例。