主成分分析实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。
第二,可通过因子负荷的结论,弄清X变量间的某些关系。
第三,可用于多为数据的一种图形表现方法。
第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。
第五,用主成分分析筛选回归变量。
案例分析:
下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
省份
国内
生产1
居民
消费2
固定
资产3
职工
工资4
货物
周转5
消费
价格6
商品
零售7
工业
产值8
北京125058144
天津227206501
河北312584839
山西412504721
内蒙513874134
辽宁623974911114吉林718724430
黑龙
江8
23344145
上海953439279113江苏
10
19265943
浙江
11
22496619
安徽
12
12544744609
福建
13
23205857
江西
14
11824211
山东
15
15275145
河南
16
10344344
湖北
17
15274685849120湖南
18
14084797119广东
19
26998250114广西
20
131********
海南
21
18145340
四川
22
353412614645117贵州
23
9424475
云南
12613345149
24
西藏
11107382
25
陕西
12084396119117
26
甘肃
10075493507
27
青海
14455753118
28
宁夏
13555079
29
新疆
14695348339
30
将数据输入SPSS软件,选择“Analyze”—“Data Reduction”—“因子分析”,在出现的对话框中进行以下步骤:
第一步,将八个经济指标都转入到变量中去
第二步:进行各选项的设置,如图
第三步:按“确定”键,分析结果如下:
GET DATA /TYPE=XLSX
/FILE='C:\Users\11\Desktop\数据.xlsx'
/SHEET=name 'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
DATASET NAME 数据集3 WINDOW=FRONT.
FACTOR
/VARIABLES 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值
/PRINT UNIVARIATE INITIAL CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.
因子分析
附注
创建的输出11-二月-2012 16时31分44秒
注释
输入活动的数据集数据集3
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的 N
行
30
缺失值处理对缺失的定义MISSING=EXCLUDE:用户定义的缺失
值作为缺失对待。
使用的案例LISTWISE:统计量基于对所使用任
何变量都不含缺失值的案例。
语法FACTOR
/VARIABLES 国内生产居民消费
固定资产职工工资货物周转消费价
格商品零售工业产值
/MISSING LISTWISE
/ANALYSIS 国内生产居民消费
固定资产职工工资货物周转消费价
格商品零售工业产值
/PRINT UNIVARIATE INITIAL
CORRELATION DET EXTRACTION
/CRITERIA MINEIGEN(1)
ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION.
资源处理器时间00:00:已用时间00:00:
所需的最大内存9080 字节[数据集3]
描述统计量
均值标准差分析N
国内
生产
30
居民
消费
30
固定
资产
30
职工
工资
30货物
周转
30
消费
价格
30
商品
零售
30
描述统计量
均值标准差分析N
国内
生产
30
居民
消费
30
固定
资产
30职工
工资
30
货物
周转
30
消费
价格
30商品
零售
30
工业
产值
30
相关矩阵a
商品零售
工业产值
相关
国内
生产
.874
居民
消费
.363
固定
资产
.792
职工
工资
.104
货物
周转
.022.659
消费
价格
.763
商品
零售
工业
产值
a. 行列式 = .000
公因子方差
初始提取国内
生产
.945
居民
消费
.800
固定
资产
.902
职工
工资
.875货物
周转
.857
消费
价格
.957
商品
零售
.929工业
产值
.903
公因子方差
初始提取
.945国内
生产
.800居民
消费
.902固定
资产
.875职工
工资
.857货物
周转
.957消费
价格
.929商品
零售
工业
.903产值
提取方法:主成份分析。
居民
.607.271
消费
.912.161.212
固定
资产
.466.368
职工
工资
货物
.486.738
周转
.252.797
消费
价格
.594.438
商品
零售
.823.427.211
工业
产值
提取方法 :主成份。
a. 已提取了 3 个成份。
从“解释的总方差”一表中可以得出相关系数矩阵的特征值为
λ1=,λ2=,λ3=,λ4=,5=,λ6=,
λ7=,λ8=
前三个成分的特征值都大于1,并且累计贡献值达到了%,所以选取了前三个因素作为主成分。
将“成分矩阵”表中没一列值分别除以特征值的开方,就得出了每一个特征值对应的特征向量,由此可以得出第一,第二,第三主成分表达式(令各因素为X1,X2……X8)
F1=*X1+*X2+*X3+*X4+***X7+*X8
F2=**X2+**X4+*X5+*X6+*X7+*X8
F3=*X1+*X2+*X3+**X5+*X6+*X7+*X8
根据三个主成分表达式,通过SPSS的转换功能,就可以得出成分结果:
省份F1F2F3
北京
天津
河北
山西9721
内蒙
辽宁
吉林4506
黑龙
江
上海
江苏
浙江
安徽
福建
江西
山东
河南
湖北
湖南
广东
广西
海南
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
综合上述可知,各省份的8个经济指标中国内资产,居民消费,固定工资可以作为衡量经济的主要成分。