多元统计分析案例分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析案例分析内部编号:(YUUT-TBBY-MMUT-URRUY-UOOY-DBUYI-0128)
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中抽取30个样本,指标数据如下:
数据来源:《中国统计年鉴2010》.2、将数据进行标准化变换:
3、用K-均值聚类法对样本进行分类如下:
分四类的情况下,最终分类结果如下:
第一类:北京、上海、浙江。
第二类:天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:
从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -
0.041x6 -0.631x7
Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 +
1.019x6 -0.742x7
Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7
将西藏的指标数据代入函数得:Y1=-1.08671
Y2=-0.62213
Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:D1=138.5182756
D2=
D3=
D4=
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。
经spss软件分析结果如下:
(1)各指标的相关系数阵:
从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。
(2)检验:
由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显着性水平a为0.05,由于显着性水平小于0.05,拒绝零假设,认为相关系
数矩阵与单位阵有显着差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
从中可以看出,各个指标的贡献率都在百分之五十之上比较高。
从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量
总方差17.34%,累计方差贡献率为86.313%。
(4)碎石图:
(5)因子载荷阵如下:
由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显着。为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进
行分类。将五个指标按高载荷分成两类:
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。
(2)求相关矩阵的特征值和特征向量:
从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:所以,前两个主成分为:
第一个主成分:F1=0.135112 X1+0.280371X2+
0.276022X3+0.271383X4+0.211366X5
第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-
0.297578X5
在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农
居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
根据上表写出以下因子得分函数:
F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭人均纯收入+0.293就业人数
F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数
(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)
F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5