多元统计分析论文模板
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析实践论文
院系:理学院
专业:统计学
年级:2010
:樊恩泽
学号:
我国城镇居民人均消费支出的多元统计分析
樊恩泽
摘要:本文本文综合了主成分因子分析与系统聚类分析,先进行主成分因子分析, 再用进行聚类分析。采用2011年我国31个省、市、自治区城镇居民人均消费支出数据,首先利用主成分因子分析的方法, 找出影响我国城镇居民人均消费支出的主成分, 计算各样本的主成分得分;其次运用系统聚类分析法,对各地区人均消费水平进行分类,结果表明,系统聚类分析法得到的结果也较好;最后对于扩大国消费提出相关建议。
关键词:主成分分析聚类分析居民人均消费支出
1、引言
人均消费支出指居民用于满足家庭日常生活消费的全部支出,包括购买实物支出和服务性消费支出。消费支出按商品和服务的用途可分为食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务等八大类。人均消费支出是社会消费需求的主体,是拉动经济增长的直接因素,是体现居民生活水平和质量的重要指标。
本文选取2011年我国城镇居民人均消费支出数据,主要利用三种统计方法进行分析:主成分分析法、聚类分析法。将全国31个省、市、自治区进行分类和排序,并与人们实际观察到的情况进行比较。
1.1主成分分析
主成分分析是将分量相关的原始变量, 借助于一个正交变换转化为不相关的新变量, 并以方差作为信息量的测度, 对新变量进行降维, 取累计贡献率大的若干成分作为主成分。这些主成分能够反映原始变量的绝大部分信息, 它们通常表示为原始变量的某种线性组合。
1.2聚类分析
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作
2、数据来源及处理
2.1统计思想
主成分因子分析的基本思想是通过对变量相关系数矩阵部结构的研究,找出能控制所以变量的少数几个随机变量去描述多个变量之间的相关关系,并依据相关性的大小将变量分组,使得同组的变量之间相关性较高,不同组的变量相关性较低。每组代表一个基本结构,这个基本结构成为公共因子。对于所研究的问题试图用最小个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来可观测的每一个变量。
下表是要进行处理的31个省市的城镇居民人均消费支出的相关原始数据,数据来源于《2011中国统计年鉴》。
X1:食品x2:衣着x3:居住x4:家庭用品x5:交通通信x6:文教娱乐x7:医疗保健
表1
2.2主成分分析
表2:因子解释原始变量方差的情况
该表显示了各主成分解释原始变量总方差的情况,主成分几乎包含了各个原始变量至少90.517%的信息,可见效果比较好。
表3:该表为7个成分的相关系数
表4:因子载荷矩阵的成分图
该表给出了标准化原始变量用求得的主成分线性表示的近似表达式,用prin1,prin2来表示各个主成分,则有该表可以得:
标准化的rin2
+
⨯
≈
⨯
0.470
prin1
0.862
x1p
标准化的prin2
⨯
≈
x2⨯
0.899
-
prin1
0.322
标准化的prin2
⨯
≈
x3⨯
0.921
-
prin1
0.022
表5:主成分得分
表6:因子得分系数矩阵
该表由公式517
F
(F
F⨯
⨯
=所得,显示了各个主成分的因子得分84
+
895
90
.
/)2
622
1
.5
.
和主成分得分。
图1
主消费因子F1得分前五名地区依次是、、、、,远远高于其他地区,说明、主要城镇居民人均消费支出远远高于其他地区,与实际情况比较接近。主消费因子F1 最后五名地区依次是、、、、,这些地区经济发展相对落后,人均消费支出低,其主要消费支出也低,但与实际情况还存在差距,城镇居民消费应比消费要低,不应划为最低人均消费地区。
次消费因子F2 得分前五名地区依次是、、、、;次消费因子F2 最后五名地区依次是、、广西、、,衣着人均消费,在实际消费过程中,人们不容易观察到,这个结论还缺乏一定依据;综合得分F 前五名地区依次是、、、、;这五个地区经济都发达,人均收入和消费支出都高,将这些地区分为一类比较切合实际。综合得分F 最后五名地区依次是、、、、,这些地区人口稀少,经济发达相当落后,人民收入和消费水平均处于全国最低水平,与人们观察到的实际情况比较接近,将这些地区分为一类,其他地区则分为另外一类,这样一来就可以将31个省、市、自治区就分为三类,第一类为因子综合得分前五名地区,第三类为因子综合得分最后五名地区,其余地区则划分为第二类。这种
分类结果比较切合实际情况。
2.3聚类分析
表7
表8
图2
结果表明:我国各类地区城镇居民人均消费支出分类效果较好,且不同地区的消费结构有着各自的特点。综合考虑将我国各地区城镇居民人均消费分为四类,较好地反映了人们观察到的实际情况,第一类为,2011年人均消费支出最高。该地区的食品支出、交通和通信支出、教育文化娱乐服务支出远远高出全国平均水平。
第二类为、、、、,在这些地区中,的娱乐教育文化服务支出在全国31 个省份中名列前茅,的科研机构多,高等院校云集,教育发达,娱乐设施先进齐全,这些都是导致在该项支出比例高的原因。