主成分分析法在我国居民生活质量状况-多元统计分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《多元统计分析》课程设计报告

学生姓名:峰学号：090

090

鹤090 学院: 理学院

班级: 数学0

题目: 主成分分析法在我国居民生活质量状况

综合评价中的应用

指导教师：辰职称: 教授

红讲师

2012 年 12 月 7 日

一、问题分析

1.1问题及背景

人均GDP达到1000美元，标志着我国居民生活水平迈上了一个新台阶，我国经济步入了一个崭新的发展时期。然而，我国地域辽阔，人口众多，地区间经济发展很不平衡，城乡差距明显，经济发展的非均衡性已经严重威胁到我国经济的持续、健康发展。若不妥善处理，将会成为制约我国经济发展的瓶颈因素。事实上，东、中、西部地区的经济发展差距已是众所周知，并引起中央政府和有关部门的广泛重视。但在地区间经济发展差距的背后，东、中、西部地区居民的生活质量究竟存在着多大的差距却鲜为人知。随着生产力水平的不断提高，我国居民生活水平不断提高，生活质量也在不断改善。但是，受各地生产力发展水平不平衡的影响，我国各地居民的生活质量也表现为不平衡。利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况，可选取如下指标体系进行反应：职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。对我国居民生活质量问题的研究不仅是社会经济发展的客观要求,也是我国全面建设小康社会的迫切需要

城市居民生活质量的评价体系，是依据中国城市居民生活的特征，并参阅国内外生活质量评价研究的大量成果后构建的，集中体现了研究者的专业知识和对生活质量评价体系的理论构思，具有主观色彩，因此，有必要对理论遴选的评价指标进行隶属度分析、相关分析和辨别力分析等实证筛选，以增强评价指标的科学性、合理性和可操作性。

1.2数据

图1

数据来源：《中国统计年鉴2009》

二、主成分分析方法基本原理

2.1 主成分分析定义

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几

个综合指标。在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

2.2 主成分分析法方法简介

主成分分析（Principal Component Analysis ，PCA ），将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。依次类推，I 个变量就有I 个主成分。主成分分析是设法将原来众多具有一定相关性（比如P 个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P 个指标作线性组合，作为新的综合指标。最经典的做法就是用1F （选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(1F )越大，表示1F 包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称1F 为第一主成分。如果第一主成分不足

以代表原来P 个指标的信息，再考虑选取2F 即选第二个线性组合，为了有效地反映原来信息，1F 已有的信息就不需要再出现在2F 中，用数学语言表达就是要求0)F ,F (21=Cov ，则称2F 为第二主成分，依此类推可以构造出第三、第四，……，第P 个主成分。

p pi 22i 11i X a X a X a Fp +⋅⋅⋅⋅⋅⋅++=其中m),1,(i a , ,a ,a pi 2i 1i ⋅⋅⋅⋅=⋅⋅⋅⋅⋅为X 的协方差阵Σ的特征值所对应的特征向量，P 21X , ,X ,X ⋅⋅⋅⋅⋅是原始变量经过标准化处理的值，因为在实际应用中，往往存在指标的量纲不同，所以在计算之前须先消除量纲的影响，而将原始数据标准化，本文所采用的数据就存在量纲影响。

值和单位特征向量,0p 21≥≥⋅⋅⋅≥≥λλλ。进行主成分分析主要步骤如下： 1. 指标数据标准化； 2. 指标之间的相关性判定； 3. 确定主成分个数m ； 4. 主成分i F 表达式； 5. 主成分i F 命名；

其中Li 为p 维正交化向量，i Z 之间互不相关且按照方差由大到小排列，则称i Z 为X 的第I 个主成分。设X 的协方差矩阵为Σ，则Σ必为半正定对称矩阵，求特征值i λ（按从大到小排序）及其特征向量，可以证明，i λ所对应的正交化特征向量，即为第I 个主成分i Z 所对应的系数向量i L ，而i Z 的方差贡献率定义为∑j i /λλ,通常要求提取的主成分的数量k 满足

85.0/k

>∑∑j

λ。

2.3主成分分析主要目的

主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异，

将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。