SAS统计分析与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SAS统计分析与应用
姓名:
班级:
学号:
SAS系统是世界公认的权威性统计软件之一,是一个大型集成信息分析管理系统。

本次论文是用SAS系统对2005年度全国百强县(市)社会经济综合发展指数作统计分析,并解释结果。

(原始数据见附录)。

选出46个县(市)的情况作为统计分析数据,其中分析的项目为:发展水平、发展活力、发展潜力。

运用SAS软件,运用主成分分析的方法对数据进行处理:
(一)对于所选取的统计数据用MEANS过程进行简单描述统计分析,得出数据平均值、数据标准差等。

(二)对于所选取的统计数据用INSIGHT模块做主成分分析计算协方差矩阵的特征值或是计算相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)、简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。

系统默认计算相关系数矩阵的特征值和特征向量。

(三)由相关系数矩阵的两个最大特征值的特征向量,可以写出第一主成分的得分。

从以上结论分析可以知道百强县(市)的综合经济实力,经济增长水平、经济发展活力、城乡居民生活水平、社会公共事业服务能力等方面取得了新进展。

从而明确的了解百强县经济发展进入了持续快速健康发展的新阶段。

关键字:主成分分析、简单统计量、相关系数矩阵、相关系数矩阵的特征值及其特征向量、方差贡献率。

摘要 (1)
一、基本介绍 (1)
1.1、研究目的 (1)
1.2、采用方法 (1)
1.3、理论知识 (1)
二、数据的预处理 (1)
三、运行结果及分析 (3)
3.1.使用INSIGHT模块做主成分分析 (3)
3.2.主成分的结果分析 (4)
四、结果分析 (5)
五、参考文献 (7)
六、附录 (8)
2005年度全国百强县(市)社会经济综合发展指数测评结果.. 8
一、基本介绍
1.1、研究目的:
通过SAS软件的分析,对全国百强县(市)社会经济情况的最新信息;有利于国家的宏观调控,从而可以促进百强县经济发展进入了持续快速健康发展的新阶段。

1.2、采用方法:
①描述统计量:MEANS
②检验:使用INSIGHT模块主成分分析
1.3、理论知识:
①MEANS过程(均值过程)用于对数值型变量产生针对单个变量的简单描述性统计.proc means过程统计量参数缺省时输出N(样本数据)、Mean (数据平均值)、Std Dev(数据标准差)、Minimum(最小值)、Maximum(最大值)五种统计值,但means过程可计算16种统计量。

②主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。

这些新的指标是彼此既互不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。

多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。

这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。

主分量分析还可用于揭示变量间的共线性。

二、数据的预处理
对于数据较少的程序可以用DATA步创建永久SAS数据集。

永久SAS数据集,
由定义逻辑库与定义数据集两个步骤完成。

逻辑库定义通过LIBNAME 语句完成,数据集定义应用DATA实现。

LIBNAME 语句语法格式:
LIBNAME 逻辑库名称“子目录路径”;
DATA 语句语法格式:
DATA 逻辑库名.数据集名称;
LIBNAME语句把磁盘中的子目录与用户定义的逻辑库名连接起来。

用此种方法根据已知的数据就可以建立生成以下的数据集:
三、运行结果及分析
3.1.使用INSIGHT模块做主成分分析
(1)在INSIGHT模块中打开数据集L;选择菜单“Analyze”
“Multivariate(Y X)(多元分析)”,打开“Multivariate(Y X)”对话框;
(2)将做主成分分析的变量x1~x3选为Y变量,将变量x0选为Label变量,
如图所示。

(3)单击“Method”按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。

系统默认计算相关系数矩阵的特征值和特征向量,单击“OK”按钮返回。

(4)单击“Output”按钮,在打开的对话框包括“Descriptive Statistics”
选项、“Bivariate Plots”选项以及各种多元分析的选项。

选中“Principal
Component Analysis”复选框,单击下面的“Principal Component Options”
按钮,打开“Principal Component Options”对话框,选中“Eigenvectors”复选框,取消“Correlations(Structure)”复选框,如图所示。

3.2.主成分的结果分析
输出的数字分析结果有4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。

(1)下图给出相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)
相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分为这组数据。

(2)图表给出相关系数矩阵的两个最大特征值的特征向量,据此可以写出第一主成分的得分:
Prin1=0.8832x1* + 0.6022x2* + 0.7712x3*
相关系数的绝对值越大,说明该主成分受该指标的影响就越大。

因此,从以上数据可以得出,决定第一主成分Prin1大小的主要是X1,X2,X3。

并且影响其中综合指数经济的按大到小分别是发展水平、发展潜力和发展活力。

由此得知昆山市发展水平高,发展活力大,发展潜力强,发展实力雄厚。

四、结果分析
通过用主成分分析的方法得知全国百强县(市)社会经济情况的最新信息;通过发展水平、发展潜力、以及发展活力的测量可以得出各县市的综合指数情况,按综合指数进行排名,发展水平高、发展潜力大、发展活力强的县市越靠前;从
地区分布来看,百强县中有46个县属于长三角地区,15个县属于珠三角地区,21个县属于环渤海地区,百强县主要集中在长三角、珠三角以及环渤海三大经济圈的格局保持不变。

浙江、山东、江苏三省的百强县个数占全国三分之二以上。

其中,浙江30个,与上年持平;山东20个,比上年增加4个;江苏18个,比上年增加2个。

分析结果表明,农业生产大县在百强县中占有重要地位。

百强县经济总量可观,在国民经济中占有重要地位;百强县的生活水平接近小康社会的标准。

凭借雄厚的经济基础,百强县近年来在农村基础设施和社会保障体系建设方面取得突出的成就。

有利于国家的宏观调控,从而可以促进百强县经济发展进入了持续快速健康发展的新阶段。

五、参考文献
[1].沈其君主编,《SAS统计分析》,东南大学出版社,2001年4月出版;
[2].薛富波,张文彤等主编《SAS 8.2统计应用教程》兵器工业出版社,2004年8月;
[3].曲庆云赵晓梅等,《统计分析方法--SAS实例精选》,清华大学出版社,2004年10月;
[4].高惠璇等编译,《SAS系统:SAS/STAT软件使用手册》,(上下册)中国统计出版社,2001年3月;
[5].彭昭英主编,《世界统计与分析全才-SAS系统应用开发指南》,北京希望电子出版社,2000年6月。

六、附录
2005年度全国百强县(市)社会经济综合发展指数测评结果:
用统计软件的若干方法分析下列数据,并解释结果。

相关文档
最新文档