SAS统计分析与应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS统计分析与应用
姓名:
班级:
学号:
SAS系统是世界公认的权威性统计软件之一,是一个大型集成信息分析管理系统。
本次论文是用SAS系统对2005年度全国百强县(市)社会经济综合发展指数作统计分析,并解释结果。(原始数据见附录)。
选出46个县(市)的情况作为统计分析数据,其中分析的项目为:发展水平、发展活力、发展潜力。运用SAS软件,运用主成分分析的方法对数据进行处理:
(一)对于所选取的统计数据用MEANS过程进行简单描述统计分析,得出数据平均值、数据标准差等。
(二)对于所选取的统计数据用INSIGHT模块做主成分分析计算协方差矩阵的特征值或是计算相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)、简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。系统默认计算相关系数矩阵的特征值和特征向量。
(三)由相关系数矩阵的两个最大特征值的特征向量,可以写出第一主成分的得分。
从以上结论分析可以知道百强县(市)的综合经济实力,经济增长水平、经济发展活力、城乡居民生活水平、社会公共事业服务能力等方面取得了新进展。从而明确的了解百强县经济发展进入了持续快速健康发展的新阶段。
关键字:主成分分析、简单统计量、相关系数矩阵、相关系数矩阵的特征值及其特征向量、方差贡献率。
摘要 (1)
一、基本介绍 (1)
1.1、研究目的 (1)
1.2、采用方法 (1)
1.3、理论知识 (1)
二、数据的预处理 (1)
三、运行结果及分析 (3)
3.1.使用INSIGHT模块做主成分分析 (3)
3.2.主成分的结果分析 (4)
四、结果分析 (5)
五、参考文献 (7)
六、附录 (8)
2005年度全国百强县(市)社会经济综合发展指数测评结果.. 8
一、基本介绍
1.1、研究目的:
通过SAS软件的分析,对全国百强县(市)社会经济情况的最新信息;有利于国家的宏观调控,从而可以促进百强县经济发展进入了持续快速健康发展的新阶段。
1.2、采用方法:
①描述统计量:MEANS
②检验:使用INSIGHT模块主成分分析
1.3、理论知识:
①MEANS过程(均值过程)用于对数值型变量产生针对单个变量的简单描述性统计.proc means过程统计量参数缺省时输出N(样本数据)、Mean (数据平均值)、Std Dev(数据标准差)、Minimum(最小值)、Maximum(最大值)五种统计值,但means过程可计算16种统计量。
②主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。这些新的指标是彼此既互不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。主分量分析还可用于揭示变量间的共线性。
二、数据的预处理
对于数据较少的程序可以用DATA步创建永久SAS数据集。永久SAS数据集,
由定义逻辑库与定义数据集两个步骤完成。逻辑库定义通过LIBNAME 语句完成,数据集定义应用DATA实现。
LIBNAME 语句语法格式:
LIBNAME 逻辑库名称“子目录路径”;
DATA 语句语法格式:
DATA 逻辑库名.数据集名称;
LIBNAME语句把磁盘中的子目录与用户定义的逻辑库名连接起来。
用此种方法根据已知的数据就可以建立生成以下的数据集:
三、运行结果及分析
3.1.使用INSIGHT模块做主成分分析
(1)在INSIGHT模块中打开数据集L;选择菜单“Analyze”
“Multivariate(Y X)(多元分析)”,打开“Multivariate(Y X)”对话框;
(2)将做主成分分析的变量x1~x3选为Y变量,将变量x0选为Label变量,
如图所示。
(3)单击“Method”按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量,单击“OK”按钮返回。
(4)单击“Output”按钮,在打开的对话框包括“Descriptive Statistics”
选项、“Bivariate Plots”选项以及各种多元分析的选项。选中“Principal
Component Analysis”复选框,单击下面的“Principal Component Options”
按钮,打开“Principal Component Options”对话框,选中“Eigenvectors”复选框,取消“Correlations(Structure)”复选框,如图所示。
3.2.主成分的结果分析
输出的数字分析结果有4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。
(1)下图给出相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)
相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分为这组数据。
(2)图表给出相关系数矩阵的两个最大特征值的特征向量,据此可以写出第一主成分的得分:
Prin1=0.8832x1* + 0.6022x2* + 0.7712x3*
相关系数的绝对值越大,说明该主成分受该指标的影响就越大。因此,从以上数据可以得出,决定第一主成分Prin1大小的主要是X1,X2,X3。并且影响其中综合指数经济的按大到小分别是发展水平、发展潜力和发展活力。由此得知昆山市发展水平高,发展活力大,发展潜力强,发展实力雄厚。
四、结果分析
通过用主成分分析的方法得知全国百强县(市)社会经济情况的最新信息;通过发展水平、发展潜力、以及发展活力的测量可以得出各县市的综合指数情况,按综合指数进行排名,发展水平高、发展潜力大、发展活力强的县市越靠前;从