SAS软件与统计应用论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要

本学期通过对《SAS软件与统计应用》这门课的学习,让我知道SAS系统是一个大型的应用软件系统,具有完备的数据访问、管理、分析、呈现,以及应用开发功能。

这篇文章运用主成分分析综合评价方法,对1999年我国西部地区教育人力资源发展水平进行处理和分析,采用的是西藏,新疆等西部省份教育人力资源发展水平(原始数据见附录)。选出14个省的情况作为统计分析数据,其中分析的项目为:每百万人口学校数;每十万人口毕业生数;每十万人口招生数;每十万人口在校生数;每十万人口研究生数;每十万人口教职工数;每十万人口专职教师数;高级教师占专职教师的比例;每所学校在校生数;生师比。依次用A1,A2,A3,A4,A5,A6,A7,A8,A9,A10表示。

用“分析家”作主成分分析,并且对数据进行如下处理:

第一:对于所选取的统计数据进行简单描述统计分析,得出数据的平均值、数据标准差,最大值,最小值等。

第二:对于所选取的统计数据用”analyst”作主成分分析计算相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率、以及累积贡献率。

第三:由相关系数矩阵的两个最大特征值的特征向量,可以写出第一、第二主成分的得分。

第四:在“insight”里面绘制了散点图。由图可知,在散点图越靠向右上角的地区,教育人力资源发展水平越高,越靠向左上角的地区,教育人力资源发展水平越低。

从以上结论分析可以知道影响各省份教育人力资源发展水平的主要因素,从而可以更好地帮助国家调整教育人力资源结构,更好地发展我国西部教育事业。

关键字:analyst 主成分分析教育人力资源发展 MEANS过程

目录

第一章基本介绍 (3)

1.1 研究目的 (3)

1.2 采用方法 (3)

1.3 理论知识 (3)

第二章数据预处理 (3)

第三章具体模型 (4)

3.1 建立数据集 (4)

3.2 具体模型(程序) (4)

运行结果及分析 (5)

4.1 使用“分析家”做主成分分析的步骤 (5)

4.2 主成分的结果分析 (7)

参考文献 (11)

附录 (13)

第一章基本介绍

1.1 研究目的

通过SAS软件分析,对1999年我国西部地区教育人力资源发展水平有一个大致了解。随着国家教育方针的调整,西部各地区为了促进本地区的教育发展,分别采取了各种措施,教育方面的发展有了显著地成就。本文通过SAS软件分析,对1999年我国西部地区教育人力资源发展水平有一个大致了解,从而可以更好地帮助国家调整(优化)教育人力资源结构,使人民的受教育水平更加优越。1.2 采用方法

(1)描述性统计量:means。

(2)检验:使用analyst模块进行主成分分析。

1.3 理论知识

Means过程(均值过程):用于对数据型变量产生针对单个变量的简单描述性统计。proc means过程时,会对所有数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STD DEV,最大值Max和最小值Min五种统计值,但means过程可以计算16种统计量。

主成分分析:是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0。称F2为第二主成分,依此类推可以构造出第三、第四、…、第p个主成分。

第二章数据预处理

对数据较少的程序,可以用DATA步建立永久的SAS集。永久的SAS集,由定义逻辑库与定义数据集两步完成。

逻辑库定义通过LIBNAME语句完成,数据集定义用DATA 语句实现。

指定逻辑库的命令语句为全程语句,其格式如下:

LIBNAME <逻辑库名> "<路径>";

指定要建立数据集的命令语句格式如下:

DATA <逻辑库名>.<数据集名>;

LIBNAME语句把磁盘中的子目录与用户定义的逻辑库名连接起来。

用此方法根据已知的数据就可以建立生成以下的数据集。

第三章具体模型

3.1 建立数据集

2012年11月19日星期一下午12时19分55秒 5 Obs region A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 海南0.66 49 64 191 12.0 47 19 0.33 2914 10.160

2 广西0.62 41 69 192 34.0 40 18 0.3

3 3113 10.450

3 山西0.72 61 118 193 60.0 7

4 30 0.33 4092 10.170

4 内蒙古0.80 46 77 211 53.0 71 32 0.36 2617 7.430

5 四川0.75 6

6 112 314 164.0 7

7 32 0.39 4199 10.100

6 重庆0.50 41 7

7 211 120.0 53 21 0.37 4192 10.100

7 贵州0.54 28 67 152 21.0 35 16 0.33 2823 8.950

8 云南0.57 38 66 176 49.0 44 20 0.38 3079 8361

9 西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.100

10 陕西 1.19 100 188 496 398.0 140 55 0.36 4173 9.900

11 甘肃0.71 55 90 246 113.0 65 27 0.31 3480 9.230

12 青海 1.18 49 68 183 17.0 68 34 0.20 1558 5.320

13 宁夏0.92 49 83 242 25.0 73 33 0.33 2624 7.520

14 新疆0.96 66 110 305 51.0 96 42 0.30 3180 7.230

3.2 具体模型(程序)

Data work.data1;

input region $1-10 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10;

cards;

海南0.66 49 64 191 12 47 19 0.33 2914 10.16 广西0.62 41 69 192 34 40 18 0.33 3113 10.45 山西0.72 61 118 193 60 74 30 0.33 4092 10.17 内蒙古0.8 46 77 211 53 71 32 0.36 2617 7.43 四川0.75 66 112 314 164 77 32 0.39 4199 10.1 重庆0.5 41 77 211 120 53 21 0.37 4192 10.1 贵州0.54 28 67 152 21 35 16 0.33 2823 8.95 云南0.57 38 66 176 49 44 20 0.38 3079 8361 西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.1

陕西 1.19 100 188 496 398 140 55 0.36 4173 9.9

甘肃0.71 55 90 246 113 65 27 0.31 3480 9.23 青海 1.18 49 68 183 17 68 34 0.2 1558 5.32 宁夏0.92 49 83 242 25 73 33 0.33 2624 7.52 新疆0.96 66 110 305 51 96 42 0.3 3180 7.23 ;

run;

proc print;

相关文档
最新文档