sas统计分析报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统计软件》报告
聚类分析和方差分析
在统计学成绩分析中的应用
班级:精算0801班
*****
学号:**********
报告时间:2011年11月
指导老师:***
成绩:
目录
一、背景及数据来源 (1)
二、描述性统计分析 (2)
三、聚类分析 (4)
四、方差分析 (6)
五、结果分析与结论 (8)
聚类分析和方差分析在统计学成绩分析中的应用
一、背景及数据来源
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS 软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。将中文名称改为英文。
数据类型如下所示:
当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。删除缺考错误分数等异常值。命名为2010stat.xls
二、描述性统计分析
(一)导入数据
首先建立永久磁盘路径,导入数据集stat
libname path "D:\sas\";
run;
(二)描述性统计分析
然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:
proc means data=path.stat;
var sex s1 s2 s3;
run;
输出结果如下:
从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为77.15分。
按照系别分类,每个系进行描述性统计,代码如下:
proc means data=path.stat;
var sex s1 s2 s3;
class dept;
run;
运行的输出结果如下所示:
从结果可以分析得出,各个系别学生成绩的均值、观测值、标准差及最大值和最小值。其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营销系和留学生以外,各系都有100分。
(三)统计图
绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。代码如下所示:
proc gchart data=path.stat;
vbar dept/type=sum subgroup=sex;
run;
统计直方图如下所示:
直方图的横轴是系别变量,纵轴是人数。蓝色是男生红色是女生。根据直方图显示会计系、营销系、财政系三系人数最高。分别表示各系别男女生人数分布。
三、聚类分析
输入代码:
proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc;
proc tree data=tree graphics horizontal;
run;
上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。
ccc说明需要计算半偏R2、R2和CCC统计量。这三个统计量和下面的伪F 和伪T2统计量主要用于检验聚类的效果。
当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。
R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。
CCC统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是
所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。
后面的tree过程是用来绘制聚类分析结果的树状图。
运行结果如下:
上面的运行结果给出了对样品的聚类过程。SPRSQ为半偏R2统计量、RSQ 为R2统计量、CCC为立方聚类标准、PSF为伪F统计量、PST2为伪T2统计量。
结果分析:从半偏R2统计量的结果可以看出,当样本数据从3类合并为2类时,信息的损失程度较前面的的合并有明显的增加。从R2统计量的结果可以看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word,s的分类原则。从CCC统计量的结果可以看出,最大值对应的类数为3类。从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。
由聚类分析的分析结果的树状图可知分为3类也是符合图形的。综合各类统计量的结果,学生的统计学成绩分为3类比较合适。
四、方差分析
输入代码:
proc glm;
class sex s3;
model s3=sex s3 sex*s1/ ss1 ss2 ss3 ss4;
means s1/duncan;
run;
输出结果如下所示: