sas统计分析报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《统计软件》报告

聚类分析和方差分析

在统计学成绩分析中的应用

班级:精算0801班

*****

学号:**********

报告时间:2011年11月

指导老师:***

成绩:

目录

一、背景及数据来源 (1)

二、描述性统计分析 (2)

三、聚类分析 (4)

四、方差分析 (6)

五、结果分析与结论 (8)

聚类分析和方差分析在统计学成绩分析中的应用

一、背景及数据来源

SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS 软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。

SAS 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。

本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。

数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。将中文名称改为英文。

数据类型如下所示:

当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。删除缺考错误分数等异常值。命名为2010stat.xls

二、描述性统计分析

(一)导入数据

首先建立永久磁盘路径,导入数据集stat

libname path "D:\sas\";

run;

(二)描述性统计分析

然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:

proc means data=path.stat;

var sex s1 s2 s3;

run;

输出结果如下:

从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为77.15分。

按照系别分类,每个系进行描述性统计,代码如下:

proc means data=path.stat;

var sex s1 s2 s3;

class dept;

run;

运行的输出结果如下所示:

从结果可以分析得出,各个系别学生成绩的均值、观测值、标准差及最大值和最小值。其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营销系和留学生以外,各系都有100分。

(三)统计图

绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。代码如下所示:

proc gchart data=path.stat;

vbar dept/type=sum subgroup=sex;

run;

统计直方图如下所示:

直方图的横轴是系别变量,纵轴是人数。蓝色是男生红色是女生。根据直方图显示会计系、营销系、财政系三系人数最高。分别表示各系别男女生人数分布。

三、聚类分析

输入代码:

proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc;

proc tree data=tree graphics horizontal;

run;

上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。

ccc说明需要计算半偏R2、R2和CCC统计量。这三个统计量和下面的伪F 和伪T2统计量主要用于检验聚类的效果。

当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。

R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。

CCC统计量的值大说明聚类的效果好。

Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是

所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。

后面的tree过程是用来绘制聚类分析结果的树状图。

运行结果如下:

上面的运行结果给出了对样品的聚类过程。SPRSQ为半偏R2统计量、RSQ 为R2统计量、CCC为立方聚类标准、PSF为伪F统计量、PST2为伪T2统计量。

结果分析:从半偏R2统计量的结果可以看出,当样本数据从3类合并为2类时,信息的损失程度较前面的的合并有明显的增加。从R2统计量的结果可以看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word,s的分类原则。从CCC统计量的结果可以看出,最大值对应的类数为3类。从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。

由聚类分析的分析结果的树状图可知分为3类也是符合图形的。综合各类统计量的结果,学生的统计学成绩分为3类比较合适。

四、方差分析

输入代码:

proc glm;

class sex s3;

model s3=sex s3 sex*s1/ ss1 ss2 ss3 ss4;

means s1/duncan;

run;

输出结果如下所示:

相关文档
最新文档