讲义5(描述性统计分析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基本描述性统计分析
1.means 过程
SAS系统的BASE模块提供了一些计算基础统计量的过程,如:means过程、univariate过程、corr过程、freq过程等。
这些过程可完成单变量或多变量的描述统计量计算。
SAS系统Means过程可以用来计算数据集中指定的各变量的一些基本描述性统计量的值(如观测值个数、均值、标准差、方差、偏度、峰度等)。
Means过程的一般格式为:
proc means 输入数据集名选项列表;
var 变量列表;
class 变量列表;
by 变量列表;
freq 变量;
weight 变量;
id 变量列表;
output out=输出数据集名统计量关键字=变量名列表>;
run ;
语句说明:
V AR语句——指定要分析的变量名列;
BY语句——按变量名列分组统计(数据集需事先按该变量名列排序);
CLASS语句——按变量名列分组统计(数据集不需事先排序);
FREQ语句——表明该变量为分析变量的频数;
WEIGHT语句——表明分析变量在统计时要按该变量加权;
ID语句——输出时加上该变量作为索引;
OUTPUT语句——指定统计量输出的数据集及输出的内容(OUT指定统计量的输出数据集名,统计量关键字指定统计量在输出数据集中对应的新变量名).
选项说明:
PROC MEANS语句,选项列表中常用“选项options”有:
①DATA=SAS数据集名:指明要分析的SAS数据集,缺省为最近建立的SAS数据集。
②MAXDEC=k:规定输出结果小数部分的最大位数,
③ALPHA=value:设置置信区间的置信水平α。
④统计量关键词常用的有:
统计量。
例:针对讲义4中生成的成绩数据集updatescore(程序4.2、4.4所生成),按班级和性别分组统计语文chinese、英语english、数学math、
平均分avg的均值、方差、均值标准误差、99%置信区间上下界。
并将这四个变量的均值统计量值输入到数据集stat里面去。
习题1.1:某车间20名工人加工某种零件,按生产数量X分组,每组工人数为W,求20名工人的平均日产量及标准差。
其数据见表3.3所示。
习题1.2:对于讲义4中的score数据,通过means过程建立假设检验,检验30名同学的英语成绩和语文成绩有无明显差异。
先建立新变量com=Chinese – English,构建原假设H0:mean(com)=0,计算T 统计量的值与检验p值。
显著性水平默认为0.05.
2.univariate过程(单变量探索分析)
功能:SAS的univariate过程主要用于对指定随机变量进行详细的描述性统计。
该过程除能完成与MEANS过程类似的基本统计量计
算外,还能计算数据的分位数、绘制简单的描述性分析图(如茎叶图、箱形图、QQ图)以及进行正态性检验、Wilcoxon符号秩检验等。
Univariate过程的一般格式为:
proc univariate data=输入数据集名选项列表;
var 变量列表;
by 变量列表;
freq 变量;
weight 变量;
Histogram 变量;
Probplot 变量;
id 变量列表;
output out=输出数据集名统计量关键字=变量名列表;
run;
选项说明:
PROC Univariate语句,常用“选择项options”有:
①DATA=SAS数据集名:指明要分析的SAS数据集,缺省为最近建立的SAS数据集。
②FREQ:要求生成包括变量值、频数、百分数和和累计百分数的表。
③NORMAL:要求对分析的各变量的观测值做正态性检验,并输出P值。
④PLOT:要求生成茎叶图、箱形图、正态QQ图。
⑤统计量关键词常用的有:
语句说明:
var语句——规定要求计算简单描述性统计量的数值变量的次序。
by语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。
freq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。
weight语句——规定一个weight变量,它的值表示相应观测的权数。
Histogram语句——指定需要制作直方图的变量。
probplot 语句——指定制作pp图的变量。
id语句——在输出数据集中增加一个或几个附加变量,目的在于
识别输出数据集里的观测。
其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。
例:对于如下关于总体X的68个样本数据,计算此变量的描述性统计量,并作分布特征分析。
表X的样本数据
6.5 5.1 6.1 3.9 3.5
7.7 2.1
1.9 9.6 7.9 7.6 7.8 4.6 6.1
6.4 2.8
7.6 2.5 4.6
8.1 4.8
6.9 5.1 2.0 6.4 6.0 4.5 8.0
8.0 8.6 6.4 4.9 6.4 6.8 4.7
3.4 7.7 1.2 2.8 0.5 2.6 3.2
6.5
7.6 3.5 5.7 5.4 2.3 7.4
2.7 4.2 6.4 6.9 7.2 6.7 6.5
4.0 7.3 1.1 4.9 2.5 2.9 1.9
3.6 1.4 2.5
4.4 2.5
习题2.1:分别从抽样的10例物品中,测得实验前后某指标数据,试分析此实验对此指标是否有显著性影响。
(提示:分析前后指标值之差,原假设为差的均值=0对应实验无影响;先根据变量正态性检验的结果判断变量的正态性,然后确定选择参考T检验还是非参数检验的
结果。
)
习题2.2:运用univariate过程对数据集updatescore中的avg数据进行分布特征分析,并显示avg均值的99%置信区间。
(提示:加上all选项输出所有统计量,包括置信区间,置信度默认为95%,可以通过alpha=选项来设置。
)
习题2.3 运用univariate过程制作updatescore数据中avg变量的直方图以及pp图。
3.corr过程
相关系数:反映变量间的线性相关程度的系数,有普通的Peason 相关系数和Spearman秩相关系数。
功能:计算SAS数据集中变量间的相关系数矩阵、协方差矩阵,同时在相关系数矩阵的各元素下给出了检验此相关系数为零的检验p 值。
此外,过程还自动产生各变量的一些描述性统计量的值(均值、标准差、中位数及最值)。
一般格式:
PROC CORR 选项;
V AR 变量名表;
Run;
选项说明:
①DATA=sas数据集名:指明所要分析的数据集,缺省时,则对新生成的数据集。
②PEARSON:要求输出Pearson相关系数矩阵,若没有指定其它类型相关系数,系统默认计算Pearson相关系数。
③SPEARMAN:要求输出Spearman秩相关系数矩阵。
④COV:要求计算协方差矩阵。
⑤NOSIMPLE:指明不输出每个变量的简单描述性统计量的值。
语句说明:V AR 变量列表计算变量列表中变量的相关系数矩阵,省略时,系统计算所有变量的相关系数矩阵。
例:计算updatescore数据中chinese、english、math、avg的相关系数矩阵以及协方差矩阵,不要输出他们的描述性统计量。
分析他们的相关关系。