第四讲 SAS的描述统计(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、MEANS过程(均值过程)
(1) 语法格式
Proc means <选项> <输出统计量关键字列表> ; < Var 分析变量名列 ;> <Class 分类变量名列 ;> <by 分类变量名列 ; > <Output out=数据集名 < 输出统计量列表> ; >
Run ;
Proc means 主语句选项:
Lower
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
1740.50 2192.00 2460.00 1080.00 --------------------------------------------------------------------
1 14 4275.00 2400.00 3305.00
4275.00
1760.00
2 16 2460.00 1740.50 2192.00
2460.00
1080.00
-----------------------------------------------------------------------------------------------------------------
其SAS输出结果与说明
proc means; 默认的5个统计量
MEANS 过程
分析变量:x
N
均值 标准偏差
最小值
最大值
100 73.6600000 3.9400815 64.3000000 84.3000000
proc means maxdec=2 n min max mean std stderr cv ;
关键字 skewness
kurtosis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99 clm lclm uclm
所代表的含义 偏度
峰度 分布位置假设检验之t统计量 上述t统计量对应的概率值 第一四分位数 第三四分位数 四分位数间距 第一百分位数 第五百分位数 第十百分位数 第九十百分位数 第九十五百分位数 第九十九百分位数 置信限 置信下限 置信上限
(4)使用output语句(输出语句)
output out= 数据集名 < 输出统计量列表> ;
输出统计量列表形式:
1) 统计量关键字=
新数据集中统计量用原变量名
2) 统计量关键字=新名字列表
3) 统计量关键字(变量列表)=新名字列表
例6 (1)把数据集bclass中变量height和weight的均值输出 到新数据集result2.
新数据集中统计量用原变量名
2) 统计量关键字=新名字列表
3) 统计量关键字(变量列表)=新名字列表
(2)把变量height和weight的均值(新名分别取为hmean和wmean ) 和标准差(新名字分别取为hstd 和wstd )输出到新数据集result3.
proc means data=bclass noprint ; var height weight ; output out=result3 mean=hmean wmean std=hstd wstd ;
Lower
Upper
R_ID Obs 99th Pctl Quartile Quartile Maximum Minimum -----------------------------------------------------------------------------------------------------------------
var Income; run;
运行结果
(3) 使用CLASS语句或BY语句
class 分类变量名列 ;
by 分类变量名列 ;
两个语句的区别是: ● 使用BY语句时要求数据集须按BY变量排序, 使用CLASS语句无此要求。 ● 使用BY语句时输出按BY变量的每个值分别提供一个表, 使用CLASS语句则将所有结果排列在一个表之中。
2.3 编程实现描述性统计计算
SAS提供多个不同的过程步来实现统计量的计 算,它们在功能范围上有许多的重复,本段介绍计 算常用统计量的三个过程:
1. MEANS 常用来计算数值型变量的均值、标准差等统计量。 2. UNIVARIATE 常用来计算数值型变量的均值、标准差等
统计量、绘制一些统计图 3. FREQ 常用来计算分类变量取值的频数
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
2400.00 3305.00 4275.00 1760.00 --------------------------------------------------------------------
(2).应用举例
例3:某单位对100名健康的女大学生测定了血清总蛋白含 量(g/L),试做单变量描述性统计分析。
data aa; input x @@; cards; 74.3 78.8 ……70.4 ; proc means; run; proc means maxdec=2 n min max mean std stderr cv; run;
2236
1810
27
2
1080
1380
13
1
3305
2820
28
2
1986
1200
14
1
2400
1976
29
1
3369
2305
15
2
2250
1970
30
2
1530
1316
对数据集sryzc中的income变量计算简单统计量,用如下 MEANS过程即可:
proc means data = sryzc; var income; run;
run;
使用BY语句分区域输出统计量:
R_ID=1
The MEANS Procedure
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl --------------------------------------------------------------------------------------------------
proc means data=bclass noprint ; var height weight ; output out=result2 mean= ;
run ; Proc print data=result2;run;
output <选项> < 输出统计量列表> ;
输出统计量列表形式:
1) 统计量关键字=
14 2803.71 2775.00 1760.00 1760.00 4275.00 4275.00 --------------------------------------------------------------------------------------------------
Lower
2184
1900
20
1
2820
2366
6
2
2050
2050
21
2
2250
1966
7
2
2460
2184
22
1
3170
2400
8
1
1976
1170
23
2
1200
1250
9
1
2850
2496
24
2ቤተ መጻሕፍቲ ባይዱ
1776
1350
10
1
4275
2760
25
2
1980
1794
11
2
2010
1275
26
1
2455
2550
12
1
Analysis Variable : INCOME Income
R_ID Obs N
Mean Median 1st Pctl 5th Ptcl 95th Pctl
-----------------------------------------------------------------------------------------------------------------
在PROC MEANS语句中使用统计量关键字列表。输出数 据集sryzc中收入(Income) 的观测个数、均值、中位数、第一 百分位数、第五百分位数、第九十五百分位数、第九十九百分 位数、第一四分位数、第三四分位数、最大值、最小值。
proc means data =sryzc n mean median p1 p5 p95 p99 q1 q3 max min var ;
输出结果:
MEANS 过程
分析变量:x
N 最小值 最大值 均值 标准偏差 标准误差 偏差系数
100 64.30 84.30 73.66 3.94
0.39
5.35
例4 下表为两个不同地区居民家庭收入和支出情 况的抽样调查(单位:元),试分别统计收入和 支出情况。
将下表中数据输入成Excel文件sryzc.xls。4个变 量名分别为:ID、R_ID、Income和Outgo,该四个变量 分别表示“家庭编号”、“地区编号”、“家庭总收 入”和“家庭总支出”。
1.DATA=SAS数据集 指出SAS数据集的名称,若省略,则使用最近产生的数据集。
2.MAXDEC=数字 指定该过程输出结果中小数部分的最大位数(0到8).默认是8。 3. ALPHA= 置信水平为1- . 默认为 =0.05.
Means过程默认输出统计量只有五个: N, Mean , Std , Min , Max
run ; proc print data=result3; run;
SAS运行结果:
可以计算的描述性统计量关键字及其含义见下表。
关键字 n
nmiss mean std stderr var median mode cv max min sum sumwgt css uss range
所代表的含义 有效数据记录数
缺失数据记录数 均值 标准差 标准误 方差 中位数 众数 变异系数 最大值 最小值 总计 加权值总计 校正平方和 未校正平方和 极差
首先将其导入为SAS数据文件work.sryzc。
ID
R_ID Income Outgo
ID
R_ID Income Outgo
1
2
1794
1550
16
2
2200
2060
2
2
1716
1365
17
1
2730
2236
3
1
3410
2730
18
1
2496
1455
4
2
1765
1530
19
1
1760
1040
5
2
例5 1) 使用BY语句, 将上例中的数据按地区(R_Id)分组,计算 统计量:
proc sort data = sryzc; by R_Id;
run; proc means data = sryzc n mean median
p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;
1 14 14 2803.71 2775.00 1760.00 1760.00 4275.00
2 16 16 1889.44 1983.00 1080.00 1080.00 2460.00 -----------------------------------------------------------------------------------------------------------------
R_ID=2
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl
16 1889.44 1983.00 1080.00 1080.00 2460.00 2460.00 ---------------------------------------------------------------------------------------------
2) 使用CLASS语句, 按地区(R_Id)分组计算统计量:
proc means data = sryzc n mean median p1 p5 p95 p99 q1 q3 max min;
var Income; class R_Id; run;
使用CLASS语句输出结果:
The MEANS Procedure