第四章统计描述与SAS过程解析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2、OUTPUT语句 输出统计量表除了MEANS语句中常用统计量 外,还有以下一些统计量:
(1)Q3、Q1:上下四分位数 (2)QRANGE:上下四分位数间的差 (3)MSIGN:符号统计量 (4)PROBM:大于符号秩统计量绝对值的概率 (5)SIGNRANK:符号秩统计量 (6)PROBS:大于中心符号秩统计量的绝对值的概率 (7)NORMAL:检验正态性统计量 (8)PROBN:检验数据来自正态分布的假设的概率 (9)PCTLPTS=percentiles:规定用户希望计算的百分位数。
• • • • 能完成MEANS过程的基本统计量的计算 描述变量极端值的情况 计算分位数,如中位数,上、下四分位数 生成若干个描述变量分布的图,如茎叶图、 盒型图、正态概率图等 • 生成频率表 • 对数据进行正态性检验
• UNIVARIATE过程的一般格式为:
proc univariate <option-list>; var variable-list; by variable-list; freq variable; weight variable; id variable-list; output <out=sas-data-set><output-statisticlist><pctlpts=percentiles pctlper=prefix-namelist><pctlname=suffix-name-list>;
输出结果
1、计算家庭人均收入(income),家庭人均消费支出(consume) 和食品支出(food)的均值、标准差、变异系数、偏度和峰度;
proc means data=cjl.xf2000 mean std cv skewness kurtosis maxdec=2; var income consume food; run;
X max X min 变异系数: CV
极差:R
标准差系数反映了单位均值上的离散程度
常用在两个总体均值不等的离散程度的比较上。
3、表示分布形状的数字特征
偏度、峰度
Leabharlann Baidu
(对称正态为0)
偏度:度量总体分布偏斜程度
G1
E ( X )3
G1 0, 随机变量分布为对称分布;

语句说明
1、PROC MEANS语句
一般格式:PROC MEANS <options> <statistic-keywords>; 常用options: (1)DATA=数据集名 (2)NOPRINT或PRINT:规定不输出或输出描述统计量; (3)MAXDEC=number;规定输出结果小数部分的最大位数, 缺省为2; (4)ALPHA=value:规定置信区间的置信水平,缺省为0.05; statistic-keywords:规定输出的统计量 常见统计量: MEAN:均值 STD:标准差 MIN:最小值 MAX:最大值 RANGE:极差 SUM: 求和 VAR:方差 SKEWNESS:偏度 KURTOSIS:峰度 等等
2、VAR语句:一般格式 VAR variable-list;
规定要求计算简单统计量的数值变量及次序。 3、BY语句:一般格式 BY variable-list;
根据by语句定义的观测组分别计算各组相应的简单统计量。 (要先排序) 4、CLASS语句:一般格式 CLASS variable-list;
如:要求找出数据集a中身高最高者和年龄最大者
• • • • • • • • • • • • • •
data a; input name$ sex$ height age; cards; rose f 165 19 maxid(height(name) age(name))=heightst agest; kate f 168 17 mike m 176 20 要求给出身高和年龄最大者的姓名,并分别用变量 john m 180 19 名保存在输出数据集中。 alice f 170 22 ; proc means data=a; var height age; output out=new max=maxh maxa maxid(height(name) age(name))=heightst agest; run;
466 269 295 330 425 324 228 113 226 176 320 74 234 523 164 336 343 330 436 141 388 293 403 259 426 262 221 355 324 374 347 261 287 342 443 239 302 483 231 292 373 346 293 236 314 468 337 308 359 352 273 267 277 184 286 238 248 419 330 319 440 427 314 414 299 265 323 412 493 286 313 412
统计软件包
SAS系统与统计分析
第四章
统计描述与SAS过程
4.1 变量的数字特征与MEANS过程 4.2 单变量分析与UNIVARIATE过程
4.1 变量的数字特征与MEANS过程
一、随机变量的数字特征
1、表示位置的数字特征 总体均值、中位数、众数 众数是使得随机变量密度函数取最大值的数值 2、表示离散程度的数字特征 极差、方差、标准差、标准差(变异)系数
2) statistic-keyword=name-list(名字列表)
对所有的分析变量规定统计量的变量名 如:output out=result1 mean=meanx1 meanx2;
3) statistic-keyword(variable-list)=name-list
对部分分析变量规定统计量的变量名 如:output out=result2 mean=premean postmean std(post)=stdpost;(统计关键词(变量列表)=名字列 表)
• proc means data=incomes mean var std cv skewness • kurtosis alpha=0.1 t prt clm maxdec=2; • var income;
• run;
mean:均值; var:方差; std:标准差 cv:标准差系数; skewness:偏度 kurtosis:峰度; alpha=0.1:显著性水平为0.1,即置信水平为90%; t:均值是否为零的t检验值; prt:对应t值的概率 clm:上、下置信限 maxdec=2:保留两位有效小数
2、按地区计算家庭人均收入(income),家庭人均消费支出 (Consume)和食品支出(food)的均值; 计算各地区以上变量的最大值以及对应的省份,并保存到数据集 new中。
proc means data=cjl.xf2000 mean maxdec=2; Class area; var income consume food; Output out=new max=maxin maxcon maxf maxid(income(province) consume(province) food(province))=incomest consumest foodest; run; proc print data=new; var area maxin maxcon maxf incomest consumest foodest; run;
输出结果
MEANS过程应用
课本例4.1(P97)
• • • • • • • • • • • data incomes; input income@@; cards; 271 396 287 399 230 404 487 127 464 200 392 265 113 135 291 176 223 371 287 400 214 351 270 330 318 415 372 238 ;
• MEANS过程的一般格式为:
PROC MEANS<option-list><statistic-keyword-list>; (必需的语句) var variable-list; class variable-list; 其余都是可选语句 freq variable; weight variable; id variable-list; by variable-list; output <out=sas-data-set><output-sataistic-list>….
8、OUTPUT语句:
一般格式: OUTPUT<OUT=SAS-data-set><output-statistic-list> <MAXID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list> <MINID <(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>; 要求把计算的描述统计量输出到新的SAS数据集中,并对 新数据集的名字及所包含的统计量名字列表。
3
G1 0, 非对称的右偏分布,即随机变量取值在右边比较分散; G1 0, 非对称的左偏分布,即随机变量取值在左边比较分散;
峰度:度量总体分布尾部粗细程度(与正态分布相比)
G2
E( X )4

4
3
正态分布随机变量的峰度为0;
G2 0, 与正态分布相比,随机变量X偏离均值的极端值较多,
(3)<MAXID<(var-1<id-list-1><…var-n<(id-list-)>>)>
=name-list>
<MINID <(var-1<id-list-1><…var-n<(id-list-n)>>)> =name-list>; 该项选择用不同分析变量的最大或最小值来识别变量的列表。 Var是被取最大值或最小值变量; id-list是对最大值或最小值的识别变量。
语句说明
1、proc univariate <option-list>语句
options除了类似与means过程的选项外还有: (1) freq:要求生成包含变量值、频数、百分数 和累积频数的频率表 (2)Normal:要求检验输入的数据是否服从正 态分布 (3)Plot:要求生成茎叶图、盒型图、正态概率 图 (4)pctldef=value:规定计算百分位数的方法
各地区均值
各地区三个变量的最大值及相应省份
4.2、单变量分析与UNIVARIATE过程
• 在研究一个随机变量的统计特性时,仅仅靠一些数字 特征是不够的; • 还必须研究其他反映变量统计特征的形式,比如: • 样本的极端值、分位数、直方图、茎叶图、盒型图、 正态概率图等。
UNIVARIATE过程的主要功能
可用其规定的变量定义观测组,并分别计算各组相应的简 单统计量。
5、FREQ语句:一般格式 FREQ variable;
指定变量表示相应观测出现的频数
6、WEIGHT语句:WEIGHT variable;
指定变量表示相应观测的权数 7、ID语句:一般格式 ID variable;
对产生的数据集增加一个或几个附加变量,用于识别输出数 据集里的观测。
• 例题4.1,P93 • 在实际应用中,经常会遇到数据处理的问 题,那么为了分析数据我们就需要利用相 关的统计量,数字特征来反映数据的特性。
三、 MEANS过程
主要功能 : MEANS过程用来对数据集中的数值变量 的全部非丢失观测计算简单的描述统计量; 还可以对均值进行假设检验并给出置信区 间; 对观测组(BY组)分别计算简单描述统计 量。
三类任选项:
(1)OUT=SAS-data-set:给出产生输出数据集的名字; (2)output-statistic-list; 规定输出数据集里所要求的统计量,并规定这些统计量 的变量名。 有以下几种形式 :
1)statistic-keyword=: 如output out=result mean=meanx;
分布有一个沉重的尾部,也称重尾或粗尾,分布形状较陡峭;
G2 0, 与正态分布相比,随机变量X偏离均值的极端值较少,
分布形状较平坦。
二、参数估计
1、表示位置的样本统计量 样本均值、中位数、百分位数
2、表示离散程度的样本统计量
样本方差、样本标准差、四分位差,样本变异系数、 样本均值标准误差 3、表示分布形状的样本统计量 样本偏度、样本峰度 4、区间估计
相关文档
最新文档