统计实验与SAS上机简易过程步
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据统计分析一般可遵循以下思路:
(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。
(2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。
(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。
(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。
第一部分:统计描述
1.定量资料的统计描述指标及SAS实现;
(1)数据分布检验:PROC UNIVARIATE
①基本格式:
②语句格式示例:
1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/
2.CLASS group;/*指定group为分组变量*/
3.VAR weight;/*指定分析变量为weight*/
4.RUN;
③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。
注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3)
(2)数据描述(符合正态分布的数据):PROC MEANS
①基本格式:
关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min;
n:有效数据记录数(有效样本量) median:中位数
mean:均数 qrange:四分位数间距
std:标准差 var:方差
clm:95%可信区间 max、min:最大、最小值
②语句格式示例:
1.PROC MEANS n mean std median qrange clm;/*关调用proc means过
程,要求输出的指标有例数、均值、标准差、中位数、四分位数间距、
95%可信区间*/
2.CLASS group;/*指定group为分组变量*/
3.VAR weight;/*指定分析变量为weight*/
4.Run;
③结果以“均数±标准差”表示
(3)偏正态分布的统计描述:
①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示
②语句格式示例:
1.proc univariate data=aa;
2.var x;
3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100百
分位数,间隔2.5个百分位数,并将结果输出在数据集“aa”中*/
4.run;
5.proc transpose data=c out=d;
6.proc print data=d;
7.run;/*以上是求解百分位数语句*/
1.proc univariate data=aa
2.CIPCTLDF(alpha=0.05);/* 求百分位数的95%可信区间,(alpha=0.05)
此处可缺省;若需求可信区间,只需指定相应的alpha水平*/
3.var x;
4.run;
③结果:a.偏态分布的统计描述以“中位数(Q1~Q3)”表示
b.总体参数的95%可信区间
2.分类(定性)资料的统计描述指标及SAS实现
(1)输出频数表:PROC FREQ
①基本格式:
②语句格式示例:
1.PROC FREQ;
2.TABLE group * weight;/*table后有group和grade两个变量,交叉形
成一个行X列的表格,若group为2类,grade为3类,因此形成2X3=6
个格子,每一格子中给出例数和相应比例*/
3.RUN;
(2)直方图的绘制
①基本语句:histogram 变量x
②语句格式示例:
1.proc univariate;
2.var x;
3.histogram x/midpoints=163 to 183 by 2; /*要求Univariate过程绘
制的直方图中各直条的组中值为163、165、……183(自行改动)*/
4.run;
(3)计算基本统计量和95%可信区间:PROC UNIVARIATE
①基本要求:计算定性资料的95%可信区间
②语句格式示例:
1.proc univariate cibasic; /*基本统计量及其可信区间,对应于
CIBASIC选项*/
2.var x;
3.run;
③结果:此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏,其他可无视。