统计实验与SAS上机简易过程步

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据统计分析一般可遵循以下思路:

(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。

(2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。

(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。

(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。

第一部分:统计描述

1.定量资料的统计描述指标及SAS实现;

(1)数据分布检验:PROC UNIVARIATE

①基本格式:

②语句格式示例:

1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/

2.CLASS group;/*指定group为分组变量*/

3.VAR weight;/*指定分析变量为weight*/

4.RUN;

③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。

注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3)

(2)数据描述(符合正态分布的数据):PROC MEANS

①基本格式:

关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min;

n:有效数据记录数(有效样本量) median:中位数

mean:均数 qrange:四分位数间距

std:标准差 var:方差

clm:95%可信区间 max、min:最大、最小值

②语句格式示例:

1.PROC MEANS n mean std median qrange clm;/*关调用proc means过

程,要求输出的指标有例数、均值、标准差、中位数、四分位数间距、

95%可信区间*/

2.CLASS group;/*指定group为分组变量*/

3.VAR weight;/*指定分析变量为weight*/

4.Run;

③结果以“均数±标准差”表示

(3)偏正态分布的统计描述:

①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示

②语句格式示例:

1.proc univariate data=aa;

2.var x;

3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100百

分位数,间隔2.5个百分位数,并将结果输出在数据集“aa”中*/

4.run;

5.proc transpose data=c out=d;

6.proc print data=d;

7.run;/*以上是求解百分位数语句*/

1.proc univariate data=aa

2.CIPCTLDF(alpha=0.05);/* 求百分位数的95%可信区间,(alpha=0.05)

此处可缺省;若需求可信区间,只需指定相应的alpha水平*/

3.var x;

4.run;

③结果:a.偏态分布的统计描述以“中位数(Q1~Q3)”表示

b.总体参数的95%可信区间

2.分类(定性)资料的统计描述指标及SAS实现

(1)输出频数表:PROC FREQ

①基本格式:

②语句格式示例:

1.PROC FREQ;

2.TABLE group * weight;/*table后有group和grade两个变量,交叉形

成一个行X列的表格,若group为2类,grade为3类,因此形成2X3=6

个格子,每一格子中给出例数和相应比例*/

3.RUN;

(2)直方图的绘制

①基本语句:histogram 变量x

②语句格式示例:

1.proc univariate;

2.var x;

3.histogram x/midpoints=163 to 183 by 2; /*要求Univariate过程绘

制的直方图中各直条的组中值为163、165、……183(自行改动)*/

4.run;

(3)计算基本统计量和95%可信区间:PROC UNIVARIATE

①基本要求:计算定性资料的95%可信区间

②语句格式示例:

1.proc univariate cibasic; /*基本统计量及其可信区间,对应于

CIBASIC选项*/

2.var x;

3.run;

③结果:此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏,其他可无视。

相关文档
最新文档