统计实验与SAS上机简易过程步

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据统计分析一般可遵循以下思路:

(1)先确定研究目的，根据研究目的选择方法。不同研究目的采用的统计方法不同，常见的研究目的主要有三类：①差异性研究，即比较组间均数、率等的差异，可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析，即分析两个或多个变量之间的关系，可用的方法有相关分析。③影响性分析，即分析某一结局发生的影响因素，可用的方法有线性回归、logistic回归、Cox回归等。

(2)明确数据类型，根据数据类型进一步确定方法：①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。

(3)选定统计方法后，需要利用统计软件具体实现统计分析过程。SAS中，不同的统计方法对应不同的命令，只要方法选定，便可通过对应的命令辅之以相应的选项实现统计结果的输出。

(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果，需要从中选择自己需要的部分，并做出统计学结论。但统计学结论不同于专业结论，最终还需要结合实际做出合理的专业结论。

第一部分：统计描述

1.定量资料的统计描述指标及SAS实现；

（1）数据分布检验：PROC UNIVARIATE

①基本格式：

②语句格式示例：

1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/

2.CLASS group;/*指定group为分组变量*/

3.VAR weight;/*指定分析变量为weight*/

4.RUN;

③结果：正态性检验(tests for normality)结果，常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时，采用Shapiro-Wilk检验W值为标准；当例数大于2000时，SAS中不显示Shapiro-Wilk检验结果，采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布，P＞0.05提示服从正态分布。

注：若服从正态分布，进行PROC MEANS过程步；若不服从则计算百分位数，转（3）

（2）数据描述（符合正态分布的数据）：PROC MEANS

①基本格式：

关键字（可以无视）：不写任何关键字时默认输出n，mean，std，max，min；

n：有效数据记录数（有效样本量） median：中位数

mean：均数 qrange：四分位数间距

std：标准差 var：方差

clm：95%可信区间 max、min：最大、最小值

②语句格式示例：

1.PROC MEANS n mean std median qrange clm;/*关调用proc means过

程，要求输出的指标有例数、均值、标准差、中位数、四分位数间距、

95%可信区间*/

2.CLASS group;/*指定group为分组变量*/

3.VAR weight;/*指定分析变量为weight*/

4.Run;

③结果以“均数±标准差”表示

（3）偏正态分布的统计描述：

①基本思想：计算中位数和百分位数，并且用“中位数（Q1～Q3）”表示

②语句格式示例：

1.proc univariate data=aa;

2.var x;

3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100百

分位数，间隔2.5个百分位数，并将结果输出在数据集“aa”中*/

4.run;

5.proc transpose data=c out=d;

6.proc print data=d;

7.run;/*以上是求解百分位数语句*/

1.proc univariate data=aa

2.CIPCTLDF(alpha=0.05);/* 求百分位数的95%可信区间，(alpha=0.05)

此处可缺省；若需求可信区间，只需指定相应的alpha水平*/

3.var x;

4.run;

③结果：a.偏态分布的统计描述以“中位数（Q1～Q3）”表示

b.总体参数的95%可信区间

2.分类（定性）资料的统计描述指标及SAS实现

（1）输出频数表：PROC FREQ

①基本格式：

②语句格式示例：

1.PROC FREQ;

2.TABLE group * weight;/*table后有group和grade两个变量，交叉形

成一个行X列的表格，若group为2类，grade为3类，因此形成2X3=6

个格子，每一格子中给出例数和相应比例*/

3.RUN;

（2）直方图的绘制

①基本语句：histogram 变量x

②语句格式示例：

1.proc univariate;

2.var x;

3.histogram x/midpoints=163 to 183 by 2; /*要求Univariate过程绘

制的直方图中各直条的组中值为163、165、……183（自行改动）*/

4.run;

（3）计算基本统计量和95%可信区间：PROC UNIVARIATE

①基本要求：计算定性资料的95%可信区间

②语句格式示例：

1.proc univariate cibasic; /*基本统计量及其可信区间，对应于

CIBASIC选项*/

2.var x;

3.run;

③结果：此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏，其他可无视。