sas 程序应用总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
杨庆 重庆医科大学 09 级临床医学七年制一系
FREQ 变量名; 当输入的数据为频数表资料时,需要使用 FREQ 语句。该变量类型必须为数值变量,其值表示对应观察例的频数 如
果该变量值为非正整数则计算时只取整数部分,若该值缺失或者小于 1 则相应的观测不参加计算。负数数据报错。
三、UNIVARIATE 过程
Ø 功能:全面的单变量描述统计分析过程
Ø 用途 分布分析 ,绘制分布图形:茎叶图、直方图、箱式图、正态概率图等 分布检验:正态性检验,指数分布检验
数据分布观察:检查观测极端值、编制频数表 、集中趋势和离散趋势的统计量数计算、任意分位数计算、
稳健估计
格式 proc univariate data=数据集名选项;
Ø Means 过程通过使用统计量关键字来指定需要计算的项目。在默认情况下自动计算 N (例数),MEAN(均值), STDDEV|STD(标准差),MAX (最大值),MIN(最小值),CV(变异系数)。一旦指定计算统计量则取消默认的统计量计算 输出。 常用统计量 N (例数),MEAN(均值),STDDEV|STD(标准差),MAX (最大值),MIN(最小值),CV(变异系数),RANGE(全距),VAR(方 差),CSS(离均差平方和),USS(平方和),NMISS(非缺失例数),SUM(和),SUMWGT(权重和)。 分位数 MEDIAN|P50( 中 位数) Q3|P75(上四分位数) Q1|P25(下四分位数), QRANGE(四分位间距),P1,P5,P10,P90,P95,P99。 分布度量 SKEWNESS|SKEW(偏度系数) KURTOSIS|KURT(峰度系数)。 可信区间 STDERR(标准误),CLM(可信区间),LCLM(可信区间下限),UCLM(可信区间上限)。 样本均数与总体均数的 t 检验 T( t 统计量),PROBT(t 统计量的概率值) FREQ 语句 格式
PROPORTION (百分数)。
MIDPOINTS:指定各组组中值以确定各组组段。可以使用循环变量语法。 ENDPOINTS 指定各组组上限以确定各组组段。可以使用循环变量语法。当与 MIDPOINTS 同时指定时本选项起作用。
NORMAL:指定正态曲线估计和绘制。还可以指定子选项 MU=值,SIGMA=值。默认 MU(均值),SIGMA(标准差)均为
Ø 计算均数的可信区间 Ø 样本均数与总体均数比较的 t 检验 Ø 粗步数据校验 Ø 基本格式: Proc means data=数据集选项; class 分组变量列表; var 分析变量列表; freq 频数变量; output out=输出数据集名 统计量关键字=保存变量名; run; VAR 语句 格式: VAR 变量名; 在 SAS 过程中使用 VAR 语句指定参与计算的 变量名 :VAR 语句中可以使用变量名列表的形式,通过使用变量名列表的形式,在一次过程调用中就能计算 多个变量的统计结果。 列表中的变量类型为数值类型 CLASS 语句 格式 CLASS 分组变量名; CLASS 语句指定分组变量名 该变量类型即可以是字符类型也可以是数值类型 通过指定分组变量名要求 SAS 分组计算统计量或者进行分组比较 变量名可以采用变量名列表的形式。Means 过程 统计量关键字和选项
杨庆 重庆医科大学 09 级临床医学七年制一系
SAS 上机应用总结
计量单变量分析 一、计量单变量分析的内容
Ø 位置度量:用来描述定量资料的集中趋势。常用 的统计量有算术平均数(均数)、几何均数、中 位数、众数和分位数。 变异度量:用来描述定量资料的离散趋势。常用统计量有全距、四分位间距、方差、标
准差和 变异系数。分布度量 分布分析:用来描述分布接近正态分布的程度。 使用的指标有偏度系数(Skewness) 和峰度系数 (Kurtosis)。也常用直方图,盒式图,QQ 图等图示法。 对应 SAS 过程模块 Ø 在 SAS 系统中,主要常用的模块如下:MEANS 过程可以用于正态或者近似正态资料的位置度量和离散度量统计量 计算 UNIVARIATE 过程是功能最全面的计量单变量统计描述模块,不仅可以计算位置度量和离散度量统计量而且可 以绘制分布图。 CHART 过程可以用于绘制直方图和输出频数表 FREQ 过程可以用于计算百分比、构成比和率。同时该模块也可以用于数据核查。 二、MEANS 过程 Ø 功能:用于正态或者近似正态资料的描述统计量计算 Ø 用途: 正态或者近似正态资料的描述统计量计算
须指定 1-5 间的 正整数。当为字母 S 和 E,n 则略去。如 PFILL=X1。
ቤተ መጻሕፍቲ ባይዱ
Ø GRID 指定绘制网格。HREF 指定绘制水平参考线。 VREF 指定绘制垂直参考线。
Ø NAME 指定在 SAS/GRAPH 系统中的 显示名称。
PROBPLOT 语句 Ø PROBPLOT 变量名表/绘图选择项;
var
分析变量名列表;
freq 频数变量;
output out=输出数据集 统计量关键字=保存
变量名;
by 分组变量;
run; HISTOGRAM(条形图) 语句
HISTOGRAM 变量名表/ 绘图选择项;
VSCALE:指定垂直坐标轴的尺度。即指定直方的绘制单位。可以为 COUNT (频数),PERCENT (百分 ),PROP|
NORMAL 指定正态曲线估计和绘制。还可以指定子选项
MU=值,SIGMA=值。默认 MU(均值),SIGMA(标准差)均为样本估计值。其估计结果、正态性拟合优度和正态概率图
的分位点将在输出窗输出。可以用子选项 NOPRINT 取消估计结果 的计算输出。
样本估计值。其估计结果、正态性拟合优度和正态概率图的分位点会在输出窗输出。可以用子选项 NOPRINT 取消估
计结果的计算输出。
Ø CFILL 指定直方图的填充颜色。如 CFILL=BLUE。指定填充颜色为蓝色。 Ø PFILL 指定直方的填充模式。其值为 Pn。P 可以为 L、R、X、S 和 E 四个字母。当为 L、R 和 X 四个字母时,n 必
杨庆 重庆医科大学 09 级临床医学七年制一系
FREQ 变量名; 当输入的数据为频数表资料时,需要使用 FREQ 语句。该变量类型必须为数值变量,其值表示对应观察例的频数 如
果该变量值为非正整数则计算时只取整数部分,若该值缺失或者小于 1 则相应的观测不参加计算。负数数据报错。
三、UNIVARIATE 过程
Ø 功能:全面的单变量描述统计分析过程
Ø 用途 分布分析 ,绘制分布图形:茎叶图、直方图、箱式图、正态概率图等 分布检验:正态性检验,指数分布检验
数据分布观察:检查观测极端值、编制频数表 、集中趋势和离散趋势的统计量数计算、任意分位数计算、
稳健估计
格式 proc univariate data=数据集名选项;
Ø Means 过程通过使用统计量关键字来指定需要计算的项目。在默认情况下自动计算 N (例数),MEAN(均值), STDDEV|STD(标准差),MAX (最大值),MIN(最小值),CV(变异系数)。一旦指定计算统计量则取消默认的统计量计算 输出。 常用统计量 N (例数),MEAN(均值),STDDEV|STD(标准差),MAX (最大值),MIN(最小值),CV(变异系数),RANGE(全距),VAR(方 差),CSS(离均差平方和),USS(平方和),NMISS(非缺失例数),SUM(和),SUMWGT(权重和)。 分位数 MEDIAN|P50( 中 位数) Q3|P75(上四分位数) Q1|P25(下四分位数), QRANGE(四分位间距),P1,P5,P10,P90,P95,P99。 分布度量 SKEWNESS|SKEW(偏度系数) KURTOSIS|KURT(峰度系数)。 可信区间 STDERR(标准误),CLM(可信区间),LCLM(可信区间下限),UCLM(可信区间上限)。 样本均数与总体均数的 t 检验 T( t 统计量),PROBT(t 统计量的概率值) FREQ 语句 格式
PROPORTION (百分数)。
MIDPOINTS:指定各组组中值以确定各组组段。可以使用循环变量语法。 ENDPOINTS 指定各组组上限以确定各组组段。可以使用循环变量语法。当与 MIDPOINTS 同时指定时本选项起作用。
NORMAL:指定正态曲线估计和绘制。还可以指定子选项 MU=值,SIGMA=值。默认 MU(均值),SIGMA(标准差)均为
Ø 计算均数的可信区间 Ø 样本均数与总体均数比较的 t 检验 Ø 粗步数据校验 Ø 基本格式: Proc means data=数据集选项; class 分组变量列表; var 分析变量列表; freq 频数变量; output out=输出数据集名 统计量关键字=保存变量名; run; VAR 语句 格式: VAR 变量名; 在 SAS 过程中使用 VAR 语句指定参与计算的 变量名 :VAR 语句中可以使用变量名列表的形式,通过使用变量名列表的形式,在一次过程调用中就能计算 多个变量的统计结果。 列表中的变量类型为数值类型 CLASS 语句 格式 CLASS 分组变量名; CLASS 语句指定分组变量名 该变量类型即可以是字符类型也可以是数值类型 通过指定分组变量名要求 SAS 分组计算统计量或者进行分组比较 变量名可以采用变量名列表的形式。Means 过程 统计量关键字和选项
杨庆 重庆医科大学 09 级临床医学七年制一系
SAS 上机应用总结
计量单变量分析 一、计量单变量分析的内容
Ø 位置度量:用来描述定量资料的集中趋势。常用 的统计量有算术平均数(均数)、几何均数、中 位数、众数和分位数。 变异度量:用来描述定量资料的离散趋势。常用统计量有全距、四分位间距、方差、标
准差和 变异系数。分布度量 分布分析:用来描述分布接近正态分布的程度。 使用的指标有偏度系数(Skewness) 和峰度系数 (Kurtosis)。也常用直方图,盒式图,QQ 图等图示法。 对应 SAS 过程模块 Ø 在 SAS 系统中,主要常用的模块如下:MEANS 过程可以用于正态或者近似正态资料的位置度量和离散度量统计量 计算 UNIVARIATE 过程是功能最全面的计量单变量统计描述模块,不仅可以计算位置度量和离散度量统计量而且可 以绘制分布图。 CHART 过程可以用于绘制直方图和输出频数表 FREQ 过程可以用于计算百分比、构成比和率。同时该模块也可以用于数据核查。 二、MEANS 过程 Ø 功能:用于正态或者近似正态资料的描述统计量计算 Ø 用途: 正态或者近似正态资料的描述统计量计算
须指定 1-5 间的 正整数。当为字母 S 和 E,n 则略去。如 PFILL=X1。
ቤተ መጻሕፍቲ ባይዱ
Ø GRID 指定绘制网格。HREF 指定绘制水平参考线。 VREF 指定绘制垂直参考线。
Ø NAME 指定在 SAS/GRAPH 系统中的 显示名称。
PROBPLOT 语句 Ø PROBPLOT 变量名表/绘图选择项;
var
分析变量名列表;
freq 频数变量;
output out=输出数据集 统计量关键字=保存
变量名;
by 分组变量;
run; HISTOGRAM(条形图) 语句
HISTOGRAM 变量名表/ 绘图选择项;
VSCALE:指定垂直坐标轴的尺度。即指定直方的绘制单位。可以为 COUNT (频数),PERCENT (百分 ),PROP|
NORMAL 指定正态曲线估计和绘制。还可以指定子选项
MU=值,SIGMA=值。默认 MU(均值),SIGMA(标准差)均为样本估计值。其估计结果、正态性拟合优度和正态概率图
的分位点将在输出窗输出。可以用子选项 NOPRINT 取消估计结果 的计算输出。
样本估计值。其估计结果、正态性拟合优度和正态概率图的分位点会在输出窗输出。可以用子选项 NOPRINT 取消估
计结果的计算输出。
Ø CFILL 指定直方图的填充颜色。如 CFILL=BLUE。指定填充颜色为蓝色。 Ø PFILL 指定直方的填充模式。其值为 Pn。P 可以为 L、R、X、S 和 E 四个字母。当为 L、R 和 X 四个字母时,n 必