第四章 描述性统计分析_表格法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第4章表格法

在统计分析里,一般用来做统计表的命令有PROC FREQ和PROC TABULATE两种,一般用来做统计图的命令为PROC CHART。

1、PROC FREQ(次数分配表)

FREQ是对类别变量进行归纳的程序。它的一般形式为:

PROC FREQ OPTION1; 必需语句

TABLES 变量/OPTION2;

BY 变量;

WEIGHT 变量;

□PROGRAM解释

-proc freq:次数分配表制作过程中的必需语句,如果仅有此语句,则生成输入数据集中每个变量的单向频数表。□OPTION1

-data=资料名

-order= :界定各类别出现的次序。

order=freq,次序先后依据各类别次数多少而定;

order=data,次序就是它们在输入数据时出现的次序。

order=internal,类别先后由英文字母先后决定。

order=formatted,类别次序由外在格式确定。

省略此选项时,内设置为order=internal,另外,缺省值数据总是排在最前面。

-formchar(1 2 7)=‘画表格的符号’,1代表纵轴,2代表横轴,7代表中心点。若无此选项,各位置上的符号系统有内设置。

□TABLES 语句

-tables 变量:指定做频数表的变量。用tables指令时,后边可以是一个变量,也可以是多个变量。根据变量设计一元、二元或多元变量的频数表。

-tables a;做的是变量a为行变量的频数表。

-tables a*b;做的是变量a为行变量,变量b为列变量的频数表。

-tables a*b*c;做的是以变量a分类,变量b为行变量,变量c为列变量的频数表。如果是三元以上的频数表,则倒数第二

个变量为行变量,倒数第一个变量为列变量。

- tables a*b a*c;做两个频数表。还可以写成tables a*(b c); □By 语句

-by 变量:系统依此指令所列举的变量将资料文件分成几个小的资料文件,然后针对每一个小的资料文件分

别执行分析。

□Weight 语句

-Weight 变量:代表该变量的值为程序中其他变量的加权值。

2、Proc tabulate

Tabulate以分组统计表的形式输出满足用户要求的描述性统计量,tabulate程序所能计算的统计值有下面几种:N:各格内的有效观察体个数SUM:总和

MEAN:平均数STD:方差

MIN:最小值MAX:最大值

PCTN:次数的百分比PCTSUM:总和的百分比RANGE:全距,最大值与最小值之间的差值。

这些表格至多可以分为三个向度,即表格的页、行、与列。通常这三个向度由三个变量来定义。通过TABULATE命令能

制作出关于这些统计量更美观的统计表格,而且指令的撰写最富弹性,所制作出来的表格易于命名和修饰。一般格式为:

Proc Tabulate option1 ;

Class 变量;

Var 变量;

Table 页变量,行变量,列变量/option2;

By 变量;

Freq 变量;

Weight 变量;

Format 变量;

Label 变量;

Keylabel 统计值代号=‘代号的解释‘;

□PROGRAME解释

-Proc tabulate:表示开始执行tabulate过程。在这个语句里有option选项。

□option1:

-data=资料名

-missing:要求程序将含有遗漏数据的观察体也包括在表

格内。若省略此选项,则所有含有一个(或一个以上)

遗漏数据的观察体均将自表格中剔除。

-order= :与proc freq中的相同。

-formchar(符号的位置)=‘画表格的符号’,这里用

1到11个数字代表表格中不同的位置,1代表

纵轴,2代表横轴。比如formchar(1 2)=’**’就

表示表格的横轴和纵轴都用*表示。

-Class 变量:规定输出统计表中的分组标志,即分类变量,在table语句中将会用到,也就是说在table语句中出现的任意分类变量必须事先在class语句中予以定义。作为分组标志,这些变量一般为离散变量,少数为连续变量,在这种情况下,最好将这些连续变量转变成不连续的变量。-Var 变量:规定输出统计表中的分析变量。这些变量将会出现在table语句中,也就是说所有在table语句中出现的分析变量必须事先在var语句中予以定义,分析变量必须是数值变量而非文字变量。

-Table 页变量,行变量,列变量/option2:一般来说tabulate 统计表过程总是伴随着一个或多个table语句来规定如何制表。Table语句由0-2个用逗号隔开的维表达式和选项组成,它们分别与页变量、行变量列变量的设计有关。(用在table语句中的分类变量必须用class语句加以说明,而分析变量一般须用var语句加以说明。)该语句也有选择

事项,但这里的选择事项不常用,介绍省略。

Table语句的写法:

维表达式由分类变量(来自class语句)、分析变量(来自var语句)、统计量(要求对分析变量所做的内容)等操作元素和星号*、空格、圆括号()、逗号,等操作符连接而成。

(1)维表达式

三维表达式:即由两个逗号隔开的三个表达式,则最左边的维定义

页,中间的定义行、而最右边的定义列。

Table product,region,income;

两维表达式:即表达式间只有一个逗号,则左边为行,右边为列。

Table region,income;

一维表达式:即表达式之间没有逗号,则定义列。Table gender;

(2)统计量:

当在table二维或三维语句中没有指明统计量,所显示的统计量是分析变量的总和(sum),如果想指定统计量,则在分析变量后用*加统计量的代号,比如table region, income*mean;如果table语句是一维的,没有分析变量,如table gender;则计算分类变量每组出现的频数。

(3)表格中使用的操作符:

相关文档
最新文档