统计数据代表值计算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章 统计数据的标志值计算及其描述
5.3 探索性统计分析
前面介绍的统计资料描述方法通常是先将统计资料分组处理,然后
把分组资料画成各种图分析其分布规律。但这种传统的统计资料处理方法有一定的局限性,容易失去原始资料的真实性。为了克服这一弊端,70年代开始国外已经出现了新的探索性资料分析方法。探索性资料分析特征操作简便,能够准确地描述统计变量分布情况。在这里只介绍最常用的茎叶图和箱线图。
5.3.1 箱线图(Boxplot )
箱线图是把第一四分位数,第二四分位数(中位数),第三四分位
数,四分位数范围,最大值及最小值画成一个箱子和一条线。
将箱子两侧超过四分位数差 1.5倍范围内的值用点线(--)连接
起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q 2垂直线将落在箱子的正中央。如果Q 2垂直线落在靠近Q 3的位置,那么分布的长尾拖向左边;相反Q 2垂直线落在靠近Q 1的位置,
那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。
Q 1 Q 2 Q 3
L 0 平均数 ╋
(B) 右偏分布Q 1
Q 2 Q 3 (A) 正态分布图5-6 箱线图与分布形状
5.3.2 茎叶图(Stem-and-leaf Display)
茎叶图将提供统计资料的分布形态、范围、集中程度等情报。利
用茎叶图主要有两个优点,首先它既能保留原始资料的真实情报,又
能为准确计算平均数等代表值提供方便。特别是对100个以下观测值
的频数分布分析非常有用。其次SAS for Windows在统计量的分组中,茎叶图可将统计分组和画直方图一次完成,不会出现重复分组的
可能。茎叶图将树茎置于垂直线的左侧,树叶在垂直线的右侧按顺序
排列。绘制茎叶图,关键是要设计好树茎,这好比和资料分组时,先
确定分组数和每组的组限一样重要。
茎叶图是以观测值的间隔为纵坐标(茎),观测值的末尾数字为
横坐标(叶),叶的右边数字为相应区间内观测值的个数。观测值的
间隔为系统自动给出,当观测值的个数小于30时,数据间隔为10,当
大于30时,间隔为5。
Stem Leaf #
9 1 1 8 4 1 7 125 3
6 135689 6
5 2558 4
4 567 3 3
5 1
2 2 1 ----+----+----+----+
Multiply Stem.Leaf by 10**+1
5.4 利用SAS程序计算描述性统计量
5.4.1 PROC UNIVARIATE
前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量1)的基本方法(SAS程序),SAS for Windows统计分析的基本形式如下:
□PROGRAM 解释
①PROC UNIVARIATE;
SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。option1
- DATA=dsn:指定分析资料名dsn。
12) 把描述性统计量也称作基础统计量.
- PLOT:探索性分析,作茎叶图和箱线图。在SAS for Windows,
根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图
(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由
此可知,当观测值的个数n 30时,茎叶图的同一个级别的树茎不分
杈,当n>30时,茎叶图的同一个水准的树茎分杈,比如70级别的树
茎,分成70~74和75~79级别的两个树茎,这等于把原来的茎叶图和
箱线图拉长了一倍。
图(a) 观测值n≤30 图(b)观测值
n>30
Stem Leaf # Boxplot Stem Leaf #
Boxplot
9 5 1 | 9 567
3 | (右)
8 0233456 7 +-----+ 9
|
7 12234556788 11 *-----* 8 56
2 |
6 35 2 | + | 8 22334
5 +-----+
5 1369 4 +-----+ 7 556788
6 | |
4 046 3 | 7 12234
5 *--+--*
3 9 1 | 6 5
1 | |
2 2 1 | 6 3
1 | |
----+----+----+----+ 5 69
2 +-----+
Multiply Stem.Leaf by 10**+1 5 13 2 |
4 6
1 |
4 04
2 |
3 9
1 |
3
|
2
|
2 2
1 | (左)
----+----+----+----+
Multiply
Stem.Leaf by 10**+1
(图5-7)茎叶图和箱线图与观测值
- FREQ:作频数分析表(频数也称作次数)。
- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。
- NOPRINT:不打印分析结果。
以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比如,
………… ;
PROC UNIVARIATE DATA=one PLOT FREQ;
RUN;
② VAR 变量名1 变量名2……;
指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,
INPUT x y z; ←SAS程序中有3个变量。
………… ;
PROC UNIVARIATE PLOT; ←作描述性统计分析。
VAR x y; ←只作x y变量的探索性统计分析。
③ BY 变量1 变量2…;
以BY指定的变量为基准,对VAR变量进行统计分析。
④ FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数
据集中相应的观测出现的频数。
⑤WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。
⑥OUTPUT OUT= dsn option2;