第六章 统计分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章统计分析

[本章提要]本章主要介绍了描述统计分析、直方图分析以及基于成对数据的t检验、双样本假设检验和样本率差异检验,并对其他的假设检验问题进行了概要的说明。

统计分析就是以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律作出种种合理的估计和判断。统计分析的内容十分丰富,本章主要介绍如何利用Excel 2000提供的数据分析工具进行描述统计和假设检验。

6.1 描述统计

描述统计的任务就是描述随机变量的统计规律性。要完整地描述随机变量的统计特性需要分布函数。但在实际问题中,求随机变量的分布函数并不是一件容易的事,另一方面对于一些问题也不需要去全面考察随机变量的变化规律,而只需知道随机变量的某些特征。例如,在研究某一地区居民的消费水平时,在许多场合只需知道该地区的平均消费水平;又如在分析某个年龄段儿童的生长发育情况时,常常关心的是该年龄段儿童的平均身高、平均体重;再如检查一批灯泡的质量时,既需要注意灯泡的平均寿命,又需要注意灯泡寿命与平均寿命的偏离程度,平均寿命较大、偏离程度较小,质量就较好。尽管这些数值不能完整地描述随机变量,但能描述随机变量在某些方面的重要特征。这些数字特征在理论和实践上都具有重要的意义。

6.1.1 常用描述统计量

随机变量的常用数字特征有:数学期望、方差、协方差、相关系数、矩等。其中,数学期望又称为均值描述了随机变量的集中程度,方差描述了随机变量的离散程度,是最常用的两个数字特征。

在统计分析中,样本是进行统计推断的依据,利用样本的函数就可以进行统计推断。若

是来自总体的一个样本,则由样本所构成的不含任何未知参数的连续函数就称为一个统计量。下面是一些常用的统计量。

1. 常用统计量

设是来自总体的一个样本,是这一样本的观察值或试验值,则常用统计量定义如下。

样本均值

样本方差

样本标准差

样本k阶(原点)矩

样本k阶中心矩

2. 偏度、峰度系数

根据中心极限定理可知,正态分布随机变量广泛地存在于客观世界,因此,当研究一连续型总体时,人们往往先考虑它是否服从正态分布。用来检验总体正态性的方法较多,但“偏度、峰度检验法”及“夏皮罗-威尔克法”较为有效,在此仅简单介绍偏度、峰度检验法,目的是引出偏态系数和峰度系数。

所谓随机变量x的偏度和峰度是指x的标准化变量的三阶中心矩和

四阶中心矩,其中分别是随机变量x的均值和方差。

偏度和峰度的计算公式定义如下。

偏度

峰度

偏度描述了随机变量分布相对其均值的不对称程度。峰度反映了与正态分布相比,随机

变量分布的尖锐度或平坦度。当随机变量x服从正态分布时,其偏度、峰度。

设是来自总体X的一个样本,是这一样本的观察值

或试验值,则的矩估计分别为:

样本偏度

样本峰度

其中是样本k阶中心矩。

若总体x为正态变量,是来自总体x的样本,则可以证明当n充分大

时,样本偏度g1、样本峰度g2分别依概率收敛于总体偏度和总体峰度。即,当总体x

为正态变量且n充分大时,g1与的偏离不应太大,而g2与的偏离也不应太大。

需要说明的是,在Excel 2000中,将样本偏度称为偏斜度,将样本峰度称为峰值,其计算公式分别为:

偏斜度

峰值

比较偏度、样本偏度和偏斜度以及峰度、样本峰度和峰值的计算公式可以看出,偏斜度就是样本偏度的估计值,峰值约等于样本峰度减去3。因此,若一组观察数据的偏斜度、峰值都接近于0,则可以认为这组数据是来自正态总体的。若其峰值为正,则表示与正态分布相比,其分布相对尖锐;若其峰值为负,则表示与正态分布相比,其分布相对平坦。

6.1.2 描述统计工具

对于一组数据(即样本观察值),要想获得它们的一些常用统计量,可以使用Excel 2000提供的统计函数来实现。例如A VERAGE(平均值)、STDEV(样本标准差)、V AR(样本方差)、KURT(峰度系数)、SKEW(偏度系数)、MEDIAN(中位数,即在一组数据中居于中间的数)、MODE(众数,即在一组数据中出现频率最高的数值)等。但最方便快捷的方

法是利用Excel 2000提供的描述统计工具,它可以给出一组数据的许多常用统计量,包括:

标准差等统计量,并判断是否来自正态总体(取=0.05)。

将所有的测试数据输入工作表中,本例存放在A1:A85区域中。

选择工具菜单中的数据分析命令。

这时将弹出数据分析对话框,如图6-1所示。

图6-1

在分析工具列表中,选择描述统计工具,单击确定按钮。

这时将弹出描述统计对话框,如图6-2所示。

图6-2

在输入框内指定输入数据的有关参数。

输入区域:指定要分析的数据所在的单元格区域。本例输入A1:A85。

分组方式:指定输入数据是以行还是以列方式排列的。这里选定逐列,因为给定的成年男子头颅的最大宽度是按列排列的。

标志位于第一行复选框:若输入区域包括列标志行,则必须选中此复选框。否则,不能选中该复选框,此时Excel自动以列1、列2、列 3 ……作为数据的列标志。本例选中此复选框。

在输出选项框内指定有关输出选项。

指定存放结果的位置:根据需要可以指定输出到当前工作表的某个单元格区域,这时需在输出区域框键入输出单元格区域的左上角单元格地址;也可以指定输出到新工作表组,这时需要输入工作表名称;还可以指定输出到新工作簿。本例选中将结果输出到输出区域,并输入左上角单元格地址C1。

汇总统计复选框:若选中,则显示描述统计结果,否则不显示结果。本例选中汇总统计复选框。

平均数置信度复选框:如果需要输出包含均值的置信度,则选中此复选框,并输入所要使用的置信度。本例键入95%,表明要计算在显著性水平为5%时的均值置信度。

第K大值复选框:根据需要指定要输出数据中的第几个最大值。本例选中第K大值复选框,并输入3,表示要求输出第3大的数值。

第K小值复选框:根据需要指定要输出数据中的第几个最小值。本例选中第K小值复选框,并输入3,表示要求输出第3小的数值。

单击确定按钮。

这时Excel 2000将描述统计结果存放在当前工作表的C1:D18区域中。如图6-3所示。

相关文档
最新文档