非参数统计学讲义(第二章)讲稿

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非参数统计学讲义

第二章 单样本模型 §1 符号检验和有关的置信区间

在有了一个样本

n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样

之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为

n

s X t /μ-=

这里

X 为样本均值,而2

1

1

)(X X n S

-∑-=

为样本标准差。t —检验的统计量在零假设下有n —1个自由度的t —分布。

检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t —检验也许是世界上用得最广泛的检验之一。但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。

本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.

一、问题的提出

【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):

表2-1 生活花费指数数据

66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110

110

110

111

113

115

116

117

118

155

192

在例子中,人们可能会问:①总体的平均(或者中间)水平1

是多少?②北京是在该水平之上还是之下?

可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差.

这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置.

通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t 检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。

1

刻划位置参数的量有:①平均值:∑i x n 1;②中位数:⎩

⎨⎧+=++为偶数为奇数n x x n x M n n n 2/)(2/)1()()1(;③修整均值:∑-+=-=j n j i i j n x j T 1)(2)(,

2

n

j <

;④众数;⑤中列数:2/)()1()(X X n -。

由于此时我们不知道总体是否为正态分布(或者数据表明它就不是一个正态分布),所以有关参数统计中的t-统计量就不能用,势必要选择非参数的统计量来解决这样的问题。

符号检验(Sign Test )是利用正、负号的数目对某种假设作出判定的非参数统计方法。 二、普通的符号检验 1.基本方法

如果所研究的问题,可以看作是只有两种可能:“成功”或“失败”,并且成功或失败的出现被假定遵从二项式分布,以“+”表示成功,以“-”表示失败,那么随机抽取的样本就有两个参数:成功的概率P +和失败的概率P —。这样就可以构造一个假设:

-+=P P H :0 -+≠P P H :1

这是双侧检验,对备择假设H 1来说,不要求P +是否大于P —。如果所研究的问题,要求考虑是P +比较大还是P —比较大,则需用单侧备择假设,即

-+=P P H :0 -+=P P H :0

-++>P P H : -+-

这里+H 表示P +是比较大的,-H 被用来说明P —是比较大的。

为了检验上面的假设,普通的符号检验所定义的检验统计量为+S 和-S 。+S 表示为正符号的数目,-S 表示为负符号的数目,

n S S =+-+是符号的总数目。

要对假设作出判定,需要找到一个P 值。因为对于+S 和-S 来说,抽样分布是一个带有5.0=θ(θ表示成功的概率)的二项式分布,所以如果H 0为真,从二项分布表中能够根据n 、+S 和-S 查到P 值。若P 值很小,表明H 0为真的可能性很小,数据不支持H 0,而支持H 1。

注:①双边假设检验中的尾概率P-值应是单边假设检验中的P-值的2倍;②在n (20≤n )较小时,可以利用二项分布表查

表,计算出精确的P-值;在n (n >20)较大时,则要用正态分布来近似,因为)2/1,(~

n Bin k ,所以)1,0(~2

/2/4

/2/N n n k n n k Z -=

-

=,

并且要作连续性修正。

Z +=

Z -=

(0.1)

③普通的符号检验其判定可以归纳如表2—2所示。 表2-2 生活花费指数数据2

2

注意与教材中取最小二者之间最小值的等价性。

相关文档
最新文档