第16章非参数检验.

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


计算得:z
T n(n 1)(2n 1) 6
24 1.42 9 10 19 6

由拒绝原则, 在显著水平5%下,临界值为1.96. 因为1.42<1.96,故不能拒绝H0 不能否定两次考试成绩无差异的假设。

例:某制造企业正在尝试确定两种生产 方法在任务完成时间上的差异。选择11 名工人组成样本,每个工人均利用每一 种方法完成生产任务。得到的配对样本 如下表所示。我们考虑用Wilcoxon检验 对两总体间的差异进行检验。


非参数检验可用的场合: 1.名义尺度、序数尺度(以上两类数据 的方差、均值和标准差计算都没有意义) 2.在无法对总体概率分布做出假定时, 用于区间尺度和比例尺度。

非参数检验的优点: 1. 检验条件比较宽松,适应性强。 2. 检验的方法比较灵活,用途更广泛。 3. 检验计算相对简单,易于理解。 非参数检验的缺点: 1. 检验功效较低。 2. 信息损耗较多。 结论:参数检验与非参数检验是针对不同情况 提出的两种统计方法,它们各有优缺点,可互 为补充。
符号检验


1.定义 忽略具体量的差异,仅用差异的正负号 来做判断的一种检验方法。适用于对无 法以数字计量的情况进行比较。 2.检验步骤 (1)确定配对样本,分别计算差异正与负 的数目,无差异记做0,并将它从样本中 删除,相应减少样本容量n。


(2)建立假设:H0:P=0.5;Ha:P≠0.5 (3)观察样本容量: 若n≤20,做二项分布处理;若n>20,做近 似正态分布处理。 (4)设定显著性水平,查表确定临界值, 进行判断和比较。


检验所针对的原假设是: H0:改革没有引起居民经济情况的变化(总体 X改革前的经济状况与总体Y改革后的经济状 况没有差别),或 H0: p =0.5。 建立原假设为真前提下的下列检验统计量: p 表示为配对样本d
p 0.5 z ~ N (0,1) 0.25 / n
为正的频率。



P( 4) P( 8) P( 0) P( 1) P( 2) P( 3) 0.0002 0.0029 0.0161 0.0537 0.0729 0.025
因此,当显著水平设定为5%时,拒绝域为 <3或 >9。


我们列出样本消费者对这两种饮料的偏好记 录:
非参数方法适用的数据测量尺 度




ห้องสมุดไป่ตู้
数据的集中测量尺度: 1. 名义尺度(定类):表示个体属性或类别, 可以用数值表示,也可用非数值表示 2. 序数尺度(定序):对观测值排序或排秩, 有顺序之分。 3. 区间尺度(定距):数据具有顺序特性,且 用于衡量数据间的差异,必须是数值型。 4. 比例尺度(定比):数据具有区间特性,且 数据的比例关系有意义,必须是数值型。



根据统计量的抽样分布特点,推知当 |z|>Z(a)时,拒绝H0,否则,不能拒绝 H0。 在显著水平5%下,由于1.03<1.96,因 此我们不能拒绝H0。即不能否定新建住 宅价格的中位数为13万美元的论断。 注意:样本容量n=60,而不是62


小结: 符号检验可用于单总体某个位置特征的 检验(中位数检验);也可用于两总体 位置分布特征是否相同的检验。 但符号检验的缺点在于:仅利用差异方 向或符号的正负做检验,而忽略了对差 异多少的量的信息,因此对资料的利用 不够充分。
9 Citrus Valley 10 Tropical Orange 11 Tropical Orange
+ -
12 Tropical Orange
-

以p表示消费者总体中偏爱Citrus Valley的比 的个数为2,恰好落入了之前分析的拒 率, 绝域中,因此拒绝H0的假设。即消费者对两 种品牌的偏爱存在差异。消费者更偏爱的品 牌是Tropical Orange.


关于中位数的假设检验有如下设定: H0: Median=13;Ha:Median≠13 大样本下,H0为真的前提下,样本数据大 于中位数的个数 近似服从均值为0.5n, 方差为0.25n的正态分布。 即选择统计量Z 0.5n 34 0.5 60 Z 1.03 0.25n 0.25 60
关于中位数的假设检验 (运用符号检验 对单总体位置特征的实例) 中位数是将总体分成均等两部分的一个 分位数,其中50%位于中位数以上,另 外50%位于中位数以下。 我们可以利用符号检定来对总体的中位 数进行假设检验。


例:在62所新住宅组成的样本中,34所住宅的 价格高于13万美元,26所住宅的价格低于13万 美元,2所住宅的价格恰好为13美元。要求检 验新住宅价格的中位数是否为13万美元? 如何利用符号进行检验? 当样本数据大于所假设的中位数时,我们用正 号标注,反之用负号标注,若样本数据恰等于 中位数时,我们用0标注,并将其从样本中删 除。
T T
6

(6)根据显著水平确定临界值,进行比较和判断。

注意到统计量Z的特点: 在H0为真,即H0:两总体均值相同的前提 下,且n至少为10时,T(秩和)的抽样 分布近似服从均值为0,方差为 n(n+1)(2n+1)/6的正态分布。

例:考察学生某课程的期中与期末考试成绩是否 有明显差异?


我们检验的假设设定分别为: H0: p=0.5;Ha:p≠0.5 若原假设为真,则”+”的个数(记为 )应 服从p=0.5的二项分布。 若令显著性水平定为0.05,拒绝域为? 回忆二项分布的概率函数。

因为
P( 3) P( 9) P( 0) P( 1) P( 2) 0.0002 0.0029 0.0161 0.0192 0.025
在显著水平5%下,由于|z|=2.83>1.96 拒绝H0。认为两个牌子受欢迎程度不同, B品牌洗发水更受消费者青睐。

注意例题中的n取值:n=50,而不是60


假设某地区居民在经济改革前的经济状况记 作变量X,改革后的经济状况记作变量Y。第 j户居民改革前后的经济状况分别 x j 和 y j。 二者之间的变化记作 d j x j y j 。 请注意,现在我们不关心具体数值,只关心 它的符号。


3. 符号检验的小样本情形 例:某软饮料公司想了解消费者对目前市场上 的两种饮料(Citrus valley和Tropical Orange) 的偏好情况,以确定消费者对其中一种是否偏 爱。 以p表示消费者总体中偏爱Citrus Valley的比率, 以符号来记录消费者个体的偏好。用“+”来表 示偏爱Citrus Valley,用“-”来表示偏爱 Tropical Orange。
符号记 录 + 0 0






汇总的结果:“+”表示A品牌的分数高于 B品牌的分数,“-”则相反,若两品牌的 得分一致,我们给0值。“+”的个数为 15个,“-”的个数为35个,“0”为10 个。 通过这样的整理以后,问两张洗发水受 欢迎程度是否不同?



表示为+ 令p表示为得到“+”号的概率, 号个数 检验的假设设定为: H0:p=0.5;Ha:p≠0.5 统计量的选择:在大样本下,若H0为真,加 号个数 服从正态分布,均值为u=0.5n, 标准差为 0.25n
Wilcoxon检验


该检验是不做正态分布假定的利用匹配 样本检验两总体间差异的方法。 该检验利用的信息:除了匹配样本间的 差异符号(方向),同时考虑了差异数 值的大小。
同一个样本分别对两类方法进行试验, 同时产生基于总体1和基于总体2的观 察点。





适用性:1.数据类型为区间尺度数据。 2. 假设成对观测值的差异总体服从正态分布。 检验步骤: (1)计算带正、负号的差数d (2)将d的绝对值按大小排序并编出等级(顺序号),相 邻的等值以其为序的平均数为等级,0差异被剔除。 (3)将差数原来的符号赋予每个等级,确定等级个数。 (4)将所有带符号的等级相加,求秩和并用T表示其值, 原假设为T=0。 T ~N (0,1) (5)计算统计量 z T n( n 1)(2n 1)
品牌倾向 1 Tropical Orange 2 Tropical Orange 3 Citrus Valley 符号记录 +
消费者
4 Tropical Orange
5 Tropical Orange 6 Tropical Orange 7 Tropical Orange
-
8 Tropical Orange
8 4 5 1 - 6.5 2 9
6.5 -2 -9
9
10 T
-7
+3
7
3
6.5
3
-6.5
3 -24


检验过程: H0:期中与期末考试成绩无差异; Ha:期中与期末考试成绩有差异 计算统计量Z:当H0为真时,Z服从标准正态 T 分布 z T ~N (0,1)
T
T
n( n 1)(2n 1) 6


如果改革没有引起居民经济情况的变化,那么居民经 济情况的前后差异就完全是由于各种随机因素的影响 形成的(假定其它重要的影响因素都已控制不变), 于是正差值的个数与负差值的个数会大体相等。把0差 值舍去后,相当于对总体(正差值与负差值组成的总 体)作二项试验,每次试验出现正号的概率是 p =0.5。 相反,如果改革引起了居民经济情况的明显好转,则 正差值的个数会比负差值的个数多。对正差值与负差 值组成的总体作二项试验,每次试验出现正号的概率 是p >0.5。
我们将配对 的样本得分 之差做符号 记录


4. 大样本情形(n>20) 例:60名消费者被随 机选出对A、B两种牌 子的洗发水打分,规 定分数从5到1,分数 越高说明评价越好。 收集的数据如下:
消费 者 1 2 3 4 5 6
品牌A的 得分 3 2 4 3 5 2
品牌B的 得分 4 5 2 3 4 2
第16章 非参数检验


前面学过的参数估计和假设检验都是以总体分 布已知或对分布作一定假设为前提的,我们称 这类统计推断为参数统计。 但在许多实际问题中,我们不知道总体分布的 情况,即使对总体的分布进行了假设,但很可 能这类假设与真实情况不符。因此参数统计在 一些情况下不再适用。



非参数统计: 对总体分布的形式不必做任何限制性假定,不 以估计总体参数为目的的推断统计。 这种统计主要用于对某种判断或假设进行检验, 故亦称非参数检验。 应当指出,这里所谓的“非参数”,只是指在 检验的过程中,未对检验统计量服从的分布及 参数做出限制,并不意味着在检验中“不涉及 参数”或“不对参数进行检验”。
71 64 73 59 85 93 65 72 87 75
期中
期末
82 69 79 58 85 86 67 92 94 72
学生编号
x1-x2
|x1-x2|
等级
符号等 级
-8 -4 -5 1 剔除无差 异样本点
1 2 3 4 5 6 7 8
-11 -5 -6 +1 0 +7 -2 -20
11 5 6 1 0 7 2 20


拒绝规则: 如果|z|>Z(a),拒绝 H0。 在本例中, 15, p 15/ 50 0.3 计算的统计量
z
np
np(1 p)

0.5n
0.25n

15 0.5 50 2.83 0.25 50


z
p p p 0.5 0.2 2.83 p(1 p ) 0.25 / n 0.25 / 50 n

因此,在H0为真的情况下,选择Z统计量, np 0.5n z np(1 p) 0.25n
服从标准正态分布。 此时的Z统计量同样可以由下式表示:
z p p p 0.5 p(1 p ) 0.25 / n n

p 为样本中正号出现 的频率(此时需先删除0差 异样本点的影响)
工人 1 2 3 4 5
相关文档
最新文档