第七章讲义非参数统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 非参数统计
非参数统计(亦称非参数检验),是根据样本资料对总体的某
种性质或关系进行假设检验的统计推断方法。
主要特点
(1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的;
(3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。 (5)缺点是检验的功效不如参数检验方法。
本章主要内容
介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。
第一节 χ2检验
一、什么是χ2检验 χ
2
检验是运用χ
2
分布作为理论工具,在非参数统计中可用
于对总体的分布或随机变量的独立性进行的检验。 (一)χ2分布 χ
2
分布是由正态分布推导出来的一种连续型随机变量的概
率分布。 1.χ2分布的数学形式
设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ,
σ2)。将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。
21
2
1
2
2
22212
)(1
)(
)(
)(
i
k
i i
k i k Z
x x x x ∑∑===-=
-++-+-=μσσ
μ
σ
μ
σ
μ
χ
χ2~χ2(k),k 是自由度,表示定义式独立变量的个数。
当k=1时,
2.χ2分布的性质
(1)χ2分布的值恒为正值,且 ϕ(χ2, k) d χ2
=1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。
一般当k ≥30时,χ2分布可用正态分布近似计算。 (二)χ2检验的原理
在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。 设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。构造
一个统计量
数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。
(f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较
大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
2
22)(Z x =-=σμχϕ (χ2)
χ2 (k)
k=15
k=1
k=3
k=5
ϕ (χ2
)
χ2
χ2 0.05(4)
)
(/)(21
2
为自由度k f f f e
e o k
i -=∑=χ∞0
二、拟合优度检验
这是利用随机样本资料对总体是否服从某种理论分布的检
验。
检验步骤
对总体分布建立假设 H 0:总体服从某种理论分布 H 1:总体不服从该理论分布
抽样并对样本 以“原假设H 0 资料编成频数 为真”导出一组 分布(f 0)
期望频数(f e )
比较χ2值与临界值 作出检验判断
注意事项
(1)各组理论频数f e 不得小于5,如不足5,可合并组;
(2)为使组数不致太少,总频数n >50; (3)根据具体情况确定自由度。
三、独立性检验
(1)
(2)
(3)
(4) (6)
是利用样本资料对总体的两个变量的数据是否彼此关联的检
验,如果不关联,即为独立。 检验步骤
要点说明
y 的边缘频数
(2)理论频数E ij 的计算
先求理论频率(作为概率的近似)。概率论中关于概率独立的
基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P (A ·B )=P (A )·P (B )。因此,某一行某一列的联合概率:
(3)自由度(df )的确定 df=(r-1)(c-1)
:r ·c=3×4
Df=(3-1)(4-1)=6
(4)r 2值简算公式
第二节 成对比较检验
一、符号检验
n n n n j i P j
i ⋅
=),(的概率第n
n n n n n n n E n j i j
i ij =
⋅=∴)(,理论频数总频数为 r 1 r 2 r 3
总行数
总列数
)
)()()(()(2
2
d c b a d b c a bc ad n x ++++-=
这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
1、检验内容:检验的两组数据是否有显著差异或两总体的
位置特征(均值、中位数)是否相同。
2、适用条件:关联样本资料;定性变量。
3、方法思想:
设有关联样本的两组成对的数据x i与y i,比较各对的大小。
若x i>y i ,记作“+”;若x i<y i ,记作“-”;
若x i=y i ,删去,并相应减少n对数据。
若两组数据没有显著差异,它们之差的“+”、“-”号的个数应大致相等。出现“+”(或“-”)的概率为0.5。如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。
由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。
4.检验步骤: