二项分布 卡方检验.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四格表资料的2 检验
当n≥40,且T≥5 时,不需要进行校正。
2= (A T ) 2
(ad bc) 2 n
T
(a b)(c d )(a c)(b d )
当 n≥40, 但有1≤T<5时,需对进行连续性校正。
2= ( A T 0.5)2
( ad bc n )2 n 2
四格表只有两行两列,故其自由度为1。
四格表资料2 检验的专用公式
2 (A T )2 T
a (a b)(a c) b (a b)(b d )
n (a b)(a c)
n (a b)(b d )
n
n
c (a c)(c d ) d (b d )(c d )
n (a c)(c d )
n=5 π=0.3
.2
.1
0.0
0
1
2
3
4
5
二项分布的图形
.2 n=20 π=0.3
.1
0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
来自百度文库
二项分布的应用
总体率的区间估计 样本率与总体率的比较 两个样本率的比较
总体率的区间估计
正态近似法:当n较大,且np和n(1-p)均大于5 时,可利用样本率p的分布近似正态分布的原 理估计总体率的1-α可信区间。
差值 则可
以认为实际频数与理论频数的差别已超出了抽样
误差允许的范围 拒绝它。
,有理由怀疑
H0的正
确性,
因而
2 检验的自由度
2值的大小,除决定于A与T的差值外,还 取决于格子数(自由度)的多少。
2检验的自由度是指在周边合计固定不变的 条件下,表内全部格子数据中可以自由取值 的格子数。 ν=(R-1)(C-1)
2 检验的基本思想
实际频数和理论频数差异的大小可以用2值的大
小来说明,当样本量n和各个按检验假设计算的理
论频数T都足够大时,比如n≥40,T≥5, 似于2分布,n越大,近似程度越好。
(A
T值)2 近
T
2值的计算公式如下:
2= (A T )2
T
– 式中A代表实际频数,T代表理论频数。 – ν=(R-1)(C-1)
二项分布的图形
当 0.5时,分布是对称的;
当0.5 时,分布是偏的,特别是1% 或 99% 时分布非常偏, 但n增大时又趋于对称, 当n→∞时,只要不太靠近0或1,则近似正态 分布。
一般来说当n足够大,n和n(1-)均不小于5时, 常用正态分布原理来处理二项分布的问题。
二项分布的图形
.4
.3
2 检验的基本思想
2检验实际上是将率或构成比的比较演绎为实际频 数与理论频数的比较,2值反映了实际频数和理论 频数吻合的程度。
如会果很大H0,成则立,2值则也实会际小频,数当与理2<论2频界数值之时差,一P>般α不, 则尚无理由拒绝它。
反之,若 会大,则
H20值不也成会立大,,实若际频2≥数2与界理值论,频P≤数α的,
u p1 p2 s P1 P2
S p1 p2
X1 X 2 (1 X1 X 2 )( 1 1 )
n1 n2
n1 n2 n1 n2
例:为研究某职业人群颈椎病患病率的性别差异,随 机抽查了该职业人群男性120人和女性110人,检查出 男性中有36人患有颈椎病,女性中有22人患有颈椎病, 试比较不同性别的颈椎病患病率的差异。
2检验 (chi-square test)
.5
.4
ν=1
.3
.2
ν=3
ν=6
.1
ν=10
0.0 0
5
10
15
20
25
2 检验
2检验是一种用途非常广泛的以2分布 为理论依据的假设检验方法,主要用于:
– 两个或多个总体率或构成比的比较; – 两个分类变量之间的关联分析; – 频数分布资料的拟和优度检验等。
T
(a b)(c d )(a c)(b d )
当n<40,或T<1时,应采用四格表精确概率法。
二项分布
二项分布的概念
❖ 二项分布是一种重要的离散型分布,也 称为伯努利分布,是用来描述二分类变 量得两种观察结果的出现规律的一种离 散型分布。
❖ 常用于总体率的估计和两样本率的比较 等。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种 结果,如有效或无效、阴性或阳性。
已知发生某一结果(如阳性)的概率为π,此概 率对于每一个个体是相同的;其对立结果(阴 性)发生的概率为1-π,各单位的观察结果相互 独立,则从该总体中随机抽取n例,其中恰有X 例是某一结果(阳性)的概率为:
二项分布的均数与标准差
若X~B(n,π),则
– X的总体均数 μ=nπ
– X的总体方差 σ2=nπ(1-π)
– X的总体标准差 n(1)
若以率表示
– 样本率p的总体均数 – 样本率p的总体标准差
μp=π
p
(1 )
n
– 当总体率未知时,以样本率p作为π的估计值,
则σp的估计用
sp
p(1 p) n
P(
X
)
(
n X
)
X
(1
)nX
X=0,1,2,…,n
二项分布的应用条件
每次试验只会发生相互对立的两种结果之一, 如阳性或阴性,生存或死亡;
每次试验产生某种结果的概率固定不变,已 知发生某一结果(如阳性的概率为π,其对 立结果的概率则为1-π;
重复试验是相互独立的,即每次试验的观察 结果不会影响到其它试验的结果,也不会受 其它试验的结果的影响。
(P - uαSp , P + uα Sp)
查表法: n 50
样本率和总体率的比较
正态近似法:当n较大,且np和n(1-p)均 大于5时,可利用样本率的分布近似正态 分布的原理。
u
p 0
0 (1 0 ) / n
直接概率法:
两样本率的比较
正态近似法:当n1、n2较大,且n1 p1、n1(1-p1)、 n2 p2、n2(1-p2)均大于5时,可利用样本率的分布近似正 态分布的原理。
n (b d )(c d )
n
n
a
(ad bc)2 n
bc d a cb
d
四格表2检验的校正公式
2界值表是根据连续性的2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的2 值也是不连续的,它仅仅是连续性的2分布的一种 近似。
n≥40&T ≥ 5时,这种近似效果较好。
但在样本例数较少或出现理论频数小于5时,算出 的2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。