二项分布_卡方检验1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
n 2 ) n 2 ( a b)( c d )( a c )( b d ) ( ad bc
当n<40,或T<1时,应采用四格表精确概率法。
R×C表资料的2检验
R×C表资料的2检验可进行多个率及多组构 成比之间的比较、两个分类变量的关系分析。 四格表是 R×C 表中最简单的一种, 2 检验 的基本思想一致。 R×C表资料的2检验的计算公式:
2
2值的计算公式如下:
2 ( A T ) 2= T
– 式中A代表实际频数,T代表理论频数。 – ν=(R-1)(C-1)
2 检验的基本思想
2检验实际上是将率或构成比的比较演绎为实际频 数与理论频数的比较,2值反映了实际频数和理论 频数吻合的程度。 如果 H0 成立,则实际频数与理论频数之差一般不 会很大,则 2 值也会小,当 2<2 界值时, P>α , 则尚无理由拒绝它。
2
四格表2检验的校正公式
2界值表是根据连续性的2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的 2 值也是不连续的,它仅仅是连续性的2分布的一种 近似。 n≥40&T ≥ 5时,这种近似效果较好。 但在样本例数较少或出现理论频数小于 5时,算出 的2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。
( A T 0.5) T
2
n 2 ) n 2 ( a b)( c d )( a c )( b d ) ( ad bc
– 当n<40,或T<1时,应采用四格表精确概率法。
课堂练习
P82 2 P102 2 P168 1、2、3、5、6
配对设计资料的2检验
两种处理方法的阳性率比较
– 当b+c≥40时
2
(b
ν=1
bc 2 bc 2 2 ) (c ) b c 2 2 bc bc bc 2 2
– 当b+c<40时,其理论分布具有偏性, 故须计算校正值。ν=1
2
b c 1
反之,若 H0 不成立,实际频数与理论频数的差值 会大,则 2 值也会大,若 2≥2 界值, P≤α ,则可 以认为实际频数与理论频数的差别已超出了抽样 误差允许的范围,有理由怀疑 H0 的正确性,因而 拒绝它。
2 检验的自由度
2 值的大小,除决定于 A 与 T 的差值外,还 取决于格子数(自由度)的多少。
四格表资料的2 检验
当n≥40,且T≥5 时,不需要进行校正。
(A T ) 2 (ad bc) 2 n = T (a b)(c d )(a c)(b d )
2
当 n≥40, 但有1≤T<5时,需对进行连续性校正。
=
2
( A T 0.5) T
2 ARC (A T ) 2 = =n ( 1) T n R nC 2
ν=(R-1)(C-1)
R×C表资料的2检验的注意事项
R×C表资料2检验中,如假设检验的结果拒绝H0, 只能认为各总体率或总体构成比不全相等,但不能 说明它们彼此之间都有差别,要解决这个问题必须 通过2分割进行率或构成比的多重比较。 对行×列表资料进行检验时,一般认为不能有 1/5以 上的格子的理论频数小于5,也不能有任何一个格子 的理论频数小于1,否则很容易导致分析结果出现偏 性。如果出现这种情况,可采取以下解决方法:
2检验的自由度是指在周边合计固定不变的 条件下,表内全部格子数据中可以自由取值 的格子数。 ν=(R-1)(C-1) 四格表只有两行两列,故其自由度为1。
四格表资料2 检验的专用公式
(A T ) 2 T (a b)(a c) (a b)(b d ) a b n n (a b)(a c) (a b)(b d ) n n (a c)(c d ) (b d )(c d ) c d n n (a c)(c d ) (b d )(c d ) n n (ad bc) 2 n a b c d a c b d
二项分布
二项分布的概念
二项分布是一种重要的离散型分布,也 称为伯努利分布,是用来描述二分类变 量得两种观察结果的出现规律的一种离 散型分布。
常用于总体率的估计和两样本率的比较
等。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种 结果,如有效或无效、阴性或阳性。 已知发生某一结果(如阳性)的概率为π,此概 率对于每一个个体是相同的;其对立结果(阴 性)发生的概率为1-π,各单位的观察结果相互 独立,则从该总体中随机抽取 n 例,其中恰有 X 例是某一结果(阳性)的概率为:
二项分布的图形
.4
.3
n=5 π=0.3
.2
.1
0.0 0 1 2 3 4 5
二项分布的图形
.2 n=20 π=0.3
.1
0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
二项分布的应用
总体率的区间估计
样本率与总体率的比较
两个样本率的比较
总体率的区间估计
1 2
例:为研究某职业人群颈椎病患病率的性别差异,随 机抽查了该职业人群男性120人和女性110人,检查出 男性中有36人患有颈椎病,女性中有22人患有颈椎病, 试比较不同性别的颈椎病患病率的差异。
2 检验
(chi-square test)
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
配对设计资料的一般形式
变量1
变量2
阳性 阴性
合计
阳性
阴性 合计
a
c a+c
b
d b+d
a+b
c+d n
变量1的阳性率P1=(a+b)/n 变量2的阳性率P2 =(a+c)/n P1 - P2 =(a+b)/n-(a+ c)/n=(b-c)/n 两个变量阳性率的比较只和b、c有关,而与a、d无关
sp n
二项分布的图形
当 0.5时,分布是对称的;
当0.5 时,分布是偏的,特别是1% 或 99% 时分布非常偏, 但n增大时又趋于对称, 当n→∞时,只要不太靠近0或1,则近似正态 分布。 一般来说当n足够大,n和n(1-)均不小于5时, 常用正态分布原理来处理二项分布的问题。
0.0 0 5 10 15 20 25
2 检验
2检验是一种用途非常广泛的以2分布
为理论依据的假设检验方法,主要用于:
– 两个或多个总体率或构成比的比较; – 两个分类变量之间的关联分析; – 频数分布资料的拟和优度检验等。
2 检验的基本思想
实际频数和理论频数差异的大小可以用 2 值的大 小来说明,当样本量n和各个按检验假设计算的理 ) 论频数T都足够大时,比如n≥40,T≥5, (A T值近 T 似于2分布,n越大,近似程度越好。
正态近似法:当n较大,且np和n(1-p)均大于5 时,可利用样本率p的分布近似正态分布的原 理估计总体率的1-α可信区间。 (P - uαSp , P + uα Sp)
查表法: n 50
样本率和总体率的比较
正态近似法:当n较大,且np和n(1-p)均 大于5时,可利用样本率的分布近似正态 分布的原理。
bc
2
配对设计资料的2检验
两种处理结果的关联性分析
– 当n≥40,且T≥5 时,不需要进行校正。
(A T ) 2 (ad bc) 2 n = T (a b)(c d )(a c)(b d )
2
– 当 n≥40, 但有1≤T<5时,需进行连续性校正。
2=
P( X ) ( ) (1 )
n X X
n X
ห้องสมุดไป่ตู้
X=0,1,2,…,n
二项分布的应用条件
每次试验只会发生相互对立的两种结果之一, 如阳性或阴性,生存或死亡; 每次试验产生某种结果的概率固定不变,已 知发生某一结果(如阳性的概率为 π ,其对 立结果的概率则为1-π; 重复试验是相互独立的,即每次试验的观察 结果不会影响到其它试验的结果,也不会受 其它试验的结果的影响。
二项分布的均数与标准差
若X~B(n,π),则
– X的总体均数 μ=nπ – X的总体方差 σ2=nπ(1-π) – X的总体标准差 n (1 )
若以率表示
– 样本率p的总体均数 μp=π (1 ) p – 样本率p的总体标准差 n – 当总体率未知时,以样本率p作为π的估计值, 则σp的估计用 p(1 p)
– – – –
增大样本量: 采用精确概率法 合理合并 舍弃部分数据
配对设计资料的2检验
配对设计的计数资料特点:对同一样本的每 一对象分别用两种方法处理,观察其阳性或 阴性结果,调查或实验设计数据等。
配对设计的计数资料常用于:
– 比较两种处理方法的阳性率的差别等。 – 检验两种方法的结果的相关性。
u p 0
0 (1 0 ) / n
直接概率法:
两样本率的比较
正态近似法:当n1、n2较大,且n1 p1、n1(1-p1)、 n2 p2、n2(1-p2)均大于5时,可利用样本率的分布近似正 态分布的原理。 X1 X 2 X1 X 2 1 1 p1 p 2 S p1 p2 (1 )( ) u n1 n2 n1 n2 n1 n2 sP P