第七章 卡方检验
第七章卡方检验
二、两相关样本率检验(McNemar) 两相关样本率检验(
1.资料类型 1.资料类型 两个相关样本率资料又称配对计数资料,顾名思义, 两个相关样本率资料又称配对计数资料,顾名思义, 是采用配对设计,且结果以频数方式表达的资料, 是采用配对设计,且结果以频数方式表达的资料,见 例 7 -3 。 某抗癌新药的毒理研究中, 78只大鼠按性 例7-3某抗癌新药的毒理研究中,将78只大鼠按性 窝别、体重、年龄等因素配成39 39对 别、窝别、体重、年龄等因素配成39对,每个对子的 两只大鼠经随机分配,分别接受甲剂量和乙剂量注射, 两只大鼠经随机分配,分别接受甲剂量和乙剂量注射, 试验结果见表7 试验结果见表7-4。试分析该新药两种不同剂量的 毒性有无差异。 毒性有无差异。
P <α
理论频数太小的三种处理方法
1.增大样本量. 1.增大样本量. 增大样本量 2.删去理论频数太小的格子所对应的行或列。 2.删去理论频数太小的格子所对应的行或列。 删去理论频并理论频数太小的格子所相邻的行或列。 合并理论频数太小的格子所相邻的行或列
一、多个样本率的比较
例7-4用A、B、C三种不同方法分别处理新 生儿脐带,发生感染的情况见表7 生儿脐带,发生感染的情况见表7-6,试 比较3种不同方法的脐带感染率有无差异。 比较3种不同方法的脐带感染率有无差异。
三、多组百分比的比较
在某项疼痛测量研究中, 160例手术后疼痛 例7-6 在某项疼痛测量研究中,给160例手术后疼痛 的患者提供四种疼痛测量量表,即直观模拟量表( 的患者提供四种疼痛测量量表,即直观模拟量表( VAS),数字评估量表(NRS),词语描述量表( ),数字评估量表 ),词语描述量表 VAS),数字评估量表(NRS),词语描述量表(VDS ),面部表情疼痛量表 FPS) 面部表情疼痛量表( ),面部表情疼痛量表(FPS),患者首选的量表以 及患者的文化程度见表9 及患者的文化程度见表9-8,问患者首选疼痛量表与 文化程度是否有关? 文化程度是否有关?
研究生医学统计学 卡方检验 PPT课件.ppt
431 388 495 137 1451
490 410 587 179 1666
902 800 950 32 2684
合计
1823 1598 2032 348 5801
H0:两种血型系统间无关联 H1:两种血型系统间有关联
=0.05
2 5801( 4312 490 2 ... 322 1) 213 .16
(A T )2 T
,
行数-1列数 1
2 (99 90.48)2 (5 13.52)2 (75 83.52)2 (2112.48)2 12.86
90.48
13.52
83.52
12.48
(2 1)(2 1) 1
以 1 查 2界值表得P<0.005。按 0.05水准,
拒绝H0,接受H1,可以认为两组降低颅内压的总体有效率不等,即 可认为异梨醇口服液降低颅内压的有效率高于氢氯噻泰+地塞米松 的有效率。
程度太差,不宜用2检验,而应改用确
切概率法。
四格表资料2检验的校正公式
2 C
( A T 0.5) 2 T
2 C
( ad bc n / 2)2 n (a b)(c d )(a c)(b d )
例 7-2 某医师欲比较胞磷胆碱与神经节甘酯治疗脑血管疾病的疗效, 将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治 疗脑血管疾病的有效率是否相等?
组别
阳性
预防注射组 4
非预防组 5(3)
合计
9
阴性 18 6 24
合计 22 11 33
感染率(%) 18.18 45.45 27.27
本例n为33<40,且有一个格子的理论频数为3<5.
卡方检验
27
表7 - 8
三种疗法有效率的比较 合计 有效率(%) 有效率(%) 206 182 144 532 96.60 90.11 81.94 90.41
疗法 物理疗法组 药物治疗组 外用膏药组 合计
有效 199 164 118 481
无效 7 18 26 51
28
检验步骤1 检验步骤1-建立假设
H0:三种疗法的有效率相等
免疫荧光法 + -
合计
+
11(a)
12(b)
23
-
2(c)
33(d)
35
合计
13
45
58
20
检验步骤1 检验步骤1-建立假设
H0:两种方法的检测结果相同
H1:两种方法的检测结果不相同
确定检验水准:α = 0.05
21
检验步骤2 检验步骤2-计算检验统计量
(b-c)2 2 未校正计算公式: 未校正计算公式:χ = b+c
P<0.05
结论:在 α = 0.05水准上,拒绝H0,接受H1,可以认 结论: 水准上,拒绝H 接受H 为三种疗法的有效率不全相等(统计学结论),可 ),可 为三种疗法的有效率不全相等(统计学结论), 以认为三种疗法治疗周围性面神经麻痹的有效率有 差别(专业结论)。 差别(专业结论)。
31
多个样本构成比的比较
14
四格表专用公式: 四格表专用公式:
(A−T) χ =∑ T
2
2
2
(ad −bc) N χ = (a +b)(c + d)(a + c)(b + d)
2
(99×21−5×75) ×200 本 : = 例 χ =12.86 104×96×174×26
医学统计学--卡方检验
笃 学
精 业
修 德
厚 生
6
2 ( A T ) 2值的大小还取决于 个数的多少(严 T 2 ( A T ) 格地说是自由度 的大小)。由于各 皆是 T 2
正值,故自由度 愈大, 值也会愈大;所以只 2 值才能正确地反映 有考虑了自由度 的影响,
实际频数 A和理论频数 T 的吻合程度。检验时, 要根据自由度 查 2 界值表。当 2≥ 2时, P , ,
2 中,若拒绝无效假设
H0只能做出总的结论,但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别,还要进行两两比较,本节介绍两
两比较的方法之一:行×列表的分割。
笃 学
精 业
修 德
厚 生
30
4.行×列表的分割 (一)多个实验组间的两两比较 由于要做重复多次的假设检验,需对第Ⅰ 类错误作校正,新的校正检验水准为:
第七章 掌握内容:
2 检 验
1.检验的基本思想和用途 2.成组设计四格表资料检验的计算及应用条件
3.配对设计四格表资料检验 4.行列表资料检验及应用时应注意的问题 5.频数分布拟合优度的检验 了解内容 1.四格表资料的Fisher精确概率法的基本思想 与检验步骤
笃 学 精 业 修 德 厚 生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性 阳性 阴性 合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1,2之间差别是否有统计学意义, 常用 2 检验统计量来作假设检验。
笃 学 精 业 修 德 厚 生
5
07 第七章 卡方检验20130202
6
四格表的确切概率法
7 资料分布的拟合优度检验
第一节 卡方检验的基本思想
6
X2分布
X2分布是一种连续性随机变量的概率分布。
z2 2, 1
z12 z22 z32 2, 3 z12 z22 ....... z 2 2,
7
8
X2检验的用途
甲种
乙种
+
-
合计
+ 1112(a) 9(b)
20
-
1(c) 1231 (d) 8
合计
12
16
28
41
(二)配对R×R列联表资料的X2检验
变量1 1
1
A11
2
A21
…
…
变量2
2
…
A12
…
A22
…
…
…
R A1R A2R …
合计
n1 n2 …
R
AR1
AR2
…
合计
m1
m2
…
ARR
nr
mr
n
R 1 T R 1 R (ni mi ) 42 R i1 ni mi 2 Aii
在α=0.05水准上,拒绝H0,接受H1,差异有统计学意义。 可认为两组发病率不同,中药预防流感有效 。
除了可以Z检验外,还有另外一种方法 两小样本率如何比较?
3
第七章 卡方检验
内容
5
1
卡方检验的基本思想
2
四格表资料的χ2检验
3 配对设计资料比较的χ2检验
4
行×列表资料的χ2检验
5 行×列表资料的关联性分析
3.52
47 96 84 35
卫生统计学第七章卡方检验
做答人数:0
做对人数:0
所占比例: 0
题号: 15 本题分数: 2
χ2检验应用范围不包括
A. 两个或多个率的差别
B. 两个或多个构成比的差别
C. 小样本配对设计计量资料均数的比较
D. 两种属性间的相关分析
E. 检验频数分布的似合优度
正确答案: C
A. 三个总体率不同或不全相同
B. 三个总体率都不相同
C. 三个样本率都不相同
D. 三个样本率不同或不全相同
E. 三个总体率中有两个不同
正确答案: A
答案解析:三个率比较的假设检验中,H0:三个总体率全相等,H1:三个总体率不全相等,包括三个总体率全不同或不全相同,当χ2>χ20.01(2),P<0.01,拒绝H0,接受H1,可认为三个总体率不同或不全相同,故答案为A。
做答人数:0
做对人数:0
所占比例: 0
题号: 12 本题分数: 2
对于总合计数n为400的4个样本率的资料做χ2检验,其自由度为
A. 399
B. 396
C. 1
D. 4
E. 3
正确答案: E
答案解析:4个样本率的比较,资料可整理为4×2的行×列表,χ2统计量所对应的自由度为(4-1)×(2-1)=3。
卡方检验
17
第二节 多个独立样本列联表资料的2检验
18
行×列表资料的2检验
•行×列表基本数据有以下三种情况: 多个样本率比较,有R行2列,称R×2表 ; 两个样本的构成比比较,有2行C列,称2×C表; 多个样本的构成比比较,以及双向无序分类资料关联性检 验,有R行C列,称R×C表。 •行×列表资料2检验的专用公式:
校正公式:
2
( A T 0.5)2 T
2
( ad bc n / 2)2 n (a b)(c d )(a c)(b d )
14
例7-2 某医生欲研究含钙胶囊预防妊高征的效果,将 22~ 33岁单胎初孕妇女具有妊娠高危因素者随机分为两组。含钙 胶囊组42人从孕28周起到分娩止每日口服,结果出现妊高征 3例。安慰剂组29人,结果出现妊高征8例。试问补钙对妊高 征是否具有预防作用?
第七章 2检验
凌莉 教授
医学统计与流行病学系 公共卫生学院
1
主要内容
• 两个独立样本四格表资料的2检验 • 多个独立样本列联表资料的2检验
• 配对设计资料的2检验
• 频数分布拟合优度的的2检验
2
第一节 两个独立样本四格表资料的2检验
3
2分布
•由正态分布构造的一个新的分布,k个独立的标准正态分布变量的平方 和服从自由度为k的2分布。 •2分布形状由自由度v决定: v≤2,曲线呈L形; 随v的增大,曲线趋于对 称;v→∞,曲线趋向正态分布。 •2分布具有可加性:若有k个服从2分布且相互独立的随机变量,则他们 之和仍是2分布,自由度为原来k个自由度之和。 •2分布的界值由自由度v和检验水准α决定。
2.计算检验统计量和自由度
2
( ad bc n 2) 2 n (a b)(c d )(a c)(b d )
第七章 卡方检验
2 校正公式
2 ( ad bc n / 2)2 n
(a b)(c d)(a c)(b d)
2
( A T 0.5)2 T
例 7
例3- 7-3 将病情相似的淋巴系肿瘤患者随机分成两组,分别做单纯化疗与复合化疗,
两组的缓解率见表7-4。问两疗法的总体缓解率是否不同?
第一节 频数分布拟合优度2 检验
goodness of fit 2 test for frequency distribution
一、χ 2 分布
χ 2分布是一种连续型随机变量的概率分布。
若Zi ~ N (0,1)
,
则称
2
Z12
Z
2 2
Z
2 3
...Biblioteka Z2 v为服从自由度为v 的 2 分布。
观察频数A (2) 2 2 7 17 25 37 25 16 4 1
136(n)
概率P(X) (3)
0.00397 0.01809 0.05801 0.13110 0.20888 0.23468 0.18592 0.10386 0.04090 0.01135
1.000
理论频数T (4)=(3) ×n
27 18
v (3 1)(2 1) 2
P<0.025 , 拒绝H0 ,认为三种剂量镇痛效果有差别.
二、多个率之间两两比较—2 分割法
行×列表资料的2 检验只能得出总的结论:即各总体率或构成比之 间总的来说有差别,但不能说它们彼此之间都有差别。若要进一步解决 此问题,可用2 分割法( partitions of 2 method)。 2 分割原理: (1)n个相互独立的2 分割之和服从2 分布且2总= 2 分割1+ 2 分割2+… (2) ν总=ν分割1+ ν分割2+ … (3)最相近原则分割原表
次数资料分析---卡方检验
第七章 次数资料分析---χ2检验第一节 χ2检验的原理与方法1.χ2分布χ2分布是从正态分布派生出来的一种分布。
⏹[定义]设X 1,X 2,X 3,…,X n 相互独立同分布,且X i ~N(0,1),则随机变量χ2= x i 2n i=1的分布称为具有n 个自由度的χ2分布。
记作: χ2 = x i 2n i=1 ~χ2(n ) 即:n 个标准正态分布的随机变量的平方和,服从自由度为n 的χ2分布。
⏹[推论]若随机变量X 1,X 2,X 3,…,X n 相互独立,且X i ~N(μ, σ2),则χ2= (x i −μ)2σ2n i=1~χ2(n)⏹[自由度]在计算χ2的过程中,如果有一个统计量代替了其中的一个参数,则其自由度为(n-1);如果有两个统计量代替了其中的两个参数,则其自由度为(n-2)。
χ2= ~χ2(n-1)22212)1()(σσS n x x ni i -=-∑=2.χ2分布的性质⏹χ2分布的“可加性”—在进行χ2统计分析时,可将相邻的数据合并在一起统计⏹χ2分布为非对称的连续性分布,分布区间为[0,+∞]⏹χ2分布曲线因自由度不同而异不同自由度的概率分布密度曲线 2χ 3.χ2检验的基本原理与方法χ2检验是与计数数据相关联的,因而用于计数资料或间断性数据的检验。
⏹[基本原理] 用于实际观测值(O )与理论推算值(E )之间的偏离程度来计算χ2值的大小,根据χ2的概率来检验观测值与理论值的差异程度和符合程度的大小。
⏹[检验方法]按照假设检验的一般步骤,对计数资料进行右尾检验。
如果有k 组资料,则检验统计量的值按下式计算:χ2=(A i −T i )2T iki=1【k:类别;A i :实际观测值;T i :理论推算值】⏹[连续性矫正] 当自由度df ≧2时,一般不作连续性矫正。
但在自由度df =1时,需进行连续性矫正,统计量计算公式:x c2= (∣A i −T i ∣−0.5)2T iki=1第二节 适合性检验1.适合性检验的定义所谓适合性检验,就是检验某一试验结果类别频数的划分是否符合某一理论比例。
医学统计学第七章卡方检验
n 40 或 T 1,直接计算概率。
2 连续性校正仅用于 的1 四格表资料,当
,一般不作校正。
时2
23
第二十三页,共100页
例7-2 某医师欲比较胞磷胆碱与神
经节苷酯治疗脑血管疾病的疗效,将78 例脑血管疾病患者随机分为两组,结果 见表7-3。问两种药物治疗脑血管疾病的
有效率是否相等?
24
阳性 阴性
4
18
5(3) 6
9
24
合计 感染率(%)
22
18.18
11
45.45
33
27.27
39
第三十九页,共100页
一、基本思想
在四格表周边合计数固定不变的条件
下,计算表内4个实际频数变动时的各种
组合之概率 ;再Pi按检验假设用单侧 或双侧的累计概率 ,依P据所取的检验
水准 做出推断。
40
第四十页,共100页
b, c为两法观察结果不一致的两种情况。
检验统计量为
2 (b c)2 , 1
bc
2 c
( b c 1)2 bc
Байду номын сангаас
,
=1
33
第三十三页,共100页
注意:
本法一般用于样本含量不太大的资料。因为
它仅考虑了两法结果不一致的两种情况(b, c),
而未考虑样本含量n和两法结果一致的两种情况
(a, d)。所以,当n很大且a与d的数值很大(即两
1.各组合概率Pi的计算 在四格表周边合计数不 变的条件下,表内4个实际频数 a,b,c,d 变动的 组合数共有“周边合计中最小数+1”个。如例
7-4 , 表 内 4 个 实 际 频 数 变 动 的 组 合 数 共 有 9+1=10个,依次为:
第七章卡方检验报告
H0:两种检验方法的结果相同,即总体B=C; H1:两种检验方法的结果不同,即总体BC。
=0.05。
2
( 26 5 1) 2 26 5
12.90
按 =1查2界值表,P<0.005。在 =0.05水准上拒绝H0 , 接受H1,差异有统计学意义。可认为两法检验结果不同,荧 光抗体法阳性结果高于常规培养法。
24
22 14
(0.97 1.00]
(1.00 1.03] (1.03 1.06] 合计
由 2界值表查得 20.05,1 = 3.84 ,即理论上
如果H0成立,则2有95%的可能 在0~3.84
之间,2 >3.84的可能性只有0.05,是一小概
率事件。
.5
.4
.3
.2
.1
0 0
3.84
四格表资料专用公式:
组别 试验 对照
有效 99 a 75 c
无效 5 b 21 d
合计
有效率%
当b+c≤20时:计算确切概率(利用二项分布
法计算)
例:用两种检验方法对某食品作沙门氏菌检验,结果
如下表,试比较两种方法的阳性结果是否有差别。
两种检验方法结果比较 常规培养法 + 160(a) 5(c) 165 26(b) 48(d) 74
荧光抗体法 + 合计
合计 186 53 239
样本构成比较的比较
例: 某医生分别调查了维吾尔族与回族居民 1513 人和平共处 1355 人, 得其 ABO 血型资料如下表,问两个民族居民血型构成是否相同。 维吾尔族与回族居民 ABO 血型的构成 民族 维吾尔族 回族 合计 A 442 369 811 B 483 384 867 O 416 487 903 AB 172 115 287 合计 1513 1355 2868
第七章 卡方检验
( A − T − 0.5) T
2
•
当自由度大于1时 当自由度大于 时,χ2分布与连续型随 这时, 机变量χ2分布相近似 ,这时,可不作连 续性矫正 , 但要求各组内的理论次数 不小于5。 不小于 。 若某组的理论次数小于5, 若某组的理论次数小于 ,则应把它 与其相邻的一组或几组合并, 与其相邻的一组或几组合并,直到理论 为止。 次数大 于5 为止。
二、 2×2表独立性检验 × 表
•
在做2× 表的独立性检验时 表的独立性检验时, ( 在做 ×2表的独立性检验时,df=(21)(2-1)=1,故计算χ2时需做连续性矫正。 故计算χ ) 故计算 时需做连续性矫正。 一般形式如下: 一般形式如下: • 2×2列联表一般形式 × 列联表一般形式 列 行 1 2 总数 1 O11 O21 C1 2 O12 O22 C2 总 数 R1 R2 n
数与理论次数差异不显著; 数与理论次数差异不显著; 差异不显著
2 χ02.05 ≤ χ2(或 χ c2 )< χ0.01 ,0.01< P ≤0.05ቤተ መጻሕፍቲ ባይዱ • 若 < ,
表明实际观察次数与理论次数差异显著; 表明实际观察次数与理论次数差异显著; 差异显著
2 • 若χ2( 或 χ c2 )≥ χ0.01 , P ≤0.01,表明实际观察 , 次数与理论次数差异极显著 差异极显著。 次数与理论次数差异极显著。
•
•
t检验主要用于两样本平均数(或 检验主要用于两样本平均数( 检验主要用于两样本平均数 一个样本平均数与总体平均数) 一个样本平均数与总体平均数)间 的差异显著性检验; 的差异显著性检验; F检验主要应用于样本平均数的个 检验主要应用于样本平均数的个 检验 数大于或等于3时的假设检验 时的假设检验。 数大于或等于 时的假设检验。
第七章 假设检验(F检验与卡方检验)
• 例子:一次英语考试后,从两个学校分别随机抽 取试卷数量n1=10,n2=9,求得的样本修正方差 即总体方差估计值为S12=236,S22=63.36。问两校 这次考试离散程度是否有显著差异?(α=0.05)
解答
2 (1)假设离散程度无显著性差异,即H 0 : 12 2
236 (2)计算统计量F 2 3.74 S 2 63.36 (3)df 1 n1 1 10 1 9 df 2 n2 1 9 1 8
• • 若自由度df=1,α=0.900,查2分布表可知P(2>0.02)=0.900 记20.900(1)=0.02
• 如df=5, α=0.05,查2分布表20.05(5)=? • 如df=5, α=0.01,查2分布表20.01(5)=? • 如df=10, α=0.05,查2分布表20.05(10)=? p{2 > 2 tα(n)}= α
对平均数差异的显著性检验的理论前提是假设两 个总体的方差是相同,或至少没有显著性差异。 Z检验和t检验 对两个总体的方差是否有显著性差异所进行的检 验称为方差齐性检验,即必须进行F检验。
F分布
• 若有两个服从正态分布的总体N1(μ1,σ1),N2(μ2,σ2)。检 验σ1和σ2是否有显著性差异? • 在方差分析中,需要检验某个因素是否对指标有显著 的作用时需要F分布来解决。 • 设有两个总体X,Y,已知X~2(n1),Y~2(n2),并且 X与Y相互独立,则称随机变量F,所服从的分布为第 一自由度为n1,第二自由度为n2的F分布,记为F~F (n1,n2)。
• (4)设X~ 2(n),则2分布的期望值E(X)=n,D(X)=2n • (5) 2分布是连续型分布,但有些离散型的分布也近似于 2分布。
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
最新-11-09 第七章 卡方检验2课件ppt
第三节
四格表资料的Fisher确切概率法
条件:
理论依据:超几何分布
(非χ2 检验的范畴)
例7-4 某医师为研究乙肝免疫球蛋白 预防胎儿宫内HBV感染的效果,将33例 HBsAg阳性孕妇随机分为预防注射组和非预 防组,结果见表7-4。问两组新生儿的HBV 总体感染率有无差别?
一、基本思想
在四格表周边合计数固定不变的条件 下,计算表内4个实际频数变动时的各种组
二、检验步骤(本例n=33<40 )
H0:1=2,即两组新生儿HBV的总体感染率相等 H1:1≠2,即两组新生儿HBV的总体感染率不等
α =0.05 1.计算现有样本四格表的P*及各组合下四格表的Pi ,见表7-5。本例P*=0.08762728。
2.计算满足Pi≤P*条件的所有四格表的累计概率P。
病种
阳性
阴性
合计
胆囊腺癌
6
胆囊腺瘤
1
合计
7
4
10
9
10
13
20
H0:1=2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率相等
H1:1≠2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率不等 α=0.05 本例 a+b=c+d=10,由表7-7可看出,四格表内各种 组合以i=4和i=5的组合为中心呈对称分布。
表组合的累计概率为左侧概率,记为PL;现 有样本四格表及其以右的所有四格表组合的 累计概率为右侧概率,记为PR。若备择假设
H1为12,则P单侧=PR;若H1为12,则
P单侧=PL。
(2)双侧检验 计算满足Pi ≤ P*条件的各种组合下四格表
的累计概率。若遇到 a+b=c+d 或 a+c=b+d 时 ,四格表内各种组合的序列呈对称分布,此 时按单侧检验规定条件只计算单侧累计概率 ,然后乘以2即得双侧累计概率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论值(E)
3459.5 3459.5 6919
O-E
-22.5 +22.5 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际
观测值与理论值的差数平方后再相加,也就是
计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
玉米花粉粒碘反应观察值与理论值
碘反应 蓝色
非蓝色 总数
观察次数(O) 3437
3482 6919
理论次数(E) 3459.5
3459.5 6919
O-E -22.5
+22.5 0
(O-E)2 506.25
506.25 1012.5
(Oi Ei ) 2
值越大,观测值与理论值相差也
就越大,反之越小。
为了弥补这一不足,可先将实际观测值与理
2 c
O O
第七章
卡方检验----离散型资料
卡方检验的原理与方法; 适合性检验; 独立性检验; 同质性检验
资
料
连续型资料
离散型资料
大样本
小样本
检验
2
u检验
u检验
t检验
进行U 检验的条件是什么?
概 述
一、χ2检验的定义
二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
一、χ2 检验的定义
χ2 检验(Chi-square test) 对样本的频数分布所来自的总体
布与假设理论分布越不一致。
1.提出无效假设H0
Χ2 检验的基本步骤
观测值与理论值的差异由抽样误差引起,即
观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0,即观测值≠理
论值
2.确定显著水平α 一般确定为0.05或0.01
3.计算样本的χ 2值
建议SPSS等统计软件!
4.进行统计推断
用 途2
用它来检验实验结果是否符合各种规律.
孟德尔分离规律 自由组合定律
例:有一鲤鱼遗传试验,以红色和青灰色杂交,其F2 代获得不同分离尾数,问观测值是否符合孟德尔 3:1遗传定律.
体色 F2观测尾数
青灰色 1503
红色 99
总数 1602
本例为判断典型的两组数据的适应性检验
(1)H0:鲤鱼体色分离符合3:1,
r×c列联表的独立性检验
独立性检验(independence test)
又叫列联表(contigency table)χ2 检验,它是研究两个或两个以上因子彼此之 间是独立还是相互影响的一类统计方法。
(一)2×2列联表的独立性检验
设A,B是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B可能出现c1、c2个结果, 两因子相互作用形成4格数,分别以O11 、O12 、 O21 、O22表示,下表是2×2列联表的一般形式
4.44
(1) H0:本资料服从泊松分布 ;HA:本资料不服从泊松分布
(2)取显著水平α =0.05 (3)计算统计数χ
2
:
2 (O-E) 2 =4.44 E
(4)查χ2值表,当df=7-2=5时,χ20.05 = 11.07。现实得χ2 =4.44<χ20.05 ,故接受H0 , 拒绝HA ,即认为本资料服从泊松分布 。
2 c=
∑
( Oi-Ei - 0.5 )2
Ei
第二节:适合性检验
定义
适合性检验 比较观测数与理论数是否符合的假设检验 (compatibility test),也称吻合性检验或拟 合优度检验(goodness of fit test).。
用途1
判定样本实际分布与理论分布是否相等
正态分布 二项分布 泊松分布
分布是否服从某种理论分布或某种假
设分布所作的假设检验,即根据样本
的频数分布来推断总体的分布。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
k
(| 1503 1201.5 | 0.5) 2 (| 99 400.5 | 0.5) 2 1201.5 400.5 75.41 226.22 301.63
. 3.84 c2 02.05 故应应否定H0,接受HA.即认为鲤鱼体色 F2分离不符合3:1比率.
Ei
原因
由于检验的对象——次数资料是间断性
2
的,而χ 2分布是连续型的,检验计算所得的χ 值只是近似地服从χ 2分布,所以应用连续型的
χ 2分布的概率检验间断性资料所得的χ 2值就有
一定的偏差。 由次数资料算得的χ 2均有偏大的趋势,即概 率偏低。当df=1,尤其是小样本时,必须作连续 性矫正。
χ
什么类型事件的分布通常服从于泊松分布?
适合性检验的df由于受理论值的总和等于 观测值总和这一条件的约束,故df=n-1
300个单位容积内的细菌计数结果如下表,问此资料是 否服从泊松分布?
单位容积内 观察频数O 细菌数X 0 26 1 51 2 84 3 70 4 42 5 15 6 9 7 3 合计 300(n) 概率
0.082910
理论频数E
24.9
2 (O-E) E
0.05
0.206446 0.257025 0.213331 0.132798 0.066134 0.027445 0.013911 1.000000
61.9 77.1 64.0 39.8 19.8 8.2 4.2 300
1.92 0.62 0.56 0.12 1.16 0.01
122(C1)
71(C2)
193(T)
计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1, 故所计算的χ 2值需进行连续性矫正:
2
O E 0.5 58 61.95 0.5 64 60.05 0.5
2 2
2
40 36.5 0.5 31 34.95 0.5
=(98 × 122)/193=61.95
即Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95
E21= R2 × C1/T=60.05
E12= R1 × C2/T=36.05
E22= R2 × C2/T=34.95
给药方式与给药效果的2×2列联表
给药方式 有效 无效 总数
口服 注射
总数
58(61.95) 64(60.05)
122(C1)
40(36.05) 31(34.95)
71(C2)
98(R1) 95(R2)
193(T)
给药方式 口服 注射
有效 58(61.95) 64(60.05)
无效 40(36.05) 31(34.95)
总数 98(R1) 95(R2)
总数
论值的差数平方,即(O-E)2,再用差数的平方 除以相应的理论值,将之化为相对数,从而来反 映(O-E)2 的比重,最后将各组求和,这个总 和就是χ2 。
χ2= ∑
(Oi-Ei)2 Ei
玉米花粉粒碘反应观察值与理论值
碘反应 蓝色 非蓝色 总数 观察次数(O) 3437 3482 6919 理论次数(E) 3459.5 3459.5 6919 O-E -22.5 +22.5 0 (O-E)2/E 0.1463 0.1463 0.2926
三、χ2 检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验)
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
间是否吻合。因此又叫吻合度检验。
独立性检验
是指研究两个或两个以上的计数资料
或属性资料之间是相互独立的或者是相互
联系的假设检验,通过假设所观测的各属 性之间没有关联,然后证明这种无关联的 假设是否成立。
同质性检验
在连续型资料的假设检验中,对一个样
本方差的同质性检验,也需进行χ2 检验。
第一节: χ2检验的原理与方法
χ2检验的基本原理 χ2检验统计量的基本形式 χ2值的特点 χ2检验的基本步骤
χ2检验的注意事项
χ2检验就是统计样本的实际观测值与理论推
算值之间的偏离程度。 实际观测值与理论推算值之间的偏离程度就决 定其χ2值的大小。理论值与实际值之间偏差越大, χ2值就越大,越不符合;偏差越小,χ2值就越小, 越趋于符合;若两值完全相等时, χ2值就为0,
表明理论值完全符合。
原理
理论值
观测值
Ⅰ
Ⅱ
Ⅲ
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) E--无效假设下的期望频数(expectation frequency)
玉米花粉粒碘反应观察值与理论值 碘反应 蓝色 非蓝色 合计 观察值(O) 3437 3482 6919 理论值(E) 3459.5 3459.5 6919
χ2= ∑
(Oi-Ei)2
Ei
χ2 值就等于各组观测值 和理论值差的平方与理论值 之比,再求其和。
χ2值的特点
可加性
非负值
随O和E而变化 χ2= ∑
(Oi-Ei)2 Ei
χ2值与概率P成反比, χ2值越小,P值越大,说 明实际值与理论值之差越小,样本分布与假设的理论 分布越相一致;
χ2越大,P值越小,说明两者之差越大,样本分