第八章 卡方检验PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
υ =(R-1)(C-1)=1
实际计算时,求得一个格子的理论频数后,其他各格的理 论频数均可根据行或列的合计数求得。因此,可以自由 取值的格子数为1。
(3)确定概率P值的范围 因为8.40>3.84,P<0.05;
(4)下结论 因为P<0.05;拒绝H0,接受H1,可以认 为两组治疗原发性高血压的总体有效率 不等,试验组高于对照组,即可以认为 该中药治疗原发性高血压有效。
70(a+b+c+d)
四格表专用公式的推导
为了不计算理论频数T, 可由基本公式推导出,直接由各 格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (AT)2
T
a(aabb)(acdc)2 b(aabb)(bcdd)2 d(acbd)(bcdd)2
2
资料,也适用于其它的“行×列表”。
在 2 检验的基本公式中A为实际频数
(Actual frequency);T为理论频数 (Theoretical frequency),是根据无效假设 推算出来的。理论频数的计算公式为:
TR C
nR nC n
式中TRC为第R行第C列格子的理论数, nR为R行的合计数,nC为第C列的合计数,n 为总例数。
第八章 2 检验
2 检验(Chi-square test)是现 代统计学的创始人之一,英国人 K . Pearson(1857-1936)于1899 年提出的一种具有广泛用途的统 计方法。
2 检验以 2 分布和拟合优 度检验为理论依据,用途非常广 泛。
2 检验的适用资料类型
•单个频数分布的拟合优度检验 •完全随机设计下两组频数分布 的 2 检验 •多组频数分布的 2 检验 •配对设计下两组频数分布的
定 2检验中检验统计量的大小。
2 检验的基本公式
2 (A T )2 (A T )2 1 (R 1 )C ( 1 )
T
T
上述基本公式由Pearson提出,因此软 件上常称这种检验为Peareson 2 检验,下 面将要介绍的其他 2 检验公式都是在此 基础上发展起来的。它不仅适用于四格表
将实际数和理论数代入统计量 2 值
的基本公式即可计算出检验统计量 2 值。 2 值的大小反映了实际数与理论数的
相差情况,若无效假设H0成立,则理论 数和实际数相差不因该太大,从H0假设
成立的总体中抽出当前较大的 2 值或 比他还大的 2 的概率较小,因此就有
理由推翻无效假设H0。
2 值的大小与格子数的多少也有关, 格子数越多,则自由度越大, 2 值也
有效
无效
20(25.8) 24(18.2)
21(15.2) 5(10.8)
合计 有效率% 44 45.45 26 80.77
合计
41
29
70 58.57
表8-1中是两组样本的频数分布。我们的问题是 这两个频数分布的总体分布是否相等?或者这 两份样本是否来自同一个总体?
因为这里是二分类变量,问两个总体分布是否
相等就相当于问两组样本的总体有效率是否相 等。
四个格子的数据20、24、21、5是基本数据,其 余的数据44、25、41、29、70都是从这四个数 据计算得来的,因此,该表称为四格表 (fourfold table ),又称为2 × 2列联表。
在此四格表中, 20、24、21、5是实际频数A, 在这四个数字旁边括号内的数字是理论频数T, 通过实际频数和理论频数的差异的大小可以确
第二节 完全随机设计下四 格表的卡方检验
根据N和理论频数的情况,选择
2 检验基本公式;
2 检验基本公式的校正公式;
四格表 2 检验专用公式; 四格表 2 检验校正公式;
四格表的精确概率法;
一、 2检验基本公式
适用条件:N≥40且所有的理论频数都≥ 5
表8-1 两组疗法治疗高血压的疗效
组别 对照组 试验组 合计
有效 20(25.8) 21(15.2) 41
疗效 无效 24(18.2) 5(10.8)
29
合计 44 26 70
二、四格表专用 2 公式
适用条件:N≥40且所有的理论频数都≥ 5
四格表资料进行 2 检验还可以选用专用公式,
省去计算理论频数的过程,使计算简化。其 计算公式为:
2 检验
一、 2 检验的基本思想
例8.1见 P67。 为了解某中药治疗 原发性高血压的疗效,将70名高血 压患者随机分为两组,试验组用该 药加辅助治疗,对照组用安慰剂加 辅助治疗,观察结果见表8-1,问该 药治疗原发性高血压是否有效?
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
(1)建立检验假设,确定检验水准
H0:π1=π2 H1:π1≠π2
取0.05。
(2)计算检验统计量:H0成立时,两 组有效率相同,均近似等于合计的有效 率,由此得到四格表中每一格的理论频 数,分别记在表8-1各格子的括号内。
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
有效
无效
20(25.8) 24(18.2)
21(15.2) 5(10.8)
合计 有效率% 44 45.45 26 80.77
合计
41
29
70 58.57
ቤተ መጻሕፍቲ ባይዱ
(2)计算 2 值和自由度
2 AT2 8.40
T 自由度为υ =k-1-(计算T时利用样本资料估计的参数个数)
2( ab) (cadd )ba(c 2nc)b(d) (8-4)
式中a、b、c、d分别为四格表中的实际频数, n为总例数。
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
有效 20(a) 21(c)
无效 24(b) 5(d)
合计 44(a+b) 26(c+d)
合计
41(a+c) 29(b+d)
越大。
若 2 值大于 2 界值(根据自由度ν和 检验水准 查附表7 界2值表得出),
则可按 =0.05的检验水准拒绝H0成立 的无效假设,最后作出统计结论。
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
实际计算时,求得一个格子的理论频数后,其他各格的理 论频数均可根据行或列的合计数求得。因此,可以自由 取值的格子数为1。
(3)确定概率P值的范围 因为8.40>3.84,P<0.05;
(4)下结论 因为P<0.05;拒绝H0,接受H1,可以认 为两组治疗原发性高血压的总体有效率 不等,试验组高于对照组,即可以认为 该中药治疗原发性高血压有效。
70(a+b+c+d)
四格表专用公式的推导
为了不计算理论频数T, 可由基本公式推导出,直接由各 格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (AT)2
T
a(aabb)(acdc)2 b(aabb)(bcdd)2 d(acbd)(bcdd)2
2
资料,也适用于其它的“行×列表”。
在 2 检验的基本公式中A为实际频数
(Actual frequency);T为理论频数 (Theoretical frequency),是根据无效假设 推算出来的。理论频数的计算公式为:
TR C
nR nC n
式中TRC为第R行第C列格子的理论数, nR为R行的合计数,nC为第C列的合计数,n 为总例数。
第八章 2 检验
2 检验(Chi-square test)是现 代统计学的创始人之一,英国人 K . Pearson(1857-1936)于1899 年提出的一种具有广泛用途的统 计方法。
2 检验以 2 分布和拟合优 度检验为理论依据,用途非常广 泛。
2 检验的适用资料类型
•单个频数分布的拟合优度检验 •完全随机设计下两组频数分布 的 2 检验 •多组频数分布的 2 检验 •配对设计下两组频数分布的
定 2检验中检验统计量的大小。
2 检验的基本公式
2 (A T )2 (A T )2 1 (R 1 )C ( 1 )
T
T
上述基本公式由Pearson提出,因此软 件上常称这种检验为Peareson 2 检验,下 面将要介绍的其他 2 检验公式都是在此 基础上发展起来的。它不仅适用于四格表
将实际数和理论数代入统计量 2 值
的基本公式即可计算出检验统计量 2 值。 2 值的大小反映了实际数与理论数的
相差情况,若无效假设H0成立,则理论 数和实际数相差不因该太大,从H0假设
成立的总体中抽出当前较大的 2 值或 比他还大的 2 的概率较小,因此就有
理由推翻无效假设H0。
2 值的大小与格子数的多少也有关, 格子数越多,则自由度越大, 2 值也
有效
无效
20(25.8) 24(18.2)
21(15.2) 5(10.8)
合计 有效率% 44 45.45 26 80.77
合计
41
29
70 58.57
表8-1中是两组样本的频数分布。我们的问题是 这两个频数分布的总体分布是否相等?或者这 两份样本是否来自同一个总体?
因为这里是二分类变量,问两个总体分布是否
相等就相当于问两组样本的总体有效率是否相 等。
四个格子的数据20、24、21、5是基本数据,其 余的数据44、25、41、29、70都是从这四个数 据计算得来的,因此,该表称为四格表 (fourfold table ),又称为2 × 2列联表。
在此四格表中, 20、24、21、5是实际频数A, 在这四个数字旁边括号内的数字是理论频数T, 通过实际频数和理论频数的差异的大小可以确
第二节 完全随机设计下四 格表的卡方检验
根据N和理论频数的情况,选择
2 检验基本公式;
2 检验基本公式的校正公式;
四格表 2 检验专用公式; 四格表 2 检验校正公式;
四格表的精确概率法;
一、 2检验基本公式
适用条件:N≥40且所有的理论频数都≥ 5
表8-1 两组疗法治疗高血压的疗效
组别 对照组 试验组 合计
有效 20(25.8) 21(15.2) 41
疗效 无效 24(18.2) 5(10.8)
29
合计 44 26 70
二、四格表专用 2 公式
适用条件:N≥40且所有的理论频数都≥ 5
四格表资料进行 2 检验还可以选用专用公式,
省去计算理论频数的过程,使计算简化。其 计算公式为:
2 检验
一、 2 检验的基本思想
例8.1见 P67。 为了解某中药治疗 原发性高血压的疗效,将70名高血 压患者随机分为两组,试验组用该 药加辅助治疗,对照组用安慰剂加 辅助治疗,观察结果见表8-1,问该 药治疗原发性高血压是否有效?
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
(1)建立检验假设,确定检验水准
H0:π1=π2 H1:π1≠π2
取0.05。
(2)计算检验统计量:H0成立时,两 组有效率相同,均近似等于合计的有效 率,由此得到四格表中每一格的理论频 数,分别记在表8-1各格子的括号内。
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
有效
无效
20(25.8) 24(18.2)
21(15.2) 5(10.8)
合计 有效率% 44 45.45 26 80.77
合计
41
29
70 58.57
ቤተ መጻሕፍቲ ባይዱ
(2)计算 2 值和自由度
2 AT2 8.40
T 自由度为υ =k-1-(计算T时利用样本资料估计的参数个数)
2( ab) (cadd )ba(c 2nc)b(d) (8-4)
式中a、b、c、d分别为四格表中的实际频数, n为总例数。
表8-1 两组疗法治疗高血压的疗效
疗效
组别 对照组 试验组
有效 20(a) 21(c)
无效 24(b) 5(d)
合计 44(a+b) 26(c+d)
合计
41(a+c) 29(b+d)
越大。
若 2 值大于 2 界值(根据自由度ν和 检验水准 查附表7 界2值表得出),
则可按 =0.05的检验水准拒绝H0成立 的无效假设,最后作出统计结论。
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2