第十一章_卡方检验精编版
合集下载
第十一章卡方检验
第十一章卡方检验
2统计量的条件:T≥5
2
(AT)2 T
校正的2
2 (AT0.5)2
T
第十一章卡方检验
2检验的基本公式
2 (AT)2
T
❖ A—实际频数 ❖ T— 根据H0确定的理论频数
第十一章卡方检验
2检验基本思想
2值反映了样本实际频数与理论频数的符合程度。 如果原假设成立, 2值不会太大;反之,A若与T差 距大, 2值也大;当2值超出一定范围时,就有理
有效率 % 70.7 70.7
70.7
T a 8 7 0.7 % 0 5 6 .6 T b 8 0 2.3 % 9 2.4 3
T c 6 7 0.7 % 0 4.4 2 T d 6 2 0.3 % 9 1.6 7
第十一章卡方检验
四格表的理论频数由下式求得 :
nn
T RC
RC
n
式中:TRC为第R 行C 列的理论频数, nR为相应的行合计, nC为相应的列合计。
➢ 四格表资料比较的是两种处理的效果。 ➢ 每种处理只产生两种相互对立的结果,如生与死,有
效与无效,患病与未患病,阳性与阴性,检出与未检 出,等等。
第十一章卡方检验
四格表资料的一般形式
处理组 A B
合计
发生数 a c
a+c
未发生数 合计
b
a+b
d
c+d
b+d
n=a+b+c
+d
第十一章卡方检验
例11-1 某医师为比较中药和西药治疗胃炎的疗效,随机 抽取140例胃炎患者分成中药组和西药组,结果中药组 治疗80例,有效64例,西药组治疗60例,有效35例, 问中药和西药治疗胃炎的效果是否相同?
统计学卡方检验
个体化干预
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
医学统计方法之卡方检验教学内容
1、建立检验假设并确定检验水准 H0:π1=π2 ,即试验组与对照组的总体有效率相等 H1 :π1≠π2 ,即试验组与对照组的总体有效率不等 α=0.05 2、计算检验统计量
T1147404125.8
T1247420918.2
T2127604115.2 T2227620910.8
用基本公式计算卡方值:
2
2
3.62
(25)2( 69)2(2)65(9)
3、查界值表,确定P值,做出推断结论
自由度=1, Χ20.05(1)=3.84, Χ2< Χ20.05(1), 所以 , P>0.05,在α=0.05的检验水准下,不拒绝H0,说明四年 级与五年级学生近视眼患病率差别没有统计学意义,可 认为尚未发现四年级与五年级学生近视眼患病率有显著 性差异。
2 连续性校正仅用于 1的 四格表资料,当 2 时,一般不 作校正。
例8.2 某医学院抽样调查大学四年级和五年级学生近视 眼患病情况,四年级学生的近视率为7.14%,五年级学 生的近视率为35.71%,调查结果见下表,试问该大学四 年级与五年级学生的近视眼患病率是否一样?
表8-2 两个年级大学生的近视眼患病率比较
组别
有效 无效 合计 有效率(%)
西药组
51
49 100
51.00
中药组
35
45
80
43.75
合计
86
94 180
47.78
1、建立检验假设并确定检验水准
H0:西药与中药治疗肝炎的有效率相同; H1 :西药与中药治疗肝炎的有效率的有效率不同; α’=0.05/3=0.017
2、计算检验统计量
2 1 8 0 (5 1 2 4 9 2 3 5 24 5 2 1 ) 0 .9 4 1 0 0 8 61 0 0 9 48 0 8 68 0 9 4
统计学教程-卡方检验
Lower
Upper
3.000
.992
9.068
2.500
.987
.833
.684
100
6.334 1.016
❖ 结果显示,OR=3.00,说明吃了该食物者发生食物中
毒的可能性是没有吃该食物者的3.00倍?
分层卡方检验
例4 某研究人员对3家医院的卫生服务情况进行 了调查,现希望分析寻求就诊和性别之间有无 联系。(数据见cmh.sav)
Exact Sig. (1-sided)
Likelihood Ratio
14.550
1
.000
Fisher's Exact Test
.000
.000
Linear-by-Linear Associ ati on
13.910
1
.000
McNemar Test
.013c
N of Valid Cases
58
poison
Yes 10
No 30
6.4
33.6
6
54
9.6
50.4
16
84
16.0
84.0
Total 40
40.0 60
60.0 100 100.0
❖ 这就是两变量的四格表。
两分类变量间关联程度的度量
结果分析
Chi-Square Tests
Pearson Chi-Square Continuity Correction a
a. Computed onlyfor a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16.
第十一章_卡方检验
准,拒绝H0,接受H1,差异有统计学意义。结论相反。
例 某医师用甲 、乙两疗法治疗单纯消化不良 ,结
果如下表,问两种疗法的治愈率有无差别? 表 两种疗法对单纯消化不良的治愈率比较
① 建立假设 H0:π1=π2 H1:π1≠π2 ② 确定检验水准 α=0.05
2 ③ 计算统计量 值
2
( 26 2 - 7 36 - 71 / 2)2 71 33 38 62 9
2 三、R×C列联表资料的 检验。
当基本数据的行数或列数大于2时,统称为行列表或 RC表。
2 RC表的 检验主要用于多个样本率(或构成比)的比
较。 行列资料 检验的专用公式
2
A n( 1) nR nC
2
2
n为总例数,A为每个格子的实际频数,nR为与A同
行的行合计,nC为与A同列的列合计。
自由度=(行数-1)(列数-1)=(2-1)(2-1)=1, 2 查 界值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05的水准,拒绝H0,接受 H1,差异有统计学意义。即可认为两药治疗小儿 上消化道出血的有效率有差别,其中乙药的有效 率高于甲药。
(二) 四格表的专用公式
2 (ad bc) n 2 (a b)(c d)(a c)(b d)
2.75
④ 确定P值 υ=(2-1)x(2-1)=1,查
2 界值表得P>0.05。
⑤ 下结论
因为P>0.05,按α=0.05的水准,不拒绝H0,差 异无统计学意义。尚不能认为甲、乙两疗法对小 儿单纯性消化不良的治愈率不等。
完全随机设计四格表资料χ2检验适用条件
当n≥40且Tmin ≥ 5时,χ2检验基本公式或四格表专用公式;
卡方检验
卡方检验
假设检验方法
01 基本原理
03 检验方法 05 代码实现
目录
02 步骤 04 资料检验
卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比 比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程 度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡 方值就为0,表明理论值完全符合。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据 不符合要求,就要应用校正卡方。
谢谢观看
注意:卡方检验针对分类变量。
步骤
(1)提出原假设: H0:总体X的分布函数为F(x). 如果总体分布为离散型,则假设具体为 H0:总体X的分布律为P{X=xi}=pi, i=1,2,... (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5, 而区间个数k不要太大也不要太小。 (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk等于样本容量n。 (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi 就是落入第i个小区间Ai的样本值的理论频数(理论值)。
检验方法
假设检验方法
01 基本原理
03 检验方法 05 代码实现
目录
02 步骤 04 资料检验
卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比 比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程 度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡 方值就为0,表明理论值完全符合。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据 不符合要求,就要应用校正卡方。
谢谢观看
注意:卡方检验针对分类变量。
步骤
(1)提出原假设: H0:总体X的分布函数为F(x). 如果总体分布为离散型,则假设具体为 H0:总体X的分布律为P{X=xi}=pi, i=1,2,... (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5, 而区间个数k不要太大也不要太小。 (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk等于样本容量n。 (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi 就是落入第i个小区间Ai的样本值的理论频数(理论值)。
检验方法
(医统)卡方检验
2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
第十一章 卡方检验
2 ( ad bc ) n 2 (a b)(c d )(a c)(b d )
2
(4111 24 4) 2 80 6.565 45 35 65 15
有效 41(a) 24(c) 65 (a+c) 无效 4( b) 11(d) 15 (b+d) 合计 45 (a+b) 35 (c+d) 80 (n=a+b+c+d)
α=0.05
2 ( A T ) 2 2 ~ ( ) , 1 T
查ν=1的χ2界值表,确定P值
P≤α
拒绝H0 接受H1
作出推断结论
P>α
不拒绝H0
基本思想概括
若H0成立,则四个格子的实际频数A与理论频数T之差异纯 系抽样误差所致,故一般不会很大,卡方值也就不会很大; 在一次随机试验中,出现大的卡方值的概率P是很小的。 因此,若根据实际样本资料求得一个很小的P,且P≤α(检验 水准),根据小概率原理,就有理由怀疑H0的真实性,因而 拒绝它;若P>α,则没有理由拒绝H0
(A T) T
2
2
A—实际频数 T— 根据H0确定的理论频数
2检验基本思想
2值反映了样本实际频数与理论频数的符合程度。 如果原假设成立, 2值不会太大;反之,A若与T 差距大, 2值也大;当2值超出一定范围时,就有
理由认为原假设不成立。
第二节、独立样本2×2资料的2检验 1、四格表(2×2列联表)
2
=(2-1)(2-1)=1
3)确定P值:
P>0.1,高于检验水准,不能拒绝H0,差 别无统计学意义,尚不能认为两种治疗方案的总体缓解概率 不同。
完全随机设计两组频数分布2检验
2
(4111 24 4) 2 80 6.565 45 35 65 15
有效 41(a) 24(c) 65 (a+c) 无效 4( b) 11(d) 15 (b+d) 合计 45 (a+b) 35 (c+d) 80 (n=a+b+c+d)
α=0.05
2 ( A T ) 2 2 ~ ( ) , 1 T
查ν=1的χ2界值表,确定P值
P≤α
拒绝H0 接受H1
作出推断结论
P>α
不拒绝H0
基本思想概括
若H0成立,则四个格子的实际频数A与理论频数T之差异纯 系抽样误差所致,故一般不会很大,卡方值也就不会很大; 在一次随机试验中,出现大的卡方值的概率P是很小的。 因此,若根据实际样本资料求得一个很小的P,且P≤α(检验 水准),根据小概率原理,就有理由怀疑H0的真实性,因而 拒绝它;若P>α,则没有理由拒绝H0
(A T) T
2
2
A—实际频数 T— 根据H0确定的理论频数
2检验基本思想
2值反映了样本实际频数与理论频数的符合程度。 如果原假设成立, 2值不会太大;反之,A若与T 差距大, 2值也大;当2值超出一定范围时,就有
理由认为原假设不成立。
第二节、独立样本2×2资料的2检验 1、四格表(2×2列联表)
2
=(2-1)(2-1)=1
3)确定P值:
P>0.1,高于检验水准,不能拒绝H0,差 别无统计学意义,尚不能认为两种治疗方案的总体缓解概率 不同。
完全随机设计两组频数分布2检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
v k 1 s (R 1)(C 1)
式中,k为格子数,s为估计的参数个数,R为行数, C为列数。 如本例中,4个格子,估计甲乙两药的有效率,则k=4, s=2,v=4-1-2=(2-1)(2-1)=1。
2 检验的基本公式:
2 (A T)2 T
一定自由度下,如果假设检验H0 (π1=π2)成立,则实际频数和 理论频数之差一 般不会相差太大, 值2 相应也不会太大; 反之, 实际频数和理论频数之差相差很大,则 值相2应也会很大,大 到什2么程度认为不是抽样误差造成的而是两个不同总体呢?
n为总例数,A为每个格子的实际频数,nR为与A同 行的行合计,nC为与A同列的列合计。
(一) 多个样本率的比较
例11.3 某研究者欲比较A、B、C 三种方案治疗轻、中 度高血压的疗效,将年龄在50~70岁的240例轻、中度高 血压患者随机等分为3组,分别采用三种方案治疗。一 个疗程后观察疗效,结果见表11.4。问三种方案治疗轻、 中度高血压的有效率有无差别?
表11.4 三种方案治疗轻、中度高血压的效果
① 建立假设
H0:π1=π2=π3
H1: 三种方案治疗轻、中度高血压的有效率不等或 不全等
② 确定检验水准
α=0.05
③ 计算统计量2值
2 n(
A2 1)
nR nC
742
62
92
240 (
...
1) 13.868
80 203 80 37
若H0成立,则理论上:
甲药组有效人数为:T11
45
67 90
33.5
甲药组无效人数为:
T12
45
23 90
11.5
乙药组有效人数为:
T21
45
67 90
33.5
乙药组无效人数为:
T22
45
23 90
11.5
T nRnC n
T nRnC n
n R为相应行的合计
nC为相应列的合计
n 为总例数。
表11.1 甲、乙两药治疗小儿上消化道出血的效果
一、卡方检验的基本思想
表11.1中,27、18、40、5 是整个表的基本数据,是
实际观察得到的,其余数据都是从这四个基本数据相加 而得的,这种资料是两组两分类资料,称为四格表 (fourfold table),亦称2×2表(2×2 table)。 (画黑板)
表 两独立样本率比较的四格表
无效假设H0为π1=π2,即两种药物治疗小儿消化道出血 的有效率相同,两样本的有效率的差别仅有抽样误差所 致。由于此时总体情况未知,故用样本合计有效率对总 体有效率进行估计,即H0为π1=π2=74.44%,在此基础 上,可以推算每个格子的期望频数,称为理论频数,用 符号T表示;从样本观察到的频数称为实际频数,用符 号A表示。
① 建立假设 H0: π1=π2 H1 : π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2值
本例
Tmin =T12
32 10 65
4.92,
1 T12
5,而n>40,
故应计算校正的卡方值。
χ2=
( ad-bc -n/2)2n
( 24 2 - 8 31 - 65 / 2)2n
=
3.140
1. 当n≥40,且T≥5时,不须校正,直接用基本公式 (11.2)或专用公式(11.5)计算。
2. 任一格子的1≤T<5,且n≥40时,需计算校正 值2 ,
或使用四格表的确切概率法。
2 ( A T 0.5)2
T
2
( ad - bc - n / 2)2n
(a b)(c d)(a c)(b d)
用途
完全随机设计下两个或多个样本率(或构成比 配对设计下两组频数分布 线性趋势卡方检验 推断两变量间有无相关关系等。
本章内容
第一节 独立样本列联表资料的卡方 检验 第二节 配对设计资料的卡方检验 第三节 拟合优度的卡方检验 第四节 线性趋势卡方检验 第五节 四个表的确切概率法
第一节 完全随机设计(独立样本)列联表资
(a+b)(c+d)(a+c)(b+d) 32 33 5510
④ 确定P值 自由度=(行数-1)(列数-1)=(2-1)(2-1)=1,
查 2界值表得P>0.05。
⑤ 下结论
因为P>0.05,按α=0.05的水准,还不拒绝H0,即 差异没有统计学意义。即还不能认为两药治疗下
呼吸道感染的有效率有差别。
d
当n<40或Tmin<1时,改用四格表确切概率计算法。 (χ2检验所得概率P≈α时)
• 完全随机设计四格表资料χ2检验适用条件
例:
组别
两组人群尿棕色阳性率比较
阳性数
阴性数
合计
铅中毒病人
29
对照组
9
合计
83
7
36
28
37
35
73
阳性率 %
80.56 24.32 52.05
• 完全随机设计四格表资料χ2检验适用条件
① 建立假设 H0:π1=π2 H1:π1≠π2
② 确定检验 7 36 - 71 / 2)2 71 2.75 33 38 62 9
④ 确定P值
υ=(2-1)x(2-1)=1,查 界2 值表得P>0.05。
⑤ 下结论 因为P>0.05,按α=0.05的水准,不拒绝H0,差 异无统计学意义。尚不能认为甲、乙两疗法对小 儿单纯性消化不良的治愈率不等。
(27 33.5)2 (18 11.5)2 (40 33.5)2 (5 11.5)2
9.870
33.5
11.5
33.5
11.5
④ 确定P值
自由度=(行数-1)(列数-1)=(2-1)(2-1)=1,
查 2界值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05的水准,拒绝H0,接受 H1,差异有统计学意义。即可认为两药治疗小儿 上消化道出血的有效率有差别,其中乙药的有效
阳性例数 3 5 (2.9) 8
阴性例数 32 15 47
阳性率% 8.57 40.00 14.55
三、R×C列联表资料的 2检验。
当基本数据的行数或列数大于2时,统称为行列表或 RC表。
RC表的 2检验主要用于多个样本率(或构成比)的比
较。
行列资料 2检验的专用公式
2 n(
A2 1)
nRnC
当P≤,则有理由认为无效假设不成立,
继而拒绝H0,作出统计推断。
二、2×2列联表资料的 2检验。 (一) 2×2列联表资料 2检验的步骤
现以例11.1说明2×2列联表资料 2检验的步骤
① 建立假设 H0: π1=π2 H1 : π1≠π2
② 确定检验水准 α=0.05
③ 计算统计量 2值
2 (A T)2 T
表11.1 甲、乙两药治疗小儿上消化道出血的效果
研究目的: P1 P2
1 ? 2
表11.1 甲、乙两药治疗小儿上消化道出血的效果
两组的有效率不同有两种可能: 1. 两药的总体有效率无差别,两样本率的差别仅由抽
样误差所致。 2. 两种药物的有效率确有不同。
一、χ2检验基本思想
(1)建立检验假设 H0:π1= π2 两药的有效概率相同 H1: π1≠π2 两药有效概率不同 检验水准=0.05 (2)计算检验统计量
80 37
④ 确定P值
υ=(3-1)(2-1)=2,查 界2 值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05的水准,拒绝H0,接受 H1,差异有统计学意义。即可认为三种方案治疗轻、 中度高血压的有效率不等或不全等
例:
组别
男性
女性
合计
实验组
35
65
100
对照组
40
合计
75
60
100
125
200
• 完全随机设计四格表资料χ2检验适用条件
例:肝硬化与再障性贫血血清中抗血小板抗体阳性率(%)
组别
观察例数
阳性例数
阳性率%
肝硬化
35
3
8.57
再障
20
5
40.00
合计
55
8
16.67
组别 肝硬化 再障 合计
观察例数 35 20 55
率高于甲药。
(二) 四格表的专用公式
2
(ad - bc)2n
(a b)(c d)(a c)(b d)
a、b、c、d 分别为四格表中的四个实际频数,n为总
例数。 本例:
2 (27 5 -18 40)2 90 9.870 45 45 67 23
(三) 四格表 2 统计量的连续性校正
2检验的基本公式:
2 (A T)2 T
从基本公式可以看出, 2 统计量值反映了实际频数和理 论频数的吻合程度。
2 值与什么有关? 1.与A与T的差别/吻合程度有关。 2.与格子数,严格地说是自由度有关。
由 2 统计量的公式(11.2)可以看出, (A T)2 0,格
T
子数越多,非负数之和,则卡方值越大,即卡方值的 大小除了与A与T的差别大小有关外,还与格子数量 有关。因而考虑卡方值大小的同时,应同时考虑格子 数的多少。引入自由度v。
实例1 已知北方农村儿童前囟门闭合月龄为14.1 月。某研究者从东北某县抽取36名儿童,得囟门 闭合月龄均值为14.3月,标准差为5.08月。问该 县儿童前囟门闭合月龄的均数是否与一般儿童不同?
问题1: 研究目的是什么? 问题2: 用什么方法解决?
实例2:某军区总医院欲研究A、B、C三种降 血脂药物对家兔血清肾素血管紧张素转化酶 (ACE)的影响,将26只家兔随机分为四组, 均喂以高脂饮食,其中三个试验组,分别给予 不同的降血脂药物,对照组不给药。一定时间 后测定家兔血清ACE浓度(u/ml),如表1, 问四组家兔血清ACE浓度是否相同?
式中,k为格子数,s为估计的参数个数,R为行数, C为列数。 如本例中,4个格子,估计甲乙两药的有效率,则k=4, s=2,v=4-1-2=(2-1)(2-1)=1。
2 检验的基本公式:
2 (A T)2 T
一定自由度下,如果假设检验H0 (π1=π2)成立,则实际频数和 理论频数之差一 般不会相差太大, 值2 相应也不会太大; 反之, 实际频数和理论频数之差相差很大,则 值相2应也会很大,大 到什2么程度认为不是抽样误差造成的而是两个不同总体呢?
n为总例数,A为每个格子的实际频数,nR为与A同 行的行合计,nC为与A同列的列合计。
(一) 多个样本率的比较
例11.3 某研究者欲比较A、B、C 三种方案治疗轻、中 度高血压的疗效,将年龄在50~70岁的240例轻、中度高 血压患者随机等分为3组,分别采用三种方案治疗。一 个疗程后观察疗效,结果见表11.4。问三种方案治疗轻、 中度高血压的有效率有无差别?
表11.4 三种方案治疗轻、中度高血压的效果
① 建立假设
H0:π1=π2=π3
H1: 三种方案治疗轻、中度高血压的有效率不等或 不全等
② 确定检验水准
α=0.05
③ 计算统计量2值
2 n(
A2 1)
nR nC
742
62
92
240 (
...
1) 13.868
80 203 80 37
若H0成立,则理论上:
甲药组有效人数为:T11
45
67 90
33.5
甲药组无效人数为:
T12
45
23 90
11.5
乙药组有效人数为:
T21
45
67 90
33.5
乙药组无效人数为:
T22
45
23 90
11.5
T nRnC n
T nRnC n
n R为相应行的合计
nC为相应列的合计
n 为总例数。
表11.1 甲、乙两药治疗小儿上消化道出血的效果
一、卡方检验的基本思想
表11.1中,27、18、40、5 是整个表的基本数据,是
实际观察得到的,其余数据都是从这四个基本数据相加 而得的,这种资料是两组两分类资料,称为四格表 (fourfold table),亦称2×2表(2×2 table)。 (画黑板)
表 两独立样本率比较的四格表
无效假设H0为π1=π2,即两种药物治疗小儿消化道出血 的有效率相同,两样本的有效率的差别仅有抽样误差所 致。由于此时总体情况未知,故用样本合计有效率对总 体有效率进行估计,即H0为π1=π2=74.44%,在此基础 上,可以推算每个格子的期望频数,称为理论频数,用 符号T表示;从样本观察到的频数称为实际频数,用符 号A表示。
① 建立假设 H0: π1=π2 H1 : π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2值
本例
Tmin =T12
32 10 65
4.92,
1 T12
5,而n>40,
故应计算校正的卡方值。
χ2=
( ad-bc -n/2)2n
( 24 2 - 8 31 - 65 / 2)2n
=
3.140
1. 当n≥40,且T≥5时,不须校正,直接用基本公式 (11.2)或专用公式(11.5)计算。
2. 任一格子的1≤T<5,且n≥40时,需计算校正 值2 ,
或使用四格表的确切概率法。
2 ( A T 0.5)2
T
2
( ad - bc - n / 2)2n
(a b)(c d)(a c)(b d)
用途
完全随机设计下两个或多个样本率(或构成比 配对设计下两组频数分布 线性趋势卡方检验 推断两变量间有无相关关系等。
本章内容
第一节 独立样本列联表资料的卡方 检验 第二节 配对设计资料的卡方检验 第三节 拟合优度的卡方检验 第四节 线性趋势卡方检验 第五节 四个表的确切概率法
第一节 完全随机设计(独立样本)列联表资
(a+b)(c+d)(a+c)(b+d) 32 33 5510
④ 确定P值 自由度=(行数-1)(列数-1)=(2-1)(2-1)=1,
查 2界值表得P>0.05。
⑤ 下结论
因为P>0.05,按α=0.05的水准,还不拒绝H0,即 差异没有统计学意义。即还不能认为两药治疗下
呼吸道感染的有效率有差别。
d
当n<40或Tmin<1时,改用四格表确切概率计算法。 (χ2检验所得概率P≈α时)
• 完全随机设计四格表资料χ2检验适用条件
例:
组别
两组人群尿棕色阳性率比较
阳性数
阴性数
合计
铅中毒病人
29
对照组
9
合计
83
7
36
28
37
35
73
阳性率 %
80.56 24.32 52.05
• 完全随机设计四格表资料χ2检验适用条件
① 建立假设 H0:π1=π2 H1:π1≠π2
② 确定检验 7 36 - 71 / 2)2 71 2.75 33 38 62 9
④ 确定P值
υ=(2-1)x(2-1)=1,查 界2 值表得P>0.05。
⑤ 下结论 因为P>0.05,按α=0.05的水准,不拒绝H0,差 异无统计学意义。尚不能认为甲、乙两疗法对小 儿单纯性消化不良的治愈率不等。
(27 33.5)2 (18 11.5)2 (40 33.5)2 (5 11.5)2
9.870
33.5
11.5
33.5
11.5
④ 确定P值
自由度=(行数-1)(列数-1)=(2-1)(2-1)=1,
查 2界值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05的水准,拒绝H0,接受 H1,差异有统计学意义。即可认为两药治疗小儿 上消化道出血的有效率有差别,其中乙药的有效
阳性例数 3 5 (2.9) 8
阴性例数 32 15 47
阳性率% 8.57 40.00 14.55
三、R×C列联表资料的 2检验。
当基本数据的行数或列数大于2时,统称为行列表或 RC表。
RC表的 2检验主要用于多个样本率(或构成比)的比
较。
行列资料 2检验的专用公式
2 n(
A2 1)
nRnC
当P≤,则有理由认为无效假设不成立,
继而拒绝H0,作出统计推断。
二、2×2列联表资料的 2检验。 (一) 2×2列联表资料 2检验的步骤
现以例11.1说明2×2列联表资料 2检验的步骤
① 建立假设 H0: π1=π2 H1 : π1≠π2
② 确定检验水准 α=0.05
③ 计算统计量 2值
2 (A T)2 T
表11.1 甲、乙两药治疗小儿上消化道出血的效果
研究目的: P1 P2
1 ? 2
表11.1 甲、乙两药治疗小儿上消化道出血的效果
两组的有效率不同有两种可能: 1. 两药的总体有效率无差别,两样本率的差别仅由抽
样误差所致。 2. 两种药物的有效率确有不同。
一、χ2检验基本思想
(1)建立检验假设 H0:π1= π2 两药的有效概率相同 H1: π1≠π2 两药有效概率不同 检验水准=0.05 (2)计算检验统计量
80 37
④ 确定P值
υ=(3-1)(2-1)=2,查 界2 值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05的水准,拒绝H0,接受 H1,差异有统计学意义。即可认为三种方案治疗轻、 中度高血压的有效率不等或不全等
例:
组别
男性
女性
合计
实验组
35
65
100
对照组
40
合计
75
60
100
125
200
• 完全随机设计四格表资料χ2检验适用条件
例:肝硬化与再障性贫血血清中抗血小板抗体阳性率(%)
组别
观察例数
阳性例数
阳性率%
肝硬化
35
3
8.57
再障
20
5
40.00
合计
55
8
16.67
组别 肝硬化 再障 合计
观察例数 35 20 55
率高于甲药。
(二) 四格表的专用公式
2
(ad - bc)2n
(a b)(c d)(a c)(b d)
a、b、c、d 分别为四格表中的四个实际频数,n为总
例数。 本例:
2 (27 5 -18 40)2 90 9.870 45 45 67 23
(三) 四格表 2 统计量的连续性校正
2检验的基本公式:
2 (A T)2 T
从基本公式可以看出, 2 统计量值反映了实际频数和理 论频数的吻合程度。
2 值与什么有关? 1.与A与T的差别/吻合程度有关。 2.与格子数,严格地说是自由度有关。
由 2 统计量的公式(11.2)可以看出, (A T)2 0,格
T
子数越多,非负数之和,则卡方值越大,即卡方值的 大小除了与A与T的差别大小有关外,还与格子数量 有关。因而考虑卡方值大小的同时,应同时考虑格子 数的多少。引入自由度v。
实例1 已知北方农村儿童前囟门闭合月龄为14.1 月。某研究者从东北某县抽取36名儿童,得囟门 闭合月龄均值为14.3月,标准差为5.08月。问该 县儿童前囟门闭合月龄的均数是否与一般儿童不同?
问题1: 研究目的是什么? 问题2: 用什么方法解决?
实例2:某军区总医院欲研究A、B、C三种降 血脂药物对家兔血清肾素血管紧张素转化酶 (ACE)的影响,将26只家兔随机分为四组, 均喂以高脂饮食,其中三个试验组,分别给予 不同的降血脂药物,对照组不给药。一定时间 后测定家兔血清ACE浓度(u/ml),如表1, 问四组家兔血清ACE浓度是否相同?