第八章 卡方检验
《卡方检验正式》课件
![《卡方检验正式》课件](https://img.taocdn.com/s3/m/1bd29aa9afaad1f34693daef5ef7ba0d4a736d18.png)
卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03
卫生统计学:第八章 χ2检验
![卫生统计学:第八章 χ2检验](https://img.taocdn.com/s3/m/f3e65b1da26925c52cc5bfbf.png)
-
6(c)
54(d)
60
合计
30
90
120
配对四格表资料的χ2检验
配对设计
对子号
甲
乙
1
+
+
2
+
-
…
…
…
120
-
-
成组设计
编号 剂量组 结果
1
甲
+
2
乙
+
…
…
…
120
甲
-
甲、乙两种真菌培养基的培养结果
乙
甲
合计
(+)
(-)
(+) 24(a) 36(b) 60
(-) 6(c) 54(d) 60
合计 30
90
6
4
2
9
2.19*
0.0568*
8
7 1
3 10
3.19
0.0065
8
2
9
0
11
4.19
0.0002
* 为实际数据的四格表
d )!
!:阶乘
例8.4
表8.12 某中药制剂预防HIV垂直传播临床试验
组别
新生儿HIV阴性 新生儿HIV阳性 合计
中药制剂
6(a)
4(b)
10
对照组
2(c)
9(d)
11
合计
8
13
22
N=22<40,采用Fisher确切概率计算法 周边合计最小是8,共计可获得8+1=9种组合的四格表
Fisher’s exact probability
=2, x2 =5.99
第八章 卡方分析教学版
![第八章 卡方分析教学版](https://img.taocdn.com/s3/m/048ca94c336c1eb91b375d08.png)
2=
i 1
fi -ei
ei
2
3.905, 在计算理论次数的过程中共用到平均数,
标准差和总数三个统计量,故本题的自由度为df 9-3=6,
2 查卡方分布表, 0.05 (6) 12.6, 2 2 0.05 , p 0.05, 故差异不显著,即552名中学生的身高分布
2 (三) 2×2 列联表 检验
因素X 因 素 Y
分类1
分类1 a
分类2
b a+b
分类2
c
a+c
d
b+d
c+d
n
nad bc ~ 2 1 a bc d a cb d
2 2
三、独立性检验
2 (三) 2×2 列联表 检验
观察频数a对应的理论频数为:
二、总体分布的拟合检验
(二)统计假设及相关计算
• H0: f0 = fe H1:
f0 ≠ fe
运用基本公式计算出卡方值 查表,比较其与临界卡方值的大小,如果„„ 注意:卡方值分布全部为正值,但f 0 -f e 可能是负值,因此, 卡方检验是双侧检验,0.05和0.01是指双侧概率而言。 拟合度检验需要先计算理论次数,这是计算卡方值的关键性 步骤。(一般根据某种理论或经验)
符合正态分布。
三、独立性检验
(一)适用材料
主要用于两个或两个以上因素多项分类的计 数资料分析。如果要研究的两个自变量之间是否 具有独立性或有无关联或有无“交互作用”的存 在,就要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意 味着对其中一个自变量来说,另一个自变量的多 项分类次数上的变化是在取样误差的范围之内。 假如两个因素是非独立,则称两变量有交互作用。
第八章卡方检验ppt课件
![第八章卡方检验ppt课件](https://img.taocdn.com/s3/m/8322b661b9d528ea80c7794b.png)
2 (A T )2
T
2
(ad bc)2 n
(a b)(c d)(a c)(b d)
当n ≥40 ,且某格子出现1≤ T<5时,用校正公式:
2 ( A T 0.5)2 T
( ad bc n)2 n
2
2
(a b)(c d )(a c)(b d )
如果样本例数不是很大,计算时应先估计表中最小的T值。
17
设有k个相互独立的标准正态分布随机变量Z1、Z2…..Zν ,则Z12+Z22+…+Zν2的分 布服从自由度为ν的x2分布,记为x2(v)。 ν是指上式中包含的独立变量的个数。
当ν趋于∞时, x2分布逼近正态分布。各种自由度的x2分布右侧尾部面积为α时 的临界值记为x2(α,v)
=1 =2
=3 =4
组对象其它方面“同质”的前提下才能比较两个频率,才能进行2×2列联表 的x2检验。
26
小结
1、2检验的基本思想
2、四格表资料2检验,通常规定: (1) n ≥ 40,且T ≥ 5时,用2 检验基本公式和专用公式 (2) n ≥ 40,但有1≤ T<5时,用四格表2检验校正公式 (3) n< 40,或T<1时,改用fisher确切概率法 (4)连续性校正仅用于ν=1的四格表资料。
表 8-6 儿童急性白血病患者与成年人急性白血病患者的血型分布
分组 A 型 B 型 O 型 AB 型
合计
儿童 30 38 32 12
112
成人
19 30 19
9
77
合计 49 68 51 21
2 0.005,2
10.60
32.74 2
2
• 认为因三而种P<药0物.0的05治,在疗α效=0果.05不水全准相上同拒。绝H0.00,05接,2受H1,差别有统计学意义。可以
8_八、卡方检验 PPT课件
![8_八、卡方检验 PPT课件](https://img.taocdn.com/s3/m/84fbff5bbed5b9f3f80f1c39.png)
相关问题-两个率或构成比的比较
分别指定行列 变量到Row(s) 和Columns中。
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
相关问题-两个率或构成比的比较
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
相关问题-两个率或构成比的比较
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
两分类变量间关联程度的度量
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
两分类变量间关联程度的度量
分别指定 行列变量到 Row(s)和 Columns中。
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
卡方检验基础-用途
检验某个连续变量的分布是否与某种理论分布一致,如是否符合正 态分布,Possion分布等
检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量 是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊 断,其诊断结果是否一致
卡方检验基础
2检验是以2分布为基础的一种假设检验方法,主 要用于分类变量,根据样本数据推断总体的分布与 期望分布是否有显著差异,或推断两个分类变量是 否相关或相互独立。其原假设为:
H0:观察频数与期望频数没有差别
浙浙江江大大学学医医学学院院流流行行病病与与卫卫生生统统计计学学教教研研室室 沈沈毅毅
Odds Rati o for Newspaper subscri pti on (Yes / No) For cohort Response = Yes For cohort Response = No N of Val id Cases
08卡方检验
![08卡方检验](https://img.taocdn.com/s3/m/00f0c37d657d27284b73f242336c1eb91a37339e.png)
统计比较(2检验、其它)
2×2配对资料
表7-10 两种培养基培养结果
甲培养基
+ - 合计
乙培养基
+
-
22
18
2
14
24
32
合计
40 16 56
2×2配对资料
配对2检验: 目的:两种方法的检出率比较
专用公式(b+c≥40)和校正公式( b+c< 40) :
• H0:两种方法测定的结果无相关 • H1:两种方法测定的结果相关
0.05
• 因为n=60>40,Tmin=6.90 >5,用四
格表 2 检验的专用公式: • 得卡方值为0.003,P >0.9 ,按 0.05
水准,不拒绝H0,接受H1,差异无统计 学意义,不可认为甲乙两种方法的测定 结果有相关。
14
28 50.0
24
40 40.0
行×列表资料的2检验
多个两分类样本资料的比较 多分类样本资料的比较 分类资料的相关分析 专用公式:
2 n( A2 1) nR nC
完全随机设计下两组频数分布 的2检验-2×C列联表
表7-5 某地城市和农村已婚妇女避孕方法比较
地区 节育环 避孕药 避孕套 其它 合计
配对2检验
甲法
+ - 合计
乙法
+
-
16
26
7
11
23
37
合计
42 18 60
• H0:两种方法测定的阳性率相同,即B =C
• H1:两种方法测定的阳性率不同,即B ≠C
0.05
• 对于上表数据,因为b+c = 26 + 7 = 33 <40,用配对四格表卡方检验的校正公 式:
9第八章 卡方检验
![9第八章 卡方检验](https://img.taocdn.com/s3/m/8f00fe4ce518964bcf847ce1.png)
也称卡方检验。 检验也称卡方检验 χ2 检验 也称卡方检验 。 是英国统计 学家Pearson于 1900年提出的一种应 于 学家 年提出的一种应 用范围很广的假设检验方法, 用范围很广的假设检验方法,可用于 检验两个率间的差异; 检验两个率间的差异 ; 检验多个率 (或构成比 间的差异;判断两种属性 或构成比)间的差异 或构成比 间的差异; 或现象间是否存在关联性; 或现象间是否存在关联性;了解实际 分布与某种理论分布是否吻合; 分布与某种理论分布是否吻合;判断 两个数列间是否存在差异等。 两个数列间是否存在差异等。
计算公式
(a + b)!(c + d )!(a + c)!(b + d )! P= a!b!c!d!n!
式中a、b、c、d 和n的意义同前 , !为阶乘符号。0!= 1, 为阶乘符号。 1!= 1 ,3!= 3×2×1 = 6。
(三)求P值的步骤
• 1 . 列四格表 。 使四格表周边合计数 列四格表。 不变, 不变 , 依次增减四格表中任一格子 的数据,列出所有可能的四格表。 的数据,列出所有可能的四格表。 • 列四表格的数量 = 最小合计数 + 1 。 列四表格的数量= 最小合计数+ • 如例 8 -3 , 增减 a 格的数据 ,得 9 个 如例8 格的数据, 四格表。 四格表。
χ2分布的特点
• ⑴ χ2 分布的形状依赖于 ν 的大小 : 当 ν≤2 时 , 曲线呈 L 型 ; 随着 ν 的增加 , 曲线呈L 的增加, 曲线逐渐趋于对称; →∞时 曲线逐渐趋于对称 ; 当 ν→∞ 时 , 分布 趋近于正态分布。 趋近于正态分布。 • ⑵χ2分布具有可加性:如果两个独立的 分布具有可加性: 随机变量X1和X2分别服从ν1和ν2的χ2分 那么它们的和( 也服从( 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。 分布。
第八章 卡方检验
![第八章 卡方检验](https://img.taocdn.com/s3/m/c568e63d5727a5e9856a6122.png)
20(25.8) 24(18.2) 21(15.2) 5(10.8) 41 29
表8-1中是两组样本的频数分布。我们的问题是 这两个频数分布的总体分布是否相等?或者这 两份样本是否来自同一个总体? 因为这里是二分类变量,问两个总体分布是否 相等就相当于问两组样本的总体有效率是否相 等。 四个格子的数据20、24、21、5是基本数据,其 余的数据44、25、41、29、70都是从这四个数 据计算得来的,因此,该表称为四格表 (fourfold table ),又称为2 × 2列联表。 在此四格表中, 20、24、21、5是实际频数A, 在这四个数字旁边括号内的数字是理论频数T, 通过实际频数和理论频数的差异的大小可以确 定 χ2 检验中检验统计量的大小。
2(d)0.85 14(固定值) 5 (固定值) 82 (固定值)
假设检验的过程
1.建立假设: H0 : π 1 = π 2 H1 : π 1 ≠ π 2 2.确定显著性水平, α取0.05。 3.确定比当前表格更极端表格的组合数,并计算 概率值P。 4.做出结论
在边缘合计数不变的条件下,比当前四 格表更极端的组合情况可根据最小的理 论频数所在的格子来寻找。本例中为d。 实际频数为2,理论频数为0.8536。差值 为1.15。所以d取值为2,3,4,5,这4 种组合就是满足条件的四格表。计算它 们的概率之和为0.20。 因为P > 0.05;不拒绝H0,差异无 统计学意义,还不能认为两组患者的 病死率存在差异。
42 2 ( 2 × 9 − 26 × 5 − ) × 42 2 2 χ = 28 × 14 × 7 × 35 = 3.62
V=(2-1)( ( )(2-1)=1 )( )
=3.62 < 3.84, P > 0.05;不拒绝H0, 差异无统计学意义,还不能认为两个年级学生 的近视眼患病率有差异。
第八章卡方检验-精选文档
![第八章卡方检验-精选文档](https://img.taocdn.com/s3/m/07fcf4793c1ec5da51e27023.png)
第一节 行×列表资料的χ2检验
表8-1 三 个 不 同 地 区 血 型 样 本 的 频 数 分 布 地 区 亚 洲 欧 洲 北 美 洲 合计 A 321 258 408 987 B 369 43 106 518 A B 95 22 37 154 O 295 194 444 933 合 计 1080 517 995 2592
在进行多个样本率或构成比的比较时,可将原始资料整理成 频数表。当行或(和)列数超过2组时,统称为行×列表, 或称R×C表。
例8-1 某研究人员收集了亚洲、欧洲和北美洲人的A、B、AB、 O血型资料,结果见表8-1所示,其目的是研究不同地区的人 群血型分类构成比是否一样。
表 8-1 三个不同地区血型样本的频数分布 地区 亚洲 欧洲 北美洲 合 计 A B AB O 295 388.75 194 186.10 444 358.15 933 36.00 合计 1080 517 995 2592 100.00
2 1 2 .5 9 0 .0 5 , 6
P0 .0 5
在α =0.05检验水准上,拒绝H0,认为三个不同地区的人群血 型分布构成的差别有统计学意义,说明三个不同地区的人群血 型分布构成不同或不全相同。
例8-2 某研究人员欲研究某新药治疗失眠的效 果,将122名患者随机分成三组,分别服用新药、 传统治疗失眠药和安慰剂,并跟踪观察三组患者 的治疗情况,结果如表8-2所示,试问三种药物 的疗效是否一样?
对例8-3做行列表χ 2检验的步骤如下:
1.建立检验假设并确定检验水准 H0:3种治疗方案的有效率相同 H1:3种治疗方案的有效率不同或不全相同 α =0.05 2.计算检验统计量χ 2值
2 2 2 2 A 5 1 4 9 1 5 2 n 1 2 5 4 1 n n 1 0 0 1 4 51 0 0 1 0 9 7 4 1 0 9 R C 22.81
R×C表卡方检验
![R×C表卡方检验](https://img.taocdn.com/s3/m/6e2e7e655ef7ba0d4b733b42.png)
2020年月27日
(1) 新复方与安慰剂比较:列出表A,
2=30.50,P=0.000,按α’=0.025水准
拒绝H0,可以认为新复方治疗高血压有效。
表A 新复方与安慰剂比较
药物
有效
无效
新复方
35
5
安慰剂
7
25
合计
42
30
合计 40 32 72
2020年4月27日
(2)降压药与安慰剂比较:列出表B,
2020年4月27日
R×C表2 检验应注意的问题
❖2.多组比较时,若效应有强弱的等级,如+,++
,+++,最好采用后面的非参数检验方法。 2检
验只能反映其构成比有无差异,不能比较效应的 平均水平。 ❖3.行列两种属性皆有序时,可考虑趋势检验或 等级相关分析。
❖4.多个率比较的2检验,结论为拒绝H0时、需
2020年4月27日
相关性分析
结果分析: Spearman等级相关系数=0.214,近似概率P
=0.001<0.05,可认为行和列两等级变量之间的总体相关系 数不等于0,两变量之间有一定的相关关系。
2020年4月27日
线性趋势检验
结果分析: MH 2 =10.281,近似概率P=0.001<0.05,
拒绝H0,可以认为三种疗法效果不同。
2020年4月27日
三、两组或多组构成比的比较
例8-5 用三种治疗方法治疗199例消化性 溃疡住院病人资料如表8-6,试分析三组 病人按4种中医分型的构成比有无差别。
2020年4月27日
表8-6 三种消化性溃疡住院病人四种证型的构成
中医分型 疗法 肝胃不和 胃阴不和 脾胃虚寒 寒热夹杂 合计
第八章 检验(卡方检验)
![第八章 检验(卡方检验)](https://img.taocdn.com/s3/m/1d2e5d2c01f69e3143329482.png)
乙疗法
45
50
95
47.37
合计
97
84
181
53.59
6. 2界值表
表 8-4 2 界值表
自由度
概率:(P)
0.05
0.01
1
3.84
6.63
2
5.99
9.21
3
7.81 11.34
4
9.49 13.28
…
20 31.41 37.57
图8.1 不同自由度的2分布曲线图
小结:2检验的基本思想
2
A T 2
1、四格表资料的2检验
• 基本公式:
专用公式:
2
A
T T
2
2
(ad bc)2 n
(a b)(c d)(a c)(b d)
应用条件:n≥40,且T≥5。 SPSS 输出结果选择:
• 校正公式:
Pearson’s Chi-Square。
2
( AT
0.5)2
T
2 (| ad bc | n / 2)2 n
34
86
60.47
乙疗法
45
50
95
47.37
合计
97
84
181
53.59
男 女 合计
表 8-2 四格表资料示意
有
无
a(A11) c(A21)
a+c
b(A12) d(A22)
b+d
合计 a+ b c+d n
2. 检验假设: π1=π2=π,如检验假设成立,则两样本合计率 是π的最佳估计值。
3. 理论频数:
TRC = n R n C / n n R 为第R行合计数, n C为第C列合计数。 如:T11=86×97/181=46.09 T21=95×97/181=50.91
医学统计学课件卡方检验
![医学统计学课件卡方检验](https://img.taocdn.com/s3/m/69d17ccaa1116c175f0e7cd184254b35eefd1a02.png)
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
卡方检验应用
![卡方检验应用](https://img.taocdn.com/s3/m/a643196bb14e852459fb5755.png)
卡方检验应用第八章记数数据统计法一卡方检验法知识引入在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。
例如,性别分男女,职业分为公务员、教师、工人、......... , 教师职称又分为教授、副教授、……。
有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。
对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。
卡方检验是专用于解决计数数据统计分析的假设检验法。
本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。
拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。
独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。
在计数数据进行统计分析时要特别注意取样的代表性。
我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。
在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。
在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。
例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。
这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。
因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。
第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。
它由统计学家皮尔逊推导。
统计学教案习题08卡方检验
![统计学教案习题08卡方检验](https://img.taocdn.com/s3/m/6f8bef3e84254b35effd3471.png)
第八章 2χ检验一、教学大纲要求(一) 掌握内容 1. 2χ检验的用途。
2. 四格表的2χ检验。
(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验。
(二) 熟悉内容频数分布拟合优度的2χ检验。
(三) 了解内容 1.2χ分布的图形。
2.四格表的确切概率法。
二、教学内容精要(一)2χ检验的用途2χ检验(Chi-square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二)2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。
2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。
四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法: np )1(ππσ-=,π为总体率,或 (8-1)np p S p )1(-=, p 为样本率; (8-2) 2.总体率的可信区间当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。
总体率的可信区间:(p p S u p S u p ⨯+⨯-2/2/,αα)。
(8-3) (四)2χ检验的基本计算表8-12检验的用途、假设的设立及基本计算公式01四格表①独立资料两样本率的比较②配对资料两 样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式)(22nbc ad -=χ 1②当n ≥40但1≤T<5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χR ⨯C 表①多个样本率、 构成比的比较②两个变量之 间关联性分析0H :多个总体率(构成比)相等(0H :两种属性间存在关联)1H :多个总体率(构成比)不全相等(0H :两种属性间存在关联))1(22-=∑CR n n A n χ (R-1)(C-1)频数分布表 频数分布的拟合优度检验0H :资料服从某已知的理论分布 1H :资料不服从某已知的理论分布∑-TT A 2)( 据频数表的组数而定(五)四格表的确切概率法:当四格表有理论数小于1或n <40时,宜用四格表的确切概率法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a. 2 cells (25.0%) have expected count less than 5. The minimum expected count is 4.09.
最小期望值(理论值)为4.09,2cells(25%)格子的 理论值小于5。 由此可见,pearson chi-squre的结论是不可信的。
我们继续根据医学合并合理性作合理的合并, 把输血二次、三次及四次的合并,统称为输 血二次以上。
旧编码 0 1 2 3 新编码 0 1 2 2
VAR00001 * VAR00002 Crosstabulation Count 0 VAR00001 Total 1 2 25 1 26 VAR00002 1 18 8 26 2 21 13 34 Total 64 22 86
Chi-Square Tests Value 9.679a 11.997 8.680 86 df 2 2 1 Asymp. Sig. (2-sided) .008 .002 .003
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
ROW * COLUMN Crosstabulation COLUMN A ROW 亚洲 Count Expected Count % within ROW Count Expected Count % within ROW Count Expected Count % within ROW Count Expected Count % within ROW 321 411.3 29.7% 258 196.9 49.9% 408 378.9 41.0% 987 987.0 38.1% B 369 215.8 34.2% 43 103.3 8.3% 106 198.8 10.7% 518 518.0 20.0% AB 95 64.2 8.8% 22 30.7 4.3% 37 59.1 3.7% 154 154.0 5.9% O 295 388.8 27.3% 194 186.1 37.5% 444 358.2 44.6% 933 933.0 36.0% Total 1080 1080.0 100.0% 517 517.0 100.0% 995 995.0 100.0% 2592 2592.0 100.0%
Chi-Square Tests Value 12.317a 14.154 6.669 86 df 4 4 1 Asymp. Sig. (2-sided) .015 .007 .010
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
行列分割的种类
多组间的两两比较; 多个实验组与同一对照组比较。
(1)多组间的两两比较
对进行行列卡方检验有统计学意义的资料, 进一步作两两比较时,不能再用原来的检验 水准作为是否拒绝H0的标准。因为重复多次 的假设检验,将使第一类错误扩大。必须重 新规定检验水准,作为拒绝H0的根据。
在多组间的两两比较时,其检验水准按下式估计: ɑ‘=ɑ / N,其中
观测值的频次
期望频次
(2)Percentages 是确定输出百分比的选项栏。该选 项栏中的选项用于确定在输出文件中的交叉表单元格 中是否要输出百分比。 1)Row:单元格中个案的数目占行总数的百分比。 2)Column:单元格中个案的数目占列总数的百分比。 3)Total:单元格中个案的数目占个案总数的百分比。 (3)Residuals 是确定残差的选项栏。 1)Unstandardized:非标准化残差。 2)Standardized: 标准化残差 3) Adj. Standardized:调整的 T )2 T
自由度v=(行数-1)(列数-1) A:实际频数 T:理论频数
2.行列分割
若P<0.05,我们拒绝无效假设H0,只能作出总 体上有无统计学意义的总的结论,而不能对 每两两之间有无统计学意义作出结论。若要 进行两两比较。还需要把行列表进行分割, 才能对每两两之间有无统计学意义作出结论。
选择统计分析内容
单击statistics 按钮,打开statistics 对话框, 如图所示:
卡方(X2)值选项,用以检验行变量和列变量之间是 否独立。适用于名义变量(定类变量)或顺序变量 (定序变量)。
是皮尔逊(Pearson)相关系数r 的选项。用以测量变 量之间的线性相关。适用于顺序变量或尺度变量(定距 以上变量)。
肯得尔等级相关tau-b 系数
肯得尔等级相关tau-c 系数 Eta 是当一个变量为名义变量,另一个变量为尺度变 量时,测量两个变量之间关系的相关比率。
系统默认状态是不输出上述参数。如用户需 要可自行选择。上述选择做完以后,单击 Continue 返回到Crosstabs 对话框。
单击Cells(单元格)按钮,打开Cell Display 对话框, 如图 所示。 Counts 是单元格的频次选项栏
第八章
X
2
检 验
X2检验
X2检验是一种用途较广的假设检验方法。
它常用于分类变量资料的统计推断,如: (1)两个或多个总体——率或构成比 的比较; (2)计数资料的相关分析; (3)多个样本率比较的X2分割; (4)频数分布拟合优度的X2检验。
对于两样本率比较的资料,可用 X2 来推断两总体率是否有差别。
a. 4 cells (40.0%) have expected count less than 5. The minimum expected count is 1.28.
最小期望值(理论值)为1.28,4cells(40%)格子的 理论值小于5。 由此可见,pearson chi-squre的结论是不可信的。
行变量
列变量
是在输出结果中显示聚类条图
是隐藏表格,如果选择此项,将不输出R×C 交叉表
从左侧的源变量窗口中选择两个名义变量或 顺序变量分别进入Row(s)(行)窗口和 Column(s)(列)窗口。进入Row(s)窗口的 变量的取值将作为行的标志输出,而进入 Column(s)窗口的变量的取值将作为列的标志 输出。
手术中输血次数 感染与否 无感染 感染 0 25
1
1 18 8
2 12 6
3 5 6
4 4 1
Total 64 22
Total
26
26
18
11
5
86
操作步骤
1.Analyze→ Descriptive→ Crosstabs 打开 Crosstabs 对话框。 2.从左侧的源变量窗口中选择“row” 变量进入到 Row(s)窗口中,选择”column”变量进入到 Column(s) 窗口 3.单击Statistics 按钮,打开statistics 对话框。选 择Chi-square 选项。单击Continue返回到crosstabs 对话框。 4.单击Cell 按钮,打开Cell Display 对话框。选择 Row 选项。单击Continue 返回到Crosstabs 对话框。 5.单击OK 按钮,提交运行。
n(n 1) N C 为所需检验的次数,此 处n为参加检验的组数。 2
2 n
(2)多个实验组与同一对照组比较
一般认为:此时的假设检验的水准ɑ’ 为:
=
‘
2k 1
有些书上认为为:
=
‘
k 1
二、例题及统计分析
SPSS——计数资料的统计分析
分析过程
Analyze→ Descriptive→ Crosstabs 打开 Crosstabs 分析对话框, 如图 所示:
可以采取如下二个措施之一:
扩大样本含量N; 根据医学合理性,作合理的合并。
根据医学合理性作合理的合并,把输血三 次和四次的合并,统称为输血三次以上。
旧编码 0 1 2 3 4
新编码 0 1 2 3 3
ROW * COLUMN Crosstabulation Count COLUMN 0 ROW Total 1 2 25 1 26 1 18 8 26 2 12 6 18 3 9 7 16 Total 64 22 86
例如
例2-1 感染组和非感染组,其输血次数是否有显著 性差异?
手术中输血次数 感染与否 无感染 0 25 8 26 1 18 6 26 2 12 6 18 3 5 1 11 4 4 22 5 86 Total 64
感染
Total
感染与否 * 手术中输血次数 Crosstabulation
Chi-Square Tests Value 10.162a 12.386 8.476 86 df 3 3 1 Asymp. Sig. (2-sided) .017 .006 .004
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
欧洲
北美洲
Total
Chi-Square Tests Value 297.375a 297.233 9.788 2592 df 6 6 1 Asymp. Sig. (2-sided) .000 .000 .002
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 30.72.