第7章 卡方检验优秀课件
合集下载
《卡方检验正式》课件
卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03
生物统计学—卡方检验PPT课件
0.5 2 301.63
Ei
(4)推断:由CHIDIST(301.63, 1)=1.45E-67,即P c 2 301.63 0.01
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
(4)推断:由CHIINV(0.025,
1)=5.02,
即
cc2
c2 0.05(1)
,即P
0.05
c2 1
和c
2
c
2
2
2
第10页/共31页
例:已知某农田受到重金属污染,经抽样测定铅浓度分别为:
4.2, 4.5, 3.6, 4.7, 4.0, 3.8, 3.7, 4.2 (ug/g),方差为0.150, 试检验受到
污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差
(0.065)相同
分析:1)一个样本方差同质性检验
论值记为:Ei,即 k c2
Oi Ei 2 , (df k 1)
i1
Ei
第12页/共31页
卡方检验的原理和方法
Pearson定理的基本含义: 如果样本确实是抽自由(P1,P2,…,Pk)代
表的总体,Oi和Ei之间的差异就只是随机误差, 则Pearson统计量可视为服从卡方分布
反之,如果样本不是抽自由(P1,P2,…,Pk) 代表的总体,Oi和Ei之间的差异就不只是是随机 误差,从而使计算出的统计量有偏大的趋势
解:(1)假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
(2)选取显著水平 0.05
第17页/共31页
(3)检验计算: 计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
卡方检验ppt课件(1)_OK
0.86 0.91 0.94 0.87 0.91 0.86 0.95 0.87 0.92 0.92
0.97 0.92 0.87 0.90 0.90 0.89 0.85 0.92 0.87 1.06
0.99 0.86 0.92 0.84 0.84 0.95 0.92 0.87 0.90 0.84
0.92 0.85 0.92 0.87 0.87 0.98 0.97 0.84 0.78 0.98
38
正态分布拟合优度检验计算表
组限
Oi
Pi
Ei
(0.76 0.79]
1
0.01
1
(0.79 0.82]
4
0.03
3
(0.82 0.85]
7
0.09
9
(0.85 0.88] 22
0.18
18
(0.88 0.91] 24
0.24
24
(0.91 0.94] 24
0.22
22
(0.94 0.97] 10
0.14
27
例:测得某地5801人的ABO血型与MN血型结果如下表。问两种血型系统之间是否有 关联?
ABO 血型
MN血型
M
N MN
合计
O 431 490 902 1823
A 388 410 800 1598
B 495 587 950 2032
AB 137 179 32 348
合计 1451 1666 2684 5801
16
例:用两种检验方法对某食品作沙门氏菌检验,结果如 下表,试比较两种方法的阳性结果是否有差别。
两种检验方法结果比较
常规培养法
荧光抗体法
合计
+
《卡方检验》课件
制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医学统计方法之卡方检验PPT课件
3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
卡方检验ppt课件
2检验 (chi-square test)
.5
.4
ν=1
.3
.2
ν=3
ν=6
.1
ν=பைடு நூலகம்0
0.0
0
5
10
15
20
25
1
主要内容
2分布
– 了解2分布的基本思想和2分布曲线
四格表资料的2检验
– 掌握应用条件、基本思想和检验过程
配对设计资料的2检验
– 掌握应用条件、基本思想和检验过程
2分布的形状依赖于自由度ν的大小,当 ν≤2时,曲线呈L型;随着ν的增加,曲线 逐渐趋于对称;当ν→∞时, 2分布趋向正 态分布。
3
2分布曲线
.5
.4
ν=1
.3
.2
ν=3
ν=6
.1
ν=10
0.0 0
5
10
15
20
25
4
2 检验
2检验是一种用途非常广泛的以2分布 为理论依据的假设检验方法,主要用于:
14
本例的2检验
H0:π1=π2,即两种给药方法的总体不良 反应发生率相同
H1:π1≠π2,即两种给药方法的总体不良 反应发生率不同
α=0.05
15
本例的2检验
2 (A T )2 (35 30.76)2 (74 78.24)2 (22 26.24)2 (71 66.76)2 1.771
实际频数:表内各格数字为实际资料的数字。
10
2 检验的基本思想
实际频数和理论频数差异的大小可以用2值的大
小来说明,当样本量n和各个按检验假设计算的理
论频数T都足够大时,比如n≥40,T≥5, 似于2分布,n越大,近似程度越好。
.5
.4
ν=1
.3
.2
ν=3
ν=6
.1
ν=பைடு நூலகம்0
0.0
0
5
10
15
20
25
1
主要内容
2分布
– 了解2分布的基本思想和2分布曲线
四格表资料的2检验
– 掌握应用条件、基本思想和检验过程
配对设计资料的2检验
– 掌握应用条件、基本思想和检验过程
2分布的形状依赖于自由度ν的大小,当 ν≤2时,曲线呈L型;随着ν的增加,曲线 逐渐趋于对称;当ν→∞时, 2分布趋向正 态分布。
3
2分布曲线
.5
.4
ν=1
.3
.2
ν=3
ν=6
.1
ν=10
0.0 0
5
10
15
20
25
4
2 检验
2检验是一种用途非常广泛的以2分布 为理论依据的假设检验方法,主要用于:
14
本例的2检验
H0:π1=π2,即两种给药方法的总体不良 反应发生率相同
H1:π1≠π2,即两种给药方法的总体不良 反应发生率不同
α=0.05
15
本例的2检验
2 (A T )2 (35 30.76)2 (74 78.24)2 (22 26.24)2 (71 66.76)2 1.771
实际频数:表内各格数字为实际资料的数字。
10
2 检验的基本思想
实际频数和理论频数差异的大小可以用2值的大
小来说明,当样本量n和各个按检验假设计算的理
论频数T都足够大时,比如n≥40,T≥5, 似于2分布,n越大,近似程度越好。
最新-11-09 第七章 卡方检验2课件ppt
第三节
四格表资料的Fisher确切概率法
条件:
理论依据:超几何分布
(非χ2 检验的范畴)
例7-4 某医师为研究乙肝免疫球蛋白 预防胎儿宫内HBV感染的效果,将33例 HBsAg阳性孕妇随机分为预防注射组和非预 防组,结果见表7-4。问两组新生儿的HBV 总体感染率有无差别?
一、基本思想
在四格表周边合计数固定不变的条件 下,计算表内4个实际频数变动时的各种组
二、检验步骤(本例n=33<40 )
H0:1=2,即两组新生儿HBV的总体感染率相等 H1:1≠2,即两组新生儿HBV的总体感染率不等
α =0.05 1.计算现有样本四格表的P*及各组合下四格表的Pi ,见表7-5。本例P*=0.08762728。
2.计算满足Pi≤P*条件的所有四格表的累计概率P。
病种
阳性
阴性
合计
胆囊腺癌
6
胆囊腺瘤
1
合计
7
4
10
9
10
13
20
H0:1=2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率相等
H1:1≠2,即胆囊腺癌与胆囊腺瘤的P53基因表达
阳性率不等 α=0.05 本例 a+b=c+d=10,由表7-7可看出,四格表内各种 组合以i=4和i=5的组合为中心呈对称分布。
表组合的累计概率为左侧概率,记为PL;现 有样本四格表及其以右的所有四格表组合的 累计概率为右侧概率,记为PR。若备择假设
H1为12,则P单侧=PR;若H1为12,则
P单侧=PL。
(2)双侧检验 计算满足Pi ≤ P*条件的各种组合下四格表
的累计概率。若遇到 a+b=c+d 或 a+c=b+d 时 ,四格表内各种组合的序列呈对称分布,此 时按单侧检验规定条件只计算单侧累计概率 ,然后乘以2即得双侧累计概率。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用药组 100
14
14
对照组 120
30
25
列卡方计算表
用药组和对照组流感发病率比较
组别 发病人数 未发病人数 合计 发病率(%)
用药组 14(20) 86(80) 100 14
对照组 30(24) 90(96) 120 25
合 计 44
176
220 —
表中: 14 86
30 90 是整个表的基本数字。
nR nC n
式中:
TRC—R行C列格子的理论数 nR和nC—表示第R行的合计数和C列的合计数 n —为总例数
判断标准:
X2< X20.05(v) , P>0.05 X20.01(v) >X2≥ X20.05(v), 0.01< P≤0.05 X2≥ X20.01(v), P≤0.01
基本公式法:
19世纪末Pearson 提出卡方检验统计量X2值 的基本公式(也称为Pearson X2值)
2
(AA为T实)2际数 TT为理论数
X2值是一个反映假设的理论数(T)和观察 的实际数(A)符合程度的指标。
卡方检验的基本原理
若检验假设H0:π1=π2成立,四个格子的实际
频数A 与理论频数T 相差不应该很大,即统计 量 X2 不应该很大。
由于实际工作中,总体率π往往未知, 常常用样本率P来近似代替总体率π,则:
Sp
p1 p
n
Sp为样本率的标准误; P 为样本率;n 为样本含量
例如:抽取居民300人的粪便,检出蛔虫
阳性60人,求其抽样误差的大小。
Sp
p1 p
n
Sp
60 240 300 300
300
=0.0231=2.31%
率的标准误的应用
如果A和T差距大,X2值就会很大,即相对
应的P 值很小,若 P ,则反过来推断A与T
差距,超出了抽样误差允许的范围,从而怀
疑 H0 的正确性,继而拒绝 H0,接受其对立 假设H1,即π1≠π2。
在一定条件下, X2值分布是有规律的, X2值的变化是随着自由度的变化而变化。
ν=(行数-1)(列数-1)
第7章 卡方检验
第一节 率的抽样误差与区间估计
一、率的标准误
(standad error of proportion)
与前面讨论过的样本均数与总体均 数存在着抽样误差一样,样本率与总 体率同样存在着抽样误差。 表示率的抽样误差大小用率的标准误。
率的标准误 用“σp”表示。
p
(1)
n
π为总体率; n为样本含量
用药组 14(20) 86(80) 100 14
对照组 30(24) 90(96) 120 25
合 计 44
176
220 —
1、建立假设:H0: π1= π 2 H1: π1 ≠ π 2
2、确定检验水准:α=0.05 3、计算各格子理论数 T
2 A11T11 2 (A12T12)2 (A21T21)2 (A22T22)2
T11
T12
T21
T22
(AT)2, (行数-1)(列数1)
T
式中,A为实际频数(actual frequency) T为理论频数(theoretical frequency)
用药组和对照组流感发病率比较
组别 发病人数 未发病人数 合计 发病率(%)
X 2检验是现代统计学的创始人之一,英国
人K . Pearson(1857-1936)于1900年提 出的一种具有广泛用途的统计方法。可用于 两个或多个率或构成比间的比较、配对计数 资料及两种属性或特征之间是否有关系等等 。
卡方检验
四格表资料的卡方检验 配对资料的卡方检验 行×列表卡方检验
一、四格表资料的X2检验
0.5
0.4
纵高
0.3 0.2 0.1
自由度=1 自由度=2 自由度=3 自由度=6
0.0
0
3
6
9
12
15
18
卡方值
四格表卡方检验基本步骤
建立检验假设:H0 , H1
确定显著性水准:α= 0.05
计算各格子的理论数 T
计算统计量(X2 值)
T
nR nC
确定概率 P
RC
n
统计推断结论
TRC
适用于两个样本率的比较
两个样本率的比较既可以选用u 检验,也
可用四格表的X2检验。
• 基本公式法 • 专用公式法 • 连续性校正公式 • 确切概率法(直接概率法)
自由度为 1 的 2分布
若Z ~ N (0,1),则 Z 2的分布称为自由度为 1 的 2分布.
(chi-square
distribution),记为
f
(
2)
1
2(
/
2)
2
2
( / 21) e 2 / 2
纵高
0.3 0.2 0.1 0.0
0
3.84
3
6
自由度=1 自由度=2 自由度=3 自由度=6
P=0.05的临界值
7.81
12.59
9
12
15
18
卡方值
(一)基本公式法 例:用某种中草药预防流感,得资料如下:
用药组和对照组流感发病情况 组Fra bibliotek 观察人数 发病人数 发病率(%)
查表法
当n 较小时( n≤ 50),需查附表
(百分率的可信区间表),得到总体 率的可信区间。
第二节 率的u检验
一、样本率与总体率的比较
Zu
p 0 0(10) n
P324/例10-7
二、两个样本率的比较
设:两样本率分别为p1和p2,当n1与n2均较 大,且p1、1-p1及p2、1-p2均不太小,如 n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,
表示样本率的抽样误差大小。 估计总体率的可信区间。 进行率的差别的假设检验。
二、总体率的置信区间估计
正态近似法
当n 足够大,且np和n(1-p)均大于 5时,P 的分布接近正态分布,可用:
( P-uα Sp, P+uα Sp)
uα为概率为α的u界限值
u0.05=1.96 u0.01=2.58
2 (1)
或
2
(1)
.
图形:从纵轴某个点开始单调下降,先凸后凹.
0.3
0.2
0.1
0.0 0
2
4
6
8
10
2 0.05(1)
3.84(1.96)2 Z0 2 .05/2
2 0.01(1)
6.63(2.5758)2 Z0 2 .01/2
χ2分布(chi-square distribution)
0.5
0.4
可采用正态近似法对两总体率作统计推断。
Zu
p1 p 2 S pP1325p/2例10-8
Zu
p1 p 2 S p1 p 2
两个率之差的合并标准误Sp1-p2
11
S p1p2
pc(1pc)(n1
) n2
合并发生率PC
pc
X1 X2 n1 n2
第三节 卡方检验
(chi-square test)