第九章 卡方检验

合集下载

第九章 卡方检验12034 ppt课件

第九章   卡方检验12034 ppt课件
24.08, P0.05
结论与之相反。
二、两相关样本率检验 (McNemar检验)
配对四格表资料的 2 检验
与计量资料推断两总体均数是否 有差别有成组设计和配对设计一样, 计数资料推断两个总体率(构成比) 是否有差别也有成组设计和配对设计, 即四格表资料和配对四格表资料。
例 9-3 某 抗 癌 新 药 的 毒 理 研 究 中 , 将
(2 1 )2 ( 1 )1
以 = 1 查 附 表 8 的 2 界 值 表 得 P 0 . 005 。 按 0 . 05
检 验 水 准 拒 绝 H0, 接 受
H

1









阳性率显著高于健康人,提示可能具有临床诊断价
值。
四格表资料检验的专用公式
2
(adbc)2n
(ab)(ac)(bd)(cd)
表9-3 两种疗法治疗癫痫的效果
治 疗 方 法
治 疗 结 果
有 效
无 效
高 压 氧 组 66( 62.8)
4( 7.2)
常 规 组 38( 41.2)
8( 4.8)
合计 104
12
合 计 有 效 率 ( % )
70 46 116
94.3 82.6 89.7
H 0 :1 2 ,H 1 :1 2 , 0 .0 5
R ×C表 2 检验
行×列表资料
① 多个样本率比较时,有R行2列,称为R ×2表; ② 两个样本的构成比比较时,有2行C列,称
2×C表; ③ 多个样本的构成比比较,以及双向无序分类资
料关联性检验时,有行列,称为R ×C表。
检验统计量
2 n(

卫生统计学-第九章 卡方检验

卫生统计学-第九章 卡方检验

11
2检验的基本思想
• 如果H0成立,则男女生感染率的差异仅是抽样误
差引起的,相差不会太大,由此而计算出来的T与 A也不会相差很大,即2值不会相差很大
• 如果两样本率相差过大,即T与A相差较大,2值
也会相差较大,相应的P值也就越小。
• 因此,由实际样本资料求得一个较小的P,而且
P≤,就有理由怀疑H0的真实性,因而拒绝H0,
18.55
66.45
(3)确定自由度和P值
四格表的自由度=1,卡方界值为3.84 卡方值>卡方界值,所以 P<0.05
(4)作出推断性的结论
按α =0.05水准,拒绝H0,接受H1,可认为该小学男女生 蛔虫感染率不同,男生的感染率高于女生.
18
四格表除了可用基本公式外,更多用四格表专用公 式计算卡方值.
假设四格的数字分别为a,b,c,d,如图,
则用下式来计算卡方值:
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
23 57 a 13 72
此式不必计算理论数,比较方便,结果也更为准确.
19
某小学男女生蛔虫感染率的比较
• 实际工作常用于检验两个或多个样本率及构成比
之间差别有无统计学意义,两种属性或特征之间 是否有关系以及拟合优度检验等。
5资料的2检验 • RC表的2检验 • 配对四格表的2检验 • 精确概率法
6
§1 2检验的基本思想
例:某小学男女生蛔虫的感染率如下表,试判断男女 蛔虫感染率是否有差别?
从而作出接受H1的统计推断;如果P>,则没有
理由拒绝H0。
12
性别 男 女 合计
虫卵阳性人数 阴性人数 合计 感染率(%)

医学统计课件人卫6版 第九章 卡方检验ppt课件

医学统计课件人卫6版 第九章 卡方检验ppt课件
R行与C列中,行合计数中的最小值与列合计
数中的最小值所对应格子的理论频数最小。
➢ 两样本率比较的资料,既可用Z检验也可用 检2
验来推断两总体率是否有差别,且在不校正的 条件下两种检验方法是等价的,对同一份资料

Z2 2
讨论:计算与分析1.2.
.
11
补充:
两大样本率的假设检验
1)样本率与总体率比较: Z p0 0(10)/n
➢ 基本公式:
2
(AT)2
T
.
3
➢ T值是在假设H0 成立的条件下,求得的理论频数
TR C
nR .nC n
➢ TRC 表示R行C列的理论频数
➢ nR 为相应行的合计,nC 为相应列的合计
➢ n 为总例数
.
4
求得χ2 值,按ν =(R - 1)(C - 1)
➢ 查附表7,得P值。 同一自由度下,χ2值越大, ➢ 相应的概率P值越小。
• 此类设计可作两方面的统计分析:
.
13
1.两法检验结果有无差别: (阳性检出率是否不同)
2 (b c)2
bc
ν=1
若观察频数b+c < 40,需对χ2值进行校正
2(b | c|1)2
bc
.
14
2.两法检验结果有无关系(联)(了解) H0 :两法结果无关联 H1 :两法结果有关联
α = 0.05
.
18
行×列表资料检验的专用公式:
2 n(
A2 1)
nRnC
(行数-1)(列数-1)
例9-5;9-6
.
19
行×列表资料 检2 验的注意事项
1.一般认为,行×列表中的理论频数不应小于1, 或 的1格T子5 数不宜超过格子总数的1/5。若 出现上述情况,可通过以下方法解决:①最好 是增加样本含量,使理论频数增大;②根据专 业知识,考虑能否删去理论频数太小的行或列, 能否将理论频数太小的行或列与性质相近的邻 行或邻列合并;③改用双向无序 R×C列表的 Fisher确切概率法。

第九章 卡方检验

第九章 卡方检验

2
2检验 三、正态分布假设的χ
1、根据题意,将正态分布曲线下的6σ分成n个等
距,并找出各等距段在总体中所占面积比例; 2、N×面积比例求出各段的理论次数; 3、提出假设 4、计算 值; 5、检验推论,df=k-1
2
四、独立性假设的χ2检验(R×C表)
• 独立性检验主要用于两个或两个以上因素多项分类的 计数资料分析。主要研究两个因素或两个以上因素之 间是否有独立性或有无关联的存在。所对应的资料为 列联表的形式,对于R×C的列联表独立性的检验用 χ2检验。具体方法如下:
第九章
χ2检验
2检验的基本概念 一、χ
• 数据形式
属于非连续变量性质的计数量数。
• 基本原理
实得数据与期待数据相比
χ2检验的基本公式
( f0 fe ) fe
2

2


f0=实得次数 fe=期待次数
2检验 二、无差假设的χ
• 配合度检验 是对实际次数与理论次数之间差异是否显著 的检验方法。 • 自由度:df=k-1,k为分类数目。 • 理论次数的计算:fe=n/k • 统计量的计算:
中等以上 男 女 23( A ) 28( C ) 中等以下 17( B ) 22( D )
2
2
,则说明两因素
2
相互关联;反之,两个因素之间相互独立。
2×2表的独立性检验

2

N ( ad bc )
2
( a b )( c d )( a c )( b d )
独立性检验应用举例
• 例4:今随机抽取90人,按男女不同性别 分类,将学生成绩分为中等以上和中等 以下两类。结果如下表,问男女生在学 业水平上是否有关联?或男女生在学业 中等以上的比率差异是否显著?

医学统计学 -第09章 卡方检验

医学统计学  -第09章  卡方检验

0.4 f(x)
v=1
0.3
2分布
0.2
v=4
v=6 v=9
0.1
0.0
0
3
6
9
12
15 x
(2)计算检验统计量
2 (A T )2
T
(41 36.5625)2 (4 8.4375)2 (24 28.4375)2 (11 6.5625)2
36.5625
8.4375
28.4375
6.5625
理论基础:超几何分布,不属于卡方检验
谢谢
表 慢性咽炎两种药物疗效资料
分组
兰芩口服液 银黄口服液
合计
有效
41 24 65
无效
4 11 15
有效率 (%) 91.11
68.57 81.25
合计
45 35 80
问题: 两个总体有效率是否相等?
(1)建立检验假设 H0:π1=2 两药的总体有效率相同 H1:π1≠π2 两药的总体有效率不同 检验水准=0.05
bc
= 1
若b+c<40,采用以下校正公式
2 (| b c | 1)2
= 1
bc
第三节 行×列表资料的2检验
(一)R×C表 最常见的形式是
2×C列联表(一般为2个构成比的比较) R ×2列联表(一般为多个样本率的比较)
R×C列联表2检验的原理与2×2列联表2 检验的原理完全一样
统计量计算公式
合计 40 30 32 102
有效率(%) 87.50 66.67 21.88 60.78
(1)建立检验假设,确定检验水准
H0 :1 2 3
H1
:
1
,

第九章 卡方检验

第九章 卡方检验

2
T
离散用连续近似
2 ( ad bc n / 2)2 n
(a b)(c d )(a c)(b d )
注:(1)这种校正称为连续性校正。 (2)如检验所得P值近于检验水准α时, 最 好改用四格表确切概率法。
例 9-3 将病情相似的淋巴系肿瘤患 者随机分布两组,分别做单纯化疗与复 合化疗,两组的缓解率见表9-4,问两疗 法的总体缓解率是否不同?
2分布
如果Z服从标准正态分布,那么Z2服从自 由度为1的 2 分布,其分布图见156。
如果Z1,Z2,…,Zv是v个独立的标准正
态分布随机变量,
z12

Z
2 2



Zv2
的分布
服从自由度为v的 2 分布。
1.962=3.84
例9-2 具体步骤
建立检验假设
H0:1=2 假设两药的愈合率相同 H1:12 假设两药的愈合率不同
第二节 独立样本2×2 列联
表资料的2检验
提出问题
研究目的:比较洛赛克与雷尼替丁疗效有无差 别?
能否说明洛赛克比雷尼替丁效果好?
已知
≠ P1=75.29%
P2=60.71%
推断
π1
?
π2
2 检验的基本思想
假设: 洛赛克与雷尼替丁治疗消化道溃疡的效果相同。
1 2
计算两组合计的愈合率为68.05%(即115/169) 作为 总体率的估计
3 确定P值,做出结论
查附表,
2 0.1(1)

2.71
2.64 2.71, P 0.1
按 0.05 的水准下,不能拒绝H0,即差别无 统计学意义。还不能认为两种方案的总体缓概率

第9章卡方检验

第9章卡方检验

当n较小时,则可以利用校正的u检验:
| p1 p2 | (1 / n1 1 / n2 ) / 2 uc Nov 24,2009 S p1 p2
例9-3 考察某市2000年城乡居民的卫生服 务需求,以近两周病患病情况作为调查指 标。分别在城区和农村进行了抽样调查, 其中城区调查了660人,有90人近两周患病, 农村调查了640人,有140人近两周患病, 问两组人群的两周患病率是否相同?
二、正态近似法 当n较大,总体率 既不接近0也不 接近1,n和n (1-)均大于5,二 项分布近似正态分布,利用正态分 布的原理,计算检验统计量u值作假 设检验。
u
Nov 24,2009
p 0
p

p 0
0 (1 0 ) / n
例9-2 已知一般人群中慢性支气 管炎患病率为9.7% ,现调查了500 名吸烟者,其中有95人患慢性支气 管炎,试推断吸烟人群中慢性支气 管炎患病率是否比一般人群高?
Nov 24,2009
一、四格表资料的2检验
2检验的基本思想
组别 阳性数 阴性数 合计
I组
II组 合计
a
c a+c=n.1
b
d b+d=n.2
a+b=n1.
c+d=n2. a+b+c+d=n
Nov 24,2009
基本步骤
1、建立假设 H0:城乡居民的两周总体患病率相同 即1=2= H1:城乡居民的两周总体患病率不同 即1≠2, α=0.05
b
d b+d=n.2
a+b=n1.
c+d=n2. a+b+c+d=n
(ad bc) n (a b)(c d )(a c)(b d )

第九章 卡方检验

第九章   卡方检验
为客观起见,建议将两种结论同时报 告出来,以便他人判断。当然,如果 两种结论一致,如均为或,则只报道 非连续性检验的结果即可。
2020年3月4日
2020年3月4日
二、两相关样本率检验(McNemar)
1.资料类型
两个相关样本率资料又称配对计数资料,顾名 思义,是采用配对设计,且结果以频数方式表 达的资料,见例9-3。
3.合并理论频数太小的格子所相邻的行或
列。这样做同样会损失信息及损害样本的
随机性,但损失的信息比第②种方法小一
些。不过,应注意合并得是否合理,如不
同年龄组是可以合并的,但不同血型就不
能合并。
2020年3月4日
第三节、Fisher确切概率检验*
确切概率检验是由Fisher 1934年提出的一种用 于两个独立样本率比较的方法,故又称Fisher 确切概率法。有人认为,当样本量n和理论频数 T太小时,如n<40而且T<5,或T<1,或n< 20,应该用确切概率检验。这一观点所基于的 理论是,当样本量太小时,二项分布的正态逼 近性较差,因而不宜用基于正态分布的检验。 提出上述条件的另外一种考虑是确切概率法的 计算量偏大,但随着计算工具的大大改进,确 切概率法的应用不一定限于上述条件。
2020年3月4日
P
2020年3月4日
2020年3月4日
2020年3月4日
理论频数太小的三种处理方法
1. 增大样本量。以达到增大理论频数的目 的,属首选方法,只是有些研究无法增大 样本量,如同一批号试剂已用完等。
2. 删去理论频数太小的格子所对应的行或 列。这样做会损失信息及损害样本的随机 性。
2020年3月4日
2020年3月4日
2020年3月4日
2020年3月4日

第9章 卡方检验

第9章 卡方检验
增加样本含量,这是最好的方法; 结合专业知识考虑是否可以将该格所在行或列与
别的行或列合并; 改用R ×C表的Fisher确切概率法,可以用计算
机软件实现。
第三节 配对设计资料的2检验
配对2×2列联表资料的2检验 配对R × R列联表资料的2检验
一、配对2×2列联表资料的2检验
3、确定P值,做出推断
=(2―1)×(4―1)=3 , 2 0.695 2 1.21 0.75 , 3
P>0.75,在 =0.05水平上不拒绝H0,所以尚不能
认为儿童急性白血病患者与成年人急性白血病患 者的血型分布不同。
(四)R×C列联表的分割
对于多个率或多个频率分布比较的2检验,结论
统计量 T 服从自由度为 k-1 的2分布。
例9-7 对150名冠心病患者用两种方法检查室壁收 缩运动的情况,检测结果见表9-11 。试分析两种方 法测定结果的概率分布是否相同。
表9-11 两种方法检查室壁收缩运动情况
甲法测定结
乙法测定结果

正常
减弱
异常
合计
正常
60
3
2
65
减弱
0
42
9
51
异常
8
表9-2 两种药物治疗消化道溃疡4周后疗效
处理
洛赛克 雷尼替丁
合计
愈合
64(57.84) 51(57.16)
115
未愈合
21(27.16) 33(26.84)
54
合计
85 84 169
愈合率 (%) 75.29 60.71 68.05
第二节 独立样本R×C列联表资料的2检验
比较三种不同治疗方法治疗慢性支气管炎的有效率 分析儿童急性白血病患者与成年人急性白血病患者

09卡方检验

09卡方检验

二、四格表资料 检验的专用公式
2

专用公式:
(ad bc) 2 n (a b)(c d )(a c)(b d )
2
2 (20 5 24 21) 70 2 8.40 44 26 41 29
结论同前。
三、四格表资料 检验的校正公式

理论频数计算公式
Tij ni n j n
ni和 n j 分 式中 Tij 为第 i 行第 j 列的理论频数,
别为相应行与列的周边合计数,n 为总例数。
Chi-square test
检验步骤: 1.建立检验假设并确定检验水准
H 0 : 1 2 即试验组与对照组的总体有效率相等
2

校正公式:
c2
( A T 0.5) 2 T
Frank Yates
2 ( | ad bc | -n / 2) n c 2 = (a+b)(c+d )(a+c)(b+d )
Chi-square test
对于四格表资料,通常规定为:
1.当 n 40 且所有的 T 5 时,用 检验的基本公
Chi-square test
1.建立假设,设定检验水准
1 2 即两种药物治疗脑血管疾病的有效率相等 H 0:
1 2 即两种药物治疗脑血管疾病的有效率不相等 H1:
0.05
2.计算检验统计量

2 c
6 25 3 24 58 / 2 58 0.376
T21 =41-25.77=15.23,
按公式(9-1)计算 2 值
(20 25.77) 2 (24 18.23) 2 (21 15.23) 2 (5 10.77) 2 8.40 25.77 18.23 15.23 10.77

医学统计学-第九章计数资料的参数估计与卡方检验

医学统计学-第九章计数资料的参数估计与卡方检验

率的标准误的计算公式:
p
(1-)
n
式中,δp 为率的标准误,π为总体率,n为样本含量
在实际工作中,由于总体率π很难知道,常用样本率P来代 替,故公式变为:
sp
Sp为率的标准误的估计值
p(1 p)
n
p为样本率
n为样本含量
方法: 1.查表法:当样本含量较小(如n≤50),特别是np或n(1-p)较小时,p呈偏态 分布, 可根据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。 2.正态近似法:当样本含量足够大(如n﹥50),且样本率p或1-p均不太小, 如np和n(1-p)均≥5时,样本率的分布近似正态分布,可按下列公式计算 :
第二步:计算检验统计量
2 ( A T )2
T
式中: A 为实际频数(actual frequency)T 为理论频数(theoretical frequency)
第三步:确定 P 值,得出结论
x2=9.32
ν=(R-1)(C-1)=(2-1)(2-1) 由 2界值表查得 20.05,1 = 3.84 ,
组别 有效 无效 合计
H0成立下的有效率(%)
中药
T11
T12
160
西药
T21
T22
140
72.7% 72.7%
合计 218
82
300
72.7%
T11 =160 ×72.7%= 160×(218/300)=116.3 T12 =160 ×(1-72.7%)= 160×(82/300)=43.7 T21 =140 ×72.7%= 140×(218/300)=101.8 T22 =140×(1-72.7%)= 140×(82/300)=38.2

卡方检验

卡方检验

例3 大量的研究表明,人群中超常儿童的比率为3%。最 近有人对某班54名学生做了一项智力测查,结果发现有 两名学生的智力属于超常,问该班超常儿童的比率与普 通人群中超常儿童的比率是否相同?
解:根据题目中给出的数据列表:
超常
非超常
N
f
1.62
52.38
54
e
f
2.00
52.00
0
根据自由度df=1查附表6,得
二、卡方检验的统计量
卡方检验是对由样本得来的实际频数与理论频数 的分布是否有显著性差异所进行的检验。其计算 公式为:
2 f0 fe 2
fe
f 表示实际频数 0
f 表示理论次数 e
• 例:抛投一枚硬币80次,结果正面朝上46次,反面朝 上34次,问该枚硬币质地是否均匀? 从理论上讲,抛一枚质地均匀的硬币,正反面朝上的 概率相等,那么如果抛投硬币80次,正面或反面朝上 的理论频数均为80/2=40次。这样,实际频数(正 面朝上46次,反面朝上34次)与理论频数(正面与反
反对 21 30 -9
81
2.7
总 和 60 60
5.4
自由度为: df = k -1=1
3.统计决断
查χ2值表,当 df =1 时
2 (1)0.05

3.84
2 (1)0.01

6.63
计算结果为: χ2=5.4*
3.84 <χ2= 5.4 < 6.63,则 0.05 > P > 0.01
结论:学生对高中文理分科的态度有显著差异。
2. 计 算
表9-5 学生干部性别比例的χ2检验计算表
fo
2
fe fo fe f0 fe 0.5

卫生统计学9——卡方检验

卫生统计学9——卡方检验
在上例中, 64 21 的数据是基本的,
51 33
其余数据都是由以上四个数据计算出来的。
这四个数叫实际频数,简称实际数
(actual freqency, A)
12
理论频数(theoretical freqency,T)
对于洛赛克组的64人,按照合并愈合率Pc=68.05%治疗 的话,理论上: 64×68.05%=57.84人愈合,用T11表示,
?
(1)先假设H0成立,按特定分布的规律(概率函数)
计算理论频数,进而计算 2值。
(2)若 2值小,可认为现有资料服从某一分布;
若 2值大,尚不能认为现有资料服从某一分布。
自由度=K-参数个数-1 K:组段数 参数个数:正态分布和二项分布有2个参数,poisson分布有1个
30
例9-1 对数据作正态分布拟合优度检验。120名 男孩身高的测量值, 均数=139.48cm;标准差=7.30cm
为v 。
2 u12 u22 u2
ui
Xi
5
2 分布的拓展与应用
卡方检验基本思想
2 分布的概念
1875年,F. Helmet得出:来自正态总体的样
本方差的分布服从 2分布;
1900年K. Pearson又从检验分布的拟合优度
(goodness of fit)中也发现了这一相同的 2 分
统计量2值。
33
计算统计量:
计算T I 时的参数有2 个(均数和标准差)
2
(A T )2 6.27
T
推断结论:自由度=10-1-2=7,查Leabharlann 表8,得到2 0.50,7
6.35
P>0.50,可以认为该样本服从正态分布。

第九章 卡方检验

第九章 卡方检验

表9-11 两种方法检查室壁收缩运动情况
乙法测定结果 甲法测定结果




┅┅
R
AR1(TR1) AR2(TR2) ┅ AR(C TRC) nC(固定值)
合计
m1
m2

mC n
基本原理和检验步骤与四格表2检验相似
1 计算理论频数,计算统计量
2 (AT)2 T
这是根本!
2 直接计算统计量
2
R
ni1
C j1
A2 ij
nimj
1
多个独立样本率的比较
表9-6 三种不同治疗方法治疗慢性支气管炎的疗效
多个独立样本频率分布的比较
表9-7 儿童与成人急性白血病患者的血型分布
分组
A型 B型
O 型 AB 型
合计
儿童
30
成人
19
合计
49
38
32
12
112
30
19
9
77
68
51
21
189
➢建立检验假设,确立检验水准:
❖ H0:儿童和成人急性白血病患者血型总体分布相同 ❖ H1:总体分布不同
❖ 检验水准=0.05
行:医院hospital 列:性别sex
SPSS软件结果
treat * effect Crosstabulation
Count
effect
treat
愈合
洛 塞克
64
雷 尼替 丁
51
未 愈合 21 33
Total
115
54
Total 85 84
169
Chi-Square Tests
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章 χ2检验—计数数据的分析方



一、 χ2 检验的意义 二、 χ2 检验的基本公式 三、配合度检验 四、独立性检验 五、品质相关
χ2检验的意义


1、χ2检验方法能同时检验一个因素两 项或多项分类的实际观察数与某理论次 数分布是否相一致的问题,或说有无显 著差异的问题。 2、χ2检验方法还能用于检验两个或两 个以上因素各有多项分类之间是否有关 联或是否具有独立性的问题。
实际频 数(f0) (6) 0 4 9 10 22 33 20 11 6 4 1 0 120
f0-fe (7)
(f0-fe)2 (8)
(f0fe)2/fe (9)
13
1.792 -4.568 -0.380 7.920 -1.684 -3.460
3.211 20.867 0.144 62.726 2.836 11.972

Yates连续性校正公式:
2
( f o f e 0.5) 2 fe
配合度检验的应用举例(一) ——检验无差假说

随机抽取60名学生,问他们高中要不要文理分科,回 答赞成的39人,反对的21人,问对分科的意见能否说 有显著差异?
2 2 2 ( f f ) ( 39 30 ) ( 21 30 ) 2 0 e 5.4 fe 30 30
51
155 49
260

χ2=76.99
返回
五、品质相关


两个变量都是按质划分成几种类别,表示这两个变量之间的关 系称为品质相关。 1、四分相关 180o
(适用于两个变量都是连续变量, 且每一个变量都被认为地划分为两种类型。)
rt cos( ) 1 ad bc


2、Φ相关
(适用于两个变量都是真正的二分变量)
——四格表(2×2)独立性检验之二

(二)相关样本 例:对100名学生先后测验两次,结果整理成下表:
测验一 测 验 二 对


错 5
对 55


25
15

问:两次测验结果在对错上差异是否显著?
理论次数小于5时,四格表2的近似校正


(1)独立的四格表:
2 =N(AD-BC-N/2)2/(A+B)(C+D)(A+C)(B+D)
2 2 2 2 X X X X 1 2 K

其自由度为 即χ2分布具有可加性。

df df1 df2 dfk
4、 χ2分布的平均值和方差: 如果df>2,这时χ2分布的平均数:μχ2 =df 方差:σ2χ2 =2df 5、 χ2分布是连续型分布,但有些离散型的分布也近似χ2分布(χ2检验就是 利用这一特点而来。) 返回

2
( f0 fe ) (16 8) (24 34) (10 8) 11.44 fe 8 34 8
2 2 2
2
配合度检验的应用举例(四) ——检验假设分布的概率

某校长的经验:高中生升学的男女比例为2:1, 今年的升学情况是男生85人,女生35人,问今年 升学的男女生比例是否符合该校长的经验?
ad bc r (a b)(a c)(b d )(c d )

3、列联相关
(当数据属于R×C表的计数资料, 欲分析二因素之间的相关程度,就要用列联相关)
2 C N 2
n i 1 2 i
n
2
2
i 1
2 i
n
2
2
i 1
2
返回
2 χ 分布的表达式

1、若正态总体的平均数已知,则 2
( X )
2
2

或 n 2 2 此时自由度为n。 X i 1 2、若正态总体的平均数未知 ,则用样本平均数作为 2 2 2 ( X X ) nS ( n 1 ) S n 1 总体平均数的估计值: 2 2n 2 2 此时自由度为n-1。
返回
三、 χ2分布表的编制与使用

χ2分布表是根据χ2分布函数计算出来的, χ2分布曲线下的面积都是1。 但随自由度不同,同一χ2值以下或以上所含面积与总面积之比率不同。 故一般χ2表,要列出自由度、及某一χ2值以上χ2分布曲线下的概率。 见卡方值表。 卡方值表:表的左列为自由度,表的最上一行是概率值,即不同自由度 时,某χ2以上的概率。表中所列为不同自由度及概率下的χ2值。例如: 当df=1时,在χ2=0.02以上的概率为90%,那么在其以下的概率为 1-0.90=0.10。它的意思是从一个正态分布总体中,每次随机抽取容量为 1(μ已知)或容量为2(μ未知)的样本,计算Z2或∑Z2,这无限多个Z2 的分布即为χ2分布。其χ2值有90%的可能(或90%的样本)比0.02大,同 时有10%的可能比0.02小。 χ2分布的应用:

二、

2 χ 分布的特点
1、 χ2分布是一个正偏态分布。随自由度的不同,其分布曲线的形状不同,自 由度越小,分布越偏斜,自由度很大时,接近正态分布。当df ∞时, χ2 分布即为正态分布。可见, χ2分布是一族分布,正态分布是其中一特例。 2、 χ2值都是正值。 3、 χ2分布的和也是χ2分布



例:今随机抽取90人,按男女不同性别进行分类,将学生成绩分为中等 以上及中等以下两类。结果如下表。问男女生在学业水平上是否有关联? 学业水平因素 性 中等以上 中等以下 别 男 23 17 因 女 28 22 素
独立性检验的应用举例(三)
——四格表独立性检验之二:相关样本四格表2 检验
2 2 2 ( f f ) ( 85 80 ) ( 35 40 ) 2 0 e 0.9375 fe 80 40
配合度检验的应用举例(五) ——连续变量分布的吻合性检验(139.9;7.5)
分数 (1) -∞ 122126130134138142146150154158+∞ 总和 各组限 的Z值 (2) -∞ -2.39 -1.85 -1.32 -0.79 -0.25 0.28 0.81 1.35 1.88 2.41-2.95) +∞ 平均值 至各组 限间的 面积(3) 0.5000 0.4916 0.4678 0.4066 0.2852 0.0987 0.1103 0.2910 0.4115 0.4699 0.4920
关于 χ2分布

一、 χ2分布的直观意义 二、 χ2分布的特点 三、 χ2分布表的编制与使用
一、 χ2分布的直观意义


从一个服从正态分布的总体中,每次随机抽取 容量为n的样本,将n个随机变量X1,X2,……Xn 分别平方,即可得到X12,X22,……Xn2,然后计 算 X ,这样可抽取无限多个容量为n的样 本,可求得无限多个 X ,也可计算其标准分 X Z ( ) 数及其平方 及n个标准分数的平方 ( X ) Z 和 ,那么,这无限多个n个随机 变量X的平方和或标准分数的平方和的分布,就 是 χ2分布。 χ2分布的表达式
配合度检验的应用举例(二)


某项民意测验,答案有同意、不置可否、不同意三种,调查 结果如下表: 同意 不置可否 不同意 24人 12人 12人 问:三种意见的人数是否有显著不同?
( f 0 f e ) 2 (24 16) 2 (12 16) 2 (12 16) 2 6.0 fe 16 16 16



关于配合度检验

一、它主要用于实际观察次数与某理论次数是否有差 别的分析。它适用于一个因素多项分类的计数资料。 二、配合度检验的一般问题:(1)统计假设:Ho:fo=fe H1: fo≠fe (2)应用基本公式计算χ2值,若计算的χ 2值大于表中 的χ 20.05或χ 20.01值,就拒绝Ho ,推论fo与fe之间 差异显著。若χ 2值小于χ 20.05或χ 20.01值 ,则接受 Ho ,认为fo与fe之间差异不显著。
0.286 1.432 0.006 2.501 0.131 0.828
11
0.380
0.144
0.014
0.5000
χ2 = 5.198
独立性检验的应用举例(一)


某校对学生的课外活动内容进行调查,结果整理成下表:问 性别与课外活动内容的选择是否有关? 体育 文娱 阅读 男生 21 11 23 女生 6 7 29
χ2检验的基本公式
( f0 fe ) fe
2

2
式中fo为实际观察次数,即实计数; fe为理论次数
χ2检验的基本公式


根据1899年统计学家皮尔逊推导的配合适度的理论公 式,即:实际观察次数(fo)与某理论次数(fe,又称 期望次数)之差的平方再除以理论次数乃是一个与χ2 分布非常近似的次数分布。 当fe越大(fe>=5),接近的越好。Fo与fe相差越大, χ2越大。F 与f 相差的越小, χ2值也小。因此,它能 o e 够用来表示fo与fe相差的程度,同时,它也具备与χ2 分布相同的一些特点:fo与fe之差的平方再除以fe的值, 随自由度而变化,变化的趋势与χ2分布一样。

21(15.3) 11(10.2) 23(29.5) 6(11.7) 7(7.8) 29(22.5)
55

42
独立性检验的应用举例(二) ——四格表(2×2)独立性检验之一



(一)独立样本的四格表 公式:2=N(AD-BC)2/(A+B)(C+D)(A+C)(B+D)
df=1
相关文档
最新文档