无序分类资料的统计推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对例1用四格表专用公式计算。
式中a,b,c,d分别为四格表的四个实际数,总 例数n= a+b+c+d。
表 2 某山区小学男生和女生的肺吸虫感染率
性别
感染人数
未感染人数
合计
男生 女生
23(a) 13(c)
57(b) 72(d)
80(a+b) 85(c+d)
合计
36(a+c)
129(b+d)
165(n)
无序分类资料的统计分析
【教学内容】
第一节 χ2 分布和拟合优度检验 第二节 四格表资料的χ2检验
第三节 行×列表资料的χ2检验
【教学目的和要求】
✓ ①了解四格表的概念及四格表中4个基本数据的 含义;了解配对四格表的概念以及配对四格表 与一般四格表在设计上的不同。
✓ ②熟悉χ2检验的基本思想。 ✓ ③掌握四格表资料χ2检验的基本公式及各公式的
Likelihoo d Ratio
4.411
Fisher's Exact Test
Lin e ar-b y-Lin e ar Associat ion
4.348
Asymp. Sig. Exact Sig. Exact Sig.
df
(2 -sided) (2 -sided) (1 -sided)
1
.036
步骤: 建立假设,确定检验水准
计算检验统计量
P≤α
确定p值 作推断结论
P>α
拒绝H0,接受H1
不拒绝H0
公式 实际频数
理论频数
2 (AT)2(T5)
T
校正 2 公 (A 式 T T 0.5 )2(T5 )
根据某地区的血型普查结果可知,该地区 人群中血型为O 的占30%,血型为A 的占 25%,血型为B 的占35%,血型为AB 的 占10%。研究者在邻近该地区的一个山区 人群中进行一个血型的流行病调查,在该 山区人群中随机抽样调查了200 人,检测 这些对象的血型,问该山区人群与这个地 区人群的血型分布是否一致?
根据专用公式求χ2值
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(23 72 5713)2 165 80 85 36129
4.37
结果与基本公式相同
[ 电脑实验 ]
例1 数 据 录 入
SPSS运算过程
此步骤的目的是 对频数进行加权
SPSS运算过程
SPSS结果输出
1
.057
1
.036
.040
.028
1
.037
N of Valid Cases
165
a. Comput ed only for a 2x2 t able
1.建立检验假设,确定检验水准
H0 :该山区人群与这个地区人群的血型分布是一致的 H1 :该山区人群与这个地区人群的血型分布不一致 α=0.05
2.求出H0为真时各组的理论频数
3.计算χ2统计量及自由度 ν=4-1=3
表8 Χ2界值表(部分)
第二节 四格表资料的χ2检验
[ 典型案例 ]
例1 在某山区小学随机抽取男生80人,其 中肺吸虫感染23人;随机抽取女生85人, 其中肺吸虫感染13人。问该山区小学男生 和女生的肺吸虫感染率有无差别?
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
80
13(18.55) 72(66.45)
2 (AT)2 T
(2317 .45 )2(5762 .55 )2(1318 .55 )2(7266 .45 )2
17 .45
源自文库
62 .55
18 .55
66 .45
4.38
表10 Χ2界值表(部分)
υ=1,查附表10,χ2界值表得:P<0.05。按 α=0.05水准拒绝H0,接受H1,可认为该山区 小学男生和女生的肺吸虫感染率不等,男生 高于女生。
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
[ 案例分析 ]
✓ 资料类型:四格表资料(定性资料) ✓ 设计类型:两样本率的比较,目的是推
断两样本所来自的总体率是否相等,即 π1= π2 。 ✓ 分析方法:两样本率比较χ2检验
一、χ2检验的基本思想
1、 实际频数(actual frequency)。 2、 两个样本率不相同的原因有两种可能:
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
二、拟和优度检验
概念:根据样本的频率分布检验其 总体分布是否等于某给定的理论分 布或检验一个因素多项分类的实际 观察数与某理论频数是否有差别。
80
13(18.55) 72(66.45)
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
图2 x2分布的临界值示意图
二、四格表资料的χ2检验的基本步骤
H0: π1=π2 H1: π1≠π2 α=0.05
n=165>40,最小理论值为T11=(80×36)/165=17.45>5
一种是抽样误差所致;另一种是总体率确 有所不同。 3、 通过假设检验对两种原因进行判断:为 了判别这两种情况,先作出“无效假设”, 即假设这两个率相同,差别仅是抽样误差 所致。
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
性 别 * 感 染 状 况 Crosst abu lat io n
Co unt
性别 1 2
T otal
感 染状 况
1
2
23
57
13
72
36
12 9
T otal 80 85
16 5
Ch i-Sq uare Tests
V alu e Pearson Chi-Square 4.374b Cont inuity Correcation 3.621
适用条件;配对四格表检验的基本公式及各公 式的适用条件;掌握四格表的确切概率法的适 用条件。
一、χ2分布(chi-square distribution)
χ2分布是一种连续型随机变量的概率分布 如果Z服从标准正态分布,那么Z2服从自由
度为1的χ2分布 设有k个相互独立的标准正态分布随机变量
Z1,Z2,……Zν ,Z12+Z22 + ……+ Zν 2服 从自由度为ν的χ2分布