卡方检验 (1)讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
50-59 岁男性工人与农民高血压患病比较
患高血压人数 未患人数
合计
首钢工人
386
石景山区农民
65
合计
451
895 322 1217
1281 387 1668
解:
① 建立检验假设
H0:π1 =π2 (工人与农民的总体患病率相同) =0.05
② 估计总体某现象的发生或存在的概率,假定高血压的 发生和这两种工种众彼此独立无关,因此,这两组资 料是一总体中的两个随机样本,估计
若 X1 2
X2 2 , 且 X1 与 X2 独立,
则(X1+X2) 2
检验的基本思想
以两样本率比较的检验为例,介绍 2 检验的基本思 想。 分布是一种连续型分布 2分布的形状依赖于自由 度的大2 小,
当自由度≤2时,曲线呈L型;随着的增加,曲线逐渐 趋于对称; 当自由度→∞时, 2 分布趋向正态分布。 2 分布的具 有可加性。
布。即:Z2 =2 (1) 在定理中令n=1 即得此推论。
二、2分布的性质
1、2 分布的概率密度函数f(2 ,)的图形见下图。
特点: (1) 自由度 越大,曲线越趋近于对称; (2) 当自由度,2 分布趋向正态分布。
2、若 2 ,则 E(X)= , Var(X)=2
3、2 分布具有可加性。
自由度=(行数-1)(列数-1)
(1) 四格表 2 检验
2χ2 表的计算 (1) 当n40, Tij 5的条件下 可用下列简化公式
2
a
n(ad
bc d
bc)2
a cb
d
,
1
例1
工农业高血压患病率的比较(50岁以上男性), 首钢调查50-59岁男性工人1281人、高血压患者386 人,患病率为30.13%。石景山区农民387人,血压 血患者65人,患病率为16.80%,从事工农业生产的
第六章 2 检 验
一、2分布的定义
2分布是从正态分布派生出来的一个连续型分布,与正
态分布和t分布关系密切。下面的定理清楚地表明了其间的关
系。
定理1: 设Z1,…., Zn 是n 个独立的标准正态变量N(0 1),
则其平方和
Z
2 1
Z
2 n
2 (n)
服从自由度为n的2 分布。 推论1: 标准正态变量Z的平方服从自由度为1的2 分
式中TRC为第R(row)行、第C(column)列的理论频 数,nR为相应行的合计,nc为相应列的合计,n为总例数.
基本公式(亦称Pearson 2 )
R C
O T 2
ij
2 ij
i1 j 1
T ij
2 (A T )2
T
2 值反映了实际频数与理论频数的吻合程度,其中 (A T)2 反映了某个格子实际频数与理论频数的吻合程
故 吸烟者同时患有肺癌的概率为: P(A1 B1)= P(A1) P(B1/ A1)
公式 P(A1 B1)= P(A1) P(B1)=(a+b)/n×(a+c)/n
故在前述独立性假设检验的前提下,与观察频数a对应 的理论频数为:
T 11
nP A1 B1
(a
b)
n
(a
c)
TRC
nR .nC n
完全随机设计两样本率比较的四格表
处理
属性
合计
阳性
阴性
1
A11(T11)
A12(T12)
n1(固定值)
2
A21(T21)
A22(T22)
n2(固定值)
合计
m1
m2
n
有时为方便用a、b、c、d分别为四格表中四个实际频
数
A11、A12、A21、A22
1.独立性假设与理论频数计算
在对22表作统计处理之前,通常都有一个笼统的检 验假设,即属性A与B 相互独立。为便于理解这个独立性假 设,不妨给上表赋予实际内容。以研究吸烟与肺癌的关系 为例,设
A 代表“吸烟与否”, A1=“吸烟”, A2=“不吸烟”, B 代表“患肺癌与否”,B1=“患肺癌”, B2=“未患肺 癌”。 于是,A与B 相互独立,就意味着吸烟与肺癌无关联。
吸烟与不吸烟患者患肺癌的概率应当相等,
即 P(B1/A1)= P(B1/A2)=P(B1)=a+c/n
而 吸烟者出现的概率 P(A1)= a+b/n, 不吸烟者出现的概率 P(A2)= c+d/n,
1217
1217 1668
④ 计算检验统计量 2 值
2 386 346.42 895 934.62 65 104.62 322 282.42
346.4
934.6
104.6
282.4
4.527 1.678 14.992 5.553 26.750
T
度。若检验假设H0 成立,实际频数与理论频数的差值小, 则 2 值也会小;反之,若检验假设不成立,实际频数与理 论频数的差值会大,则 2值也会大。 2值的大小还取决于 个数的多少(严格地说是自由度的大小)。
K.Pearson (1899)提出的拟合优度检验是用来检验 实际观察数于依照某种假设或模型计算出来的理论数之 间的一致性,以便判断该假设或模型是否与观察数相配 合。
总体患病率= 451/1668 =0.2704 未患率= 1217/1668=0.7296
50-59 岁男性工人与农民高血压患病比较
首钢工人 石景山区农民
患高血压人数
观察数
理论数
386
346.4
65
104.6
合计
451
451
患高血压人数 合 计
观察数 理论数
895
934.6 1281
322
282.4 387
包括两种类型:
1、检验观察数与理论数之间的一致性。
2、通过检验观测数与理论数之间的一致性来判断 事物之间的独立性。
Pearson 拟合优度(goodness of fit test )2 检验
由于各 2 皆是正值,故自由度愈大, 2值也会愈大;
所以只有考虑了自由度的影响, 2值才能正确地反映实
际频数和理论频数的吻合程度。 2检验时,要根据自由
度查界值表。当
wk.baidu.com2≥
2 ,
时,p
0.05
拒绝
H0
,接受 H1 ;
当
2≤
2 ,
,p
0.05
时,尚没有理由拒H绝0
。
自由度
检验的自由度取决于可以自由取值的格子数目, 而不是样本含量n。四格表资料只有两行两列,自由 度(df)=1,即在周边合计数固定的情况下,4个基本 数据当中只有一个可以自由取值.