卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
了自由度ν的影响, 值2 才能正确地反映实际频数A和理论频
数T 的吻合程度。
检 2验的自由度取决于可以自由取值的格子 数目,而不是样本含量n。四格表资料只有
两行两列,=1,即在周边合计数固定的情
况下,4个基本数据当中只有一个可以自由
取值。
样本率与总体率比较
例: • 全国高血压病调查结果:城市人口高血
压病患病率19.6%; • 某调查获得有高血压病家族史者358人,
其中高血压病者127人(P=35.47%) 问:有高血压病家族史者患病率是否高于
一般人群?
实际(A) 理论(T)
+
-
合计
127
231 358
70.168 287.832 358
Chi-Square =57.252
第一节 2× 2表 2 检验
如果 2值很大,即相对应的P 值很小,若 P ,则反过来
推断A与T相差太大,超出了抽样误差允许的范围,从而怀 疑H0的正确性,继而拒绝H0,接受其对立假设H1,即 π1≠π2 。
由公式还可以看出: 2值的大小还取决于(A T )2
个数的多少(严格地说是自由度ν的大Hale Waihona Puke Baidu)。由于各
(
A
T T
)2
T
皆是正值,故自由度ν愈大, 2 值也会愈大;所以只有考虑
SAS软件实现)。
关联性分析
• 2 ×2表的关联
关联性分析
• 配对四格表的关联
关联性分析
• 行×列表的关联
R × C表资料Chi-Square检验 应注意的问题
• 应用条件; • 多重比较问题 • 关联性分析问题 • 其他
– 双向无序资料的分析 – 单向有序资料的分析 – 双向有序、属性不同资料的分析 – 双向有序、属性相同资料的分析
1 7.0072 0.0081
Mantel-Haenszel ChiSquare
1 8.2795 0.0040
Phi Coefficient
-0.3464
Contingency Coefficient
0.3273
Cramer's V
-0.3464
Fisher's Exact Test Cell (1,1) Frequency (F) 20
2 检验
推断: 两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 两个分类变量之间有无关联性 频数分布拟合优度的检验
2 检验的基本思想
处理组 发生数 未发生数 合计
甲
a
b
a+b
乙
c
d
c+d
合 计 a+c b+d
n
四格表资料的基本形式
基本思想:可通过 2 检验的基本公式
来理解。
四格表资料的确切概率法
p (a b)!(c d)!(a c)!(b d)! a!b!c!d!n!
连续性校正。
四格表资料 2 检验公式选择条件:
n 40, T 5,不校正的理论或专用
公式;
n 40, 1 T 5,校正公式
n 40 或 T 1,直接计算概率。
2 连续性校正仅用于 1 的四格表资料,当 2
时,一般不作校正。
四格表资料检验的校正公式
2 c
( A T 0.5)2 T
多个样本率的比较
两组构成比的比较
多个样本率间的多重比较
• Bonferroni法 基本思想:为保证犯第I类错误的概率总和
不超过ALPHA,调整每一两两比较的检 验水准
R ×C表 2 检验的条件
1.行列表中的各格T≥1,并且1≤T< 5的格子数不宜超过1/5格子总数,否
则可能产生偏性。处理方法有三种:
第二节
R ×C表 2 检验
行×列表资料
① 多个样本率比较时,有R行2列,称为R ×2表; ② 两个样本的构成比比较时,有2行C列,称
2×C表; ③ 多个样本的构成比比较,以及双向无序分类资
料关联性检验时,有行列,称为R ×C表。
检验统计量
2 n(
A2 1)
nR nC
(行数 1)(列数 1)
➢ 增大样本含量以达到增大理论频数
的目的,属首选方法,只是有些研究无 法增大样本含量
➢根据专业知识,删去理论频数太小的行或列,或
将理论频数太小的行或列与性质相近的邻行或邻列 合并。这样做会损失信息及损害样本的随机性。
注意:不同年龄组可以合并,但不同血型就不能合
并。
➢改用双向无序R×C表的Fisher确切概率法(可用
目的:推断两个总体率(构成比)是 否有差别 (和u检验等价)
资料:两样本的两分类个体数排列成四 格表资料
四格表资料检验的专用公式
2
(ad bc)2n
(ab)(ac)(bd)(cd)
2 分布是一连续型分布,而四格
表资料属离散型分布,由此计算得的 统计量的抽样分布亦呈离散性质。为
改善 2统计量分布的连续性,则进行
0.3399
Cramer's V
-0.3614
WARNING: 50% of the cells have expected counts less than 5. Chi-Square may not be a valid test.
Fisher's Exact Test Cell (1,1) Frequency (F) Left-sided Pr <= F Right-sided Pr >= F
Left-sided Pr <= F
0.0035
Right-sided Pr >= F 0.9994
Table Probability (P) Two-sided Pr <= P
0.0029 0.0054
• P69:例8.2
Statistic
D F Value Prob
Chi-Square
1 5.4857 0.0192
2 (AT)2 , (行数-1)(列数1)
T
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
检验统计量: 2反映了实际频数与理论频数
的吻合程度。
论频若数检T 相验差假不设应H0该:π很1=π大2成,立即,统四计个量格子不的2应实该际很频大数。A 与理
Likelihood Ratio Chi-Square 1 5.1881 0.0227
Continuity Adj. Chi-Square 1 3.6214 0.0570
Mantel-Haenszel Chi-Square 1 5.3551 0.0207
Phi Coefficient
-0.3614
Contingency Coefficient
合计
a+b c+d n
P71:例8.4 :
检验统计量为
2 (b c)2 , 1
bc
2 c
( b c 1)2
bc
,
=1
注意:
本法一般用于样本含量不太大的资料。因 为它仅考虑了两法结果不一致的两种情况(b, c), 而未考虑样本含量n和两法结果一致的两种情况 (a, d)。所以,当n很大且a与d的数值很大(即 两法的一致率较高),b与c的数值相对较小时, 即便是检验结果有统计学意义,其实际意义往 往也不大。
(| ad - bc | - n)2 n
c2
=
(a
+ b)(c
+
d )(a
2 + c)(b+
d
)
SAS结果
Statistic
DF Value Prob
Chi-Square
1 8.3995 0.0038
Likelihood Ratio ChiSquare
1 8.8838 0.0029
Continuity Adj. ChiSquare
2 0.0313 0.9968
Table Probability (P) Two-sided Pr <= P
0.0281 0.0313
两相关样本率检验(McNemar检验)
配对四格表资料的 2检验
甲
乙
1
+
+
a
2
+
-
b
3
-
+
c
…
N
-
-
d
甲法
+ - 合计
两种方法检验结果
乙法
+
-
a
b
c
d
a+c
b+d