列联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
×
46 =
⇔ 500 · P(A) ∙ P(B) 44 ⇔ 500 · P(AB)
在原假设H 下,计算得到, (33 − 42) (160 − 168) (44 − 46) + +⋯ = 2.546 < 5.991 = χ 46 42 168 所以,证据不足以拒绝 H0,即仍然认为“文化程度”与“性别”无关。
H :P{X = i} = ,i = 1,2 ⋯ 6 H :至少有一个 i,使 P{X = i} ≠
H :F(x) = F (x) H :F(x) ≠ F (x)
(相当于检验多个比例是否相等,也相当于检验概率分布函数是否与预设相符) 随机投骰子 102 次,记录如下: 点数 出现的次数 1 19 2 16 3 20 4 15 5 14 6 18 合计 102
Y 相互独立)条件下,渐进地有1,
d K 2 R 1C 1 , n n1 , n2 nR
1 严格证明,请参考陈希孺的《高等数理统计》 ,这里,我们可以给出一个直觉上的证明。每个单元格的观察频数服从二项 分布,随着样本容量逐渐增大,每个二项分布趋于正态分布,进而做和后的统计量向卡方收敛。
K
i, j
f
ij
fije fije
e
2
,
i 1, R , j 1, C ,
fi f j n
R, C Z
其中, f ij 是 i 行 j 列的观测频数, fij fi
f j n
是相应的期望频数。可以证明,在 H0(变量 X 和
% (2)
Pearson chi‐square test:拟合性检验
注意,chi-square 比较的是观测与期望,而交叉表实质上是用两个分类变量 X(R)和 Y(C)做分类 得到 R*C 个类别,这可以写作: 类别 1 2 3 4 5 6 X 1 1 1 2 2 2 Y 1 2 3 1 2 3 观测频数 期望频数
e
有 f 10 和 f
14 10 14 ,差异仍然是 4,然而这个单元格对卡方统计量的贡献是
可能产生很大的卡方值,这样检验变得非常敏感(过敏)。 避免小期望频数的方法:(1)合并单元格,(2)或者单纯增加样本容量,(3)SPSS 还提供了一些修 正检验方法,如针对 2×2 表的 Fisher's exact test 和 Yates' corrected chi-square (continuity correction)、还有更 一般的 the likelihood-ratio chi-square、以及针对定序数据的 the linear-by-linear association test。
2
问题 1:随着样本容量逐渐增大,卡方最后不应该收敛到正态分布吗? 注意,这个卡方统计量的自由度 R 1 C 1 不依赖于样本容量 n,而其偏斜程度恰是受自由度控制 的,所以,单纯让样本容量增加很难调节分布的偏态,从而无法向正态分布逼近。
问题 2:对于此类渐进分布,它们随着样本容量变化而走在去往极限的路上,而我们的分析却基于那 个最终确定的极限值,这样合理吗? 事实上, 很多时候, 这些渐进分布很快就走到极限分布变得很稳定了 (大样本理论或渐进理论就是研究 这个的)。在这里,现实中只需要 fij 5 就可以有很好的近似(SPSS 在计算卡方统计量的时候会给出一个
页 5
所以,一个分类变量(或多个分类变量)也可以用 chi-square test,只是意义变了:两个变量是考察其 独立性,而一个(多个)变量是考察观测与期望之间的拟合性。 【例 1】某企业一周的产品不合格率如下表,请判断这五天的表现是否一个德行( 0.05 )?拒绝 H0
工作日 1 2 3 4 5 合计 不合格产品数 36 32 16 15 35 134 期望的不合格产品数 134*(1/5) 134*(1/5) 134*(1/5) 134*(1/5) 134*(1/5) 134 134*30% 134*25% 134*10% 134*10% 134*25% 134
e ,这为计算提供了简便的途径。 f 1 f 1
53
77
200
Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 7.463a 7.476 6.041 200 df 2 2 1 Asymp. Sig. (2-sided) .024 .024 .014
文化程度 性别 男 女 合计 44(46) 60(58) 104 36(42) 60(54) 96 140(132) 160(168) 300 220 280 500 高中及以上 初中 小学及以下 合计
注:括号里的数字是“期望频数”。
H0 : H1 :
“文化程度”与“性别”无关(独立) “文化程度”与“性别”有关(不独立)
页 2
由于 H0 条件下有, f ij f i j i f i j f i
f j n
fi f j n
f ije
所以,如果变量间的独立性越弱, j 作为 j i 的估计就越差, j 与 j i 二者差异越大自然
f
ij
fije 也就越大(这里我们考虑了相对差异),就越能拒绝原假设。
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 23.85.
注释告诉我们,期望频数小于等于 5 的格子不存在,最小的期望频数=23.85,说明独立性检验是恰当的。
页 4
此外,在 Excel 里输入=CHISQ.DIST.RT(7.463,2),得到 p 值是 0.024(这是“单侧检验”的判断结 果,双侧检验 p 值得乘以 2)。但它仍然被称之为双侧检验(看 H0)。 【练习】检验“文化程度”与“性别”是否有关?
以看作是 P Y j X i 的一个很好的估计。也即,在 H0 条件下有, j i j 如果性别与运动偏好无关,那么男生的运动偏好分布情况与女生应该是一致的,或者换句话说,运动 偏好的分布在男女生之间没有差异,比如,喜欢打乒乓球的比例 1 =男生中喜欢打乒乓球的比例 11 =女生 中喜欢打乒乓球的比例 1 2 ;再比如…(自己比如吧)。
页 3
【数值例子】
运动项目与性别的交叉列联表 频数类别 观测频数 男生1 期望频数 观测频数 女生2 期望频数 31.5 23.8 34.7 90.0 38.5 26 29.2 20 42.3 44 110.0 90 乒乓球1 44 羽毛球2 33 网球3 33 合计 110
合计 70 注释:1、期望频数可以不是整数。 2、期望频数的边际和=观测频数的边际和,比如
页 1
这样,问题(分类变量之间的相关性检验)等价地转化为一个假设检验问题,即,检验的原假设 H0 是:运动偏好(Y)与性别(X)独立(运动偏好不依赖于性别的改变而改变,即,运动偏好的分布状况 在男女之间是一样(没有差异))。这其实检验的是多个比例是否相等:
n1 11 1 2 1 n n H0: 21 2 2 2 2 n n3 31 3 2 3 n
11 1 2 1 R 1 21 2 2 2 R 2 更一般地有, C C2 CR C1
(或者,性别的分布不依赖于运动偏好的选择。)
为了构造统计量,我们将其换算成频数,比如,在 H0 条件下: 预期男生中喜欢打乒乓球的人数= f11 f111 f1 1 f1
e
注释,来说明 fij 5 的比例,相当于卡方适应性检验)。反过来,如果期望频数太小,那么独立性检验的
e
结果并不可靠。假设某单元格有 f 1 和 f
e
5 1 5 ,则这个单元格的卡方值等于
1
2
16 ;倘若某单元格
2
1.6 。什么结果 10 e 呢?同样的差异,期望频数小的单元格对卡方值的贡献大,倾向于拒绝 H0。或者, f 与 f 一个很小的差异
f j n
是相应的频率
回忆:变量 X 和 Y 相互独立 P Y j X i P Y j ,也就是说,Y 的取值不依赖于 X 的取 值,即, i 1, R ,条件概率 P Y j X i 不受任何影响。因此,在独立的条件下, P Y j 可
进一步有研究发现,产品不合格率可能与工人情绪有关,星期一情绪最不稳定(不合格率=不合格产品数/ 整周产品总数=30%),星期二和星期五次之(25%),星期三和星期四的不合格率为 10%,请根据上面的 抽样数据验证这个研究的结论( 0.05 )。不能,
Pearson chi‐square test(draft20140520 by WeJerry)
前文曾介绍过频数分布表,而列联表可以看作是两个频数分布表的交叉,所以也称为交叉表(cross tabulation)。显然,列联分析(contingency analysis)主要针对的是分类数据,而且相当于是用两个分类 变量将样本分类。换句话说,分类变量往往是通过列联表来反映变量(因素)间的联合分布的。 基本流程:通过卡方检验(独立性检验,SPSS—>Analyze—>Descriptive Statistics—>Crosstabs 勾选 ChiSquare)考察分类变量是否存在相关性。如果存在相关性,那么进一步,我们希望(1)度量这种相关性的 程度, (2)采用决策树(decision tree)或对应分析(correspondence analysis)将内在的相关关系可视化(决 策树可以某个分类变量),(3)建立 Log-linear model(解释单元格中的频数)或 logit model(解释某一个 分类变量)。 另一方面,卡方检验的思路还可以应用于(分类变量的)概率分布拟合,即拟合性检验 (SPSS—>Analyze—>Nonparametric Test 勾选 Chi-Square Test)。
Pearson chi‐square test:独立性检验
【从一个例子讲起】 目标:判断运动偏好(Y)与性别(X)是否相关
Y 乒乓球 男 X 女 合计 n 羽毛球 网球 合计
记号: f ij 是 i 行 j 列的频数, f j 和 f i 分别表示对列和行求和, ij
f ij n
和 j
e
f1 f1 f1 n n
预期女生中喜欢打乒乓球的人数= f 21 f 212 f 1 f 2
e
f1 f 2 f1 n n
…… 可见,期望频数反映的是行列互相不干扰条件下的情况(H0)。 实际男生中喜欢打乒乓球的人数= f11 f111 实际女生中喜欢打乒乓球的人数= f 21 f 212 …… 如果运动偏好与性别的独立性很弱, j 不能很好地估计 j i ,从而使这些预期频数与相应的实际观 测频数产生很大差距,就可以拒绝原假设。于是构造 Pearson chi-square 统计量,
在原假设H 下,各点数出现的期望频数均为 × 102 = 17次。由此计算得到, (16 − 17) (20 − 17) (15 − 17) (14 − 17) (18 − 17) (19 − 17) + + + + + 17 17 17 17 17 17 = 1.647 < 11.0705 = χ 证据不足以拒绝H 注释 1:
46 =
⇔ 500 · P(A) ∙ P(B) 44 ⇔ 500 · P(AB)
在原假设H 下,计算得到, (33 − 42) (160 − 168) (44 − 46) + +⋯ = 2.546 < 5.991 = χ 46 42 168 所以,证据不足以拒绝 H0,即仍然认为“文化程度”与“性别”无关。
H :P{X = i} = ,i = 1,2 ⋯ 6 H :至少有一个 i,使 P{X = i} ≠
H :F(x) = F (x) H :F(x) ≠ F (x)
(相当于检验多个比例是否相等,也相当于检验概率分布函数是否与预设相符) 随机投骰子 102 次,记录如下: 点数 出现的次数 1 19 2 16 3 20 4 15 5 14 6 18 合计 102
Y 相互独立)条件下,渐进地有1,
d K 2 R 1C 1 , n n1 , n2 nR
1 严格证明,请参考陈希孺的《高等数理统计》 ,这里,我们可以给出一个直觉上的证明。每个单元格的观察频数服从二项 分布,随着样本容量逐渐增大,每个二项分布趋于正态分布,进而做和后的统计量向卡方收敛。
K
i, j
f
ij
fije fije
e
2
,
i 1, R , j 1, C ,
fi f j n
R, C Z
其中, f ij 是 i 行 j 列的观测频数, fij fi
f j n
是相应的期望频数。可以证明,在 H0(变量 X 和
% (2)
Pearson chi‐square test:拟合性检验
注意,chi-square 比较的是观测与期望,而交叉表实质上是用两个分类变量 X(R)和 Y(C)做分类 得到 R*C 个类别,这可以写作: 类别 1 2 3 4 5 6 X 1 1 1 2 2 2 Y 1 2 3 1 2 3 观测频数 期望频数
e
有 f 10 和 f
14 10 14 ,差异仍然是 4,然而这个单元格对卡方统计量的贡献是
可能产生很大的卡方值,这样检验变得非常敏感(过敏)。 避免小期望频数的方法:(1)合并单元格,(2)或者单纯增加样本容量,(3)SPSS 还提供了一些修 正检验方法,如针对 2×2 表的 Fisher's exact test 和 Yates' corrected chi-square (continuity correction)、还有更 一般的 the likelihood-ratio chi-square、以及针对定序数据的 the linear-by-linear association test。
2
问题 1:随着样本容量逐渐增大,卡方最后不应该收敛到正态分布吗? 注意,这个卡方统计量的自由度 R 1 C 1 不依赖于样本容量 n,而其偏斜程度恰是受自由度控制 的,所以,单纯让样本容量增加很难调节分布的偏态,从而无法向正态分布逼近。
问题 2:对于此类渐进分布,它们随着样本容量变化而走在去往极限的路上,而我们的分析却基于那 个最终确定的极限值,这样合理吗? 事实上, 很多时候, 这些渐进分布很快就走到极限分布变得很稳定了 (大样本理论或渐进理论就是研究 这个的)。在这里,现实中只需要 fij 5 就可以有很好的近似(SPSS 在计算卡方统计量的时候会给出一个
页 5
所以,一个分类变量(或多个分类变量)也可以用 chi-square test,只是意义变了:两个变量是考察其 独立性,而一个(多个)变量是考察观测与期望之间的拟合性。 【例 1】某企业一周的产品不合格率如下表,请判断这五天的表现是否一个德行( 0.05 )?拒绝 H0
工作日 1 2 3 4 5 合计 不合格产品数 36 32 16 15 35 134 期望的不合格产品数 134*(1/5) 134*(1/5) 134*(1/5) 134*(1/5) 134*(1/5) 134 134*30% 134*25% 134*10% 134*10% 134*25% 134
e ,这为计算提供了简便的途径。 f 1 f 1
53
77
200
Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 7.463a 7.476 6.041 200 df 2 2 1 Asymp. Sig. (2-sided) .024 .024 .014
文化程度 性别 男 女 合计 44(46) 60(58) 104 36(42) 60(54) 96 140(132) 160(168) 300 220 280 500 高中及以上 初中 小学及以下 合计
注:括号里的数字是“期望频数”。
H0 : H1 :
“文化程度”与“性别”无关(独立) “文化程度”与“性别”有关(不独立)
页 2
由于 H0 条件下有, f ij f i j i f i j f i
f j n
fi f j n
f ije
所以,如果变量间的独立性越弱, j 作为 j i 的估计就越差, j 与 j i 二者差异越大自然
f
ij
fije 也就越大(这里我们考虑了相对差异),就越能拒绝原假设。
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 23.85.
注释告诉我们,期望频数小于等于 5 的格子不存在,最小的期望频数=23.85,说明独立性检验是恰当的。
页 4
此外,在 Excel 里输入=CHISQ.DIST.RT(7.463,2),得到 p 值是 0.024(这是“单侧检验”的判断结 果,双侧检验 p 值得乘以 2)。但它仍然被称之为双侧检验(看 H0)。 【练习】检验“文化程度”与“性别”是否有关?
以看作是 P Y j X i 的一个很好的估计。也即,在 H0 条件下有, j i j 如果性别与运动偏好无关,那么男生的运动偏好分布情况与女生应该是一致的,或者换句话说,运动 偏好的分布在男女生之间没有差异,比如,喜欢打乒乓球的比例 1 =男生中喜欢打乒乓球的比例 11 =女生 中喜欢打乒乓球的比例 1 2 ;再比如…(自己比如吧)。
页 3
【数值例子】
运动项目与性别的交叉列联表 频数类别 观测频数 男生1 期望频数 观测频数 女生2 期望频数 31.5 23.8 34.7 90.0 38.5 26 29.2 20 42.3 44 110.0 90 乒乓球1 44 羽毛球2 33 网球3 33 合计 110
合计 70 注释:1、期望频数可以不是整数。 2、期望频数的边际和=观测频数的边际和,比如
页 1
这样,问题(分类变量之间的相关性检验)等价地转化为一个假设检验问题,即,检验的原假设 H0 是:运动偏好(Y)与性别(X)独立(运动偏好不依赖于性别的改变而改变,即,运动偏好的分布状况 在男女之间是一样(没有差异))。这其实检验的是多个比例是否相等:
n1 11 1 2 1 n n H0: 21 2 2 2 2 n n3 31 3 2 3 n
11 1 2 1 R 1 21 2 2 2 R 2 更一般地有, C C2 CR C1
(或者,性别的分布不依赖于运动偏好的选择。)
为了构造统计量,我们将其换算成频数,比如,在 H0 条件下: 预期男生中喜欢打乒乓球的人数= f11 f111 f1 1 f1
e
注释,来说明 fij 5 的比例,相当于卡方适应性检验)。反过来,如果期望频数太小,那么独立性检验的
e
结果并不可靠。假设某单元格有 f 1 和 f
e
5 1 5 ,则这个单元格的卡方值等于
1
2
16 ;倘若某单元格
2
1.6 。什么结果 10 e 呢?同样的差异,期望频数小的单元格对卡方值的贡献大,倾向于拒绝 H0。或者, f 与 f 一个很小的差异
f j n
是相应的频率
回忆:变量 X 和 Y 相互独立 P Y j X i P Y j ,也就是说,Y 的取值不依赖于 X 的取 值,即, i 1, R ,条件概率 P Y j X i 不受任何影响。因此,在独立的条件下, P Y j 可
进一步有研究发现,产品不合格率可能与工人情绪有关,星期一情绪最不稳定(不合格率=不合格产品数/ 整周产品总数=30%),星期二和星期五次之(25%),星期三和星期四的不合格率为 10%,请根据上面的 抽样数据验证这个研究的结论( 0.05 )。不能,
Pearson chi‐square test(draft20140520 by WeJerry)
前文曾介绍过频数分布表,而列联表可以看作是两个频数分布表的交叉,所以也称为交叉表(cross tabulation)。显然,列联分析(contingency analysis)主要针对的是分类数据,而且相当于是用两个分类 变量将样本分类。换句话说,分类变量往往是通过列联表来反映变量(因素)间的联合分布的。 基本流程:通过卡方检验(独立性检验,SPSS—>Analyze—>Descriptive Statistics—>Crosstabs 勾选 ChiSquare)考察分类变量是否存在相关性。如果存在相关性,那么进一步,我们希望(1)度量这种相关性的 程度, (2)采用决策树(decision tree)或对应分析(correspondence analysis)将内在的相关关系可视化(决 策树可以某个分类变量),(3)建立 Log-linear model(解释单元格中的频数)或 logit model(解释某一个 分类变量)。 另一方面,卡方检验的思路还可以应用于(分类变量的)概率分布拟合,即拟合性检验 (SPSS—>Analyze—>Nonparametric Test 勾选 Chi-Square Test)。
Pearson chi‐square test:独立性检验
【从一个例子讲起】 目标:判断运动偏好(Y)与性别(X)是否相关
Y 乒乓球 男 X 女 合计 n 羽毛球 网球 合计
记号: f ij 是 i 行 j 列的频数, f j 和 f i 分别表示对列和行求和, ij
f ij n
和 j
e
f1 f1 f1 n n
预期女生中喜欢打乒乓球的人数= f 21 f 212 f 1 f 2
e
f1 f 2 f1 n n
…… 可见,期望频数反映的是行列互相不干扰条件下的情况(H0)。 实际男生中喜欢打乒乓球的人数= f11 f111 实际女生中喜欢打乒乓球的人数= f 21 f 212 …… 如果运动偏好与性别的独立性很弱, j 不能很好地估计 j i ,从而使这些预期频数与相应的实际观 测频数产生很大差距,就可以拒绝原假设。于是构造 Pearson chi-square 统计量,
在原假设H 下,各点数出现的期望频数均为 × 102 = 17次。由此计算得到, (16 − 17) (20 − 17) (15 − 17) (14 − 17) (18 − 17) (19 − 17) + + + + + 17 17 17 17 17 17 = 1.647 < 11.0705 = χ 证据不足以拒绝H 注释 1: