列联表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
列
联
表
中
的
卡
方
检
验
法
列联分析中的卡方检验法
变量分为定距变量、定序变量与定类变量。
对于定类变量,即分类数据的描述与分析,通常采用列联表的形式,列联表常用来对品质数据之间的相关程度进行测量。
卡方检验法以卡方统计量为基础,常用来对变量之间是否存在相关关系、相关关系的程度以及实验前后的拟合程度进行分析。
卡方分析法作为一种重要的假设检
验方法,对于指导实际工作具有重要的意义,被广泛用于调查科研及公司决策方面。
列联表与卡方分析方法的结合,使得问题分析更加简明、透彻。
卡方检验法常应用于拟合优度检验、独立性检验等,卡方统计量也常用来刻画列联相关系数,描述变量之间的相关程度。
一、关于卡方检验法的基本知识
卡方检验法依靠的是卡方统计量,卡方统计量的选择与计算则显得尤为重要。
一般情况下,对于r*s 列联表来说,x 2
=()∑∑
==-
r i s
j e
e
ij
f
f
f
11
2
^ 。
此时的卡方统计量
常用于列联表中,f ij
为所得样本的实际观测值,f e
为期望值(即两个变量在互
不相关的情况下的分布),n
f
f f j
i e ..*=。
f i .为f ij
所对应的第i 行的观测值总
和,f j .为f ij
所对应的第j 列的观测值总和,n 为样本容量。
由于是用连续性的
卡方分布来检验离散型的点计数据,所以期望值允许出现小数。
值得一提的是,在进行卡方检验时,有p 值检验法与临界值检验法两种。
P 值检验法多用在spss 软件分析中。
P 值即是所得的卡方统计量对应的右侧概率,以p 值与所给定的显著性水平ɑ相比较,若p>ɑ,卡方统计量落在了接受域内,即接受原假设,拒绝备择假设,反之则拒绝原假设。
临界值检验法是excel 分析中常用的方法,它在计算出了卡方统计量之后,利用所给定的显著性水平ɑ计算出其所对应的临界值,若x 2
>
x a 2
,则拒绝原假设,反之则接受原假设。
二、拟合优度检验
拟合优度检验是检验来自总体中的一类数据其分布是否与某种理论分布相一致的统计方法,常用检验多个比例是否相等,又称比例检验法、配合检验法。
1、单项表中的拟合优度检验
单向表是将实得的点计数据只按一种分类标准编制成的表,在采用单向表进行拟合优度检验时,要么是检验各类别理论频数相等,要么是检验各类别理论频数符合一定的比例。
卡方检验法的一般步骤:①提出原假设与备择假设;②选择合适的检验统计量并计算;③依据p 值检验法或临界值检验法进行统计决断
例1、 随机抽取60名名同学调查对高中文理分科的态度,结果发现,有39名同学赞成分科,有21名同学反对分科,请问同学们对分科的态度是否有显著性差异?
析:此题是检验各类别的频数是否存在显著差异 ①提出原假设:同学们对分科的态度无显著性差异 备择假设:同学们对分科的态度存在显著差异
②计算卡方统计量 由上表可知,x 2
=5.4 P (x 2
>5.4)= 0.02 df=1,在显著性水平为0.05的情况下x 2
05.0(1)=3.84
③统计决断
临界值检验法:由于3.84<5.4,卡方统计量落在了拒绝域内,可知同学们对分科的态度存在显著性差异。
P 值检验法:由上可知,p=0.02<0.05,所以拒绝原假设,可知同学们对分科的态度存在显著性差异。
例2、大学某系54位老年教师中,,健康状况属于好的有15人,中等的有23
人,差的有16人。
问该校老年教师健康状况好、中、差的人数比例是否为1:2:1? 析:此题是来检验各类别频数之比是否符合一定比例
提出原假设
H0:该校老年教师的健康状况好、中、差的人数比例为1:2:1 H1:该校老年教师的健康状况好、中、差的人数比例不为1:2:1 计算卡方统计量
x
2
=1.22 df=3-1=2
2(205
.0x
=5.99 p=0.54
统计决断
因为x 2
<)2(2
05.0x ,即卡方统计量落在了接受域内,所以接受原假设,认为该校老年教师的健康状况好中差的人数比例为1:2:1(临界值法)
因为p>0.05,所以卡方统计量也落在了接受域内,结论同上(p 值法)
例3、历届优秀学生干部中男女比例为2:8,今年优秀学生干部中有3个男生,7个女生,问今年优秀学生干部的性别比例是否与往年有显著差异?
态度 观察值
期望值
离差平方 离差平方/期望值 赞成 39 30 81 2.7 反对 21 30 81 2.7 总和
60
60 5.4
健康状况 实际值 期望值 离差平方 离差平方/期望值 好 15 13.5 2.25 0.17 中 23 27 16 0.59 差 16 13.5 6.25 0.46 合计 54 54 1.22
析:此题与第二题相仿,本题主要用于引出亚茨连续性矫正法。
亚茨连续性矫正法主要适用于自由度为1,且某一组的理论频数小于5的情况,其卡方统计量的计算为()
e
e f f f 2
02
5.0--∑
=χ,
f
为实验得到的观察值。
性别 观察值 期望值 离差绝对值 亚茨矫正 男 3 2 1 0.125 女 7 8 1 0.031 合计 10 10 0.156
H0:今年优秀学生干部的性别比例与往年无显著差异 H1:今年优秀学生干部的性别比例与往年存在显著差异
x
2
=0.156 )1(205.0x =3.84 所以x 2<)1(2
05.0x ,接受原假设,今年优秀学生干部的性
别比例与往年无显著差异。
注意事项:χ2统计量只是近似地服从连续型随机变量χ2分布。
在对次数资料进行χ2
检验利用连续型随机变量χ2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大,需要作连续性矫正。
2、双向表中的拟合优度检验
例4、为了提高市场占有率,A 公司和B 公司同时开展了广告宣传,A 公司的市场占有率为45%,B 公司的市场占有率为40%,其他公司的市场占有率为15%。
为了了解广告战之后A 、B 和其他公司的市场占有率是否发生了显著变化,随机抽取了200名消费者,其中102名表示愿意购买A 公司产品,82名准备购买B 公司产品,16名准备购买其他公司产品。
检查广告战前后各公司的市场占有率是否发生了显著变化。
(ɑ=0.05)
A 公司
B 公司 其他公司
广告前 90 80 30 广告后 102 82 16
H0:广告前后各公司的市场占有率无显著变化,即45.0=u A 4.0=u B 15.0=u C H1:广告前后各公司的市场占有率发生了显著的变化
x
2
=8.18 df=(2-1)(3-1)=2 )2(2
05.0x =5.99
因为5.99<8.18,所以卡方统计量落在了拒绝域内,即广告前后各公司的市场占有率发生了显著的变化。
三、独立性检验
1、检验列联表中的行变量与列变量之间是否独立
2、检验的步骤为
(1)提出假设
H 0:行变量与列变量独立 H 1:行变量与列变量不独立
(2)计算检验的统计量∑∑
==-=r i c
j ij
ij ij e e f 11
2
2)(χ 其中
e
ij
为期望频数
(3)进行决策
根据显著性水平α和自由度(r -1)(c -1)查出临界值χα2 若χ2≥χα2,拒绝H 0;若χ2<χα2,接受H 0
例5、为了调查大学生的兼职情况,某专业调查小组分别从水环学院、基础医学院、商学院中抽取了57、47、93名同学进行调查,结果如下
您是否做过兼职* 院系 交叉制表
院系 合计
商学院
基础医学院
水环学院
您是否做过兼职
没做过
计数 35 22 48 105 期望的计数
30.4 25.1 49.6 105.0 做过 计数 22 25 45 92 期望的计数
26.6 21.9 43.4 92.0 合计 计数 57 47 93 197 期望的计数
57.0
47.0
93.0
197.0
问各院系大学生的兼职情况是否一致(ɑ=0.05) 提出假设 H0:各院系大学生的兼职情况无显著差异 H1:各院系大学生的兼职情况存在显著差异 计算检验统计量
05.22
=x
Df=(2-1)(3-1)=2 p=0.3>0.05
99
.5)2(205
.0=x
统计决断 因为2.05<5.99,0.3>0.05,所以卡方统计量落在了接受域内。
即在显著性水平为0.05的条件下,可以认为各院系大学生的兼职情况无显著差异,即兼职情况和院系类别无关。
四、列联表中的相关测量
列联表变量的相关主要属于品质相关,列联表中的相关测量主要有 ϕ相关系数 C 相关系数 V 相关系数,相关系数主要是用来刻画变量之
间的相关程度
1、ϕ相关系数
ϕ=(a d -b c )/))()()((d b c a d c b a ++++
ϕ相关系数主要应用于2*2列联表,其绝对值不超过1 ϕ=0,无相关
0<|ϕ|≤0.3,属于弱相关 0.3<|ϕ|≤0.7,属于中度相关 0.7<|ϕ|<1,属于高度相关 |ϕ|=1,属于完全相关 ϕ=
n
x
2
,ϕ2
=n x 2
例6、丹麦人与法国人以同样的眼光看待陌生人吗?一次抽样调查中就“你热为大多数人可信呢?还是与陌生人相处要小心谨慎呢?”这一问题,获得数据如下表,问国籍与对陌生人态度的相关性
ϕ=(625*763-360*206)/(832*1123*985*969)=0.43
所以国籍与对陌生人的态度属于中度相关 2、C 系数(列联系数)
列联系数主要是用于大于2*2列联表,其计算公式如下
C=
n
x
x
+2
2
,其中卡方统计量的计算方法与文章前所述相同
例7、一种原料来自三个不同的地区,其质量被分成了三个等级,先从抽取500件进行检验,所得样本数据如下
一级 二级 三级 合计 地区1 52 64 24 140 地区2 60 59 52 171 地区3 50 65 74 189
C1 C2 合计 R1 a b a+b R2 c d c+d 合计
a+c
b+d
n
丹麦 法国 合计
信任 625 206 831 怀疑 360 763 1123 合计 985 969 1954
合计162 188 150 500 提出假设 H0:原料出处与其质量无关 H1:原料出处与其质量有关 选择卡方统计量进行计算
()82
.192
02
=-=∑
e
e f f f χ
195
.050082.1982
.1922=+=
+=
n
C χχ
统计推断 C 系数表明原料出处与其质量有关低度相关 3、V 系数
()12
-=
L n V χ 其主要适用于2*2列联表,0≤C ≤1 ,其中L 为列联表中行数
与列数较小者。
当L=2时,
ϕ=V
以例7为例,此时行列数均为3,故L=3
()
()141
.01350082
.1912
=-⨯=
-=
L n V χ
所以可以得知原料出处与原料质量等级低度相关
卡方检验法是列联分析中常用的方法,它既可用于拟合优度检验、独立性检验,检查变量之间是否符合一定比例,变量之间的相关关系,又可利用卡方统计量检验变量之间的相关程度,从而为决策者决策提供一定的依据。