第九章_列联表
第9章列联分析
e11
(a b)(b d ) e12 n
e22
(b d )(c d ) n
39
§4.1 φ相关系数
(a e11 ) 2 (b e12 ) 2 (c e21 ) 2 (d e22 ) 2 n(ad bc) 2 e11 e12 e21 e22 (a b)(c d )( a c)(b d )
H0
:1 2 3 4 =0.664 :1 , 2 , 3 , 4 不全相等
赞成比例一致 赞成比例不一致
H1
§2.2拟合优度检验
由
得:
( f0 fe )2 fe
2
2
f o f e 2
fe
3.0319
自由度=(R-1)(C-1) =(2-1)(4-1)= 3
2
( f0 fe )2 fe
2 当 0.05 ,自由度=(R-1)*(C-1)=(2-1)*(3-1)= 2时, 0.05,2
=5.99147, 2 2
,故拒绝原假设,可以认为广告战之后,各公司产
0.05,2
品市场占有率发生了显著变化。
27
§3 独立性检验
独立性检验(Test of Independence)
=0.1,查表可知: 2 0.1 3 6.251
22
§2.2拟合优度检验
图9-2
2 检验示意图
23
§2.2拟合优度检验
【例9.2】为了提高市场占有率,某行业两个最主要的 竞争对手,A公司和B公司同时开展了广告宣传。在广 告宣传战之前,A公司的市场占有率为45%,B公司的市 场占有率为40%,其他公司的市场占有率为15%。为了 了解广告战之后A、B和其他公司的市场占有率是否发 生变化,随机抽取了200名消费者,其中102人表示准 备购买A公司产品,82人表示准备购买B公司产品,另 外16人表示准备购买其他公司产品。以 0.05 的 显著性水平检验广告战前后各公司的市场占有率是否 发生了变化。
列联表公式
列联表公式摘要:1.列联表公式的定义与概念2.列联表公式的分类与应用3.列联表公式的计算方法与示例4.列联表公式的优缺点分析5.列联表公式在实际问题中的应用案例正文:一、列联表公式的定义与概念列联表公式,是一种用于解决计数问题中列联表的统计分析方法,它是由英国数学家皮尔逊(Karl Pearson)发明的,被称为皮尔逊相关系数公式,也称为皮尔逊积矩相关系数。
它是一种用于衡量两个分类变量之间相关性的统计方法,其主要用于分析两组数据之间的相关程度。
二、列联表公式的分类与应用列联表公式主要分为两大类,一类是四格表,主要用于分析两组分类变量之间的关系;另一类是n 格表,主要用于分析多组分类变量之间的关系。
在实际应用中,列联表公式被广泛应用于社会科学、生物统计学、医学研究等领域。
三、列联表公式的计算方法与示例列联表公式的计算方法是通过公式来计算相关系数,其公式为:r = (n(ad - bc)) / sqrt(n(ad - bc) + (a + b)(c + d)(a + c)(b + d))。
其中,a、b、c、d分别代表四格表中四个格子的频数,n 代表样本容量。
以一个例子来说明,假设有两个变量A 和B,其中A 有两种可能的取值(A1 和A2),B 也有两种可能的取值(B1 和B2)。
如果我们有如下的频数:A1B1=40,A1B2=20,A2B1=10,A2B2=30。
则,a=60,b=60,c=30,d=50,n=150。
代入公式,可以得到相关系数r 的值。
四、列联表公式的优缺点分析列联表公式的优点在于其能够直观地反映出两组分类变量之间的相关程度,且计算简便,易于理解。
然而,其缺点在于,它只能反映出两组变量之间的相关程度,对于多组变量之间的相关性分析,需要使用其他的统计方法。
第九章 列联分析
: pearsonχ2统计量
k (实际频 fri − 理论频 ft i ) 数 数 (n pi − npi )2 =∑ ~ χ2 ∑ 理 论频数 i ft npi i=1 i=1 k 2 ∧
其中, 为第 类的实 pi i 际频率 概 ), i为 i类 ( 率 p 第 的 ) 理论概 (又 率 称期望概率 。 在列联 分析中 ,其自由 = (行 −1)(列 −1)。 度 数 数
2 ∧ ∧
∧
∧
(n p1− np1) (−n p1+ np1)2 = + np1 n(1 − p1)
2
∧
∧
(n p1− np1) (1 − p1) + (np1 − n p1)2 p1 = np1(1 − p1)
2
∧
∧
(n p1− np1) (1 − p1) + (n p1− np1)2 p1 = np1(1 − p1)
2
∧
∧
(n p1− np1) n (p1− p1) (p1− p1)2 = = = np1(1 − p1) np1(1 − p1) p1(1 − p1) n
2 2 2
∧
∧
∧
p1− p1 2 2 =( ) ~ χ (1) p1(1 − p1) n
∧
既然这个χ2统计量是近似的,那么有没有精确的 统计量呢?有。这个检验称为Fisher精确检验;它不 是χ2分布,而是超几何分布。 当数目很大时,超几何分布计算相当缓慢(比近 似计算会差很多倍的时间);而且在计算机速度不快 时,根本无法计算。因此人们多用大样本近似的χ2 统 计量。
1、看看基本指标 > data=read.csv("概率论与数理统计课程成绩数 据.csv",head=TRUE) > attach(data);length(课程成绩);mean(课程成绩);sd(课程 成绩);range(课程成绩) );range( ) [1] 147 [1] 80.57143 [1] 12.61278 [1] 39 100 2、划分区间并计算实际频数 > 区间=quantile(课程成绩,prob=seq(0,1,0.1))#把课程成 绩分成等概率的10个区间 (即频数为147*0.1)
列联表
列联表中的卡方检验法列联分析中的卡方检验法变量分为定距变量、定序变量与定类变量。
对于定类变量,即分类数据的描述与分析,通常采用列联表的形式,列联表常用来对品质数据之间的相关程度进行测量。
卡方检验法以卡方统计量为基础,常用来对变量之间是否存在相关关系、相关关系的程度以及实验前后的拟合程度进行分析。
卡方分析法作为一种重要的假设检验方法,对于指导实际工作具有重要的意义,被广泛用于调查科研及公司决策方面。
列联表与卡方分析方法的结合,使得问题分析更加简明、透彻。
卡方检验法常应用于拟合优度检验、独立性检验等,卡方统计量也常用来刻画列联相关系数,描述变量之间的相关程度。
一、关于卡方检验法的基本知识卡方检验法依靠的是卡方统计量,卡方统计量的选择与计算则显得尤为重要。
一般情况下,对于r*s 列联表来说,x 2=()∑∑==-r i sj eeijfff112^ 。
此时的卡方统计量常用于列联表中,f ij为所得样本的实际观测值,f e为期望值(即两个变量在互不相关的情况下的分布),nff f ji e ..*=。
f i .为f ij所对应的第i 行的观测值总和,f j .为f ij所对应的第j 列的观测值总和,n 为样本容量。
由于是用连续性的卡方分布来检验离散型的点计数据,所以期望值允许出现小数。
值得一提的是,在进行卡方检验时,有p 值检验法与临界值检验法两种。
P 值检验法多用在spss 软件分析中。
P 值即是所得的卡方统计量对应的右侧概率,以p 值与所给定的显著性水平ɑ相比较,若p>ɑ,卡方统计量落在了接受域内,即接受原假设,拒绝备择假设,反之则拒绝原假设。
临界值检验法是excel 分析中常用的方法,它在计算出了卡方统计量之后,利用所给定的显著性水平ɑ计算出其所对应的临界值,若x 2>x a 2,则拒绝原假设,反之则接受原假设。
二、拟合优度检验拟合优度检验是检验来自总体中的一类数据其分布是否与某种理论分布相一致的统计方法,常用检验多个比例是否相等,又称比例检验法、配合检验法。
列联表
列联表定义敏感性:在金标准判断有病(阳性)人群中,检测出阳性的几率。
真阳性。
(检测出确实有病的能力)特异性:在金标准判断无病(阴性)人群中,检测出阴性的几率。
真阴性。
(检测出确实没病的能力)假阳性率:得到了阳性结果,但这个阳性结果是假的。
即在金标准判断无病(阴性)人群中,检测出为阳性的几率。
(没病,但却检测结果说有病),为误诊率。
假阴性率:得到了阴性结果,但这个阴性结果是假的。
即在金标准判断有病(阳性)人群中,检测出为阴性的几率。
(有病,但却检测结果说没病),为漏诊率。
计算方法Sensitivity and specificity:完整定义1.True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率;2.True Negative(真负, TN)被模型预测为负的负样本;可以称作判断为假的正确率;3.False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率;4.False Negative(假负, FN)被模型预测为负的正样本;可以称作漏报率;5.True Positive Rate(真正率, TPR)或灵敏度(sensitivity)TPR = TP/(TP + FN)正样本预测结果数/正样本实际数;6.True Negative Rate(真负率, TNR)或特指度(specificity)TNR = TN/(TN + FP)负样本预测结果数/负样本实际数;7.False Positive Rate (假正率, FPR)FPR = FP/(FP + TN)被预测为正的负样本结果数/负样本实际数;8.False Negative Rate(假负率, FNR)FNR = FN/(TP + FN)被预测为负的正样本结果数/正样本实际数假阳性率=假阳性人数÷金标准阴性人数即:假阳性率=b÷(b+d)公式为:假阳性率=b/(b+d)×100%(b:筛选为阳性,而标准分类为阴性的例数;d:阴性一致例数)假阴性率=假阴性人数÷金标准阳性人数即:β=c÷(a+c)。
第9章 列联表
系数
系数
以值为基础的相关测量
系数
C系数 V 系数
相关系数
1.
2. 3.
测度 22列联表中数据相关程度的一个量 对于22 列联表, 系数的值在0~1之间 相关系数计算公式为 2
n
2 (nij eij) r c 2 式中: i 1 j 1 e ij n为实际频数的总个数,即样本容量
3.
2
i 1 j 1
r
c
(nij eij ) 2 eij
其自由度为(r 1)(c 1) 式中:nij
— 列联表中第i行第j列类别的实际频数 eij — 列联表中第i行第j列类别的期望频数
检验
P279: 例2
使用 统计量检验列联表时, 需要注意的问题?
1. 对于2×2列联表,需要用修正的公式:
10/40 20/40 10/40
2/57 35/57 20/57
60/124
32/124 1
合计
1
1
1
一般只研究控制自变量x之后,因变量y的条件分布。
列联表中变量的相互独立性
列联表中变量的相互独立性
关于y的条件分布
老年
戏曲
y边缘分布
计算结果见表10-15(P275)
中年
青年Βιβλιοθήκη 合计32/12420/27
第三节 列联表中的相关测量
列联强度
列联表中的相关测量
1.
统计量检验只检验了列联表变量间是否存在 关系,而没有测量关系的强度 列联表中的相关测量就是检验变量间关系的强度 列联表相关测量的指标主要有
2. 3.
以值为基础的相关测量
第9章列联分析
传战之前,A公司的市场占有率为45%,B公司的市场占有
率为40%,其他公司的市场占有率为15%。为了了解广告
战之后A、B和其他公司的市场占有率是否发生变化,随
机抽取了200名消费者,其中102人表示准备购买A公司产
品,82人表示准备购买B公司产品,另外16人表示准备购
买其他公司产品。以
的显著性水平0检.05验广告
3
表9-1 关于改革方案的调查结果 单位:人
§1.1 列联表的构造
解释: 表中的行(Row)是态度变量,这里划分为两类:赞成改革方 案或反对改革方案; 表中的列(Column)是单位变量,这里划分为四类:即四个 分公司。 表中的每个数据,都反映着来自于态度和单位两个方面的信 息。 将横向变量(行)的划分类别视为R,纵向变量(列)的划分 类别视为C,则可以把每一个具体的列联表称为R×C列联表。
=5.99147,
2
2 0.05,2
,故拒绝原假设,可以认为广告战之后,各公司产
品市场占有率发生了显著变化。
27
§3 独立性检验
独立性检验(Test of Independence) 在研究问题时有时会遇到要求判断两个分类变量之间是否 存在联系的问题。在这种情况下可以使用 检验,判断
2
两组或多组的资料是否相互关联。如果不相互关联,就称 为独立。把这类问题的处理称为独立性检验(Test of Independence)。
• 2 值的大小与观察值和期望值的配对数,即R×C的多少有关。 R×C越多,在不改变分布的2 情况下, 值 越2 大,因此, 统计量的
分布与自由度有关;
• 2 统计量描述了观察值与期望值的接近程度。如果两者越接近, 2
即 fo - fe2的绝对值越小,计算出的 值越小;反之,如果 fo -
9、列联表分析
9 - 17
经济、管理类 基础课程
统计学
期望频数的分布(例子) 期望频数的分布(例子)
例如, 行和第1 例如,第1行和第1列的实际频数为 f11 ,它落在第1行 它落在第1 的概率估计值为该行的频数之和r 的概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n ;它落在第 1 列的概率的估计值为该列的频 即: r ;它落在第1 数之和c 数之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 即:c 乘法公式,该频数落在第1行和第1 乘法公式,该频数落在第1行和第1列的概率应为
28.3% 71.8% 18.8% 22.0% 28.2% 7.4%
合计 66.4% — — 33.6% — — 100%
反对该方案
22.7% 32.0% 7.6%
合计
9 - 16
23.8%
28.6%
21.4%
26.2%
经济、管理类 基础课程
统计学
期望频数的分布 期望频数的分布
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频 数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率, 和第j列的概率,即行边缘与列边缘相乘除 以总个案数( 以总个案数(是由两随机变量相互独立的 充要条件推出) 充要条件推出)
9 - 18
经济、管理类 基础课程
统计学
期望频数的分布
根据上述公式计算的前例的期望频数
一分公司 赞成该 方案 实际频数 期望频数 实际频数 期望频数 二分公司 三分公司 四分公司
68 66 32 34
75 80 45 40
9.4列联表与独立性检验课件高三数学一轮复习
【解】 (1)根据抽查数据,该市 100 天的空气中 PM2.5 浓度不超过 75,且 SO2 浓度 不超过 150 的天数为 32+18+6+8=64,因此,该市一天空气中 PM2.5 浓度不超过 75,
且 SO2 浓度不超过 150 的概率的估计值为16040=0.64.
易错易混 5.某医疗机构通过抽样调查(样本容量 n=1000),利用 2×2 列联表和 χ2 统计量研究 患肺病是否与吸烟有关.计算得 χ2=4.453,经查阅临界值表知 P(χ2≥3.841)≈0.05,现给 出四个结论,其中正确的是( C ) A.在 100 个吸烟的人中约有 95 个人患肺病 B.若某人吸烟,那么他有 95%的可能性患肺病 C.有 95%的把握认为“患肺病与吸烟有关” D.只有 5%的把握认为“患肺病与吸烟有关”
第九章 统计与成对数据的统计分析
第四节 列联表与独立性检验
课前双基巩固
——整合知识 夯实基础
『知识聚焦』 1.分类变量与列联表 (1)分类变量:变量的不同“值”表示个体所属的 类变量.
不同类别 ,像这样的变量称为分
(2)列联表:列出的两个分类变量的 频数表 ,称为列联表.假设有两个分类
变量 X 和 Y,X 表示相互对立的两个事件{X=0}和{X=1},Y 表示相互对立的两个事件
3.在一次独立性检验中得到如下列联表:
B
B1 B2 合计
A
A1
A2
200 800
180
a
380 800+a
合计
1000 180+a 1180+a
若这两个分类变量 A 和 B 没有关系,则 a 的值可能是( B )
A.200
统计学列联分析
(fij- eij)2 eij
0.0606
25 0.3125
9
0.1500
36 0.4932
4
0.1176
25 0.6250
9
0.3000
36 0.9730
合计:3.0319
拟合优度检验
拟合优度检验
(goodness of fit test)
1. 检验多个比例是否相等 2. 检验的步骤
– 提出假设
并随行数和列数的增大而增大 ▪ 根据不同行和列的列联表计算的列联系数不
便于比较-----局限性
V 相关系数
(V correlation coefficient)
1. 计算公式为
2. V 的取值范围是 0V1 3. V = 0表明列联表中的两个变量独立 4. V=1表明列联表中的两个变量完全相关 5. 不同行和列的列联表计算的列联系数不便于比较 6. 当列联表中有一维为2,min[(r-1),(c-1)]=1,此时
列联表的构造列联表的构造contingencytablecontingencytable由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表行变量的类别用行变量的类别用rr表示表示rrii表示第表示第ii个类别个类别列变量的类别用列变量的类别用cc表示表示ccjj表示第表示第jj个类别个类别每种组合的观察值用每种组合的观察值用ffijij表示表示也叫条件频数也叫条件频数表中列出了行变量和列变量的所有可能的组表中列出了行变量和列变量的所有可能的组合合所以称为列联表所以称为列联表一个一个rr行行cc列联表的结构列联表的结构合计合计jjff1111ff1212ff1111ff1212iiff2121ff2222ff2121ff2222合计合计ff1111ff2121ff1212ff2222nn列列ccjj行行rrii列联表的结构列联表的结构rrcc列联表的一般表示列联表的一般表示列列ccjj合计合计jjff1111ff1212rr11ff2121ff2222rr22合计合计cc11cc22列ccjj行行rriiij表示第i例题分析例题分析一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计1001001201209090110110420420例例一个集团公司在四个不同的地区设有分公司一个集团公司在四个不同的地区设有分公司现该集现该集团公司欲进行一项改革团公司欲进行一项改革此项改革可能涉及到各分公司的利此项改革可能涉及到各分公司的利益益故采用抽样调查方式故采用抽样调查方式从四个分公司共抽取从四个分公司共抽取420420个样本个样本单位单位人人了解职工对此项改革的看法了解职工对此项改革的看法调查结果如下表调查结果如下表列联表的分布列联表的分布观察值的分布期望值的分布观察值的分布观察值的分布例如四个分公司接受调查的人数分别为100人120人90人110人条件下变量x的分布每个具体的观察值称为条件频数观察值的分布观察值的分布图示图示一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计10010012
第九章_列联表
120(70)
10(35) 10(35)
30(67.50)
75(33.75) 30(33.75)
50(62.50)
15(31.25) 60(31.25)
200
100 100
合计
140
135
125
400
9.1 二维列联表的齐性和独立性的χ2检验
• 如果不同年龄组喜爱的节目一致,则在每一 年龄组中,喜欢A类节目者的比例都等于 140/400=0.35,将每一样本数乘以0.35,便 得出不同年龄组喜欢A类节目的预期频数。 于是有200*0.35=70,100*0.35=35,其余数 据可用类似的方法得出。 • 假设组为: • H0:就所喜欢的电视节目类型而言三个年龄 组是一致的; • H1:三个年龄组不一致。
居住区 1 2 3 合计
A 52(45.36) 60(55.4) 50(61.24) 162 汽车式样 B 64(52.64) 59(64.3) 65(71.06) 188 合计 C 24(42) 52(51.3) 74(56.7) 150
140 171 189 500
9.1 二维列联表的齐性和独立性的χ2检验 • 解:建立假设组: • Ho:成年人所驾驶的汽车式样与他们的居住区之 间彼此独立; • H1:两种分类准则彼此不独立。设显著性水平a为 0.05。 • 计算检验统计量:
第九章 列联表
contents
1 二维列联表的齐性和独立性的χ2检验
2
低维列联表的Fisher 精确检验
3
对数线性模型与高维列联表的独立性检验简介
9.1 二维列联表的齐性和独立性的χ2检验
• 一、交互分类和列联表 • 所谓交互分类(Cross Classification)是指对某一 样本同时按两个或两个以上标准进行的交叉分类。 • 所谓列联表(Contingency Table)就是交互分类后形 成的表格。如下表: • 妇女的志愿与其受教育水平的交互分类表
9.列联表
Y X 病人
+ - ++ +++ 3 16 0 5
正常人 11 10 5 18
正常人 10 11 18 5
多元统计和SAS第9讲
data a; input type $ effect $ num @@; cards; 0 - 11 1 ; proc freq order=data; weight num; table run;
多元统计和SAS第9讲
多元统计和SAS第9讲
列联表中常用度量
有效 新药 p11 旧药 合计 p21 p+1 无效 p12 p22 p+2 合计 p1+ p2+ 1
p11 p21 RD = − p1+ p2+ p11 / p1+ RR = p21 / p2+ p11 / p21 p11 p22 OR = = p12 / p22 p21 p12
多元统计和SAS第9讲
0 + 10 1 + 18
0 ++
3
0 +++ 0 1 +++ 5
5
1 ++ 16
type*effect/chisq cmh scores=rank;
关联方向
多元统计和SAS第9讲
CMH检验
行、列变量均为有序变量 非零相关统计量
行为无序变量 并且列为有序变量 行平均秩分差异统计量
列联表
多元统计和SAS第9讲
列联表的构成
患病 吸烟 不吸烟 合计 43 13 56 不患病 162 121 283 合计 225 134 339
n11 = 43 n1+ = 225 n+1 = 56
列联表名词解释
列联表名词解释
列联表(contingency table),又称交叉表或分组表,是一种将两个或多个变量的频数或百分比分组展示的统计表格形式。
列联表通常用于分析和展示两个或多个变量之间的关系和相互作用。
列联表的行和列分别代表不同的变量,表格中的每一个单元格记录了对应行和列的交叉组合的频数或百分比。
通过分析列联表,可以直观地比较不同组合的频数或百分比,从而了解不同变量的关联程度。
列联表在统计学和市场研究中被广泛使用,常用于探索和分析两个或多个变量之间的关系,例如性别和购买行为之间的关系、年龄和健康状况之间的关系等。
通过列联表的分析,可以帮助研究人员发现变量之间的相互作用,提供有针对性的信息,支持决策和推断。
总之,列联表是一种用于展示和分析两个或多个变量之间关系的统计表格形式,通过比较不同组合的频数或百分比,可以揭示变量之间的关联程度。
第九章 列联分析 _1
例9.1 某集团公司将进行一项改革,从所属的四个分公司中 随机抽取420名职工,了解他们对改革方案的态度(如表 9-1),以a=0.1的显著性水平检验四个分公司对改革方案 的看法是否存在差异
解: 如果不存在差异,四个分公司赞成改革方案、的比例 应该一致,于是原假设和备择假设分别为:
H0 :1 2 3 4 0.664 赞成比例一致 H1 :1, 2 , 3 , 4 不全相等,赞成比例不一致
2
( f0 fe )2 3.0319
fe
故不能拒绝原假设,
(R 1)(C 1) 3
即认为四个分公司
于是
对改革方案的赞成
比例是一致的。
2 0.1
(
3)
6.251
3.0319
例 为了提高市场占有率,某行业两个主要竞争对手A公司和B公司
9.2
同时开展了广告宣传。在广告宣传战之前,A公司市场占有率 为45% ,B公司四场占有率为40%,其他公司市场占有率为15
家庭状况与青少年犯罪百分表
犯罪%
51 49 75
家庭情况 未犯罪%
92 8 100
二、 2 分布的期望值准则
独立性检验时,要求样本量必须足够大,特别 是每个单元中的期望频数不能过小。如果是小 单元,则有两个准则:
1、如果只有两个单元,每个单元期望频数必须 是5或5以上;
2、如果是两个以上的单元,若有20%以上的单
四分公司
79 31 110
合计
279 141 420
三、列联表的分布
1、观察值的分布:表9-1
一分公司 二分公司 三分公司
赞成该方案 68
反对该方案 32
合计
100
75
列联表公式
列联表公式
【最新版】
目录
1.列联表的定义与作用
2.列联表的构成
3.列联表的计算公式
4.列联表的应用示例
正文
一、列联表的定义与作用
列联表,又称交叉频数表,是一种用于展示两组或多组数据之间关系的统计工具。
通过列联表,我们可以清晰地看到各组数据的频数分布情况,从而分析它们之间的联系和规律。
二、列联表的构成
列联表通常由四个部分组成,分别是:行标题、列标题、交叉频数和合计。
其中,行标题和列标题表示数据的分类项目,交叉频数是指在两个分类项目中同时出现的数据个数,合计则是指某一行或某一列的频数之和。
三、列联表的计算公式
列联表的计算公式主要包括以下两个方面:
1.交叉频数的计算公式:交叉频数 = 行频数×列频数 / 总频数
2.合计的计算公式:合计 = 行频数 + 列频数 - 交叉频数
四、列联表的应用示例
假设有一组关于某商场顾客购买行为的数据,我们可以通过列联表来分析顾客的购物习惯。
例如,我们可以将数据按照顾客的性别和购买的商品类别进行分类,然后计算各种情况下的交叉频数和合计。
通过分析列联
表,我们可以得出如下结论:
1.男性和女性顾客在购买商品类别上的差异;
2.不同商品类别的销售情况;
3.顾客的购物偏好等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.2 低维列联表的Fisher精确检验
• 以2*2列联表为例。
9.1 二维列联表的齐性和独立性的χ2检验
• 在H0成立时,第ij单元的期望值(预期频数)
n. j E ij p. j ni. ,由于p. j未知,在零假设下用其 估计值p. j 代替 n n. j ni. ˆ 这样期望值E ij p. j ni. n
• 按X2统计量的定义可表示为:
pi. pij,p. j pij且
j1 i 1
c
r
p
i 1 j 1
r
c
ij
pi. p. j 1
i 1 j1
r
c
9.1 二维列联表的齐性和独立性的χ2检验
• 三、齐性X2检验 • 一般假设为: • H0:行分布是齐性的(即各行的总体分布一 致F1(x)=F2(x) )=„=Fr(x) ) • H1:行分布不齐(即各行的总体分布不一致 F1(x) ≠ F2(x) ) ≠ „ ≠ Fr(x) ) • 在r×c列联表中,如H0成立表明各行在同一 列的比率一致,即Pi1=Pi2=„=Pic=P.j (i=1,2,„,r;j=1,2,„,c)
9.1 二维列联表的齐性和独立性的χ2检验
• 六、2×2列联表
第二分类准 则 1 2 合计 第一分类准则 合计 a+b c+d n
1
a c a+c
2
b d b+d
根据卡方统计量的定义可推导出:
n(ad bc) (a c)(b d )(a b)(c d )
2 2 n
9.1 二维列联表的齐性和独立性的χ2检验
• 例9.1 : 检验两种教学方法的成效。把学生分成两组 ,随机地从两组中各抽出50名学生,根据每个学生期 末成绩分为甲、乙、丙、丁、戊五个等级,具体数字 下表所示: • 两组学生的期末成绩表
组别 1组 2组
甲 8 4
乙 13 9
等级 丙 16 14
总数
丁 10 16
戊 3 7
50 50
• • • •
2 n i 1 j 1 r k
(Oij Eij ) Eij
2
i 1 j 1
r
k
(Oij
n . j ni.
n n . j ni.
)2
n • 它在样本量较大时(一般Eij大于5时)近似服从自 由度为k(r-1)-(r-1)=(k-1)(r-1)的X2分布。
9.1 二维列联表的齐性和独立性的χ2检验
第一分类准则 水平 3 „
O13 O23 O33 „ Or3 „ „ „ „ „ C O1c O2c O3c „ Orc 合计 n1. N2. N3. „ Nr.
合计
n.1
n.2
N.3
„
n.c
n
9.1 二维列联表的齐性和独立性的χ2检验
• 在r×c列联表中,第一种分类准则将样本分成了C 个水平(即C列);第二个分类准则将样本分成了 r个水平(即r行);交叉点上的Oij,(i=1,2,… ,r;j=1,2,…,c)表示样本落在第i行第j列(单 元)的样本数,我们称为该单元的实际观察频数。 • 令ni.和n.j分别表示第i行第j列的样本总数,则:
120(70)
10(35) 10(35)
30(67.50)
75(33.75) 30(33.75)
50(62.50)
15(31.25) 60(31.25)
200
100 100
合计
140
135
125
400
9.1 二维列联表的齐性和独立性的χ2检验
• 如果不同年龄组喜爱的节目一致,则在每一 年龄组中,喜欢A类节目者的比例都等于 140/400=0.35,将每一样本数乘以0.35,便 得出不同年龄组喜欢A类节目的预期频数。 于是有200*0.35=70,100*0.35=35,其余数 据可用类似的方法得出。 • 假设组为: • H0:就所喜欢的电视节目类型而言三个年龄 组是一致的; • H1:三个年龄组不一致。
根据题意,可检验如下假设: Ho:两种教学法使学生的成绩无显著性差异; H1:Ho假设为不真。 若Ho为真,则两组学生的成绩在各相应等级的概率应 相等(即P1j=P2j) 。
9.1 二维列联表的齐性和独立性的χ2检验
• 这样可计算各等级概率的估计值为: • 甲级(8+4)/100=0.12 • 乙级(13+9)/100=0.22 • 丙级(16+14)/100=0.30 • 丁级(10+16)/100=0.26 • 戊级1-(0.12+0.22+0.30+0.26)=1-0.9=0.10 2 2 2 • 所以: 8 50 0.12) (13 50 0.22) (7 50 0.1) 2 ( 50 0.12 50 0.22 50 0.1 5.18 • 查自由度为(R-1)(C-1)=(5-1)(2-1)=4, a=0.05,C=9.488,X2<C,接受Ho假设。
志愿(Y) 幸福家庭 理想工作 合计 教育水平(X) 高 低 125 95 65 105 190 200 合计 220 170 390
9.1 二维列联表的齐性和独立性的χ2检验
二、r×c列联表
第二分类准则
水平 1 2 3 „ r 1 O11 O21 O31 „ Or1 2 O12 O22 O32 „ Or2
9.1 二维列联表的齐性和独立性的χ2检验
• 例9.2:一个市场分析员想知道年龄不同的人所喜 欢的电视节目是否不同,他在不同年龄组中各抽选 了一个随机样本,并请样本中的每一个人指出自己 喜欢的节目类型,调查结果列于下表,括号内是预 期频数。 • 喜爱的电视节目与年龄的交互分类
节目类型 年龄小组 30岁以下 30-44岁 45岁及以上 A B C 合计
ห้องสมุดไป่ตู้
n i. oij , n. j oij
j1 i 1
c
r
Oij ni. n. j n
i1 j1 i1 j 1
r
c
r
c
式中n就是随机样本的容量。
9.1 二维列联表的齐性和独立性的χ2检验
• 如果令Pij表示任一样本落在第i行第j列的 概率,则Pi.和P.j分别表示列联表的行边际 概率和列边际概率,且
居住区 1 2 3 合计
A 52(45.36) 60(55.4) 50(61.24) 162 汽车式样 B 64(52.64) 59(64.3) 65(71.06) 188 合计 C 24(42) 52(51.3) 74(56.7) 150
140 171 189 500
9.1 二维列联表的齐性和独立性的χ2检验 • 解:建立假设组: • Ho:成年人所驾驶的汽车式样与他们的居住区之 间彼此独立; • H1:两种分类准则彼此不独立。设显著性水平a为 0.05。 • 计算检验统计量:
2 n i 1 j 1 r c
(Oij Eij ) 2 E ij
(52 45.36) 2 (60 55.4) 2 (74 56.7) 2 45.36 55.4 56.7 19.825
9.1 二维列联表的齐性和独立性的χ2检验
• 在r行c列的列联表中自由度等于(r-1)(c-1)=(31)(3-1)=4。X2 (0.95,4)的临界值为9.488,于是 否定区域由等于或大于9.488的X2值构成。 • 五、小预期频数 • 列联表中,如果某单元的预期频数很小,采用近 似的卡方检验会带来较大的误差。所以一般要求 预期频数大于5. • 不过对于预期频数的大小问题,学者们的意见尚 不一致。多数人同意科库兰(Cochran,1945)的 意见:即对自由度大于1的列联表,只要预期频数 小于5的单元数不超过总数的20%,一个单元的最 小预期频数取1是允许的。为了满足这一要求, 可以把相邻几行或几列合并,如果这样做不至于 破坏分类方案的逻辑的话。
9.1 二维列联表的齐性和独立性的χ2检验 • 独立性X2检验的假设组应为: • H0:两种分类准则彼此独立(Pij = Pi.·P.j); • H1:两种分类准则彼此不独立(Pij≠Pi.·P.j); • 在列联表中,理论频数Eij =n·Pij,因为当Ho为真 时,Pij= Pi.·P.j,这里Pi.(边际概率)可用边际频 率ni ./n来代替,即Pi.=ni./n;同理P.j =n.j/n ni.n. j • 所以 ni. n. j Eij npij npi. p. j n • n n n
9.1 二维列联表的齐性和独立性的χ2检验
• 由表中数据算出得:
( 70) ( 35 120 10 ) (60 31.25 ) 70 35 31.25 180.495
2 2 2 2
• 设α=0.05,查X2表可知,当自由度为4时,X2的临 界值为9.488,因为X2的计算值180.495大于9.488 ,所以否定Ho并得出结论:就所喜欢的电视节目 类型而言,这些总体是不一致的(P<0.005)。
9.1 二维列联表的齐性和独立性的χ2检验
• 四、独立性X2检验 • 独立性X2检验是用来检验两种分类(分组 )是否彼此独立的。资料要求至少是定类尺 度测量。具体用途可用于两个独立样本或k 个独立样本的独立性检验。 • 如我们将电视观众按年龄和他们喜欢的电视 节目类型进行了交互分组,那么我们就可以 检验电视观众的年龄与他们喜爱的节目类型 之间是否有关联(如无关联即二者独立)。
• 七、耶特斯修正 • 对2×2列联表的耶特斯(Yates,1934)“修 正”:将观察频数与预期频数之差的绝对 值在取平方之前先减去0.5n。
2 n
n( ad bc 0.5n)
2
(a c)(b d )(a b)(c d )