心理与教育统计学课件(张厚粲版)ch10卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
五、两项分类且某类理论次数小于5的 连续性校正
• 当只有两项分类(自由度为1)并且某项的理 论次数小于5时,比率的检验不能用正态近似, χ2 而应用二项分布概率计算。若用 检验,就 要运用耶茨(yetes)连续性校正法,即在每一 组实际频数与理论频数差数的绝对值平方之前, 各减去0.5,用公式表示:
Q3.84< 5.4 < 6.63,∴0.01< P < 0.05 故对高中文理分科的态 度有差异 .
8
fe
30
30
= 5.4
例9大学某系54位老年教师中,健康状况属 于好的有15人,中等的有23人,差的有16 人,问该校老年教师中三种健康状况的人 数是否一样?
解: (1)建立假设 : H 0 : 健康状况好,中, 差三种人数相同
•
10
例10 的计算: 解:正态分布的基线上四等份,每等份= (3σ+3σ)/4=1.5σ
概率P
0.4987 − 0.4332 = 0.0655 ≈ 0.07 0.4332 ≈ 0.43
f0
fe
f0 − fe
( f 0 − f e )2
fe
优 良 中 差 合计
7 22 18 3 50
3.5 21.5 21.5 3.5 50
17
χ =
2
( 3 − 5 − 0.5)
+
( 7 − 5 − 0.5)
= 0.9
第三节 独立性检验
χ 2 检验的又一重要应用,它 • 独立性检验也是
主要用于两个或两个以上因素多项分类的计数 资料分析。如果想研究两个(或两个以上因素) 2 之间是否具有独立性或有无关联,就要用 χ 检验独立性检验。 • 如果两个因素是独立的,即无关联,就意味着 当其中一个因素变化时,另一个因素的变化是 在取样误差的范围之内;反之,如果两个因素 是非独立,即有关联或称有交互作用存在,当 其中的一个自变量(因素)变化时,另一个因 素的变化就超过了取样误差的范围。
H1 : 健康状况好,中, 差三种人数不相同
(2)计算χ 2值 : 根据零假设, 其理论频数为 : f e = 54 = 18
3
(15 − 18)2 + (23 − 18)2 + (16 − 18)2 χ2 =
18 18 18
= 2.11
(3)统计决断 : df
= 3 − 1 = 2, 查表得, χ (2 )0.05 = 5.99 2
χ =∑
2
( f0 − fe
fe
− 0.5)
2
16
例12 有一学校共评出10名优秀学生班干部, 其中男生3名,女生7名,问优秀学生班干 部是否存在男女性别差异? 解:假设无性别差异,则p=q=0.5,那么男 女应各有5人,这时需要使用亚茨校正公 式。 2 2
5 5 2 df = 1查表得 : χ (1)0.05 = 3.84 Q 0.9 < 3.84,∴ P > 0.05 故优秀学生班干部中, 不存在男女性别差异.
Q 2.11 < 5.99,∴ P > 0.05 故该校老教师中, 健康状况好,中, 差三种人数无显著差异.
9
三、频数分布是否符合正态性的 χ 检验
2
检验还可以检验某些实得次数是否合乎正 态分布。不过,在计算时,要注意把常态分布 的概率,转换为理论次数的数值。即要用常态 分布的概率乘以总次数得出理论次数的分配。 • 例10 对50名学生进行操行评定,分优、良、 中、差四等,评定的结果是:优7人,良22人, 中18人,差3人,试检验其分布的形式是否合 乎正态分布?
.090
χ 2 = 14.905 3
N = 552, X = 154.62, S = 5.07
∑ f e = 552
例11 解(续)
• 如果两端的组中的理论次数均有小于5的,则 需要将相邻的理论次数合并至大于5。本题共 分11组,两端均有理论次数小于5,上端二组 合并为一组,下端二组合并为一组,然后将实 χ 2值,本题由上 际次数也相应合并之后,再求 χ 面解得:2 = 3.905 。 2 χ (26 ).05 = 12.6 • df=9-3=6,查 χ 值表得: 因为3.903<12.6,所以P>0.05,差异不显著。 故这552名中学生的身高分布符合正态分布。
χ 2是实计数据与理论数据偏离程度的指标.
其基本公式为 : χ = ∑
2
( f 0 − f e )2
fe
2
第一节 χ 检验 概述
2
二、χ 2检验的假设 (一)分类相互排斥,互不包容 (二)观测值相互独立 在实验研究中,让观测值的总数等于实验中不同被试的总数,要求 每个被试只有一个观测值,这是确保观测值相互独立最安全的做法。 (三)期望次数的大小 为了努力使χ 2分布成为χ 2值合理准确的近似估计,每一个单元格中 的期望次数应该至少在5个以上。 当自由度等于1时,在进行χ 2检验时,每一个单元格的期望次数至少 不应低于10,这样才能保证检验的准确性。 在理论次数较小的特殊的四个表中,应运用一个精确的多项检验来 避免使用近似的χ 2检验。
6
二、无差假说的检验
• 无差假说是指各项分类的次数没有差异,即假 设各项分类之间的机会均等,或概率相等。因 此,理论次数完全按概率相等的条件计算,其 公式为:
1 f e = 总数 × 分类项数
7
例8 随机抽取60名学生,问他们高中要不 要文理分科,回答赞成的39人,反对的21 人,问对分科的意见有无显著差异?
1
第一节 χ 检验 概述
2
χ 2 和 χ 2检验的意义 一、
χ 2检验 方法能处理一个因素两项或多项分类的实际观
察频数与理论频数分布是否相一致问题,或者说有无显著 差异问题。所谓实际频数简称实计数或实际数,是指在实 验或调查中得到的计数资料,又称为观察频数。理论次数 是指根据概率原理、某种理论、某种理论次数分布或经验 次数分布计算出来的次数,又称为期望次数。
4
(如前后测设计),则 可使用麦内玛检验。
χ 2 检验 概述 第三节
三、χ 2检验的类别 ,可以细分为多种类型 ,如配合度检验、独立 χ 2检验因研究的问题不同 性检验、同质性检验等 等。 配合度检验主要用来检 验一个因素多项分类的 实际观察数与某理论次 数 是否接近,这种χ 2检验方法有时也称为无 差假说检验。当对连续 数据的 正态性进行检验时,这 种检验又可称为正态吻 合性检验。 独立性检验是用来检验 两个或两个以上因素各 种分类之间是否有关联 或 是否具有独立性的问题 。所谓的两个因素是指 所要研究的两个不同事 物。 例如性别与对某个问题 的态度是否有关系。 同质性检验主要目的在 于鉴定不同人群母总体 在某一个变量的反应是 否 具有显著差异。当用同 质性检验检测双样本在 单一变量的分布情形, 如 果两样本没有差异,就 可以说两个母总体是同 质的,反之,则说这两 个 母总体是异质的。
19
一、独立性检验的一般问题
• 二维列联表的独立性检验的一般步骤: 1. 建立假设:H0:二因素之间是独立的或无关 联;H1:二因素之间是有关联的或者说差异 显著。(一般多用文字表述而很少用统计符 号) f R ⋅ fC 2. 计算理论次数: f = K (12 − 13)
3.5 0.5 -3.5 -0.5
3.5 0.01 0.57 0.07 4.15
11
0.43 0.07
例10的计算(续)
由上表得:
χ 2 = 4.15
df = 4 − 1 = 3, 查表得 : χ (23 )0.05 = 7.81 Q 4.15 < 7.81,∴ P > 0.05 故50名学生的操行评定, 其人数接近正态分布.
p= Z分 查表 Y Y⋅ i 数
fe =
S p× N
1 7 24 60 104 130 114 70 31 9 2
( f0 − fe )
fe .125
.167 .150 .471 .277 .035 1.429 1.161
2
3.03 0.004 .00237 2.44 .00203 .01201 1.85 .0720 .04260 1.26 .1840 .10888 0.67 .3187 .18858 .07 .3979 .23544 -0.52 .3484 .20615 -1.11 .2154 .12746 -1.70 .0940 .05562 -2.29 .0289 .01710 -2.88 .0067 .00396
第十章
χ 2检验
前面几章所讲的总体平均数、方差的统计推断等内 容,均是针对连续性数据的。但在教育和心理研究中, 有时需研究的问题是按一定的性质划分为不同的类别, 然后统计各类别中的人数或个数,即需要用到计数资料。 例如,将人按照性别划分为“男”、“女”;将学生按 照学习成绩的优劣划分为“优”、“良”、“中”、 “差”等,然后对各类别分别有多少,占多大的比例等。 对于这些计数资料的统计分析,不能用前几章的统计方 2 2 法,则需要使用本章所介绍的 。应用 χ 检验 χ 检验 分析计数数据时,对计数数据总体的分布形态不作任何 假设,因此检验 被视为是非参数检验方法的一 χ2 种。
18
一、独立性检验的一般问题
χ 2检验主要研究两个因素或两个以上因素多项 •
分类的计数资料的独立性问题。如果两个因素 中的一个因素有R类,另一个因素有C类,这种 表称之为R×C表,即二维列联表。特殊的列联 表是2×2表。因素若是多于两个,这种表称为 多维表,多维列联表的分析较为复杂,本节从 χ 2检验。 略,这里仅介绍二维列联表的
3
χ 2 检验 概述 第一节
三、小期望次数的连续 性校正 运用χ 2检验时,要求各单元格 的理论次数不得小于 5,小于5时可能违反基本假设, 导致统计检验高估的情 形出现。通常需要有 80%以上的单元格理论值要 大于5,否 则χ 2检验的结果偏差非常明 显。 当单元格的人数过少时 ,处理的方法有四种: 第一,单元格合并法。 配合研究目的,适当调 整变量分类方式,将部 分单元格予以合并。 第二,增加样本数。 如无法改变分类方式又 想获得有效样本,最佳 方法是直接增加样本数 。 第三,去除样本法。样 本无法增加,次数偏低 的类别又不具有分析与 研究价值时, 可将该类被试去除,但 研究的结论不能推论到 这些被去除的母总体中 。 第四,使用校正公式。 在2 × 2的列联表检验中,若单 元格的期望次数低于10但高 于5,可用耶茨校正公式加 以校正。若期望次数小 于5时,或样本总人数低于 20时, 则应使用费舍精确概率 检验法。当单元格内容 牵涉到重复测量设计时
12
四、连续变量分布的吻合性检验
• 理论次数: f e = pi × N • 自由度:
df = 组数 − 计算理论次数时所用统计量的数
例11 表12-5所列资料是552名中学生的身高次数 分。问这些学生的身高是否符合正态分布?
13
例11解:表12-5 理论曲线的配合度检验
身高wenku.baidu.com组中 实际 分组 值XC 次数
5
第二节 配合度检验
一、配合度检验的意义 2 配合度检验是应用 χ 检验方法的一种,主要用 于检验实际观测次数与某理论次数是否有差别的情 况。它适用一个因素多项分类的计数资料,所以又 2 χ 2 检验。 称做单因素分类 χ 检验或单向表的 进行配合度检验,应当注意自由度的确定和理论 自由度的确定和理论 次数的计算。 次数的计算。 1. 配合度检验自由度确定与下列两个因素有关:一是 实验或调查中分类的项数;二是计算理论次数时, 用到的统计量的个数。自由度 资料分类的数目-计 自由度=资料分类的数目 自由度 资料分类的数目- 算理论次数时所用的统计量的个数。 算理论次数时所用的统计量的个数 2. 理论次数的计算,一般是根据某种理论,按一定的 概率通过样本即观测次数计算。通常用到无差假说、 正态分布、二项分布等理论模型。
解: fe = 60× 0.5 = 30 (1)建立假设H0 : f0 = fe = 30; H1 : f0 ≠ fe :
(2)计算 值: χ = ∑ χ
2 2
( f0 − fe ) = (39− 30) + (21− 30)
2 2
2
(3)统计决断df = 2 −1 =1;查表得 χ(21).05 = 3.84, χ(21).01 = 6.63 : :
169166163160157154151148145142139170 167 164 161 158 155 152 149 146 143 140 2 7 22 57 110 124 112 80 25 8 4
离差
15.38 12.38 9.38 6.38 3.38 0.38 -2.62 -5.62 -8.62 -11.62 -14.62
五、两项分类且某类理论次数小于5的 连续性校正
• 当只有两项分类(自由度为1)并且某项的理 论次数小于5时,比率的检验不能用正态近似, χ2 而应用二项分布概率计算。若用 检验,就 要运用耶茨(yetes)连续性校正法,即在每一 组实际频数与理论频数差数的绝对值平方之前, 各减去0.5,用公式表示:
Q3.84< 5.4 < 6.63,∴0.01< P < 0.05 故对高中文理分科的态 度有差异 .
8
fe
30
30
= 5.4
例9大学某系54位老年教师中,健康状况属 于好的有15人,中等的有23人,差的有16 人,问该校老年教师中三种健康状况的人 数是否一样?
解: (1)建立假设 : H 0 : 健康状况好,中, 差三种人数相同
•
10
例10 的计算: 解:正态分布的基线上四等份,每等份= (3σ+3σ)/4=1.5σ
概率P
0.4987 − 0.4332 = 0.0655 ≈ 0.07 0.4332 ≈ 0.43
f0
fe
f0 − fe
( f 0 − f e )2
fe
优 良 中 差 合计
7 22 18 3 50
3.5 21.5 21.5 3.5 50
17
χ =
2
( 3 − 5 − 0.5)
+
( 7 − 5 − 0.5)
= 0.9
第三节 独立性检验
χ 2 检验的又一重要应用,它 • 独立性检验也是
主要用于两个或两个以上因素多项分类的计数 资料分析。如果想研究两个(或两个以上因素) 2 之间是否具有独立性或有无关联,就要用 χ 检验独立性检验。 • 如果两个因素是独立的,即无关联,就意味着 当其中一个因素变化时,另一个因素的变化是 在取样误差的范围之内;反之,如果两个因素 是非独立,即有关联或称有交互作用存在,当 其中的一个自变量(因素)变化时,另一个因 素的变化就超过了取样误差的范围。
H1 : 健康状况好,中, 差三种人数不相同
(2)计算χ 2值 : 根据零假设, 其理论频数为 : f e = 54 = 18
3
(15 − 18)2 + (23 − 18)2 + (16 − 18)2 χ2 =
18 18 18
= 2.11
(3)统计决断 : df
= 3 − 1 = 2, 查表得, χ (2 )0.05 = 5.99 2
χ =∑
2
( f0 − fe
fe
− 0.5)
2
16
例12 有一学校共评出10名优秀学生班干部, 其中男生3名,女生7名,问优秀学生班干 部是否存在男女性别差异? 解:假设无性别差异,则p=q=0.5,那么男 女应各有5人,这时需要使用亚茨校正公 式。 2 2
5 5 2 df = 1查表得 : χ (1)0.05 = 3.84 Q 0.9 < 3.84,∴ P > 0.05 故优秀学生班干部中, 不存在男女性别差异.
Q 2.11 < 5.99,∴ P > 0.05 故该校老教师中, 健康状况好,中, 差三种人数无显著差异.
9
三、频数分布是否符合正态性的 χ 检验
2
检验还可以检验某些实得次数是否合乎正 态分布。不过,在计算时,要注意把常态分布 的概率,转换为理论次数的数值。即要用常态 分布的概率乘以总次数得出理论次数的分配。 • 例10 对50名学生进行操行评定,分优、良、 中、差四等,评定的结果是:优7人,良22人, 中18人,差3人,试检验其分布的形式是否合 乎正态分布?
.090
χ 2 = 14.905 3
N = 552, X = 154.62, S = 5.07
∑ f e = 552
例11 解(续)
• 如果两端的组中的理论次数均有小于5的,则 需要将相邻的理论次数合并至大于5。本题共 分11组,两端均有理论次数小于5,上端二组 合并为一组,下端二组合并为一组,然后将实 χ 2值,本题由上 际次数也相应合并之后,再求 χ 面解得:2 = 3.905 。 2 χ (26 ).05 = 12.6 • df=9-3=6,查 χ 值表得: 因为3.903<12.6,所以P>0.05,差异不显著。 故这552名中学生的身高分布符合正态分布。
χ 2是实计数据与理论数据偏离程度的指标.
其基本公式为 : χ = ∑
2
( f 0 − f e )2
fe
2
第一节 χ 检验 概述
2
二、χ 2检验的假设 (一)分类相互排斥,互不包容 (二)观测值相互独立 在实验研究中,让观测值的总数等于实验中不同被试的总数,要求 每个被试只有一个观测值,这是确保观测值相互独立最安全的做法。 (三)期望次数的大小 为了努力使χ 2分布成为χ 2值合理准确的近似估计,每一个单元格中 的期望次数应该至少在5个以上。 当自由度等于1时,在进行χ 2检验时,每一个单元格的期望次数至少 不应低于10,这样才能保证检验的准确性。 在理论次数较小的特殊的四个表中,应运用一个精确的多项检验来 避免使用近似的χ 2检验。
6
二、无差假说的检验
• 无差假说是指各项分类的次数没有差异,即假 设各项分类之间的机会均等,或概率相等。因 此,理论次数完全按概率相等的条件计算,其 公式为:
1 f e = 总数 × 分类项数
7
例8 随机抽取60名学生,问他们高中要不 要文理分科,回答赞成的39人,反对的21 人,问对分科的意见有无显著差异?
1
第一节 χ 检验 概述
2
χ 2 和 χ 2检验的意义 一、
χ 2检验 方法能处理一个因素两项或多项分类的实际观
察频数与理论频数分布是否相一致问题,或者说有无显著 差异问题。所谓实际频数简称实计数或实际数,是指在实 验或调查中得到的计数资料,又称为观察频数。理论次数 是指根据概率原理、某种理论、某种理论次数分布或经验 次数分布计算出来的次数,又称为期望次数。
4
(如前后测设计),则 可使用麦内玛检验。
χ 2 检验 概述 第三节
三、χ 2检验的类别 ,可以细分为多种类型 ,如配合度检验、独立 χ 2检验因研究的问题不同 性检验、同质性检验等 等。 配合度检验主要用来检 验一个因素多项分类的 实际观察数与某理论次 数 是否接近,这种χ 2检验方法有时也称为无 差假说检验。当对连续 数据的 正态性进行检验时,这 种检验又可称为正态吻 合性检验。 独立性检验是用来检验 两个或两个以上因素各 种分类之间是否有关联 或 是否具有独立性的问题 。所谓的两个因素是指 所要研究的两个不同事 物。 例如性别与对某个问题 的态度是否有关系。 同质性检验主要目的在 于鉴定不同人群母总体 在某一个变量的反应是 否 具有显著差异。当用同 质性检验检测双样本在 单一变量的分布情形, 如 果两样本没有差异,就 可以说两个母总体是同 质的,反之,则说这两 个 母总体是异质的。
19
一、独立性检验的一般问题
• 二维列联表的独立性检验的一般步骤: 1. 建立假设:H0:二因素之间是独立的或无关 联;H1:二因素之间是有关联的或者说差异 显著。(一般多用文字表述而很少用统计符 号) f R ⋅ fC 2. 计算理论次数: f = K (12 − 13)
3.5 0.5 -3.5 -0.5
3.5 0.01 0.57 0.07 4.15
11
0.43 0.07
例10的计算(续)
由上表得:
χ 2 = 4.15
df = 4 − 1 = 3, 查表得 : χ (23 )0.05 = 7.81 Q 4.15 < 7.81,∴ P > 0.05 故50名学生的操行评定, 其人数接近正态分布.
p= Z分 查表 Y Y⋅ i 数
fe =
S p× N
1 7 24 60 104 130 114 70 31 9 2
( f0 − fe )
fe .125
.167 .150 .471 .277 .035 1.429 1.161
2
3.03 0.004 .00237 2.44 .00203 .01201 1.85 .0720 .04260 1.26 .1840 .10888 0.67 .3187 .18858 .07 .3979 .23544 -0.52 .3484 .20615 -1.11 .2154 .12746 -1.70 .0940 .05562 -2.29 .0289 .01710 -2.88 .0067 .00396
第十章
χ 2检验
前面几章所讲的总体平均数、方差的统计推断等内 容,均是针对连续性数据的。但在教育和心理研究中, 有时需研究的问题是按一定的性质划分为不同的类别, 然后统计各类别中的人数或个数,即需要用到计数资料。 例如,将人按照性别划分为“男”、“女”;将学生按 照学习成绩的优劣划分为“优”、“良”、“中”、 “差”等,然后对各类别分别有多少,占多大的比例等。 对于这些计数资料的统计分析,不能用前几章的统计方 2 2 法,则需要使用本章所介绍的 。应用 χ 检验 χ 检验 分析计数数据时,对计数数据总体的分布形态不作任何 假设,因此检验 被视为是非参数检验方法的一 χ2 种。
18
一、独立性检验的一般问题
χ 2检验主要研究两个因素或两个以上因素多项 •
分类的计数资料的独立性问题。如果两个因素 中的一个因素有R类,另一个因素有C类,这种 表称之为R×C表,即二维列联表。特殊的列联 表是2×2表。因素若是多于两个,这种表称为 多维表,多维列联表的分析较为复杂,本节从 χ 2检验。 略,这里仅介绍二维列联表的
3
χ 2 检验 概述 第一节
三、小期望次数的连续 性校正 运用χ 2检验时,要求各单元格 的理论次数不得小于 5,小于5时可能违反基本假设, 导致统计检验高估的情 形出现。通常需要有 80%以上的单元格理论值要 大于5,否 则χ 2检验的结果偏差非常明 显。 当单元格的人数过少时 ,处理的方法有四种: 第一,单元格合并法。 配合研究目的,适当调 整变量分类方式,将部 分单元格予以合并。 第二,增加样本数。 如无法改变分类方式又 想获得有效样本,最佳 方法是直接增加样本数 。 第三,去除样本法。样 本无法增加,次数偏低 的类别又不具有分析与 研究价值时, 可将该类被试去除,但 研究的结论不能推论到 这些被去除的母总体中 。 第四,使用校正公式。 在2 × 2的列联表检验中,若单 元格的期望次数低于10但高 于5,可用耶茨校正公式加 以校正。若期望次数小 于5时,或样本总人数低于 20时, 则应使用费舍精确概率 检验法。当单元格内容 牵涉到重复测量设计时
12
四、连续变量分布的吻合性检验
• 理论次数: f e = pi × N • 自由度:
df = 组数 − 计算理论次数时所用统计量的数
例11 表12-5所列资料是552名中学生的身高次数 分。问这些学生的身高是否符合正态分布?
13
例11解:表12-5 理论曲线的配合度检验
身高wenku.baidu.com组中 实际 分组 值XC 次数
5
第二节 配合度检验
一、配合度检验的意义 2 配合度检验是应用 χ 检验方法的一种,主要用 于检验实际观测次数与某理论次数是否有差别的情 况。它适用一个因素多项分类的计数资料,所以又 2 χ 2 检验。 称做单因素分类 χ 检验或单向表的 进行配合度检验,应当注意自由度的确定和理论 自由度的确定和理论 次数的计算。 次数的计算。 1. 配合度检验自由度确定与下列两个因素有关:一是 实验或调查中分类的项数;二是计算理论次数时, 用到的统计量的个数。自由度 资料分类的数目-计 自由度=资料分类的数目 自由度 资料分类的数目- 算理论次数时所用的统计量的个数。 算理论次数时所用的统计量的个数 2. 理论次数的计算,一般是根据某种理论,按一定的 概率通过样本即观测次数计算。通常用到无差假说、 正态分布、二项分布等理论模型。
解: fe = 60× 0.5 = 30 (1)建立假设H0 : f0 = fe = 30; H1 : f0 ≠ fe :
(2)计算 值: χ = ∑ χ
2 2
( f0 − fe ) = (39− 30) + (21− 30)
2 2
2
(3)统计决断df = 2 −1 =1;查表得 χ(21).05 = 3.84, χ(21).01 = 6.63 : :
169166163160157154151148145142139170 167 164 161 158 155 152 149 146 143 140 2 7 22 57 110 124 112 80 25 8 4
离差
15.38 12.38 9.38 6.38 3.38 0.38 -2.62 -5.62 -8.62 -11.62 -14.62