独立性检验46744ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
白天
总计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出 生时间有关系?
P(K2≥k) k
0.15 2.072
0.10 0.05 2.706 3.841
K2
n(adbc)2
(ab)(cd)(ac)(bd)
【解题指导】
【规范解答】 (1)
出 生 时
性别 间
晚上①
白天②
总计Fra Baidu bibliotek
男婴
24
31
【解析】1.选A.∵k≥6.635.说明两个变量X与Y有关系,这种 说法犯错误的概率不超过0.01,即1%,故选A. 2.(1)2×2的列联表为
休 闲方
性别 式 女性 男性 总计
看电视
40 20 60
运动
30 30 60
总计
70 50 120
(2)计算K2的观测值为
k 1 2 0 (4 0 3 0 2 0 3 0 )2 2 4 3 .4 2 9 . 7 0 5 0 6 0 6 0 7
9 9 0 5 1 0 1 4 7 5 2 5
概率不超过0.001的前提下,认为质量监督员甲在不在生产现
场与产品质量好坏有关系.
【想一想】在独立性检验中,容易出现的错误有哪些? 提示:①容易因不能准确列出列联表而犯错误; ②用等高条形图粗略估计代替准确结论而犯错误; ③由于记错K2公式、计算出错而犯错误; ④由于不能利用K2的值与临界值k0比较而出错.
【阅卷人点拨】通过阅卷后分析,对解答本题的失分警示和解 题启示总结如下:(注:此处的①②见规范解答过程).
在解答过程中,若①处和②处插入表格处表中数据
失 ① 填写错误,会直接导致合计出错,也会直接导致k值
分
求错,这种情况最多给3分.
警
在解答中,若③处公式记混,会导致k值出错,使得
示
② 独立性检验出错,这种情况,只能给第(1)问的分数
【规范解答】独立性检验 【典例】(12分)(2012·荆州高二检测)调查某医院某段时间内 婴儿出生的时间与性别的关系,得到下面的数据:出生时间在 晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31 人,女婴为26人.
(1)将下面的2×2列联表补充完整;
出 生 时
性别 间
晚上
男婴 女婴 总计
1.分类变量 变量的不同“值”表示个体所属的_不_同_类_别_,像这样的变量 称为分类变量. 2.列联表 (1)定义:列出的两个分类变量的_频_数_表_,称为列联表.
(2)2×2列联表: 一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和 {y1,y2},其样本频数列联表(称2×2列联表)为
系,那么这种判断出错的可能性为_______.
2.为了调查某生产线上质量监督员甲对产品质量好坏有无影响, 现统计数据如下:甲在生产现场时,990件产品中有合格品982 件,次品8件;甲不在生产现场时,510件产品中有合格品493 件,次品17件.试分别用列联表、等高条形图、独立性检验的 方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的 概率不超过0.001的前提下,认为质量监督员甲是否在生产现 场与产品质量有关?
55
女婴
8
26
34
总计
32
57
89
…………………………………………………………6分
(2)由所给数据计算K2的观测值 k 8 9 (2 4 2 6 3 1 8 )2… 3 ….6 …8 9 …③ > …2 .…7 0 …6 .……8分
5 5 3 4 3 2 5 7
根据临界值表知P(K2≥2.706)≈0.10.………………………9分 因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出 生的时间有关系.……………………………………………12分
【典例训练】 1.从发生交通事故的司机中抽取2 000名司机作随机样本,根据 他们血液中是否含有酒精以及他们是否对事故负有责任将数据 整理如下:
有酒精 无酒精
总计
有责任 650 700
1 350
无责任 150 500 650
总计 800 1 200 2 000
相应的等高条形图如图所示.试结合等高条形图分析血液中含 有酒精与对事故负有责任是否有关系.
1.2 独立性检验的基本思想及其初步应用
点击进入相应模块
1.掌握2×2列联表的独立性检验,能利用给出的数据列出列联 表并会求K2的观测值. 2.了解独立性检验的基本思想和方法.
1.本节课的重点是理解独立性检验的基本思想及实施步骤. 2.本节课的难点是了解随机变量K2的含义和根据K2的值得出结 论的意义.
【归纳】等高条形图的作法及作用小结. 提示:1.首先作2×2列联表,注意对涉及的变量分清类别;其次 要注意计算的准确性;第三画等高条形图,注意各变量的顺序与 所画位置. 2.通过等高条形图可以粗略地判断两个分类变量是否有关系, 但无法精确地给出所得结论的可靠程度.
独立性检验 【技法点拨】
解决一般的独立性检验问题的步骤
独立性检验的综合应用 【技法点拨】
判断两个变量是否有关的三种方法
列联
c 利用列联表,列出2×2列联表,从 c+d 和
表法
a 的大小比较或 ad-bc 的大小进行判断.
a +b
数形 结合 法
利用数形结合,画出等高条形图,从对应面积 的比例粗略估计.
K2观 测值法
利用K2的观测值公式求出K2的观测值k,借助 临界值表准确地判断“X与Y是否有关系”.
2.某学校对高三学生进行了一项调查发现:在平时的模拟考试 中,性格内向的学生426人中有332人在考前心情紧张,性格外 向的学生594人中有213人在考前心情紧张.作出等高条形图, 利用图形判断考前心情紧张与性格类别是否有关系. 【解析】1.比较来说,两者差距较大,在“有酒精”和“无酒 精”两个矩形中,阴影部分的面积不同,由此可以看出在某种 程度上认为血液中含有酒精与对事故负有责任有关系.
1.对于“分类变量”的理解 (1)这里的“变量”和“值”都应作为“广义”的变量和值进 行理解.例如,对于性别变量,其取值为男和女两种.那么这里 的变量指的是性别,同样这里的“值”指的是“男”和“女”. 因此,这里所说的“变量”和“值”不一定取的是具体的数值.
2.独立性检验与反证法的异同点 独立性检验的思想来自于统计学的假设检验思想,它与反证法 类似,假设检验和反证法都是先假设结论不成立,然后根据是 否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的 含义不同,反证法中的“矛盾”是指不符合逻辑的事件的发生; 而假设检验中的“矛盾”是指不符合逻辑的小概率事件的发生, 即在结论不成立的假设下,推出利用结论成立的小概率事件的 发生.
y1
x1
a
x2
c
总计
a+c
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的
方法称为两个分类变量的独立性检验.
(2)公式:K2=
n(adbc)2
.其中n=_a_+b_+c_+d_.
_(a__b)(_c_d)_(a_c_)(b_d_)
确定
通过列联表确定a,b,c,d,n的值;根据实际 问题需要的可信程度确定临界值k0;
求值 判断
利用 K2=
n(ad-bc) 2
(a+b)(c+d)(a+c)(b+d)
, 求出K2的观测值k;
如果k≥k0,就推断“两个分类变量有关系”, 这种推断犯错误的概率不超过α,否则就认为在
犯错误的概率不超过α的前提下不能推断“两个
【典例训练】 1.某高校“统计初步”课程的教师随机调查了选该课的一些学 生情况,具体数据如下表:
专业 性别
男
女
非统计专业 统计专业
13
10
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据, 得到 k50 ( 1320107) 24.844
23272030
因为P(k≥3.841)=0.05,所以判定主修统计专业与性别有关
3.作散点图的主要目的是_______. 【解析】散点图可以形象地展示两个变量之间的关系,所以它 的主要目的就是直观了解两个变量之间的关系. 答案:直观了解两个变量之间的关系
4.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,则 认为“两个变量有关系”犯错误的概率不超过_______. 【解析】∵P(K2≥3.841)≈0.05, ∴认为“两个变量有关系”犯错误的概率不超过0.05. 答案:0.05
而2.706<3.429<3.841, 因为P(K2>2.706)≈0.10,P(K2>3.841)≈0.05,
所以,在犯错误的概率不超过0.10的前提下,认为休闲方式与
性别有关.
【思考】1.求k的值的关键是什么? 2.k的大小对“两个变量有关”有什么影响? 提示:1.求K2的观测值k的关键是要准确列出2×2列联表,即找 准表达式中的各个量的数值. 2.利用K2的观测值进行独立性检验可以精确地给出这种判断的 可靠程度,而且k的值越大,说明“X与Y有关系”成立的可能 性越大.
3.判断两个分类变量是否有关系的两种方法比较 判断两个分类变量是否有关系的两种方法是:等高条形图和独 立性检验. (1)通过等高条形图,可以粗略地判断两个分类变量是否有关 系,但是这种判断无法精确地给出所得结论的可靠程度. (2)利用独立性检验来判断两个分类变量是否有关系,能够精 确地给出这种判断的可靠程度,也常与图形分析法结合.
分类变量有关系”.
【典例训练】 1.(2012·武汉高二检测)在独立性检验中,若随机变量K2的观 测值k≥6.635,则( ) (A)X与Y有关系,犯错的概率不超过1% (B)X与Y有关系,犯错的概率超过1% (C)X与Y没有关系,犯错的概率不超过1% (D)X与Y没有关系,犯错的概率超过1%
2.(2012·厦门高二检测)在对人们休闲方式的一次调查中,共 调查120人,其中女性70人、男性50人.女性中有40人主要的休 闲方式是看电视,另外30人主要的休闲方式是运动;男性中有 20人主要的休闲方式是看电视,另外30人主要的休闲方式是运 动. (1)根据以上数据建立一个2×2的列联表; (2)休闲方式与性别是否有关?
2.作列联表如下:
考前心情紧张 考前心情不紧张
总计
性格内向 332 94 426
性格外向 213 381 594
总计 545 475 1 020
相应的等高条形图如图所示,
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向 的比例,从图中可以看出,考前紧张的样本中性格内向占的比 例比考前心情不紧张样本中性格内向占的比例高,可以认为考 前紧张与性格类型有关.
相差较大,可在某种程度上认为“质量监督员甲是否在现场与
产品质量有关系”.
(2)画等高条形图. 如图可知,在某种程度上认为“质量监督员甲是否在生产现场 与产品质量有关系”.
(3)由2×2列联表中数据,计算得到K2的观测值为 k 1 5 0 0 ( 9 8 2 1 7 4 9 3 8 ) 2 因 此1 3 . ,0 9 在7 犯1 0 错.8 2 误8 ,的
等高条形图的应用
【技法点拨】 1.判断两个分类变量是否有关系的两个常用方法 (1)利用数形结合思想,借助等高条形图来判断两个分类变量 是否相关是判断变量相关的常见方法. (2)一般地,在等高条形图中, a 与 c 相差越大,两个分
a b cd
类变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
6分
解 (1)错误填写2×2列联表,导致出错; 题
1.在独立性检验中,计算得k=29.78,在判断变量相关时, P(K2≥6.635)≈0.01的含义是什么? 提示:P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过 0.01的前提下认为两个变量相关.
2.列联表中|ad-bc|的值与两个分类变量之间相关的强弱有 什么关系? 提示:在列联表中,若两个分类变量没有关系,则|ad-bc| ≈0,所以|ad-bc|的值越小,两个分类变量之间的关系越 弱;|ad-bc|的值越大,两个分类变量之间的关系越强.
【解析】1.根据独立性检验的思想,假设没关系正确的可能 性为5%,所以,判断有关系错误的可能性也为5%. 答案:5%
2.(1)2×2列联表如下:
合格品数 次品数 总计
甲在生产现场 甲不在生产现场
总计
982 493 1 475
8
990
17
510
25 1 500
由列联表可得|ad-bc|=|982×17-493×8|=12 750.