1.2独立性检验
1.2独立性检验
9965(7775 49 42 2099) k 56.632. 7817 2148 9874 91
2
这个值到底能告诉我们什么呢?
统计学家经过研究发现,在H0成立的情况下,
P( K 6.635) 0.01
2
即在 H 0 成立的情况下,K2 大于6.635概率非常小,近似为0.01
不吸烟 吸烟 总计
表1-8
a c a+c
b d b+d
a+b c+d a+b+c+d
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多, 即 a c
ab cd a(c d ) c( Nhomakorabea b)
ad bc 0
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
一般地,假设有两个分类变量X和Y,它们的可能取值 分别为 {x1,x2} 和 {y1,y2}, 其样本频数列联表(称为 2x2列联表)为: y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
若要判断结论为: H1 :“ X 与 Y 有关系”,如果通过直 c 接计算或观察等高条形图发现 a 和 相差很大, cd ab 就判段两个分类变量之间有关系.
怎样判断K² 的观测值k是大还是小呢? 这仅需确定一个正数 k 0 ,当 k k 0 时就认为IK² 的观测 值k大,此时相应于的判断规则为:如果k k 0 ,就认为
“两分类变量有关系”;否则就认为“两分类变量没有 k k 0 为一个判断规则的临界值 关系”.我们称这样的 .按照 上述规则,把“两个分类变量没有关系”错误地判断为 “两个分类变量有关系”的概率为 P(K 2 k0 )
高中数学:1.2《独立性检验的基本思想及其初步应用》复习教案
1.2独立性检验的基本思想及其初步应用教学目标:1理解独立性检验的基本思想2、会从列联表、柱形图、条形图直观判断吸烟与患癌有关。
3、了解随机变量K2的含义。
教学重点:理解独立性检验的基本思想。
教学难点;1、理解独立性检验的基本思想、2、了解随机变量K2的含义。
教学过程:一、引入:从问题“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表,柱形图,和条形图的展示,使学生直观感觉到吸烟和患肺癌可能会有关系。
但这种结论能否推广到总体呢?要回答这个问题,就必须借助于统计理论来分析。
二、独立性检验就是检验两个分类变量是否有关的一种统计方法:用字母表示吸烟与患肺癌的列联表:不患肺癌患肺癌合计不吸烟 a b a+b吸烟 c d c+d合计a+c b+d a+b+c+d样本容量 n=a+b+c+d假设H0 : 吸烟与患肺癌没有关系。
则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:()()()()()()()220a ca c d c ab ad bc a b c dad bc n ad bc k a b c d a c b d n a b c d≈⇒+≈+⇒-≈++--=++++=+++因此 : 越小, 说明吸烟与患肺癌之间关系越弱.构造随机变量 其中()()2781721489874916.635⨯⨯≈⨯⨯⨯≥≈≥2020220202若H 成立,则K 应该很小. 把表中数据代入公式9965777549-422099K =56.632在H 成立的情况下.统计学家估算出如下概率P K 0.01即在H 成立的情况下,K 的值大于6.635的概率非常小.如果K 6.635,就断定H 不成立,出错的可能性有多大?出现K =56.6326.635 的概率不超过1% .因此,我们有99%的把握认为"吸烟与患肺癌有关系."三、作业:预习17页。
1.2独立性检验的基本思想及其初步应用(第二课时)。
1.2独立性检验的基本思想
独立性检验的基本思想及其初步应用
在统计学中, 在统计学中,独立性检验就是检验两个分类变量是 否有关系的一种统计方法。 否有关系的一种统计方法。 所谓“分类变量” 就是指个体所属的类别不同, 所谓“分类变量”,就是指个体所属的类别不同,也 称为属性变量或定型变量。 称为属性变量或定型变量。 在日常生活中, 在日常生活中,我们常常关心两个分类变量之间是 否有关系,例如吸烟是否与患肺癌有关系? 否有关系,例如吸烟是否与患肺癌有关系?性别是否对 于喜欢数学课程有影响等等。 于喜欢数学课程有影响等等。
在吸烟与患肺病这两个分类变量的计算中,下列说法正确 在吸烟与患肺病这两个分类变量的计算中, 的是( 的是(
c
)
A、若K的观测值为 、 的观测值为k=6.635,我们有 我们有99%的把握认为吸烟与患 的观测值为 我们有 的把握认为吸烟与患 肺病有关系,那么在 个吸烟的人中必有99个患肺病 肺病有关系,那么在100个吸烟的人中必有 个患肺病 个吸烟的人中必有 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 、从独立性检验可知有 的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病 系时,我们说某人吸烟,那么他有 的可能患肺病 C、若从统计量中求出有95%的把握认为吸烟与患肺病有关 、若从统计量中求出有 的把握认为吸烟与患肺病有关 系,是指有5%的可能性使得推理出现错误 是指有 的可能性使得推理出现错误 D、以上三种说法都不对 、
列联表的条形图: 90% 列联表的条形图: 100%
80% 70% 60% 50% 40% 30% 20% 10% 0%
优秀 不优秀
由图及表直观判断,好像“成绩优秀与班级有关系”,由表中 由图及表直观判断,好像“成绩优秀与班级有关系” 数据计算, 数据计算,得 K 2 的观察值为 k ≈ 0.653 > 0.455。由教科书中表 11, 1-11,得
《1.2 独立性检验的基本思想及其初步应用》PPT课件(湖北省市级优课)
不吸烟
7775
42
7817
表——列联
吸烟
2099
49
2148
表(2x2列
总计
9874
91
9965
联表)
在不吸烟样本中,有0.54%患肺癌
在吸烟样本中,有2.28%患肺癌
因此,在直观上可以得到结论:吸烟群体和不吸烟群 体患肺癌的可能性存在差异
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
独立性检验思想的初步应用
例:为了了解学生对冰球运动的兴趣,随机
从某大学中随机抽取了100人,调查结果显 示,女生中对冰球有兴趣的占2/3,男生55人 中有10人对冰球没有兴趣.
完成以下列联表,并判断能否有90%的把握 认为“对冰球运动是否有兴趣与性别有关”?
有兴趣 无兴趣 总计
男
10
55
女
总计
100
故事1:假设万能的上帝是存在的,那么上帝一 定能“造一块他自己也搬不动的石头” ,但这块 石头他自己也搬不动,这与他的万能相违背,所 以假设不成立,万能的上帝是不存在的.
故事2:某次语文测验,小明同学的一道诗歌鉴 赏题的作答与参考答案一模一样,语文老师就怀 疑小明同学考试作弊了。判断理由如下:假设小 明没有作弊,那么小明的作答与参考答案一模一 样的可能性非常小,是一个小概率事件,所以语 文老师有很大的把握认为小明同学作弊了.
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2014年人教A版选修1-2课件 1.2 独立性检验的基本思想及其初步应用
问题1. 下表是对吸烟和不吸烟的人中患肺癌的调 查数据, 你能从中分析吸烟对患肺癌的影响程度吗?
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
对于某种变量取不同的 “值” 表示不同的类别, 这样的变量称为分类变量. 如: 是否吸烟, 是否信仰宗教, 男性或女性等. 如上表这样, 列出两个分类变量的频数表, 称为 列联表.
不患肺癌 患肺癌 总计 不吸烟 a b a+ b 即 |ad -bc| 越小, 吸烟与患肺癌之间的关系越弱 ; 吸烟 c d c+d 反之越强.总计 a+ c b+ d a+b+c+d
为了使不同容量的数据有统一的评判标准, 我们 我们把列联表中的数字用字母代替, 并计算: 把检查 |ad-bc| 的大小转换成检查 a ; “不吸烟” 样本中 “不患肺癌” 的比例 : n(ad - bc)2 a+ b 2 K , (a + b)(c + d )(a的比例 + c)(b +c “吸烟” 样本中 “不患肺癌” :d ) . c+d 其中 na+b+c+d 为样本容量. 假设 H0: 吸烟与患肺癌没有关系 , 则需 2 若 H0 成立, a则 K c 应该很小. , ad-bc≈0. a + b c + d H0 成立与否呢? 小到什么程度来判断
0.4
0.2 0 不吸烟 吸烟
问题1. 下表是对吸烟和不吸烟的人中患肺癌的调 查数据, 你能从中分析吸烟对患肺癌的影响程度吗?
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874
1
1.2独立性检验的基本思想及其初步应用
试用图形判断服用药和患病之间是否有关系?
解析:相应的等高条形图如下:
从图形可以看出,服用药的样本中患病的比例明显低于 没有服用药的样本中患病的比例,因此可以认为:服用药和 患病之间有关系.
独立性检验方法——K2公式
在调查的480名男士中有38名患有色盲,520名女 士中有6名患有色盲,能否在犯错误的概率不超过0.001的前 提下认为性别与患色盲有关系? 分析:
4.下面是一个2×2列联表: x1 x2 总计 y1 a 2 b y2 21 25 46 总计 73 27 100
则表中a、b的值分别为( C ) A.94、96 C.52、54 B.52、50 D.54、52
5.性别与身高列联表如下: 男 女 总计 高(165 cm以上) 37 6 43 矮(165 cm以下) 4 13 17 总计 41 19 60
作出2×2列联表 → 计算随机变量K2的值 → 对照临界值作出结论 解析:根据题目所给的数据作出如下的列联表:
色盲 不色盲 总计
男
女 总计
38
6 44
442
514 956
480
520 1 000
根据列联表中所给的数据可以得: a=38,b=442,c=6,d=514,a+b=480,c+d= 520,a+c=44,b+d=956,n=1 000.
3.独立性检验. 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验.
nad-bc2 公式 K2=_____________________ a+bc+da+cb+d ,其中n=______________. a+b+c+d
①根据实际问题的需要确定容许推断“两个分类变量有 临界值 k0 .② 关系”犯错误概率的上界α,然后查表确定 ________ k________ ≥k0 利用公式计算随机变量K2的 ________ , 观测值 k .③如果 具体 就推断“X与Y有关系”,这种推断犯错误的概率不超过 步骤 α;否则,就认为在犯错误的概率不超过α的前提下不能 推断“X与Y有关系”,或者在样本数据中没有发现足够 证据支持结论“X与Y有关系”.
1.2独立性检验的基本思想及其初步应用课件人教新课标
因此,
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判 标准,基于上述分析,我们构造一个随机变量:
K2 =
n(ad - bc)n
(a + b)(c + d)(a + c)(b + d)
其中n=a+b+c+d为样本容量.
48 121 208 223 193 165 42
(I)将各组的频率填入表中;
(II)根据上述统计结果,计算灯管使用寿命不足 1500小时的频率.
解答
分组
频数 频率
[500,9 [900, 00) 1100)
48 121 0.048 0.121
[1100, 1300)
208 0.208
[1300, 1500)
P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.83
(2)利用K2公式,计算随机变量K2的观测值k.
(3)如果k>k0,就推断“X与Y有关系”,这 种推断犯错误的概率不超过a;否则,就认为在犯 错误的概率不超过a的前提下不能推断“X与Y有关 系”.
k=
16.373 > 6.635
3891048 665 772
所以有99%的把握认为”秃顶与患心脏病有关”.
解答
根据题目所得数据得到列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
高中数学《1.2 独立性检验的基本思想及其初步应用》导学案2 新人教A版选修1-2
独立性检验的基本思想及其初步应用通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性1416 复习1:统计量2K :复习2:独立性检验的必要性:二、新课导学 ※ 学习探究新知1:独立性检验的基本思想: 1、 独立性检验的必要性:探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题 H 0:第二步:根据公式求2K 观测值k =(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H 1: ” 成立的可能性越大.)第三步:查表得出结论※典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?小结:用独立性检验的思想解决问题:第一步:第二步:第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽k . 在多大程度上可以认为高中生的性别与是否由表中数据计算得到K的观察值 4.513数学课程之间有关系?为什么?※动手试试练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况Array与生理健康有关”?三、总结提升※学习小结1. 独立性检验的原理:2. 独立性检验的步骤:※知识拓展. Array※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个22⨯列联表则表中a,b 的之分别是( )D. 54,52 3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量2K 满足时,我们有99%的把握认为这两个分类变量有关系. 5. 在22⨯列联表中,统计量2K = . 为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表 能以97.5%的把握认为药物有效吗?为什么?。
高中数学 第一章 统计案例 1.2 独立性检验是如何判断
独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立. 1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由. 解:提出假设H 0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H 0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H 0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立. 解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ 所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例 4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025,有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
2014-2015学年高中数学(人教版选修1-2)课时训练第一章 1.2 独立性检验的基本思想及其初步应用
y
x x1 x2 总计
y1
a c a+c
y2
b d b+d
总计
a+b c+ d a+b+c+d
栏 目 链 接
在列联表中,如果两个分类变量没有关系,则应该满足ad -bc≈0.因此|ad-bc|越小,说明两个分量之间的关系越 弱;|ad-bc|越大,说明两个分类变量之间的关系越强.
栏 目 链 接
解析:P(K2>3.841)=0.05,判断出错的可能性为5%.
答案:5%
栏 目 链 接
1.重点 通过案例理解分类变量、列联表、独立性检验的含义; 利用列联表的独立性检验进行估计.
栏 目 链 接
2.难点 独立性检验的基本思想;随机变量K2的含义.
第一章
统计案例
1.2 独立性检验的基本思想及其初步应用
栏 目 链 接
1. 了解独立性检验 记住K2的计算公式. 用.
只要求 2×2 列联表
的基本思想,
2. 了解实际推断原理和假设检验的基本思想及其初步应 3. 通过实际问题培养学生的学习兴趣,激发学生学习的 积极性和主动性,增强社会实践能力,培养分析问题、解决 问题的能力.
②图形分析: 利用等高条形图来分析两分类变量之间是否具有相关关系,形象、直 观地反映两个分类变量之间的总体状态和差异大小, 进而推断它们之间是 否有关系. a.绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等, 但对应的条形图的高度是相同的,两列的数据对应不同颜色.b.等高条形 图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色 a c 区域的高度,如果两个高度相差比较明显(即 和 相差很大),就判 a+b c+d 断两个分类变量之间有关系.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误区解密 公式记忆不准确,计算错误 【例 4】 为考察某种药物预防疾病的效果,进行动物试验, 得到如下的列联表: 药物效果试验列联表 患 病 未患病 10 45 服用药 20 30 没服用药 请问有多大把握认为该药有效?
105×10×45-20×302 错解:k= 55×50×30×75 ≈0.381 8<0.455, ∴在犯错误的概率大于 0.5 的前提下认为该药有效. 2 n ad - bc 错因分析: K2= , 而错解中误将(ad a+bc+da+cb+d -bc)2 用成(ab-cd)2. 105×10×30-20×452 正解:k= ≈6.11>5.024, 55×50×30×75 ∴在犯错误的概率不超过 0.025 的前提下认为该药物有效. 纠错心得:在判断两个分类变量的可信程度时要特别注意 计算的准确度,准确代数、准确计算、准确比较、准确下结论.
要点阐释 1.独立性检验的基本思想 利用随机变量 K2 来确定是否能以一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验,独立性 检验的基本思想类似于反证法.要确认“两个分类变量有关 系”这一结论成立的可信程度,首先假设该结论不成立,如果 由观测数据计算得到的 K2 的观测值 k 很大,则在一定程度上说 明假设不合理.
②利用随机变量 K2 的计算公式,求 K2 的观测值 k. ③如果 k≥k0, 就推断“X 与 Y 有关系”, 这种推断犯错误 的概率不超过 α.否则,就认为在犯错误的概率不超过 α 的前提 下不能推断“X 与 Y 有关系”,或者在样本数据中没有发现足 够证据支持结论“X 与 Y 有关系”.通常认为 k≤2.706 时,样 本数据就没有充分的证据显示“X 与 Y 有关系”.
题型二 独立性检验 【例 2】 某聋哑研究机构对聋哑关系进行抽样调查,在耳 聋的 657 人中有 416 人哑,而另外不聋的 680 人中有 249 人 哑.你能运用这组数据得出相应的结论吗?
思路点拨:先列出 2×2 列联表,再计算 K2 的值,运用独 立性检验得出结论. 解:根据题目所给数据得到如下列联表: 哑 不 哑 合 计 416 241 657 聋 431 680 不 聋 249 672 1 337 合 计 665 根据列联表中数据得到 2 1 337 × 416 × 431 - 249 × 241 K2= ≈95.29>10.828. 665×672×657×680 所以我们可以在犯错误的概率不超过 0.001 的前提下说聋 哑有关系.
2.某大型企业人力资源部为了研究企业员工工作态度和对 待企业改革态度的关系,经过调查得到如下列联表: 积极支持 不太支持 总 企业改革 企业改革 计 54 40 94 工作积极 32 63 95 工作一般 86 103 189 总 计 根据列联表的独立性检验,能否在犯错误的概率不超过 0.005 的前提下,认为工作态度与对待企业改革态度之间有关 系?
1.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机 的情况如下表所示: 晕 机 不晕机 合 计 24 31 55 男 性 8 26 34 女 性 32 57 89 合 计 据此资料,你是否认为在恶劣气候飞行中男性比女性更容 易晕机?
解: 根据列联表中所给的数据作出等高条形图,如图所 示.假设晕机与性别有关,则从画出的等高条形图中我们可以 看出:男乘客中晕机所占的比例约为 0.436,女乘客中晕机所占 的比例约为 0.235, 两者的差是|0.436-0.235|=0.201, 差值较大, 因而我们可以认为晕机与男女性别是有关的.
由列联表中的数据,得 K2 的观测值为 1 500×982×17-8×4932 k= 990×510×1 475×25 ≈13.097>10.828. 因此,在犯错误的概率不超过 0.001 的前提下,认为质量 监督员甲在或不在生产现场与产品质量好坏有关系.
方法点评:利用图形来判断两个变量之间是否有关系,可 以画出等高条形图,仅从图形上只可以粗略地估计两个分类变 量的关系,可以结合所求的数值来进行比较.作图应注意单位 统一,图形准确.但图形不能给我们两个分类变量是否有关的 精确判断,若要作出精确的判断,还应作独立性检验的有关计 算.
越大,关系越强.
3.独立性检验所采用的思路是:要研究 A,B 两类型变量 无关 ,在此假设下构 彼此相关,首先假设这两类变量彼此________ 造随机变量 K2.如果 K2 的观测值较大,那么在一定程度上说明 不成立 . 假设________
4.给出 2×2 列联表如下表所示: B B1 B2 总计 A A1 98 ① 123 A2 89 ② ③ 总计 ④ 41 ⑤ 试根据表格填空: 25 16 (1)①______________ ;②____________ ; ③______________ ;④______________ ; 105 187 ⑤______________ ; 228 独立 (2)A 与 B______________ (填“独立”或“不独立”).
(2)独立性检验(精确判断) 具有实施步骤如下: ①根据实际问题的需要确定容许推断“两个分类变量有关 系”犯错误概率的上界 α,然后查下表确定临界值 k0. P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 k0 0.02 0.01 0.00 0.00 5 0 5 1 0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.8 5 8 3 2 6 1 4 5 9 28
思路点拨:首先作出数据的列联表,再由列联表画出条形 图,并计算 K2 的值,最后运用独立性检验得出结论. 解:根据题目所给数据得如下 2×2 列联表: 合格品数 次品数 总 计 982 8 990 甲在生产现场 493 17 510 甲不在生产现场 1 475 25 1 500 总 计
相应的等高条形图如图所示: 图中两个深色条的高分别表示甲在生产现场和甲不在生产 现场样本中次品数的频率.从图中可以看出,甲不在生产现场 样本中次品数的频率明显高于甲在生产现场样本中次品数的频 率.因此可以认为质量监督员甲在或不在生产现场与产品质量 好坏有关系.
3.为研究司机血液中含有酒精与对事故负有责任是否有关 系,从死于汽车碰撞事故的司机中随机抽取 2 000 名司机,得到 如下列联表: 有责任 无责任 总 计 650 150 800 有酒精 700 500 1 200 无酒精 650 2 000 总 计 1 350 试利用图形分析司机血液中含有酒精与对事故负有责任是 否有关系.根据列联表的独立性检验,能否在犯错误的概率不 超过 0.001 的前提下认为二者有关系?
自学导引 1.2×2 列联表 (1)分类变量:变量的不同“值”表示个体所属的不同类别 ________, 这类变量称为分类变量.
(2)2×2 列联表. 假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 像上表这样列出的两个分类变量的________ 频数表 称为列联表. 在列联表中,如果两个分类变量没有关系,则应满足 ad- bc≈0.因此|ad-bc|越小,说明两个分类变量之间关系越弱; |ad -bc|越大,说明两个分类变量之间关系越强.
自主探究 1.如何理解分类变量?
【答案】(1)这里的“变量”和“值”都应作为“广义”的 变量和值来理解.例如,对于性别变量,其取值有 “ 男 ” 和 “女”两种,这里的“变量”指的是“性别”,这里的“值” 指的是“男”或“女”.因此,这里说的“变量”和“值”不 一定是取具体的数值. (2)在现实生活中,分类变量是大量存在的.例如,吸烟变 量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.
2.判断两变量间是否有关系的方法 (1)二维条形图 利用二维条形图,可以粗略地判断两个变量之间是否有关 系(但这种判断无法精确地给出所得结论的可靠程度 ),方法如 下: 在二维条形图中, 可以估计满足条件 X=x1 的个体中具有 Y a =y1 的个体所占的比例 ,也可以估计满足条件 X=x2 的个 a+b c 体中具有 Y=y1 的个体所占的比例 .这两个比例的值相差越 c+d 大,有关系的可能性就越大.
Байду номын сангаас
解:由列联表中的数据,得 K2 的观测值为 189×54×63-40×322 k= ≈10.759>7.879. 94×95×86×103 因此, 在犯错误的概率不超过 0.005 的前提下, 认为工作态 度与对待企业改革态度之间有关系.
题型三 独立性检验的综合应用 【例 3】 某生产线上,质量监督员甲在生产现场时, 990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17 件.试利用图形判断监督员 甲在或不在生产现场对产品质量好坏有无影响.能否在犯错误 的概率不超过 0.001 的前提下认为质量监督员甲在或不在生产 现场与产品质量好坏有关系?
思路点拨:由列联表画出等高条形图,并进行分析,再利 用独立性检验作出判断. 解:根据列联表中所给的数据作出等高条形图,如图所示.
假设血清与预防感冒有关,则从画出的等高条形图可以看 出,试验的个体中感冒的个体所占的比例为 0.496,未试验的个 体中感冒的个体所占的比例为 0.552 ,两者的差别是 |0.496 - 0.552|=0.056,两者相差太小,因而血清对预防感冒有关系的假 设不成立,从而看出血清对预防感冒的作用不够明显,也就是 说血清对预防感冒几乎没有作用.
【答案】A
2.在列联表中,哪两个比值相差越大,两个分类变量之间 的关系越强( ) a c a c A. 与 B. 与 a+b c+d c+d a+b a c a c C. 与 D. 与 a+d b+c b+d a+c
【答案】A
a c |ad-bc| a c 【解析】∵a+b-c+d= ,∴ 与 相差 a+b c+a a+bc+d