独立性检验(文科)

合集下载

2012届文科独立性检验复习课件

2012届文科独立性检验复习课件

1.(2010•辽宁卷)为了比较注射A,B两种药物后产生的 皮肤疱疹的面积,选200只家兔做试验,将这200只家 兔随机地分成两组,每组100只,其中一组注射药物A, 另一组注射药物B.下表1和表2分别是注射药物A和B 后的试验结果(疱疹面积单位:mm2): 表1:注射药物A后皮肤疱疹面积的频数分布表
已知 x 与 y 之间的一组数据:
x 0 1 2 3 y 1 3 5 7
则 y 与 x 的线性回归方程为 y=bx+a (1.5,4) 必过点_________.
1 1 解析:x =4(0+1+2+3)=1.5,y =4(1+3+5+7)=4,回 归直线必过样本点中心(1.5,4).
变式
1.已知 x 与 y 之间的一组数据: x 0 1 2 3 y 1 3 t 7
(1)试分别估计两个分厂生产的零件的优质品率; 试分别估计两个分厂生产的零件的优质品率; 试分别估计两个分厂生产的零件的优质品率 (2)由以上统计数据填下面 ×2列联表,并问是否有 由以上统计数据填下面2× 列联表 并问是否有99%的把握认为 列联表, 由以上统计数据填下面 的把握认为 “两个分厂生产的零件的质量有差异”. 两个分厂生产的零件的质量有差异”
( 2 )由(1) 知回归直线方程是y = 0.08 + 1.23x.
故当x = 10时,y = 0.08 + 1.23 × 10 = 12.38(万元). 即估计使用10年时维修费用是12.38万元.
反思小结:求线性回归方程是解决问题的关键,理 解题意是解题的保证.
拓展练习:一台机器使用时间较长,但还可以使用, 它按不同的转速生产出来的某机械零件有一些会有缺 点,每小时生产有缺点零件的多少,随机器运转的速 度而变化.下表为抽样试验结果:(1)对变量y与x进行 相关性检验;(2)如果y与x有线性相关关系,求回归直 线方程;(3)若实际生产中,允许每小时的产品中有缺 点的零件最多为10个,那么,机器的运转速度应控制 在什么范围内?

数学独立性检验

数学独立性检验

独立性检验是统计学中用于判断两个或多个随机变量之间是否存在关联关系的一种方法。

它通常用于假设检验中,以确定观察到的数据是否支持某个假设。

常用的独立性检验方法包括卡方检验、Fisher精确检验、列联表分析等。

其中,卡方检验是最常用的一种方法,适用于分类变量之间的独立性检验。

它通过计算观察频数与期望频数之间的差异,来判断两个分类变量之间是否存在关联关系。

在进行独立性检验时,需要先提出一个原假设和一个备择假设。

原假设通常表示两个随机变量之间不存在关联关系,而备择假设则表示它们之间存在关联关系。

然后,根据样本数据计算出观察频数和期望频数,并计算它们的卡方值。

最后,根据卡方值和自由度的大小,来决定是否拒绝原假设。

独立性检验在各个领域都有广泛的应用,例如医学、社会科学、经济学等。

它可以用来分析因果关系、控制实验误差、预测未来趋势等。

独立性检验高考真题(2017年-2018年))

独立性检验高考真题(2017年-2018年))

2017年全国卷2文科数学19.(12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量(1)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。

附:【解析】(1)旧养殖法的箱产量低于的频率为因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表K2=由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.2018全国卷318.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式,为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人第一组工人用第一种生产方式,第二组工人用第二种生产方式,根据工人完成生产任务的工作时同(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由:(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不?解:(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:超过不超过(3)由于,所以有99%的把握认为两种生产方式的效率有差异.。

《独立性检验》

《独立性检验》

《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。

“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。

独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。

3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。

4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。

考点107 独立性检验,文科

考点107  独立性检验,文科

考点107 独立性检验65.(2020全国Ⅲ文理18)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理 数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面22⨯的列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:()()()()()22n ad bc K a b c d a c b d -=++++【解析】(1)根据上面的统计数据,可得:该市一天的空气质量等级为1的概率为2162543100100++=;该市一天的空气质量等级为2的概率为5101227100100++=;该市一天的空气质量等级为3的概率为67821100100++=;该市一天的空气质量等级为4的概率为7209100100++=.(2)由题意,计算得1000.203000.355000.45350x =⨯+⨯+⨯=.(3)列联表如下:由表中数据可得:22100(3383722) 5.820 3.84170305545K ⨯⨯-⨯=≈>⨯⨯⨯,∴有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关. 66.(2020新高考山东海南19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了(1)估计事件“该市一天空气中PM2.5浓度不超过75,且2SO 浓度不超过150”的概率;(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中2.5PM 浓度与2SO 浓度有关?附:()()()()()d b c a d c b a bc ad n K ++++-=22,【解析】(1)由表格可知,该市100天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的天数有32618864+++=天,所以该市一天中,空气中的 2.5PM 浓度不超过75,且2SO 浓度不超过150的概率为640.64100=; (2)由所给数据,可得22⨯列联表为:(3)根据22⨯列联表中的数据可得222()100(64101610)()()()()80207426n ad bc K a b c d a c b d -⨯⨯-⨯==++++⨯⨯⨯36007.4844 6.635481=≈>,因为根据临界值表可知,有99%的把握认为该市。

高中数学_1.1 独立性检验教学设计学情分析教材分析课后反思

高中数学_1.1 独立性检验教学设计学情分析教材分析课后反思

《独立性检验》教学设计独立性检验一、教学内容分析这一节的教学为选修1-2第一章第二节,是新课标新增的内容,课题趣味性较强,充分体现了数学在实际生活中的应用,对于提高学生的学习兴趣有较大作用。

通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题.通过列联表、等高条形图,使学生直观感觉到吸烟和患肺癌可能有关系.这一直觉来自于观测数据.问题是这种来自数据观测能够在多大程度上代表总体,这节课就是为了解决这个问题,让学生亲身体验直观感受的基础上,提高学生的数据分析能力。

二、教学目标知识目标:(1)通过对典型案例的研究,了解独立性检验的基本思想;(2)掌握独立性检验的基本方法及初步应用。

能力目标:(1)通过对案例的分析,提高学生分析、解决实际问题的能力;(2)培养通过收集数据,并依据独立性检验的原理作出合理推断的良好习惯。

情感目标:(1)在自主探究与讨论交流过程中,培养学生的合作意识和创新精神;(2)充分体现数学的趣味性,提高学生学习兴趣。

三、教法与学法设计1、教法设计:创设情境,提出问题——分组讨论,合作交流——共同探究,概念形成,——概念深化,重点精讲——典型例题,分析应用——课堂练习,堂堂达标2、教学方法:引导发现法、探索讨论法等引导发现法能充分调动学生的积极性和主动性;探索讨论法(1)有利于学生对知识进行主动建构;(2)有利于突出重点、突破难点。

3、采用多媒体演示,利用网络;4、采用学案(全批全改),充分保证每个学生的自主学习;5、开展积极的合作、交流,体现合作探究精神。

四、教学重点与难点1、教学重点:用独立性检验的方法判断两个分类变量的关系2、教学难点:把握独立性检验的基本思想并体会初步应用,掌握K2的公式,并根据观测值判断两各变量是否相关。

五、教学准备1、硬件环境:多媒体教室,能够接入互联网;2、多媒体课件。

六、教学过程的把握认为“两个分厂生产的零件的质量有差异”.【题后反思】①解答此类题目的关键在于正确利用χ2=n n11n22-n12n212n1+n2+n+1n+2计算χ2的值,再用它与临界值的大小作比较来判断假设检验是否成立,从而使问题得到解决.②此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【变式3】下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.六、课堂小结,回顾归纳课后小结:1.理解2×2列联表的意义和χ2统计量的作用.2.通过对典例的分析,体会独立性检验的基本思想学情分析一、基础:这一节的教学为选修1-2第一章第二节,是新课标新增的内容,课题趣味性较强,充分体现了数学在实际生活中的应用,对于提高学生的学习兴趣有较大作用。

独立性检验基本思想及应用

独立性检验基本思想及应用

独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。

其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。

独立性检验的应用非常广泛。

在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。

在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。

此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。

独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。

零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。

独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。

2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。

表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。

3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。

期望频数是在两个变量独立情况下,各个类别的交叉数量。

4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。

计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。

其中,Σ表示对所有单元格进行求和。

5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。

通常,α的常见选择为0.05或0.01。

6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。

独立性检验的结果常常以卡方统计量和p值的形式呈现。

p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。

独立性检验课件

独立性检验课件

独立性检验课件独立性检验课件独立性检验是统计学中一种常用的方法,用于确定两个或多个分类变量之间是否存在关联或独立性。

在实际应用中,独立性检验可以帮助我们了解两个变量之间的关系,从而为决策和预测提供依据。

本课件将介绍独立性检验的基本概念、常见方法和实际应用。

一、独立性检验的基本概念独立性检验是一种用于检验两个或多个分类变量之间是否存在关联的统计方法。

在独立性检验中,我们通常使用卡方检验来判断两个变量之间的关系。

卡方检验是一种非参数检验方法,不需要对数据的分布做出假设。

在进行独立性检验之前,我们首先需要明确两个变量的测量尺度,通常可以分为名义尺度和有序尺度。

名义尺度的变量是分类变量,没有顺序关系,例如性别、地区等;有序尺度的变量是有一定顺序关系的分类变量,例如教育程度、收入水平等。

二、常见的独立性检验方法1. 卡方检验卡方检验是一种常用的独立性检验方法,用于判断两个分类变量之间是否存在关联。

卡方检验的原理是比较实际观察值与理论期望值之间的差异,通过计算卡方统计量来判断差异是否显著。

卡方检验的步骤包括:建立原假设和备择假设、计算卡方统计量、确定临界值和拒绝域、比较计算值与临界值。

如果计算值大于临界值,则拒绝原假设,认为两个变量之间存在关联。

2. Fisher精确检验Fisher精确检验是一种用于小样本独立性检验的方法,适用于样本量较小或理论期望值较低的情况。

Fisher精确检验通过计算超几何分布的概率来判断两个变量之间的关系。

Fisher精确检验的步骤包括:建立原假设和备择假设、计算超几何分布的概率、确定显著性水平和拒绝域、比较计算值与临界值。

如果计算值小于临界值,则拒绝原假设,认为两个变量之间存在关联。

三、独立性检验的实际应用独立性检验在实际应用中具有广泛的应用价值。

以下是一些常见的实际应用场景:1. 市场调研市场调研是企业决策的重要环节,独立性检验可以帮助企业了解不同市场细分之间的关系。

例如,一家手机厂商想要了解不同性别消费者对手机品牌的偏好是否存在差异,可以通过独立性检验来判断两个变量之间是否存在关联。

人教版高中选修2-33.2独立性检验的基本思想及其初步课程设计

人教版高中选修2-33.2独立性检验的基本思想及其初步课程设计

人教版高中选修2-33.2独立性检验的基本思想及其初步课程设计一、独立性检验概述在概率论和数理统计中,独立性检验是指检验两个离散随机变量之间是否独立的方法。

在实际问题中,常常需要研究两个随机变量之间的关系,是否存在关联。

例如,对于一个大学招生的案例,一个人的高中成绩和大学录取情况可以是两个随机变量,我们需要使用独立性检验来判断这两个随机变量是否有关联。

二、独立性检验方法独立性检验方法有很多种,其中最常用的是卡方检验。

2.1 卡方检验卡方检验是一种统计检验方法,用于检验分类资料之间的独立性。

它的基本思想是,将观察结果与理论期望作比较,确定两者之间是否有显著差异来判断两个随机变量之间是否独立。

卡方检验的基本步骤包括:1.假设零假设为两个随机变量独立,对这个假设建立尽可能充分的理论模型。

2.将实际观察值与理论值进行比较,计算出统计量。

3.利用卡方分布表来获得临界值,以判断是否拒绝零假设。

2.2 其他方法在实际应用中,除了卡方检验,还有很多独立性检验的方法。

例如,t检验中的独立样本t检验,ANOVA中的多元卡方检验等等。

这些方法在不同的领域和场合有不同的应用。

三、课程设计建议针对高中选修2-33.2独立性检验,可以设计以下课程教学内容:3.1 概念讲解在课程开头,可以先为学生介绍独立性检验的基本概念,包括随机变量、独立性、检验方法等。

这部分内容可以通过举例子、讲解理论、使用模拟仿真等方式进行,让学生对独立性检验有一个初步的认识。

3.2 卡方检验的具体操作在学生掌握了基本概念之后,可以进一步教授卡方检验的具体操作方法。

在讲解过程中,教师可采取课堂讲解方式,为学生演示计算过程和判断方法。

并且可以为学生演示如何使用统计软件完成卡方检验。

同时,为了让学生更好的掌握卡方检验的操作,可以设计一些实际案例,让学生进行计算和判断实验。

3.3 讨论与总结在课程结束时,可以组织学生进行小组讨论和总结。

讨论的主题可以是卡方检验的应用与展望,或是针对课程内容的总结与反思。

文科数学(课件)11独立性检验55页PPT

文科数学(课件)11独立性检验55页PPT

谢谢!
ห้องสมุดไป่ตู้
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
文科数学(课件)11独立性检验
51、没有哪个社会可以制订一部永远 适用的 宪法, 甚至一 条永远 适用的 法律。 ——杰 斐逊 52、法律源于人的自卫本能。——英 格索尔
53、人们通常会发现,法律就是这样 一种的 网,触 犯法律 的人, 小的可 以穿网 而过, 大的可 以破网 而出, 只有中 等的才 会坠入 网中。 ——申 斯通 54、法律就是法律它是一座雄伟的大 夏,庇 护着我 们大家 ;它的 每一块 砖石都 垒在另 一块砖 石上。 ——高 尔斯华 绥 55、今天的法律未必明天仍是法律。 ——罗·伯顿

文科数学(课件)11独立性检验55页PPT

文科数学(课件)11独立性检验55页PPT
文科数学(课件)11独立性检验
61、辍学如磨刀之石,不见其损,日 有所亏 。 62、奇文共欣赞,疑义相与析。
63、暧暧远人村,依依墟里烟,狗吠 深巷中 ,鸡鸣 桑树颠 。 64、一生复能几,倏如流电惊。 65、少无适俗韵,性本爱丘山。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴

高二数学独立性检验知识点

高二数学独立性检验知识点

高二数学独立性检验知识点独立性检验是高中数学中的重要概念之一,用于判断两个或多个事件是否相互独立。

在数学考试中,独立性检验经常被应用于概率统计等相关题目。

本文将详细介绍高二数学中的独立性检验知识点,帮助同学们更好地理解和应用。

一、独立性的定义和特性在进行独立性检验之前,我们首先需要了解独立性的定义和特性。

在概率统计中,两个事件A和B的独立性表示事件A的发生与事件B的发生是互相独立的,即A的发生不影响B的发生,反之亦然。

独立性的特性包括以下几个方面:1. 互斥性:如果A和B互斥(即A和B不能同时发生),则A和B是相互独立的。

2. 互不影响性:如果A和B是相互独立的,那么A和B的补事件也是相互独立的。

即P(A) = 1 - P(A'),P(B) = 1 - P(B')。

3. 乘法法则:如果A和B是相互独立的,那么P(A∩B) = P(A) × P(B)。

二、独立性检验方法在实际应用中,我们需要通过数据分析或实验来判断两个事件是否独立。

针对不同情况,有不同的独立性检验方法。

1. 经验法:当数据较少或不能进行大样本实验时,我们可以使用经验法来判断独立性。

经验法主要是通过观察、比较和思考来判断两个事件是否独立。

2. 理论法:当数据比较充足并且满足一定的条件时,我们可以使用理论法来进行独立性检验。

理论法主要是基于概率计算和统计推断来判断独立性。

三、常见的独立性检验方法在高二数学中,常见的独立性检验方法包括以下几种:1. 卡方检验:卡方检验是一种针对频数资料的检验方法,用于检验两个事件是否独立。

通过计算观察频数和期望频数之间的差异来判断独立性。

2. 相关系数检验:相关系数检验可以用于判断两个事件之间是否存在线性相关性。

当两个事件呈现出线性相关性时,它们往往是不独立的。

3. 二项分布检验:二项分布检验可以用于判断两个事件的独立性。

当事件满足二项分布的条件时,可以通过计算观察值与理论值之间的差异来判断独立性。

备战高考数学复习考点知识与题型讲解86---独立性检验

备战高考数学复习考点知识与题型讲解86---独立性检验

备战高考数学复习考点知识与题型讲解第86讲独立性检验考向预测核心素养利用2×2列联表和卡方独立性检验判断两个变量的相关关系是高考考查的热点,各种题型均会出现.数据分析、数学运算一、知识梳理1.分类变量与列联表(1)分类变量在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.(2)2×2列联表列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y 1y2合计x1a b a+bx2c d c+d合计a+c b+d a+b+c+d2.独立性检验(1)零假设以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H:分类变量X和Y独立.通常称H0为零假设或原假设.(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.二、教材衍化1.(人A选择性必修第三册P134练习T1改编) 为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A.回归分析 B.均值与方差C.独立性检验 D.概率答案:C2.(人A选择性必修第三册P134练习T4改编)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性不大于________.解析:χ2≈4.844>3.841=x0.05,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性不大于0.05.答案:0.053.(人A选择性必修第三册P132例3改编)随着国家三孩政策的放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.由χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),得χ2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表:α根据小概率值α=0.010的独立性检验,可以得到的结论是____________.答案:生育意愿与城市级别有关一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)独立性检验是检验两个分类变量是否有关的一种统计方法.( )(2)独立性检验得到的结论一定是正确的.( )(3)独立性检验的样本不同,其结论可能不同.( )(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2越小.( ) 答案:(1)√(2)×(3)√(4)×二、易错纠偏1.(列联表意义不明致误)下面是2×2列联表:y 1y2合计x1a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50C.52,74 D.74,52解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.2.(独立性检验理解不当致误)(2022·揭阳模拟)随机询问50名大学生调查爱好某项运动是否和性别有关.利用2×2列联表计算得χ2=8.333,则下列结论正确的是( )附:α0.0100.0050.001αA.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别有关”B.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别无关”C.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别有关”D.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别无关”解析:选 A.因为8.333>7.879,由附表知,在犯错误的概率不大于0.005的前提下,认为“是否爱好该项运动与性别有关”.故选A.考点一分类变量与列联表(自主练透)复习指导:掌握分类变量的含义;通过实例,理解2×2列联表的统计意义.1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是( )A.吸烟患肺病的频率约为0.2B.吸烟不患肺病的频率约为0.8C.不吸烟患肺病的频率小于0.05D.不能判断吸烟与患肺病之间的关系解析:选ABC.从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A,B,C都正确,D不正确.2.(2022·湖南省永州市高三适应性考试)“直播电商”已经成为当前经济发展的新增长点,某电商平台的直播间经营化妆品和服装两大类商品,2021年前三个季度,该直播间每个季度的收入都比上一季度的收入翻了一番,其前三季度的收入情况如图所示,则( )A.该直播间第三季度总收入是第一季度总收入的3倍B.该直播间第二季度化妆品收入是第三季度化妆品收入的1 3C.该直播间第一季度化妆品收入是第三季度化妆品收入的1 6D.该直播间第三季度服装收入低于前两个季度的服装收入之和解析:选B.对于选项A,因为该直播间每个季度的收入都比上一季度的收入翻了一番,所以第三季度的总收入是第一季度的2×2=4倍,故A错误;对于选项B,设第一季度的总收入为a,则第二季度、第三季度的总收入分别为2a,4a,第二季度的化妆品收入为2a×20%=0.4a,第三季度的化妆品收入为4a×30%=1.2a,所以第二季度化妆品收入是第三季度化妆品收入的0.4a1.2a=13,故B正确;对于选项C,第一季度的化妆品收入为a×10%=0.1a,所以第一季度化妆品收入是第三季度化妆品收入的0.1a1.2a=112,故C错误;对于选项D,第一、二季度服装收入和为a+2a-0.1a-0.4a=2.5a,第三季度服装收入为4a-1.2a=2.8a,故D错误.故选B.3.(2022·上海华师大二附中高二月考)假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为XY合计y1y2x1a b a+bx2c d c+d合计a+c b+d a+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析:选D.对于同一样本,|ad-bc|越小,说明X与Y相关性越弱,而|ad-bc|越大,说明X与Y相关性越强,通过计算知,对于A、B、C都有|ad-bc|=|10-12|=2;对于选项D,有|ad-bc|=|15-8|=7,显然7>2.4.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与会俄语”的2×2列联表中,a-b+d=________.性别俄语合计会俄语不会俄语男 a b 20女6 d合计1830解析:由2×2列联表的性质,可得:a=18-6=12,b=20-12=8,6+d=30-20,可得d=4,所以a-b+d=8.答案:8求解参数的方法(1)根据等高堆积条形图的高度差直接判断.(2)直接利用2×2列联表的性质,建立方程即可求参数.考点二独立性检验(多维探究)复习指导:通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验的基本思想、方法及初步应用.角度1 简单的独立性检验问题某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:优秀非优秀合计一班3513二班1725合计(1)请完成列联表;(2)依据小概率值α=0.01的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?参考数据:α0.10.050.010.005xα2.7063.841 6.6357.879χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解】(1)优秀非优秀合计一班351348二班172542合计523890 (2)零假设为H0:推广新课改与总成绩是否优秀无关.根据列联表中的数据,得到χ2=90×(35×25-13×17)248×42×52×38≈9.663>6.635=x0.01,故根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为推广新课改与总成绩是否优秀有关系,此推断犯错误的概率不大于0.01.角度2 独立性检验与统计、概率的综合问题(2022·四川雅安5月三模改编)高铁在出行方式中越来越受欢迎,某部门利用大数据随机抽取了出行人群中的100名旅客进行调查统计,得知在40岁及以下的旅客中乘坐高铁出行的占23.(1)请完成下面的2×2列联表,并依据小概率值α=0.001 的独立性检验,分析能否认为乘坐高铁出行与年龄有关;(2)为提升服务质量,该部门从这100名旅客中按年龄采用分层随机抽样的方法选取5人参加座谈会,会后再进行抽奖活动,奖品共三份,由于年龄差异,规定40岁及以下的旅客若中奖,则每人得800元,40岁以上的旅客若中奖,则每人得1 000元,设三份奖品总金额为X 元,求X 的分布列与数学期望.参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:【解】 (1)由已知可得,样本中40岁及以下乘坐高铁出行的有60×23=40(人).2×2列联表如下:零假设为H 0:乘坐高铁出行与年龄无关.由列联表中的数据计算可得χ2=100×(40×30-20×10)260×40×50×50≈16.667>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为乘坐高铁出行与年龄有关,此推断犯错误的概率不大于0.001.(2)采用分层随机抽样的方法,则从40岁及以下的人中抽取3人,从40岁以上的人中抽取2人.X的所有可能取值为2 400,2 600,2 800.P(X=2 400)=C33C02C35=110,P(X=2 600)=C23C12C35=35,P(X=2 800)=C13C22C35=310.故分布列如下:X 2 400 2 600 2 800P11035310E(X)=2 400×110+2 600×35+2 800×310=2 640.(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得到结论.独立性检验的一般步骤:①根据样本数据制成2×2列联表;②根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算得到χ2的值;③比较χ2的值与临界值的大小关系,作统计推断.|跟踪训练|(2022·西藏拉萨那曲第二高级中学高三月考)某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(40,50]的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个2×2列联表:依据小概率值α=0.01的独立性检验,能否认为语文成绩是否优秀与课外阅读时间有关?参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 参考数据:解:(1)设这50名同学的平均阅读时长为x-min,则x-=5×4+15×10+25×14+35×18+45×450=26.6,故这50名同学的平均阅读时长为26.6 min.(2)设这4名学生中分别为甲、乙、丙、丁,从这4名学生中任取2名学生,所有的样本点有:(甲,乙),(甲,丙),(甲,丁),(乙,丙),(乙,丁),(丙,丁),共6个,其中,事件“甲同学被选中”所包含的样本点有:(甲,乙),(甲,丙),(甲,丁),因此,所求概率为P=36=12.(3)零假设为H0:语文成绩是否优秀与课外阅读时间无关.由列联表中的数据计算得χ2=50×(20×25-2×3)222×28×23×27≈31.897>6.635=x0.01,因此,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为语文成绩是否优秀与课外阅读时间有关,此推断犯错误的概率不大于0.01.[A 基础达标]1.下面的等高条形图可以说明的问题是( )A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析:选D.由等高条形图可知“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的频率不同,所以“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握,所以选项D正确,故选D.2.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,得到“偏爱蔬菜还是肉类与性别有关”这个结论犯错误的概率大于0.001,而不大于0.01,则χ2的值可能为( ) 附表:A.3.206B.6.561C.7.879D.11.028解析:选 C.根据题意得χ2的取值范围为[6.635,10.828),因此χ2的值可能为7.879.故选C.3.(多选)假设有两个分类变量X和Y,其2×2列联表如下表所示:在犯错误的概率不超过0.05的前提下,下面哪个选项可以认为变量X,Y有关( )A.a=10 B.a=12C.a=8 D.a=9解析:选ACD.根据列联表知,aa+40与30-a60-a的差距越小,则越无法认为变量X,Y有关联,分析四个选项,B选项中,a=12时,aa+40与30-a60-a的差距最小,且不满足犯错误的概率不超过0.05的条件,而其他选项均满足.4.小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,下列小波对地区A 天气判断不正确的是( )附表:A.夜晚下雨的概率约为1 2B.未出现“日落云里走”夜晚下雨的概率约为5 14C.做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨解析:选D.据列联表,100天中有50天下雨,50天未下雨,因此下雨的概率约为50 100=12,A正确;同样,未出现“日落云里走”夜晚下雨的概率约为2525+45=514,B正确;因为χ2≈19.05>10.828=x0.001,所以做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001,C正确;有关只是说可能性,不代表一定下雨,D错误.故选D.5.(多选)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算χ2≈5.059,则可以推断出( )附:A.该俱乐部的男性会员对运动场所满意的概率的估计值为2 3B.调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意C.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.05D.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.01解析:选ABC.对于选项A,该俱乐部男性会员对运动场所满意的概率的估计值为18 27=23,故A正确;对于选项B,该俱乐部女性会员对运动场所满意的概率的估计值为823,而23=4669>823=2469,故B正确;因为χ2≈5.059>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们认为男性会员、女性会员对运动场所的评价有差异,此推断犯错误的概率不大于0.05,故C正确,D错误.6.(多选)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下2×2列联表.经计算得χ2=100×(35×28-15×22)250×50×57×43≈6.895.之后又对被研究者的身高进行了统计,得到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正确的是( )A.“爱好拳击运动与性别有关”,这个结论犯错误的概率不超过0.01B.在100个男生中,至少有一个人爱好打拳击C.男生身高的平均数为175,男生身高的标准差为16D.女生身高的平均数为164,女生身高的标准差为3解析:选AD.χ2≈6.895>6.635=x0.01,A对;显然B错;男生身高的标准差为4,C 错;显然D对,故选AD.7.(2022·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层随机抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析:由列联表计算得χ2=50×(22×12-8×8)2≈5.556>3.841=x0.05,所以推断犯错误的概率不超过0.05.30×20×20×30答案:0.058.(2022·黑龙江模拟)为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:性别疗效合计无效有效男性患者153550女性患者64450合计2179100设H0:服用此药的效果与患者的性别无关,则χ2≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的概率不大于________.解析:由公式计算得χ2=100×(15×44-6×35)221×79×50×50≈4.882,因为χ2>3.841=x0.05根据α=0.05的独立性检验,分析服用此药的效果与患者的性别有关,判断出错的概率不大于0.05.答案:4.882 0.059.(2022·山东省济南市高二期末)为了研究某种疾病的治愈率,某医院对100名患者中的一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如下:(1)根据图表完善以下关于治疗方法和治愈情况的2×2列联表;疗法疗效合计未治愈治愈外科疗法化学疗法18合计100(2)依据小概率值α=0.05的独立性检验,分析此种疾病治愈率是否与治疗方法有关.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(如需计算χ2,结果精确到0.001)α0.10.050.010.0050.001xα2.7063.841 6.6357.87910.828解:(1)根据等高条形图,采用化学疗法的治愈率为30%,由列联表得化学疗法治愈的人数为18人,故采用化学疗法的人共有18÷30%=60人,采用外科疗法的有40人,其中治愈的有40×50%=20人.所以列联表如下表:疗法疗效合计未治愈治愈外科疗法202040化学疗法421860合计6238100 (2)零假设为H0:设此种疾病治愈率与治疗方法无关.则根据列联表中的数据计算χ2=100×(20×18-42×20)262×38×60×40=2 400589≈4.075>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为此种疾病治愈率与治疗方法有关,此推断犯错误的概率不大于0.05.10.(2022·福州市质量检测)某部门研究成果认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.乙小区租户的月收入(单位:千元)的频数分布表如下:(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,并依据小概率值α=0.001的独立性检验,分析幸福指数与租住的小区是否有关.附:临界值表参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月收入不低于6千元”,甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,故P(A)的估计值为0.66;乙小区租户的月收入不低于6千元的频率为24+9+2100=0.35,故P(B)的估计值为0.35.因为甲、乙两小区租户的月收入相互独立,所以事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.(2)设甲小区所抽取的100户租户的月收入的中位数为t,则0.060×3+(t-3)×0.160=0.5,解得t=5.(3)零假设为H0:幸福指数与租住的小区无关.根据2×2列联表中的数据,得到χ2=200×(66×62-34×38)2100×100×104×96≈15.705>10.828=x0.001,依据小概率值α=0.001的独立性检验,我们认为H0不成立,即认为幸福指数与租住的小区有关,此推断犯错误的概率不大于0.001.[B 综合应用]11.(多选)(2022·梅州高二模拟)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则调查人数中男生的人数可能为( )附表:附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).A.25 B.35C.45D.60解析:选CD.设男生可能有x人,依题意得女生有x人,可得2×2列联表如下:若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则χ2≥3.841=x0.05,即χ2=2x·⎝⎛⎭⎪⎫45x·25x-35x·15x275x·35x·x·x=221x≥3.841,解得x≥40.330 5,由题意知x>0,且x是5的整数倍,所以45和60都满足题意.故选CD.12.(2022·青岛市统一质量检测)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解析:由题意作出2×2列联表:则χ2=105×(45×20-10×30)2 55×50×75×30≈6.109>5.024=x0.025,所以认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过0.025.答案:0.025[C 素养提升]13.(2020·新高考卷Ⅱ改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,并依据小概率值α=0.01的独立性检验,能否认为该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8 =64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x0.01.依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关,此推断犯错误的概率不大于0.01.。

8.3.2独立性检验(解析版)

8.3.2独立性检验(解析版)

独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。

考点43 独立性检验

考点43 独立性检验

统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:1y2y总计1x a b a +b 2xc d c +d总计a +cb +da b c d +++2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:20()P K k ≥ 0.500.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.典例 1 利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关k>,那么就有把握认为“X和Y有关系”的百分比为系”的可信度.如果 5.024()2>0.500.400.250.150.100.050.0250.0100.0050.001 P K kK0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.828 A.25%B.75%C.2.5%D.97.5%【答案】D【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.典例2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:附表:()2P K k > 0.05 0.025 0.010 0.005 0.001K 3.84 5.024 6.635 7.879 10.828则认为多看手机与人冷漠有关系的把握大约为 A .99.9%B .97.5%C .95%D .90%【答案】A【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计303060由以上数据,计算得到2K 的观测值9.643k ≈,根据临界值表,以下说法正确的是 附:P (K 2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879A .在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B .在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C .在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D .在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面22⨯列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.20()P K k ≥ 0.400.25 0.15 0.100 0.050 0.025 0.010k0.708 1.323 2.072 2.706 3.841 5.024 6.635【答案】(1)甲、乙两班的优秀率分别为60%和50%;(2)列联表见解析,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(2)22⨯列联表如下:因为22100(30252025)1001.010 1.3235050554599K⨯⨯-⨯==≈<⨯⨯⨯,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占25、朋友聚集的地方占310、个人空间占310.美国高中生答题情况是:朋友聚集的地方占35、家占15、个人空间占15.如下表:在家里最幸福在其他场所幸福合计中国高中生美国高中生合计(1)请将22⨯列联表补充完整,试判断能否有95%的把握认为“恋家”与否与国别有关;(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.附:()()()()()22n ad bcka b c d a c b d-=++++,其中n a b c d=+++.()2P k k≥0.050 0.025 0.010 0.001k 3.841 5.024 6.635 10.8281.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是A.B.C.D.2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是A.100个心脏病患者中至少有99人打酣B.1个人患心脏病,那么这个人有99%的概率打酣C.在100个心脏病患者中一定有打酣的人D.在100个心脏病患者中可能一个打酣的人都没有3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:患肺炎未患肺炎总计②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是 A .①回归分析,②取平均值B .①独立性检验,②回归分析C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是 A .18a =B .19b =C .50c d +=D .1f e -=5.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A .97.5% B .99% C .99.5%D .99.9%6.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 7.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为 A .5,35b d == B .15,25b d == C .20,20b d ==D .30,10b d ==参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22⨯列联表:根据表中数据得到,已知()23.8410.05P K ≥≈,()2 5.0240.025P K ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为A .97.5%B .95%C .2.5%D .5%9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.10.已知下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是__________.11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下22⨯列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表22⨯补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率.附:()()()()()22=n ad bcKa b c d a c b d-++++12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii)从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P () 0.050 0.010 0.001k3.841 6.635 10.82822()()()()()n ad bc K a b c d a c b d -=++++.2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.0500.0100.001k 3.841 6.63510.8281.【答案】D【解析】因为根据临界值表,9.643>7.879,所以在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关.故选D.【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可. 2.【答案】(1)见解析;(2)12.【解析】(1)由已知得:在家里最幸福在其他场所幸福合计中国高中生22 33 55美国高中生9 36 45合计31 69 100∴()22100223693331695545K⨯⨯-⨯=⨯⨯⨯1001134.628 3.8413123⨯⨯=≈>⨯,∴有95%的把握认为“恋家”与否与国别有关.【思路点拨】(1)根据题意填写列联表,计算观测值2K,对照临界值表得出结论;变式拓展(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为123,,,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件A ,求出基本事件数,即可求得概率值.1.【答案】D【解析】在等高条形图中,x 1,x 2所占比例相差越大,分类变量x ,y 有关系的把握越大. 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大. 2.【答案】D【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 3.【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B. 4.【答案】D【解析】因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-=. 故选D.【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a ,b ,c ,d ,e ,f 再判断各选项. 5.【答案】A考点冲关【解析】由已知可得222()50(2510105) 6.3492()()()()35153020n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯, 由临界值表可知2( 5.024)0.025P K ≥=,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系的把握是97.5%,故选A. 6.【答案】C【解析】因为2240(141376)202021 4.91192K ⨯⨯-⨯=⨯⨯⨯≈,所以3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 7.【答案】D8.【答案】D【解析】由题意得2 4.844 3.841K ≈>,而()23.8410.05P K ≥≈,这种判断出错的可能性约为5%,故选D. 9.【答案】99.5% 【解析】因为K 2=()2502015-51025253020⨯⨯⨯⨯⨯⨯ ≈8.333,且P (K 2≥7.789)=0.005=0.5%.所以,我们有99.5%的把握认为是否同意限定区域停车与家长的性别有关.故答案为99.5%.【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题.利用公式求得K 2,与临界值比较,即可得到结论. 10.【答案】①②③11.【答案】(1)列联表见解析,可以;(2)815. 【解析】(1)根据条件可知喜欢游泳的人数为3100605⨯=人. 完成22⨯列联表:喜欢游泳 不喜欢游泳 合计 男生 40 10 50 女生 20 30 50 合计6040100根据表中数据,计算()221004030201016.66710.82860405050K ⨯-⨯=≈>⨯⨯⨯所以可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,基本事件总数有15种:1213141112,,,,,a a a a a a a b a b 23242122343132414212,,,,,,,,,a a a a a b a b a a a b a b a b a b b b ,其中恰有一人喜欢游泳的基本事件有8种:1112212231324142,,,,,,,a b a b a b a b a b a b a b a b ,所以()815P A =. 【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档题.(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值2K ,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,通过列举法即可得到答案.12.【答案】(1)能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关;(2)(i )经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii )910.(2)(i )依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有6053100⨯=(人),偶尔或不用共享单车的有4052100⨯=(人). (ii )设这5人中,经常使用共享单车的3人分别记为a ,b ,c ;偶尔或不用共享单车的2人分别记为d ,e .则从5人中选出2人的所有可能结果为:(),a b ,(),a c ,(),a d ,(),a e ,(),b c ,(),b d ,(),b e ,(),c d ,(),c e ,(),d e ,共10种.其中没有1人经常使用共享单车的可能结果为:(),d e ,共1种, 故选出的2人中至少有1人经常使用共享单车的概率1911010P =-=. 1.【答案】(1)0.62;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)新养殖法优于旧直通高考养殖法.【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=2 2006266343815.705 10010096104⨯⨯-⨯⨯⨯⨯()≈.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和.(3)均值大小代表水平高低,方差大小代表稳定性.2.【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知7981802m+==.列联表如下:超过m不超过m第一种生产方式15 5第二种生产方式 5 15。

8.3.2 独立性检验

8.3.2 独立性检验

拓展深化 [微判断] 1.概率值α越小,临界值xα越大. 2.独立性检验的思想类似于反证法. 3.独立性检验的结论是有多大的把握认为两个分类变量有关系.
(√ ) (√) (√)
[微训练] 1.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满
足( ) 附表:
α
0.05

大学专科以上学历 大学专科以下学历
合计
积极支持教 不太赞成教育
育改革
改革
39
157
29
167
68
324
合计
196 196 392
对于教育机构的研究项目,根据上述数据能得出什么结论?
解 零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度 无关. 根据表中数据,计算得
χ2=392×1(963×9×19166×7-681×573×2429)2≈1.78. 因为1.78<2.706=x0.1, 根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由 说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
注:该年级在此次考试中数学成绩优秀的有 360 人,非优秀的有 880 人.
解 零假设为H0:数学成绩优秀与物理、化学、总分成绩优秀都无关系. 列出数学成绩与物理成绩的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132360数源自非优秀143737
880
合计
371
869
1 240
将表中数据代入公式,得
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1

选修1-2《独立性检验》课件

选修1-2《独立性检验》课件
独立性检验的一般步骤: (1)假设两个分类变量X与Y没有关系; (2)计算出K2的观测值k; (3)把k的值与临界值比较确定X与Y有关的程度或 无关系.
(2)分类变量的取值有时可用数字来表示,但这时 的数字除了分类以外没有其他的含义,如用“0” 表示“男”,用“1”表示“女”.
某医疗机构为了了解患肺癌与吸烟是否有 关,进行了一次抽样调查,共调查了9965 个成年人,其中吸烟者2148人,不吸烟者 7817人,调查结果是:吸烟的2148人中49 人患肺癌, ;不吸烟的7817人中42人患肺 癌.
由观测 数据计算 得到随机变量K 2的观测 值k.
(3)如果k≥k0 ,就以(1-P(K2≥k0)) ×100%的把握 认为“X与Y有关系”;否则就说样本观测数据 没有提供“X与Y有关系”的充分证据.
反证法原理与假设检验原理
反证法原理:
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
问题3:能否用数量刻画出“有关”的程度?
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患呼吸道疾 病有关
H0: 吸烟和患肺癌之间没有关系
结论的可靠 程度如何?
不吸烟 吸烟 总计
吸烟与呼吸道疾病列联表
不患肺癌
患肺癌
a
b
c
d
a+c
b+d
不吸烟的人中不患肺癌的比例: 吸烟的人中不患肺癌的比例:
a ab
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例题解析:
例1、在某医院,因为患心脏病而住院的665名男性病 人中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患 心脏病是否有关系;(2)能否在犯错误的概率不超过0.01 的前提下认为秃顶与患心脏病有关系?
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试判断下列各对事件是否相互独立:
(1) 抛一枚硬币,抛两次时,“第一次掷出正 面”与“第二次掷出正面”。 (2) “甲厂的产品是次品”与“乙厂的产品是 次 品”。 (3) “甲射击一次击中目标”与“乙射击一次 击中目标”。
三、典例分析 例1、通过调查发现,某班学生患近视的 概率为0.4,现随机抽取该班的2名同学 进行体检,求他们都近视的概率。
c

C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,
是指有5%的可能性使得推理出现错误 D、以上三种说法都不对
独立性检验
吸烟与呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220 不吸烟 总计
通过公式计算
2
21 58
274 457
295 515
n( n n n n ) 11.8634 220 295 58 457 n1 n2 n1n 2
根据这些数据能否断定:患肺癌与 吸烟有关吗?
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量的之间是否有关系
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量——独立性检验
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例 2. 在 500 人身上试验某种血清预防感冒作用,把他们 一年中的感冒记录与另外 500 名未用血清的人的感冒记 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 使用血清 未使用血清 合计
变式、把一颗质地均匀的骰子任意的掷 一次,设事件A=“掷出奇数点”, B=“掷出3的倍数点”,试分析事件A 与B的关系 思考:A 与B的关系
件A与B独立时, A 与B 也独立。
一般情况下,当事
事件A 与B,A与B ,
总结:事件A、B之间没有联系,互不影响, 即A是否发生对B发生的概率没有影响,是 判断A、B相互独立的依据。在实际问题中, 我们常根据实际问题的条件,利用直觉来 判断事件间的“相互独立性”,
一、概念引入
问题:把一颗质地均匀的骰子任意的掷
一次,设事件A=“掷出偶数点”, B=“掷出3的倍数点”,试分析事件A 与B的关系
二、概念展开
一般地,对于两个事件A,B,如果有 P(AB)=P(A)P(B) 这时就称事件A与B互相独立,简称A与B 独立。 其中,事件A,B同时发生记作A∩B,简记作 AB。
因1.3896<3.841,故不能作出药的效果与给药方式有关的结论。
课后练习: 课本第8页习题1-1A 3、 4 作业: 课本第9页习题1-1A
5、
患病 吸烟
不吸烟 总计
n11
不患病 n12
n22 n+2
总计 n1&#;1
其中n=n11+n12+n21+n22
怎样描述实际观测值与估计值的差异呢?
统计学中采用
2 ( 观测值 预期值 ) 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.

n(n11n22 n12n21 ) n1 n2 n1n 2
2
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
n( n11 n22 n12 n21 ) n1 n2 n1 n 2
2
2
通过对 统计量分布的研究,已
2 2
经得到
两个临界值: 3.841和6.635.当 3.841时, 有95%的把握说事件 A和B有关;当
6.635时,有 99%的把握说事件 A和B
2 251537 274 11 22 12 21 183 21
2
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0 :Ⅰ和Ⅱ没有关系; (2)根据2× 2列表与公式计算 的值;
2
(3)查对临界值,作出判断。
由于抽样的随机性,由样本得到的推断 2 有可能正确,也有可能错误。利用 进 行独立性检验,可以对推断的正确性的概 率作出估计,样本量n越大,估计越准确。
若H0成立
a c ≈ , a+b c+d
a c + d ≈c a + b ,
ad bc
独立性检验
ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱, ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量:卡方统计量

2
nad bc a b c d a c b d 其中n a b c d
本节研究的是两个分类变量的独立性检验问题。
为了研究这个问题,我们将上述问题用下表表示:
2×2列联 表
吸烟 不吸烟 总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
在不吸烟者中患病的比重是 7.12% 在吸烟者中患病的比重是 16.82% 思考:上述结论能说明吸烟与患病有关吗? 能有多大把握认为吸烟与患病有关呢?
2
有关;当 3.841时,认为 A与B无关。
2
在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是

A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺 病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系 时,我们说某人吸烟,那么他有99%的可能患肺病
2
2
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关 结论的可靠 程度如何?
H0: 吸烟和患肺癌之间没有关系
吸烟 不吸烟 总计
吸烟与肺癌列联表 患肺癌 不患肺癌 总计 a b a+b c d c+d a+c b+d a+b+c+d
a 吸烟的人中患肺癌的比例: a b c 不吸烟的人中患肺癌的比例: cd
解:
感冒 242 284 526
2
合计 500 500 1000
258 216 474
n( n n n n ) 因为7.075>6.635,故有 的把握认为该血清能起到预防感冒 n199% n 2 n1n 2
的作用。
1000258 284 242 2162 2 7.075 2 474 526 500 11 22 500 12 21
问题1:判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异? 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大
问题2:差异大到什么程度才能作出 “吸烟与患病有关”的判断?
能否用数量刻画出“有关”的程 度?
假设H0:吸烟和患病之间没有关系 即H0:P(AB)=P(A)P(B) 其中A为某人吸烟,B为某人患病 列出2×2列联表
练习:某人看管三台机器,一天内不需 要维护的概率分别为0.9,0.8,0.85, 问:三台都需要维护与都不需要维护的 概率分别是多少?
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查, 共调查了515个成年人,其中吸烟者 220人,不吸烟者295人,调查结果是: 吸烟的220人中37人患病, 183人不患 病;不吸烟的295人中21人患病, 274 人不患病。
变式:为研究不同的给药方式(口服与注射)和药的 效果(有效与无效)是否有关,进行了相应的抽样调 查,调查的结果列在表中,根据所选择的193个病人 的数据,能否作出药的效果和给药方式有关的结论? 有效 口服 注射 合计
解:
2
无效 40 31 71
2
合计 98 95 193
2
58 64 122
n31 (n n22 n12n21 ) 193 64 40 2 58 11 1.3896 122 71 98 95 n1 n2 n1n 2
相关文档
最新文档