8.4列联表独立性检验
《列联表与独立性检验》教学分析
《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。
【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
2024年高考数学一轮复习(新高考版)《列联表与独立性检验》课件ppt
∴根据小概率值α=0.001的独立性检验,推断H0不成立,即认为“数 学成绩达标”与“运动达标”有关.
思维升华
独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题 的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解 答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般 会在原题中给出.
题型三 独立性检验的综合应用
例3 体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进 行动方案(2020-2030)》(下面简称“体育健康促进行动方案”)中明确提 出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求. 随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高 度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体 育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考 中随机抽取1 000名学生,调查他们平均每天的体育运动情况以及本次月 考的数学成绩情况,
(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用 该组区间的中点值作代表);
该中学高三年级本次月考数学成绩的平均分 x = 0.025×40 + 0.125×60 + 0.350×80 + 0.300×100 + 0.150×120 + 0.050×140=91.50, 估计该中学高三年级本次月考数学成绩的平均分为91.50分.
则b=
5
=889.50--55××44×2 4=0.85,
x2i -5 x 2
i=1
第九章 统计与成对数据的统计分析
§9.4 列联表与独 立性检验
考试要求
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解独立性检验及其应用.
内容索引
独立性检验 列联表与独立性检验 教学PPT课件
38
7
45
合计
71
17
88
所以
讲
课
人
:
邢
启
强
数学成绩
学校
=
(×−×)
×××
≈ . < . =x0.1
根据小概率值=0.1的 独立性检验,没有充分证据推断H0不成立,因此可以
认为H0成立,即认为两校的数学成绩优秀率没有差异。
12
思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其
中间的四个格中的数是表
格的核心部分,给出了事件
{X=x,Y=y}(x,y=0,1)中样本
点的个数;右下角格中的数
是样本空间中样本点的总
数。
讲
课
人
:
邢
启
强
X
Y
X=0
X=1
Y=0
a
c
Y=1
b
d
合计
a+c
b+d
合计
a+b
c+d
n=a+b+c+d
2
复习回顾
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
中的原因吗?
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率
有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不
太充分,在本例中,我们用 独立性检验对零假设H0进行了检验,通过计算,发现
≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所
分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统
8.4列联表独立性检验
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 示, 比较来说 ,底面副对 角线上两个 柱体高度的乘 积要大一些 ,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
课题:选修2-3 8.4独立性检验
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 K 7.075 474 526 500 500 因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
课题:选修2-3 8.4独立性检验
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课题:选修2-3 8.4独立性检验
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
再冷的石头,坐上三年也会暖 !
独立性检验
2 n ( ad bc ) 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )
高中试卷-专题8.3 列联表与独立性检验(含答案)
专题8.3 列联表与独立性检验姓名:班级:重点分类变量与列联表难点独立性检验例1-1.在一次独立性检验中,其把握性超过了%99,则随机变量2K 的可能值为( )。
A 、841.3B 、024.5C 、635.6D 、897.7【答案】D【解析】∵在一次独立性检验中,其把握性超过了%99,对应的临界值表中数值为小于01.0,查表可得01.0)635.6(2=≥K P ,故635.62>K ,故选D 。
例1-2.把两个分类变量的频数列出,称为( )。
A 、三维柱形图B 、二维条形图C 、列联表D 、独立性检验【答案】C【解析】选项A 、B 是粗略地判断两个分类变量是否相关的方法,错,选项C 用两个分类变量的频数列表,对,选项D 是通过列联表计算得到两变量是否相关的方法,错,故选C 。
例1-3.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量2K 的观测值892.4≈k ,参照附表,得到的正确结论是( )。
)(02k K P ≥100.0050.0025.00k 706.2841.3024.5A 、有%5.97以上的把握认为“爱好该项运动与性别有关”B 、有%5.97以上的把握认为“爱好该项运动与性别无关”C 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别有关”D 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别无关”【答案】C【解析】∵计算得到统计量值2K 的观测值841.3892.4>≈k ,参照题目中的数值表,得到正确的结论是:在犯错误的概率不超过%5的前提下,认为“爱好该运动与性别有关”,故选C 。
例1-4.某22⨯列联表:1y 2y 总计1x 431622052x 13121134总计56283339则随机变量2K 的值为 。
【答案】469.7【解析】469.728356134205)1621312143(33922=⨯⨯⨯⨯-⨯⨯=K 。
新教材2023高中数学第八章成对数据的统计分析8.3列联表与独立性检验8.3.2独立性检验课件新人教
(2)考查独立性检验的综合问题时,常与统计、概率等
知识综合,一般需要根据条件列出 2×2 列联表,计算 χ2 的值,
从而解决问题.
【跟踪训练】
2.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病的效果是否有区别;
③吸烟者得肺病的概率;
④吸烟是否与性别有关联;
2
≈4.514.
探索点一
独立性检验
【例 1】在 500 人身上试验某种血清预防感冒的情况,把
他们一年中的感冒记录与另外 500 名未使用血清的人的感冒
记录进行比较,结果如下表所示.问:依据小概率值 α=0.01 的独
立性检验,能否认为该种血清能起到预防感冒的作用?
单位:人
感冒
血清
合计
未感冒 感冒
258
和 Y 有关联.
α
0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:因为 χ2>7.879,在临界值表中与 7.879 对应的是
0.005,所以可以在犯错误的概率不超过 0.005 的前提下,认为
X 和 Y 有关联.
5.某科研团队对 1 050 例某肺炎确诊患者的临床特征进
的海上航行中男乘客比女乘客更容易晕船?
解: 零假设为
H0:在 2~3 级风的海上航行中晕船和性别没有关联.
根据列联表中的数据,经计算得
2
2 71×(12×24-10×25)
χ=
22×49×37×34
≈0.076<2.706=x0.1.
根据小概率值 α=0.1 的独立性检验,没有充分证据推断
列联表与独立检验_课件
P(Y=1|X=0)>P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选 取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学 成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在 差异,甲校学生的数学成绩优秀率比乙校学生的高.
你认为“两校学生的数学成绩优秀率存在差异”这一结论是 否有可能是错误的?
精品 课件
高中数学选择性必修3
第八章 成对数据的统计分析
列联表与独立检验
新人教版
特级教师优秀课件精选
教学目标
了解独立性检验(只要求2×2列联表)的基本思想 .理解独立性检验中P( ≥K0)的具体含义. 掌握独立性检验的方法和步骤 .
教学重点
相互独立事件的概念以及概率积公式的应用,独立检验的方 法与步骤。
总结
2×2列联表作法(理解)
独立性检验
统计量的计算(理解)
理解独立性检验的思想(了解)
合计
9874
91
解:零假设为 Ho:吸烟与患肺之间无关联.
7817 2148 9965
根据列联表中的数据,经计算得到
据小概率值 =0.001的独立性检验,我们推断H。不成立,即认为吸烟与患肺关联,此推断犯错误的概率 不大于0.001. 根据 表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
(2)不对
独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方 法称为独立性检验.
(2)K2=
,
其中n=a+b+c+d为样本容量.
独立性检验的具体做 法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯
错误概率的上界α,然后查表确临定界__值_________ .
高中数学选择性必修三 精讲精炼 8 列联表及独立性检验(精讲)(无答案)
8.3 列联表及独立性检验(精讲)考点一独立性检验的辨析【例1】(2021·全国·高二课时练习)北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会时表示不在18~59岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄段内和该年龄段外的110人进行了临床试验,得到如下2×2列联表:附:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段无关”B.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段有关”C.有99%以上的把握认为“能接种与年龄段无关”D.有99%以上的把握认为“能接种与年龄段有关”【一隅三反】1(2021·全国·高二专题练习)为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:( )根据这一数据分析,下列说法正确的是( )下面的临界值表供参考:A.有99.5%的把握认为语文成绩是否优秀与性别有关系B.有99.9%的把握认为语文成绩是否优秀与性别有关系C.有99%的把握认为语文成绩是否优秀与性别有关系D.没有理由认为语文成绩是否优秀与性别有关系2.(2021·全国·高二学业考试)为大力提倡“厉行节约,反对浪费”,某大学通过随机询问100名学生能否做到“光盘”行动,得到如下列联表:χ≈.经计算:2 3.03附:参考附表,得到的正确结论是( )A.有95%的把握认为“该校学生能否做到‘光盘’行动与性别有关”B.有95%的把握认为“该校学生能否做到‘光盘’行动与性别无关”C.有90%的把握认为“该校学生能否做到‘光盘’行动与性别有关”D.有90%的把握认为“该校学生能否做到‘光盘’行动与性别无关”3.(2021·全国·高二单元测试)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则2χ的值可能为( )附表:A.3.206B.6.561C.7.879D.11.028考点二独立性检验的应用【例2】(2021·重庆九龙坡)为张扬学生的个性,彰显青春的智慧与力量,2021年5月某重点高中举办了一年一度的大型学生社团活动,学生社团有近40个,吸引了众多学生.此次活动由学校高一、高二的学生参加,参加社团的学生共有400多人.已知学校高一和高二的所有学生中男生与女生人数比为6:4,为了解学生参加社团活动的情况,从高一、高二所有学生中按性别采用分层抽样的方法抽取部分学生,统计得到如下等高条形图表示参加社团活动的学生频率.(1)求该重点高中参加社团的学生中,任选1人是女生的概率;p=的独立性检验,能否认为该学校(2)若抽取了100名学生,完成下列22⨯列联表,并依据小概率值0.05高一和高二学生的性别与参加学生社团有关联?请说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.【一隅三反】1.(2021·全国·高二单元测试)微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将他们平均每天使用微信的时间(单位:h)分成5组:(]0,2,(]2,4,(]4,6,(]6,8,(]8,10,分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性用户平均每天使用微信的时间;(2)若把每天使用微信超过4h 的用户称为“微信控”,否则称为“非微信控”,请你根据已知条件完成下列22⨯列联表,并判断是否有90%的把握认为“微信控”与性别有关.2.(2021·全国·高二课时练习 )某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关.3(2021·全国·高二单元测试)下表是某地区的一种传染病与饮用水卫生程度的调查表:(1)得这种传染病(简称得病)是否与饮用不干净水有关?请说明理由;(2)若饮用干净水得病的有5人,未得病的有50人;饮用不干净水得病的有9人,未得病的有22人.按此样本数据分析:得这种传染病是否与饮用不干净水有关?并比较两种样本在反映总体时的差异.附表及公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++,临界值表:4.(2021·全国·高二课时练习) “中国科学十大进展”遴选活动由科学技术部高技术研究发展中心牵头举办,旨在激励广大科技工作者的科学热情和奉献精神,开展基础研究科学普及,促进公众理解、关心和支持基础研究,在全社会营造良好的科学氛围.2021年2月,科技部高技术研究发展中心(基础研究管理中心)发布了2020年度中国科学十大进展.某校为调查本校中学生对2020年度中国科学十大进展的了解与关注情况,从该校高中年级在校生中,按高一、高二年级,高三年级分成两个年级段,随机抽取了200名学生进行调查,其中高一、高二年级共调查了120人,高三年级调查了80人,以说出10项科学进展的名称个数为标准,统计情况如下.假设以能至少说出四项科学进展的名称为成绩优秀.(1)根据频数分布表完成22⨯列联表,并回答是否有95%的把握认为成绩优秀与否与年级分段有关?(2)按分层抽样的方法,在被调查且成绩优秀的学生中抽取6名同学,再在这6名同学中随机抽取4名同学组成“2020科技展”宣讲队,求至少有2名高三年级的同学入选宣讲队的概率.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.考点三独立性检验与其他的综合运用【例3】(2021·山东无棣·高二期中)某市为了解乡村振兴,农业农村现代化进程,对全市村庄进行全方位的调研.根据调研成绩评定“要加油”“良好”“优秀”三个等级.现随机抽取200个村庄的成绩统计结果如表:(1)若调研成绩在80分及以上认定为“优良”.抽取的200个村庄中东西部村庄的分布情况如下表.完成2×2列联表,并判断是否有99%的把握认为优良村庄与东西部位置有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的村庄中随机选取5个进行细致调查,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现再从抽取的5个村庄中任选2个村,所选村的量化分之和记为X,求X的分布列及数学期望.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【一隅三反】1.(2021·福建省宁德市教师进修学院高二期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年我省某地区新能源乘用车的年销售量与年份的统计表:某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:(1)求新能源乘用车的销量y 关于x 年份的线性相关系数r ,并判断y 与x 是否线性相关;(2)请将上述22⨯列联表补充完整,并判断是否有99%的把握认为购车车主是否购置新能源乘用车与性别有关; 参考公式:相关系数()()nntii ix x y y x y nx yr ---=∑∑;()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++;参考数据:()5210.66i i y y=-=∑,()()512.5i ii x xy y =--=∑ 2.6≈.备注:若0.75r >,则可判断y 与x 线性相关. 卡方临界值表:2.(2021·福建省永泰县第一中学高二期中)2021年某地区初中升学体育考试规定:考生必须参加长跑、200米游泳、1分钟跳绳三项测试.某学校在初三上学期开始,为了了解掌握全年级学生1分钟跳绳情况,抽取了100名学生进行测试,得到下面的频率分布直方图.(1)规定学生1分钟跳绳个数大于等于175为优秀.若在抽取的100名学生中,女生共有45人,男生1分钟跳绳个数大于等于175的有30人.根据已知条件完成下面的22⨯列联表,并根据这100名学生的测试成绩,判断能否有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关.(2)根据往年经验,该校初三年级学生经过训练,正式测试时每人1分钟跳绳个数都有明显进步.假设正式测试时每人1分钟跳绳个数都比初三上学期开始时增加10个,全年级恰有1000名学生,若所有学生的1分钟跳绳个数X 服从正态分布()2,N μσ,用样本数据的平均值和标准差估计μ和σ,各组数据用中点值代替,估计正式测试时1分钟跳绳个数大于173的人数(结果四舍五入到整数).附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.若随机变量X 服从正态分布()2,N μσ,则()0.6827,(22)0.9545,(33)0.9973,12.P X P X P X μσμσμσμσμσμσ-<≤+≈-<≤+≈-<≤+≈≈3.(2021·四川眉山 )新疆地区的棉花是世界上最好的棉花之一,新疆长绒棉,世界顶级,做衣被,暖和、透气、舒适,长年供不应求.评价棉花质量的重要指标之一就是棉花的纤维长度,新疆农科所在土壤环境不同的A 、B 两块实验地分别种植某品种的棉花,为了评价该品种的棉花质量,在棉花成熟后,分别从A 、B两地的棉花中各随机抽取40根棉花纤维进行统计,结果如下表:(记纤维长度不低于300mm的为“长纤维”,其余为“短纤维”).(1)由以上统计数据,填写下面22⨯列联表,并判断能否在犯错误概率不超过0.01的前提下认为“纤维长度与土壤环境有关系”(2K的观测值精确到0.01).附:()()()()()22n ad bcKa b c d a c b d-=++++临界值表:(2)现从抽取的80根棉花纤维中“短纤维”里任意抽取2根做进一步研究,记B地“短纤维”的根数为Y,求Y的分布列和数学期望;(3)根据上述B地关于“长纤维”与“短纤维”的调查,将B地“长纤维”的频率视为概率,现从B地棉花(大量的棉花)中任意抽取3根棉花,记抽取的“长纤维”的根数为X,求X的数学期望和方差.。
列联表与独立性检验
题型二 用等高堆积条形图分析两变量间的关系 [学透用活]
在等高堆积条形图中展示列联表数据的频率特征,比较图中两个深色条的 高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给 出推断“两个分类变量有关系”犯错误的概率.
[典例2] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组 和对照组的尿液作尿棕色素定性检查,结果如下:
[微思考] 有人说:“根据小概率值α=0.01的独立性检验认为吸烟和患肺癌有 关”,是指“每100个吸烟者中就会有1个患肺癌.”你认为这种观点正确吗? 为什么?
提示:观点不正确.“根据小概率值α=0.01”说明的是吸烟与患肺癌有关程度 的概率值,不是患肺癌的百分数.
(二)基本知能小试
1.判断正误
[对点练清]
假设有两个分类变量 X 与 Y,它们的可能取值分别为 X=0, 1
和 Y=01, ,
其
2×2 列联表为:
X
X=0 X=1 合计
Y
Y=0 Y=1
10 18
m
26
10+m 44
合计
28 m+26 m+54
则当m取下面何值时,X与Y之间没有影响
A.8
B.9
C.14
D.19
()
解析:若 X 与 Y 之间没有影响,则有1288=262+6 m,解得 m≈14.4,所以当 m=14 时,X 与 Y 之间没有影响即 X 与 Y 的关系最弱. 答案:C
a
21
73
女生(X=1)
8
25
33
合计
b
则表中a,b处的值分别为________.
46
106
解析:∵a+21=73,∴a=52.b=a+8=52+8=60.
2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
人教版高二下数学选择性必修第三册-8.3 列联表与独立性检验(第1课时)【课件】
d
c+d
合计
a+c
b+d
n=a+b+c+d
2×2 列联表给出了成对分类变量数据的交叉分类频数.
要点 3 独立性检验
(1)定义:利用随机变量 χ2 的取值推断___两__个_分__类_变__量_是__否_独__立_____的方法称为
独立性检验.
n(ad-bc)2
(2)χ2=____(_a_+__b_)_(__c_+_d_)__(__a+__c_)__(_b_+__d_)___,其中 n=a+b+c+d.
有关系.
【解析】 等高堆积条形图如图所ቤተ መጻሕፍቲ ባይዱ:
由图可以直观地看出铅中毒病人组与对照组相比,尿棕色素为阳性的频率差 异明显,因此铅中毒病人与尿棕色素为阳性有关系.
(2)为了了解某高校学生喜欢使用手机支付是否与 性别有关,随机抽取了部分学生,统计后作出如图所示 的等高堆积条形图,则下列说法正确的是( D )
思考题 2 下面是 2×2 列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中 a,b 的值分别为( C )
1.两个分类变量之间关联关系的定性分析的方法 (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小 进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中a+a b与c+c d 值的大小粗略地判断分类变量之间有无关系.一般其值相差越大,分类变量有关 系的可能性越大.
(2)图形分析法:与表格相比,图形能更直观地反映出两个分类变量间是否互 相影响,常用等高堆积条形图展示列联表数据的频率特征.
思考题 1 (1)观察下列等高堆积条形图,其中最有把握认为两个分类变量 X,Y 之间有关系的是( D )
新教材高中数学第八章列联表与独立性检验:分类变量与列联表pptx课件新人教A版选择性必修第三册
请根据以上数据作出饮食习惯与年龄的列联表,并利用
P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关联.
解:用 Ω 表示调查的 124 位居民的饮食习惯所构成的集合,对于 Ω
0,蔬菜为主,
中的每一位居民,定义一对分类变量 X 和 Y 如下:X=
色素为阳性的频率.
由图可以直观地看出铅中毒病人组与对照组中尿棕色素为阳
性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关联.
方法规律
利用等高堆积条形图判断两个分类变量是否有关联的步骤
【跟踪训练】
2.现行普通高中学生在高一时面临着选科的问题,学校抽取了部
分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图: 根
答案:B
探索点一
用 2×2 列联表分析两变量的关联性
【例 1】在对人们饮食习惯的一次调查中,从某一居民小区
中共调查了 124 位居民,其中六十岁以上(包含六十岁)的有 70 人,
六十岁以下的有 54 人.六十岁以上(包含六十岁)的人中有 43 人
的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中
8.3
8.3.1
[学习目标]
列联表与独立性检验
分类变量与列联表
1.理解分类变量与列联表的含义.
2.能用列联表、等高堆积条形图探讨两个分类变量的关联性,
发展数据分析素养.
分类变量与列联表
[知识梳理]
1.分类变量
在讨论一定范围内的两种现象或性质之间是否存在关联性
或相互影响的问题时,经常会使用一种特殊的随机变量,以区别不
X
X=x1
X=x2
合计
83列联表与独立性检验(基础知识基本题型)(含解析)-高二数学下学期(人教A版2019选择性)
8.3 列联表与独立性检验(基础知识+基本题型)知识点一 列联表与等高条形图1.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表(也称为22⨯列联表)为:1y 2y 总计 1x aba b + 2xc d c d + 总计a c +b d +a b c d +++2.等高条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.图就是一个等高条形图,其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率. 提示⑴等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即a ab +和c c d+相差很大),就判断两个分类变量之间有关系. ⑴列联表与等高条形图的关系与特点:它们都可以用来分析分类变量之间是否有关系,但等高条形图能更直观地反映出两个分类变量是否相互影响. 知识点二 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.要判断“两个分类变量有关系”,首先假设该结论不成立,即“0H :两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K 应该很小.若由观测数据计算得到的2K 的观测值k 很大,则断言0H 不成立,即认为“两个分类变量有关系”;若观测值k 很小,则说明在样本数据中没有发现足够证据拒绝0H .上面这种利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. 提示独立性检验与反证法的比较一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表为:若要推断的论述为1H :“X 与Y 有关系”.⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查临界值表确定临界值0k . 附:临界值表⑴利用公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++,计算随机变量2K 的观测值k .⑶如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.考点一利用等高条形图判断两个分类变量之间的关系例1为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组合对照组的尿棕色素定性检查,结果如下表:用等高条形图判断铅中毒病人和对照人群的尿棕色素阳性数有无差别.解:根据列联表,画出等高条形图,如图所示.其中,阴影部分的高分别为病人组和对照组中尿棕色素呈阴性的频率.比较图中两个无色条的高可以发现,病人组中尿棕色素呈阳性的频率要比对照组中尿棕色素呈阳性的频率高很多,因此,只管上可以认为铅中毒病人和对照人群的尿棕色素阳性数有差别.(1)利用等高条形图可以粗略地判断两个分类变量是否有关系.(2)还可以利用ad bc-越大,说明两个分类变量的关-的大小判断两个分类变量关系的强弱,ad bc系越强;ad bc-越小,说明两个分类变量的关系越弱.考点二独立性检验的相关检验例2某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.他们两人的结论正确吗?他们的结论为什么不一样? 解:正确.由列联表中的数据求得2K 的观测值为()21895463403210.759949586103k ⨯⨯-⨯=≈⨯⨯⨯.10.7597.879 6.635>>,若以07.879k =为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;若以0 6.635k =为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系. 故李明和张宇的结论都正确.造成结论不一样的原因是两人采用了两种不同的判断规则,即所选用的临界值不同.总结:随机变量2K 的观测值k 越大,说明“X 与Y 有关系”成立的可能性越大,因为根据列联表中数据求得2K 的观测值k ,而选用不同的临界值0k 作为比照时,认为“X 与Y 有关系”犯错误的概率就会有所有所不同.考点三 独立性检验的无关检验 例3 为了研究高中学生选学文科、理科是否与“对外语的兴趣”有关,某老师调查了361名高二在校学生,调查结果如下:理科对外语感兴趣的有138人,不感兴趣的有52人.能否在犯错误的概率不超过0.1的前提下认为学生选学文科、理科与“对外语的兴趣”有关? 解:由上表,知138a =,73b =,98c =,52d =,211a b +=,150c d +=,236a c +=,125b d +=,361n =, 代入公式,得2K 的观测值为()24361138527398 1.87110211150236125k -⨯⨯-⨯=≈⨯⨯⨯⨯.因为41.87110 2.706-⨯<,所以在犯错误的概率不超过0.1的前提下不能推断学生选学文科、理科与“对外语的兴趣”有关. 总结(1)计算()()()()22()n ad bc K a b c d a c b d -=++++,如果2K 的值较大,就拒绝假设,也就是拒绝两个分类变量无关,从而认为它们是有关的.(2)若2 6.635K ≥,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关;若2 2.706K ≤,则认为没有发现足够证据说明两个分类变量有关. 考点四 独立性检验的基本思想及综合应用例4 下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异. 解:(1)假设0H :传染病与饮用水的卫生程度无关. 把表中数据代入公式,得2K 的观测值为()2830522184669454.21518312146684k ⨯⨯-⨯=≈⨯⨯⨯,因为54.2110.828>,所以拒绝0H .因为在犯错误的概率不超过0.001的前提下认为这种传染病与饮用水的卫生程度有关. (2)依题意,得如下列联表:根据列联表中的数据得到2K 的观测值为()286522509 5.78555311472k ⨯⨯-⨯=≈⨯⨯⨯.因为5.785 5.024>,所以在犯错误的概率不超过0.025的前提下认为这种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中是在犯错误的概率不超过0.001的前提下认为结论正确,(2)中是在犯错误的概率不超过0.025的前提下认为结论正确.解决这类问题,关键是正确计算2K 的观测值,利用临界值来进行判断.如果求出的2K 的观测值很大,就认为两个分类变量有关;如果2K 的观测值很小,就认为没有足够证据说明两个分类变量有关. 例5 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目不低于40min 的观众称为“体育迷”.(1)根据已知条件完成下面的列联表,并据此资料你是否能在犯错误的概率不超过0.05的前提下“体(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3此,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,数学期望()E X 和方差()D X .解:(1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有()1000.0200.0051025⨯+⨯=(人) 则22⨯列联表如下:将列联表中的数据代入公式计算,得2K 的观测值为()210030101545 3.03045557525k ⨯⨯-⨯=≈⨯⨯⨯.因为3.030 3.841<,所以在犯错误的概率不超过0.05的前提下没有足够的理由认为“体育迷”与性别有关.(2)由频率分布直方图,知随机抽到“体育迷”的概率为14.将频率视为概率,即从观众中随机抽到1名“体育迷”的概率为14. 由题意,知13,4XB ⎛⎫⎪⎭,从而X 的分布列为()13344E X =⨯=, ()119314416D X ⎛⎫=⨯⨯-= ⎪⎝⎭.(1)解决第(1)问的关键是先根据频率分布直方图求出“体育迷”的人数,进而完成22⨯列联表,再计算出的观测值2K ,从而作出判断.(2)解决第(2)问的关键是正确写出分布列.。
8.3列联表与独立性检验-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册
2×2列联表如表所示:
治疗方法
治疗效果
合计
存活
死亡
药物治疗
132
18
150
常规治疗
114
36
150
合计
246
54
300
跟踪训练1
为了解对某班学生经常打篮球和性别是否有关,对该班
40名学生进行了问卷调查,得到如下的2×2列联表.
性别
打篮球
经常
不经常
男生
m
4
女生
,1 =
.
女生总数
男生总数
那么,只要求出0 和1 的值,通过比较这两个值的大小,就可以知道女生和男生在锻
炼的经常性方面是否有差异.由所给的数据,经计算得到,
331
473
0 =
≈ 0.633,1 =
≈ 0.787.
523
601
新知探索
由1 − 0 ≈ 0.787 − 0.633 = 0.154可知,男生经常锻炼的比率比女生高出15.4个
10
0.2326,
43
乙校学生中数学成绩优秀的频率为:
7
0.1556,
45
依据频率稳定于概率的原理,
可推断P(Y=1|X=0)>P(Y=1|X=1).
即甲校学生的数学成绩优秀率比乙
校学生的高,故可认为两校学生的
数学成绩优秀率存在差异.
据两个频率间存在差异推断出来的.但有可能在随机抽
取的样本中,两个频率间确实存在差异,但两校学生的
纪录和创纪录的时间等,都是数值变量.数值变量的取值为实数,其大小和运算都
有实际含义.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存
列联表独立性分析案例教学设计
8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。
(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。
二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。
1.若要推断的论述为H1:“X与Y有关系”。
可按如下步骤判断H1成立的可能性。
A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。
B 可以利用独立性检验来考察两个分类变量是否有关系。
并能精确判断可靠程度。
2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。
3.由临界值表确定可靠程度。
(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。
色弱应该与性别有关。
下面进一步运用独立性的概念进行检验。
从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。
则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。
人教A版选择性8.3列联表与独立性检验课件(43张)
67 ×69 ×21×115 ≈4.881 < 7.879 = x0.005 .
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回 简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲 种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患 儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检 验,分析乙种疗法的效果是否比甲种疗法好.
2、在全部逻辑推理正确的情况下,反证法不会犯错误,独 立性检验会犯随机性错误.
思考
独立性检验的本质是比较观测值与期望值之间的差异,由 x2所代表的这种差异的大小是通过确定适当的小概率值进行判 断的.这是一种非常重要的推断方法,不仅有相当广泛的应用, 也开启了人类认识世界的一种新的思维方式.
归纳小结
P(Y=1|X=0)=P(Y=1|X=1):“性别对体育锻炼的经常性没有影响”
P(Y=1|X=0)≠P(Y=1|X=1):“性别对体育锻炼的经常性有影响”
2×2列联表
性别
锻炼
不经常(Y=0)
经常(Y=1)
合计
女生(X=0)
192
331
523
男生(X=1)
128
473
601
合计
320
804
1124
P(Y 1 | X 0) n( X 0,Y 1) 331 0.633, n( X 0) 523
合计
523 601 1124
P(Y 1 | X 0) n( X 0,Y 1) 331 0.633, n( X 0) 523
P(Y 1 | X 1) n( X 1,Y 1) 473 0.787. n( X 1) 601
列联表与独立检验_课件
高中数学选择性必修3
第八章 成对数据的统计分析
列联表与独立检验
新人教版
特级教师优秀课件精选
教学目标
了解独立性检验(只要求2×2列联表)的基本思想 .理解独立性检验中P( ≥K0)的具体含义. 掌握独立性检验的方法和步骤 .
教学重点
相互独立事件的概念以及概率积公式的应用,独立检验的方 法与步骤。
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率 间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中, 两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别 的。这就是说,样本的随机性导致了两个频率间出现较大差异,在这种情况 下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小 问题。
2.下面是一个2×2列联 表
a
21
2
25
合计
b
46
则表中a,b处的值分别为( C )
A.94,96
B.52,50
C.52,54
D.54,52
单位:人
合计பைடு நூலகம்
73 27 100
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警 示语,那么
(1)吸烟是否对每位烟民一定会引发健康问题?
(2)有人说吸烟不一定引起健康问题,因此可以吸烟. 这答种案说:法(1对)不吗一?定
依据频率稳定于概率的原理,我们可以推断
P(Y=1|X=0)>P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选 取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学 成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在 差异,甲校学生的数学成绩优秀率比乙校学生的高.
列联表与独立性检验2
上课时间:5月23 上课班级:高二五九
某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优 秀的学生中,物理、化学、总分也为优秀的人数如下表所示,试问数 学成绩优秀与物理、化学优秀有关系吗?你想用什么统计量来支持你 的观点?
物理优秀 化学优秀 总分优秀
数学优秀
228
225
331
128
473
320
804
合计
523 601 1124
P Y
1
X
0
PY 1
PX
X
0
0nY 1 X n X 00331 523
0.633,
P Y
1
X
1
P
Y
P
1
X
X 1
1
nY 1
nX
X
1
1
473 601
0.787.
PY 1 X 1 PY 1 X 0
在该校的学生中,性别对体育锻炼的经常性有影响,
探究点1 分类变量
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之 间是否存在关联性或互相影响的问题.
例如:就读不同学校是否对学生的成绩有影响,不同班级学生用于体 育锻炼的时间是都存在区别,吸烟是否会增加患肺癌的风险等。
独立性检验方法 分类变量:用实数表示不同的现象或性质.
如:班级:1、2、3, 男生、女生:0、1. 本节主要讨论取值于{0,1}的分类变量的关联性
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反 映出两个分类变量间是否相互影响.
探究点3 独立性检验
问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可
能是错误的?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计
患心脏病 600 500 400 300 200 100 0 214 175 451
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
判断 H 0是否成立的规则
如果 k 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ P( K 2 6.635) 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。
再冷的石头,坐上三年也会暖 !
独立性检验
2 n ( ad bc ) 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )
临界值表
P(K2 k0 ) 0.50
0.40 0.708
其中n a b c d为样本容量。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
吸烟 总计
7775
2099 9874
42
49 91
7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
课题:选修2-3 8.4独立性检验
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 K 7.075 474 526 500 500 因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
课题:选修2-3 8.4独立性检验
H0:面包份量足 ←→ H1:面包份量不足
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
0.10
再冷的石头,坐上三年也会暖 !
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
不吸烟
0.1
0
吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
n(ad bc) K , (1) (a b)(c d )(a c)(b d )
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 示, 比较来说 ,底面副对 角线上两个 柱体高度的乘 积要大一些 ,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
课题:选修2-3 8.4独立性检验
秃顶 不秃顶 总计 患心脏病 214 451 665 不患心脏病 175 597 772 总计 389 1048 1437
根据联表1-13中的数据,得到
2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772
试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。
P(k≥k0) 0.50 0.40 0.25 0.15 k0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
( 2)
那么这个值到底能告诉我们什么呢?
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
在H0成立的情况下,统计学家估算出如下的概率
即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。
P( K 2 6.635) 0.01.
(2)
也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
6、独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系 第二步:列出2×2列联表
患病
吸烟 不吸烟 总计 a c a+c
2
不患病
b d b+d
2
总计
a+b c+d a+b+c+d
第三步:计算
n(ad bc) K (a c)(b d )( a b)(c d )
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
8.4 列联表独立性分析案例
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为 950g 。于是庞 加莱推断这家面包店的面包分量不足。 • 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
2
P(K2 k0 ) 0.50
k0 k0
0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.025 0.010 0.005 3.841 5.024 6.635 7.879
0.10 2.706 0.001 10.828
P(K2 k0 ) 0.05
课题:选修2-3 8.4独立性检验
2 2
其中n a b c d为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
9965(7775 49 42 2099) k 56.632 7817 2148 9874 91
2
不
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 k0;
(2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k k0 ,就以 (1 P( K k0 )) 100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。 在实际应用中,要在获取样本数据之前通过下表确定临界值:
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课题:选修2-3 8.4独立性检验
所以有99%的把握认为“秃顶患心脏病有关”。