(完整版)独立性检验的基本知识点及习题

合集下载

独立性检验-高中数学知识点讲解(含答案)

独立性检验-高中数学知识点讲解(含答案)

独立性检验(北京习题集)(教师版)一.选择题(共5小题)1.(2017春•东城区校级期末)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量2.(2016春•海淀区校级期末)在检验吸烟与患肺炎是否有关的一次统计中,根据22⨯列联表中数据计算得2 6.234x≈,则下列说法正确的是()A .有99%的把握认为吸烟与患肺炎有关B .有99%的把握认为吸烟与患肺炎无关C .有95%的把握认为吸烟与患肺炎有关D .有95%的把握认为吸烟与患肺炎无关3.(2015秋•昌平区期末)某大学进行自主招生时,需要进行逻辑思维和阅读表达两项能力的测试.学校对参加测试的200名学生的逻辑思维成绩、阅读表达成绩以及这两项的总成绩进行了排名.其中甲、乙、丙三位同学的排名情况如图所示:下列叙述一定正确的是( )A .甲同学的阅读表达成绩排名比他的逻辑思维成绩排名更靠前B .乙同学的逻辑思维成绩排名比他的阅读表达成绩排名更靠前C .甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前D .乙同学的总成绩排名比丙同学的总成绩排名更靠前4.(2014•海淀区校级模拟)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是( ) (参考数据:2( 6.635)0.01)P k =①若2k 的观测值满足2 6.635k ,我们有99%的把握认为吸烟与患肺病有关系. ②若2k 的观测值满足2 6.635k ,那么在100个吸烟的人中约有99人患有肺病.③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病.④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误. A .①B .①④C .②③D .①②③④5.(2014•海淀区校级模拟)经过对2K 的统计量的研究,得到了若干个临界值,当2K 的观测值 3.841K >时,我们()2)k0.500.455A .在错误的概率不超过0.05的前提下可认为A 与B 有关 B .在错误的概率不超过0.05的前提下可认为A 与B 无关 C .在错误的概率不超过0.01的前提下可认为A 与B 有关D .没有充分理由说明事件A 与B 有关 二.填空题(共7小题)6.(2019春•东城区期末)吃零食是中学生中普遍存在的现象.长期吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表给出性别与吃零食的列联表根据下面2K 的计算结果,试回答,有 的把握认为“吃零食与性别有关”.参考数据与参考公式:222()85(140480)9826000 4.722()()()()176845402080800n ad bc K a b c d a c b d --===≈++++⨯⨯⨯0)k7.(2013•西湖区校级模拟)给出下列说法:①从匀速传递的产品生产线上每隔20分钟抽取一件产品进行某种检测,这样的抽样为系统抽样; ②若随机变量若(1,4)N ξ-,(0)P m ξ=,则1(01)2P m ξ<<=-; ③在回归直线?0.22y x =+中,当变量x 每增加1个单位时,?y 平均增加2个单位; ④在22⨯列联表中,213.079K =,则有99.9%的把握认为两个变量有关系. 附表:0)k0.050k3.841其中正确说法的序号为 (把所有正确说法的序号都写上)8.(2010春•海淀区校级期中)在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数):物理成绩好物理成绩不好合计数学成绩好622385数学成绩不好282250合计9045135根据以上数据求得2X=;所以有(填百分数)以上的把握认为数学成绩与物理成绩有关.9.(2010春•怀柔区期末)为了了解某地母亲身高x与女儿身高Y的相关关系,随机测得10对母女的身高如下表所示:母亲身()x cm159160160163159154159158159157女儿身()Y cm158159160161161155162157162156计算x与Y的相关系数0.71r≈,通过查表得r的临界值0.050.632r=,从而有的把握认为x与Y之间具有线性相关关系,因而求回归直线方程是有意义的.通过计算得到回归直线方程为ˆ34.920.78y x==+,因此,当母亲的身高为161cm时,可以估计女儿的身高大致为.10.(2009春•北京校级期末)某校为提高教学质量进行教改实验,设有试验班和对照班.经过两个月的教学试验,进行了一次检测,试验班与对照班成绩统计如下的22⨯列联表所示(单位:人),则其中m=,n=.80及80分以下80分以上合计试验班321850对照班12m50合计4456n11.(2009春•北京校级期末)若由一个2*2列联表中的数据计算得2 4.013X=,那么有把握认为两个变量有关系.附:2X临界值表:12.(2009春•房山区期中)为了调查高中生的性别与是否喜欢足球之间有无关系,一般需要收集以下数据.三.解答题(共3小题)13.(2019•西城区校级模拟)已知某企业有职工5000人,其中男职工3500人,女职工1500人.该企业为了丰富职工的业余生活,决定新建职工活动中心,为此,该企业工会采用分层抽样的方法,随机抽取了300名职工每周的平均运动时间(单位:)h ,汇总得到频率分布表(如表所示),并据此来估计该企业职工每周的运动时间:(1)求抽取的女职工的人数;(2)①根据频率分布表,求出m 、n 、p 的值,完成如图所示的频率分布直方图,并估计该企业职工每周的平均运动时间不低于4h 的概率;②若在样本数据中,有60名女职工每周的平均运动时间不低于4h ,请完成以下22⨯列联表,并判断是否有95%以上的把握认为“该企业职工毎周的平均运动时间不低于4h 与性别有关”. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.0)k14.(2019•海淀区校级三模)手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行评分,评分的频数分布表如下: 女性用户 分值区间[50,60)[60,70)[70,80)[80,90)[90,100] 频数20 40 80 50 10男性用户 分值区间[50,60)[60,70)[70,80)[80,90)[90,100] 频数 45 75 90 60 30(Ⅰ)完成下列频率分布直方图,计算女性用户评分的平均值,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);(Ⅱ)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为“评分良好用户”与性别有关? 参考附表:20()P K k 0.100.050 0.010 0.0010k2.7063.841 6.635 10.828参考公式:2()2()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++15.(2019•西城区校级模拟)近年电子商务蓬勃发展,2017年某网购平台“双11”一天的销售业绩高达1682亿元人民币,平台对每次成功交易都有针对商品和快递是否满意的评价系统.从该评价系统中选出200次成功交易,并对其评价进行统计,网购者对商品的满意率为0.70,对快递的满意率为0.60,其中对商品和快递都满意的交易为80次.(1)根据已知条件完成下面的22⨯列联表,并回答能否有99%的把握认为“网购者对商品满意与对快递满意之间有关系”?(2)为进一步提高购物者的满意度,平台按分层抽样方法从中抽取10次交易进行问卷调查,详细了解满意与否的具体原因,并在这10次交易中再随机抽取2次进行电话回访,听取购物者意见.求电话回访的2次交易至少有一次对商品和快递都满意的概率.附:22()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++为样本容量)2)kk独立性检验(北京习题集)(教师版)参考答案与试题解析一.选择题(共5小题)1.(2017春•东城区校级期末)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量【分析】根据表中数据,利用公式,求出2K,即可得出结论.【解答】解:表2252(6221014)1:0.00916363220K⨯-⨯=≈⨯⨯⨯;表2252(4201216)2: 1.76916363220K⨯-⨯=≈⨯⨯⨯;表2252(824812)3: 1.316363220K⨯-⨯=≈⨯⨯⨯;表2252(143062)4:23.4816363220K⨯-⨯=≈⨯⨯⨯,∴阅读量与性别有关联的可能性最大,故选:D.【点评】本题考查独立性检验的应用,考查学生的计算能力,属于中档题.2.(2016春•海淀区校级期末)在检验吸烟与患肺炎是否有关的一次统计中,根据22⨯列联表中数据计算得2 6.234x≈,则下列说法正确的是()A.有99%的把握认为吸烟与患肺炎有关B.有99%的把握认为吸烟与患肺炎无关C.有95%的把握认为吸烟与患肺炎有关D.有95%的把握认为吸烟与患肺炎无关【分析】由2 6.234 3.841x≈>,对照表格,可知有95%的把握认为吸烟与患肺炎有关.【解答】解:由2 6.234 3.841x≈>,∴有95%的把握认为吸烟与患肺炎有关,故选:C.【点评】本题考查独立性检验的应用,考查学生的计算能力,属于基础题.3.(2015秋•昌平区期末)某大学进行自主招生时,需要进行逻辑思维和阅读表达两项能力的测试.学校对参加测试的200名学生的逻辑思维成绩、阅读表达成绩以及这两项的总成绩进行了排名.其中甲、乙、丙三位同学的排名情况如图所示:下列叙述一定正确的是( )A .甲同学的阅读表达成绩排名比他的逻辑思维成绩排名更靠前B .乙同学的逻辑思维成绩排名比他的阅读表达成绩排名更靠前C .甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前D .乙同学的总成绩排名比丙同学的总成绩排名更靠前【分析】根据图示,可得甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前. 【解答】解:根据图示,可得甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前, 故选:C .【点评】本题考查利用数学知识解决实际问题,考查数形结合的数学思想,考查学生分析解决问题的能力,比较基础.4.(2014•海淀区校级模拟)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是( ) (参考数据:2( 6.635)0.01)P k =①若2k 的观测值满足2 6.635k ,我们有99%的把握认为吸烟与患肺病有关系. ②若2k 的观测值满足2 6.635k ,那么在100个吸烟的人中约有99人患有肺病.③从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病.④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误. A .①B .①④C .②③D .①②③④【分析】若2 6.635k >,我们有99%的把握认为吸烟与患肺病有关系,表示有1%的可能性使推断出现错误,不表示有99%的可能患有肺病,也不表示在100个吸烟的人中必有99人患有肺病,故可得结论.【解答】解:若2 6.635k >,我们有99%的把握认为吸烟与患肺病有关系,不表示有99%的可能患有肺病,故①正确.不表示在100个吸烟的人中必有99人患有肺病,故②不正确. 不表示有每个吸烟的人有99%的可能性会患肺病,故③不正确.从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误,④正确. 故选:B .【点评】本题的考点是独立性检验的应用,根据独立性检测考查两个变量是否有关系的方法进行判断,准确的理解判断方法及2k 的含义是解决本题的关键.5.(2014•海淀区校级模拟)经过对2K 的统计量的研究,得到了若干个临界值,当2K 的观测值 3.841K >时,我们()2)k0.500.455A .在错误的概率不超过0.05的前提下可认为A 与B 有关 B .在错误的概率不超过0.05的前提下可认为A 与B 无关 C .在错误的概率不超过0.01的前提下可认为A 与B 有关D .没有充分理由说明事件A 与B 有关【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据2( 3.841)0.05P K >=,得到我们有10.0595%-=的把握认为A 与B 有关系. 【解答】解:依据下表:2)k2 3.841K >,2( 3.841)0.05P K >=∴我们在错误的概率不超过0.05的前提下可认为A 与B 有关,故选:A .【点评】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可. 二.填空题(共7小题)6.(2019春•东城区期末)吃零食是中学生中普遍存在的现象.长期吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表给出性别与吃零食的列联表根据下面2K 的计算结果,试回答,有 95% 的把握认为“吃零食与性别有关”. 参考数据与参考公式:222()85(140480)9826000 4.722)176845402080800n ad bc K b d --===≈+⨯⨯⨯0)k【分析】根据题意得出观测值的大小,对照临界值得出结论. 【解答】解:根据题意知2 4.722 3.841K ≈>, 所以有95%的把握认为“吃零食与性别有关”. 故答案为:95%.【点评】本题考查了列联表与独立性检验的应用问题,是基础题. 7.(2013•西湖区校级模拟)给出下列说法:①从匀速传递的产品生产线上每隔20分钟抽取一件产品进行某种检测,这样的抽样为系统抽样; ②若随机变量若(1,4)N ξ-,(0)P m ξ=,则1(01)2P m ξ<<=-; ③在回归直线?0.22y x =+中,当变量x 每增加1个单位时,?y 平均增加2个单位; ④在22⨯列联表中,213.079K =,则有99.9%的把握认为两个变量有关系. 附表:0)k0.050k3.841其中正确说法的序号为 ①②④ (把所有正确说法的序号都写上)【分析】对于①,从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;对于②,根据随机变量~(1,4)x N ,得到正态曲线的对称轴是1x =,得到(0)(2)P x P x =,根据所给的条件(0)P x m =,得到(2)P x m =,又根据概率之和是1,得到要求的结果;对;对于③在回归直线方程 ?0.22y x =+中,当解释变量x 每增加一个单位时,预报变量 ?y 平均增加0.1个单位;不对;对于④,通过所给的观测值,同临界值表中的数据进行比较,发现13.07910.828>,得到结论. 【解答】解:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件 产品进行某项指标检测,这样的抽样是系统抽样,故①正确, ②:随机变量~(1,4)x N ,∴正态曲线的对称轴是1x =,(0)(2)P x P x ∴= (0)P x m =,(02)112P x m m m ∴<<=--=-,1(01)2P m ξ∴<<=-,故③正确, ③在回归直线方程 ?0.22y x =+中,当解释变量x 每增加一个单位时, 预报变量 ?y 平均增加0.2个单位,故④不正确, 对于④,一个2*2列联表中的数据计算得213.079K =,213.07910.828K =>,∴有999%的把握说这两个变量有关系,故答案为:①②④.【点评】本题考查独立性检验,考查系统抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系等,是一个综合题目,这种题考查的知识点比较多,需要认真分析.8.(2010春•海淀区校级期中)在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数):根据以上数据求得2X = 4.066 ;所以有 (填百分数)以上的把握认为数学成绩与物理成绩有关.【分析】根据表中所给的数据,利用所给的求观测值的公式,代入公式22()()()()()n ad bc K a b c d a c b d -=++++,计算出k 值,把观测值同临界值进行比较,得到有95%的把握数学成绩与物理成绩有关. 【解答】解:提出假设0H :学生数学成绩与物理成绩之间没有关系.根据列联表可以求得22135(62222823) 4.066 3.841904585110K ⨯⨯-⨯=≈>⨯⨯⨯当0H 成立时,2( 3.841)0.05P K >=.所以我们有10.0595%-=的把握认为:学生的数学成绩与物理成绩之间有关系, 故答案为:4.066;95%【点评】本题考查独立性检验的应用,考查数据处理能力、运算求解能力和应用意识,本题解题的关键是正确运算出观测值,理解临界值对应的概率的意义,本题是一个基础题.9.(2010春•怀柔区期末)为了了解某地母亲身高x 与女儿身高Y 的相关关系,随机测得10对母女的身高如下表所示:计算x 与Y 的相关系数0.71r ≈,通过查表得r 的临界值0.050.632r =,从而有 95% 的把握认为x 与Y 之间具有线性相关关系,因而求回归直线方程是有意义的.通过计算得到回归直线方程为ˆ34.920.78yx ==+,因此,当母亲的身高为161cm 时,可以估计女儿的身高大致为 .【分析】查对临界值表,可得结论,利用回归直线方程,代入计算可估计女儿的身高.【解答】解:查对临界值表,由临界值0.050.632r =,可得有95%的把握认为x 与Y 之间具有线性相关关系,回归直线方程为ˆ34.920.78yx =+,因此,当161x cm =时,ˆ34.920.7834.920.78161161y x cm =+=+⨯= 故答案为:95%,161cm .【点评】本题考查独立性检验的应用,考查学生的计算能力,属于基础题.10.(2009春•北京校级期末)某校为提高教学质量进行教改实验,设有试验班和对照班.经过两个月的教学试验,进行了一次检测,试验班与对照班成绩统计如下的22⨯列联表所示(单位:人),则其中m = 38 ,n = .80及80分以下80分以上合计 试验班 32 1850 对照班 12 m50合计4456n【分析】根据22⨯列联表的规律对应的横行与竖行的和应该等于合计,故可求 【解答】解:由题意,1856m +=,5050n +=,38m ∴=.100n =, 故答案为38,010.【点评】利用随机变量 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性检验的基本思想类似于反证法11.(2009春•北京校级期末)若由一个2*2列联表中的数据计算得2 4.013X =,那么有 95% 把握认为两个变量有关系. 附:2X 临界值表:【分析】通过所给的观测值,同临界值表中的数据进行比较,发现4.013 3.841>,得到结论有95%的把握说这两个变量有关系.【解答】解:一个2*2列联表中的数据计算得2 4.013X =, 4.013 3.841>,∴有95%的把握说这两个变量有关系,故答案为:95%【点评】本题考查独立性检验,考查判断两个变量之间有没有关系,一般题目需要自己做出观测值,再拿着观测值同临界值进行比较,得到结论,本题给出了观测值,只剩下一个比较过程.12.(2009春•房山区期中)为了调查高中生的性别与是否喜欢足球之间有无关系,一般需要收集以下数据 男女生中喜欢或不喜欢足球的人数 .【分析】根据调查目的:为了调查高中生的性别与是否喜欢足球之间有无关系,一般需要收集男女生中喜欢或不喜欢足球的人数,通过计算得到结果,【解答】解:为了调查高中生的性别与是否喜欢足球之间有无关系,一般需要收集男女生中喜欢或不喜欢足球的人数,再得出22 列联表,最后代入随机变量的观测值公式,得出结果. 故答案为:男女生中喜欢或不喜欢足球的人数.【点评】本题考查独立性检验的应用,考查独立性检验的基本思想和应用意识, 三.解答题(共3小题)13.(2019•西城区校级模拟)已知某企业有职工5000人,其中男职工3500人,女职工1500人.该企业为了丰富职工的业余生活,决定新建职工活动中心,为此,该企业工会采用分层抽样的方法,随机抽取了300名职工每周的平均运动时间(单位:)h ,汇总得到频率分布表(如表所示),并据此来估计该企业职工每周的运动时间:(1)求抽取的女职工的人数;(2)①根据频率分布表,求出m 、n 、p 的值,完成如图所示的频率分布直方图,并估计该企业职工每周的平均运动时间不低于4h 的概率;②若在样本数据中,有60名女职工每周的平均运动时间不低于4h,请完成以下22⨯列联表,并判断是否有95%以上的把握认为“该企业职工毎周的平均运动时间不低于4h与性别有关”.附:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.2()P K k0.250.150.100.050.025 0k 1.323 2.072 2.706 3.841 5.024【分析】(1)直接由分层抽样中每层所占比例相等求得抽取的女职工的人数;(2)①由图表数据及频率和为1求得n,然后依次求p与m的值,并完成频率分布直方图;②填写22⨯列联表,再由公式求得2K,则结论可求.【解答】解:(1)抽取的女职工的人数为1500 300905000⨯=;(2)①10.050.20.150.250.30.05n=-----=,15p=,300154575901560m=-----=;直方图如图:估计该企业职工每周的平均运动时间不低于4h的概率为:30.150.250.30.050.754P =+++==; ②22⨯列联表如图:22()300(456030165) 4.762 3.841()()()()7522521090n ad bc K a b c d a c b d -⨯-⨯==≈>++++⨯⨯⨯.∴有95%以上的把握认为“该企业职工毎周的平均运动时间不低于4h 与性别有关”.【点评】本题考查独立性检验,考查由频率分布直方图求概率的估计值,考查计算能力,是中档题.14.(2019•海淀区校级三模)手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行评分,评分的频数分布表如下:(Ⅰ)完成下列频率分布直方图,计算女性用户评分的平均值,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);(Ⅱ)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为“评分良好用户”与性别有关? 参考附表:20()P K k 0.100.050 0.010 0.0010k2.7063.841 6.635 10.828参考公式:2()2()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++【分析】(Ⅰ)利用所给数据,可得频率分布直方图,并比较女性用户和男性用户评分的波动大小; (Ⅱ)求出2K ,与临界值比较,即可得出结论.【解答】解:(Ⅰ)女性用户和男性用户的频率分布表分别如下左、右图:由图可得女性用户的波动小,男性用户的波动大. ⋯(4分) (Ⅱ)22⨯列联表如下图:女性用户 男性用户 合计 “认可”手机 140 180 320 “不认可”手机60 120 180 合计200300500500(14012018060)2 5.208 2.706200300320180K ⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为性别和对手机的“认可”有关.【点评】本题考查频率分布直方图的作法及应用,考查独立检验的应用,考查频率分布直方图等基础知识,考查运算求解能力,是基础题.15.(2019•西城区校级模拟)近年电子商务蓬勃发展,2017年某网购平台“双11”一天的销售业绩高达1682亿元人民币,平台对每次成功交易都有针对商品和快递是否满意的评价系统.从该评价系统中选出200次成功交易,并对其评价进行统计,网购者对商品的满意率为0.70,对快递的满意率为0.60,其中对商品和快递都满意的交易为80次.(1)根据已知条件完成下面的22⨯列联表,并回答能否有99%的把握认为“网购者对商品满意与对快递满意之间有关系”?(2)为进一步提高购物者的满意度,平台按分层抽样方法从中抽取10次交易进行问卷调查,详细了解满意与否的具体原因,并在这10次交易中再随机抽取2次进行电话回访,听取购物者意见.求电话回访的2次交易至少有一次对商品和快递都满意的概率.附:22()n ad bcK-=(其中n a b c d=+++为样本容量)2)kk【分析】(1)由题意填写列联表,计算观测值,对照临界值得出结论;(2)根据题意,用列举法求出基本事件数,计算所求的概率值.【解答】解:(1)由题意,填写22⨯列联表,如下:计算2200(80204060)1001.59140601208063K⨯⨯-⨯==≈⨯⨯⨯,由于1.59 6.635<,所以没有99%的把握认为“网购者对商品满意与对快递满意之间有关系”;(2)根据题意,抽取的10次交易中,对商品和快递都满意的交易有4次,记为A、B、C、D,其余6次不是都满意的交易记为1、2、3、4、5、6,那么抽取2次交易一共有45种可能:AB 、AC 、AD 、1A 、2A 、3A 、4A 、5A 、6A 、BC 、BD 、1B 、2B 、⋯⋯、56, 其中2次交易对商品和快递不是都满意的有15种: 12、13、14、15、16、⋯⋯、56;所以,在抽取的2次交易中,至少一次对商品和快递都满意的概率是 45152453P -==. 【点评】本题考查了列联表与独立性检验的应用问题,也考查了列举法求古典概型的概率问题.。

(完整版)1.2.2独立性检验的基本思想及其初步应用习题及答案

(完整版)1.2.2独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版)1.2 独立性检验的基本思想及其初步应用►达标训练1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( )A.散点图B.等高条形图C.2×2列联表 D.以上均不对答案:B2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.aa+b与dc+dB.ca+b与ac+dC.aa+b与cc+dD.aa+b与cb+c答案:C3.对分类变量X与Y的随机变量K2的观测值k,说法正确的是( )A.k越大,“ X与Y有关系”可信程度越小B.k越小,“ X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大答案:B4.下面是一个2×2列联表:则表中a、b的值分别为( )A.94、96 B.52、50C.52、54 D.54、52答案:C5.性别与身高列联表如下:那么,检验随机变量K2的值约等于 ( )A.0.043 B.0.367C.22 D.26.87答案:C6.给出列联表如下:根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( )A.0.4 B.0.5 C.0.75 D.0.85答案:B►素能提高1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( )A .男人、女人中患有色盲的频率分别为0.038、0.006B .男人、女人患色盲的概率分别为19240、3260C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的D .调查人数太少,不能说明色盲与性别有关解析:男人患色盲的比例为38480,比女人中患色盲的比例6520大,其差值为⎪⎪⎪⎪⎪⎪38480-6520≈0.067 6,差值较大. 答案:C2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110由K 2=算得, K 2=≈7.8.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.841 6.635 10.828参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案:A3.若由一个2×2列联表中的数据计算得K2=4.013,那么在犯错误的概率不超过0.05的前提下认为两个变量______(填“有”或“没有”)关系.答案:有4.(2013·韶关二模)以下四个命题:①在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,是简单随机抽样;②样本数据:3,4,5,6,7的方差为2;③对于相关系数r,|r|越接近1,则线性相关程度越强;④通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=可得,K2==7.8,则有99%以上的把握认为“选择过马路方式与性别有关”,其中正确的命题序号是________.答案:②③④附表P (K2≥k0)0.050.0100.001k03.8416.63510.8285.某学校为了调查喜欢语文学科与性别的关系,随机调查了一些学生情况,具体数据如下表:类别性别不喜欢语文喜欢语文男1310女720为了判断喜欢语文学科是否与性别有关系,根据表中的数据,得到K2的观测值k=≈4.844,因为k≥3.841,根据下表中的参考数据:P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 判定喜欢语文学科与性别有关系,那么这种判断出错的可能性为________.答案:5%6.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表序号12345678910 数学成绩95758094926567849871物理成绩90637287917158829381序号11121314151617181920 数学成绩67936478779057837283物理成绩77824885699161847886若单科成绩85以上(含85分),则该科成绩优秀.数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计解析:(1)2×2列联表为(单位:人):数学成绩优秀数学成绩不优秀合计物理成绩优秀 527物理成绩不优秀 1 1213 合计 6 1420(2)根据题(1)中表格的数据计算,能否在犯错误的概率不超过0.005的前提下认为学生的数学成绩与物理成绩之间有关系?参数数据:①假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表(称为2×2列联表)为:y1y2合计x1 a b a+bx2 c d c+d合计a+c b+d a+b+c+d则随机变量K2=,其中n=a+b+c+d为样本容量;②独立检验随机变量K2的临界值参考表如下:P(K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P(K2≥k0)0.050.0250.0100.0050.001 k0 3.841 5.024 6.6357.87910.828解析:根据列联表可以求得K2的观测值k=≈8.802>7.879.在犯错误的概率不超过0.005的前提下认为:学生的数学成绩与物理成绩之间有关系.7. 2013年3月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25530 使用未经淡化海砂151530 总计402060的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?解析:提出假设H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值k==7.5>6.635.查表得P(K2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?P(K2≥k)0.100.0500.0250.0100.001 k 2.706 3.841 5.024 6.63510.828解析:用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”的为2530×6=5,“混凝土耐久性不达标”的为6-5=1,“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为B.在这6个样本中任取2个,有以下几种可能:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,B),(A2,A3),(A2,A4),(A2,A5),(A2,B),(A3,A4),(A3,A5),(A3,B),(A4,A5),(A4,B)(A5,B),共15种.设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件A为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B),共5种可能.∴P(A)=1-P(A)=1-515=23.即取出的2个样本混凝土耐久性都达标的概率是2 3 .8.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510]的产品为合格品,否则为不合格品.左下表是甲流水线样本频数分布表,右下图是乙流水线样本的频率分布直方图.产品重量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本的频率分布直方图;解析:甲流水线样本的频率分布直方图如下:(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率;解析:由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9.据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品a=b=不合格品c=d=合计n=附表:P(K2≥k0)0.150.100.050.0250.010.0050.001k02.0722.7063.8415.0246.6357.87910.828(参考公式:K2=,其中n=a+b+c+d)解析:2×2列联表如下:∵K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=80×(120-360)266×14×40×40≈3.117>2.706.∴在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.►品味高考1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:解析:调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为70500=14%.(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解析:K2的观测值k=500×(40×270-30×160)2200×300×70×430≈9.967,由于9.967>6.635所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.(3)根据(2)的结论,能否提出更好的调查办法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.解析:由于(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.附:K2=P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.8282.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;解析:由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中至少有1名“25岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=7 10 .(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K2=P(K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828解析:由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在年龄组有关”.。

独立性检验习题及答案

独立性检验习题及答案

1.2 独立性检验的基本思想及其初步应用例题:1.三维柱形图中柱的高度表示的是( )A .各分类变量的频数B .分类变量的百分比C .分类变量的样本数D .分类变量的具体值解析: 三维柱形图中柱的高度表示图中各个频数的相对大小.选A2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.解析:当841.3>k 时,就有95 %的把握说事件A 与B 有关,当076.2≤k 时认为没有充分的证据显示事件A 与B 是有关的.3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?分析:有表中所给的数据来计算2K 的观测值k,再确定其中的具体关系.解:设患慢性气管炎与吸烟无关.a=43,b=162,c=13,d=121,a+b=205,c+d=134, a+c=56,b+d=283,n=339所以2K 的观测值为469.7))()()(()(2==+++-=d b c a d c b a bc ad n k .因此635.6>k ,故有99%的把握认为患慢性气管炎与吸烟有关.课后练习:1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A.越大B.越小C.无法判断D.以上都不对2.下列关于三维柱形图和二维条形图的叙述正确的是: ( ) A .从三维柱形图可以精确地看出两个分类变量是否有关系B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是() A . k 越大," X 与Y 有关系”可信程度越小; B . k 越小," X 与Y 有关系”可信程度越小; C . k 越接近于0," X 与Y 无关”程度越小 D . k 越大," X 与Y 无关”程度越大4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K 2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.5.若由一个2*2列联表中的数据计算得k 2=4.013,那么有 把握认为两个变量有关系6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:250(1320107) 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯因为23.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

高考数学一轮复习专题04 独立性检验(解析版)

高考数学一轮复习专题04 独立性检验(解析版)

概率与统计 专题四:独立性检验一、知识储备 1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.二、例题讲解1.(2022·榆林市第十中学高三月考(文))随着经济的发展,人们的生活水平显著提高,健康意识不断增强,健康管理理念深入人心,人们参加体育锻炼的次数与时间在逐渐增加.某校一个课外学习小组为研究居民参加体育锻炼的时长(时长不超过60分钟)是否与性别有关,对某小区居民进行调查,并随机抽取了100名居民的调查结果,其中男性有55人,根据调查结果绘制了居民日均锻炼时间的频率分布直方图如下:(1)求样本中居民日均锻炼时间的中位数;(2)将日均锻炼时间不低于40分钟的居民称为“健生达人”(健康生活达人),已知样本中“健生达人”中有10名女性,根据已知条件完成下面22⨯列联表,并据此资料判断是否有95%的把握认为“健生达人”与性别有关.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)32.8分钟;(2)表格见解析,没有95%的把握认为“健生达人”与性别有关. 【分析】(1)根据中位数的定义求样本中居民日均锻炼时间的中位数;(2)分析数据,完成列联表,计算2K ,通过比较其与临界值的大小,确定是否接受假设. 【详解】解:本题考查独立性检验.(1)由频率分布直方图知日均锻炼时间在[)0,30对应的频率为0.050.180.20.43++=,则中位数位于[)30,40,且中位数为0.500.43301032.80.25-+⨯=(分钟)(2)由频率分布直方图可知在抽取的100人中,“健生达人”有32人,从而22⨯列联表如下:得()210033103522 3.595 3.84155456832K ⨯-⨯=≈<⨯⨯⨯,所以没有95%的把握认为“健生达人”与性别有关2.(2022·江苏南京市·高三开学考试)科研小组为提高某种水果的果径,设计了一套实验方案,并在两片果园中进行对比实验.其中实验园采用实验方案,对照园未采用.实验周期结束后,分别在两片果园中各随机选取100个果实,按果径分成5组进行统计:[)21,26,[)26,31,[)31,36,[)36,41,[]41,46(单位:mm ).统计后分别制成如下的频率分布直方图,并规定果径达到36mm 及以上的为“大果”.(1)请根据题中信息完成下面的列联表,并判断是否有99.9%的把握认为“大果”与“采用实验方案”有关;(2)根据长期种植经验,可以认为对照园中的果径X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,5.5σ≈,请估计对照园中果径落在区间()39,50内的概率.(同一组中的数据以这组数据所在区间中点的值作代表)附:①()()()()()22n ad bc K a b c d a c b d -=++++;②若X 服从正态分布()2,N μσ,则()0.683P X μσμσ-<<+=,()220.954P X μσμσ-<<+=,()330.997P X μσμσ-<<+=.【答案】(1)列联表见解析,有99.9%的把握认为两者有关;(2)0.157. 【分析】(1)根据频率分布直方图分别求出采用实验方案大果和非大果数量及未采用实验方案大果和非大果数量,从而可得出列联表,再根据公式求出2K ,对照临界值表即可得出结论;(2)求出样本平均数x ,再根据正态分布的性质即可得出答案. 【详解】解:(1)由频率分布直方图可得:采用实验方案大果的数量为()50.1100.01010060⨯+⨯=个, 则非大果数量为1006040-=个,未采用实验方案大果的数量为()50.0400.02010030⨯+⨯=个, 则非大果数量为1003070-=个, 列联表如下:22006070304020010.8281001009011011K ⨯-⨯==⨯⨯⨯>,所以有99.9%的把握认为两者有关; (2)由题中数据,23.50.128.50.233.50.438.50.243.50.133.5x =⨯+⨯+⨯+⨯+⨯=, 则33.5μ=,则()()0.9970.683395030.157P X P X μσμσ-=++==<<<<.三、实战练习1.(2022·定远县育才学校高三开学考试(文))微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用微信的时间(单位:h )分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性平均每天使用微信的时间;(2)若每天玩微信超过4h 的用户称为“微信控”,否则称为“非微信控”,判断是否有90%的把握认为“微信控”与性别有关. 附表:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)4.76()h ;(2)有90%的把握认为“微信控”与性别有关. 【分析】(1)用每个小矩形的面积乘以对应小矩形底边的中点,然后求和即可得到答案;(2)先通过频率分布直方图面积为1求出a ,进而根据参考公式求出K 2,然后将数据进行对比即可得到答案. 【详解】(1)由女性的频率分布直方图,可知女性用户平均每天使用微信的时间为0.1610.2430.2850.2070.129 4.76()h ⨯+⨯+⨯+⨯+⨯=.(2)由男性的频率分布直方图,可得2(0.040.1420.12)1a +++⨯=,解得0.08a =.由两个频率分布直方图,可得22⨯列联表如下:2K的观测值2100(38203012)2.941 2.70650506832k⨯⨯-⨯=≈>⨯⨯⨯,所以有90%的把握认为“微信控”与性别有关.2.(2022·河北唐山·高三开学考试)数字人民币是由央行发行的法定数字货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2022年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费、餐饮服务、交通出行、购物消费、政务服务等领域.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构进行了-次问卷调查,部分结果如下:(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的22⨯列联表;(2)若从低学历的被调查者中,按对数字人民币的了解程度用分层抽样的方法抽取8人,然后从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率;(3)根据列联表,判断是否有95%的把握认为“是否了解数字人民币”与“学历高低”有关? 附:()()()()()22n ad bc K a b c d a c b d -=++++【答案】(1)列联表答案见解析;(2)914;(3)没有95%的把握认为“是否了解数字人民币”与“学历高低”有关. 【分析】(1)根据题中所给数据完成22⨯列联表即可;(2)根据分层抽样分别求出不了解数字人民币和了解数字人民币的人数,再根据古典概型公式即可得解; (3)根据公式求出2K ,在参照临界值表即可得出结论. 【详解】解:(1)22⨯列联表如下:(2)从低学历被调查者中按对数字人民币的了解程度用分层抽样的方法抽取8人,抽取的8人中,不了解数字人民币的有81503400⨯=人, 了解数字人民币的有82505400⨯=人, 从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率2528C 91C 14P =-=.(3)根据列联表得()22800125250150275800 3.463 3.841275525400400231K ⨯⨯-⨯==≈<⨯⨯⨯.故没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.3.(2022·广东实验中学高三月考)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:(1)求这1000名患者的潜伏期的样本平均值x (同一组中的数据用该组区间的中点值作代表); (2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有95%的把捏认为潜伏期与息者年龄有关;(3)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,其中潜伏期超过6天的人数最有可能(即概率最大)...........是多少? 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)5.4天;(2)列联表见解析,没有95%的把捏认为潜伏期与息者年龄有关.(3)潜伏期超过6天最有可能....是8人.【分析】(1)根据频率直方表求平均值即可.(2)由题设写出列联表,根据卡方检验公式计算卡方值,比照参考值即可知是否有95%的把捏认为潜伏期与息者年龄有关;(3)由题意知潜伏期超过6天的人数2(20,)5X B ,则202032()()()55k k kP X k C -==,应用不等法求最大概率时的k 值即可. 【详解】(1)10.08530.20550.3170.2590.13110.015130.005x =⨯+⨯+⨯+⨯+⨯+⨯+⨯ 5.4=天.(2)由题设知:[0,6]的频率为0.6,(6,14]的频率为0.4,故200人中潜伏期在[0,6]上有120人,在(6,14]上有80人. 列联表如下:∴22200(65453555) 2.083 3.84110010012080K ⨯⨯-⨯=≈<⨯⨯⨯,故没有95%的把捏认为潜伏期与息者年龄有关.(3)由患者潜伏期超过6天发生的概率400210005=, 设潜伏期超过6天的人数为X ,则2(20,)5XB ,∴202032()()()55k k kP X k C -==且020k ≤≤,*k N ∈,由题意,()(1)()(1)P X k P X k P X k P X k =≥=+⎧⎨=≥=-⎩,即2019112020202111202032325555{32325555k k k k k k k k k k k k C C C C --++----⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,化简得3(1)2(20)2(21)3k k k k +≥-⎧⎨-≥⎩,解得374255k ≤≤, ∴8k ,即潜伏期超过6天最有可能....是8人. 4.(2022·黑龙江高三其他模拟(文))据有关部门统计,2021年本科生的平均签约薪酬为每月4300元.2021年某高校毕业生就业指导中心为了分析本校本科毕业生的专业课成绩优秀与否与本科毕业生就业后获得薪酬的关系,随机调查了从学校毕业的200名本科毕业学进行研究.研究结果表明:在专业课成绩优秀的120名本科毕业生中有90人每月工资超过人民币4300元,另30人每月工资低于人民币4300元;在专业课成绩不优秀的80名本科毕业生中有20人每月工资超过人民币4300元,另60人每月工资低于人民币4300元. (1)试根据上述数据完成22⨯列联表;(2)能否在犯错误的概率不超过0.001的前提下认为“该高校本科毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系?参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析;(2)能. 【分析】(1)根据题目已知数据完成22⨯列联表;(2)计算2K,根据临界值表判断即可【详解】(1)22⨯列联表如下:(2)因为()22009060302016004810.828 120801109033K⨯⨯-⨯==>>⨯⨯⨯.所以能在犯错误的概率不超过0.001的前提下认为“该校毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系.【点睛】方法点睛:本题考查22⨯联表判断相关性,独立性检验的一般步骤:第一步,提出假设0H:两个分类变量A和B没有关系;第二步,根据22⨯列联表和公式计算2K统计量;第三步,查对课本中临界值表,作出判断。

高中数学 专题1.2 独立性检验的基本思想及初步应用练习(含解析)新人教A版选修1-2(2021年

高中数学 专题1.2 独立性检验的基本思想及初步应用练习(含解析)新人教A版选修1-2(2021年

2016-2017学年高中数学专题1.2 独立性检验的基本思想及初步应用练习(含解析)新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2016-2017学年高中数学专题1.2 独立性检验的基本思想及初步应用练习(含解析)新人教A版选修1-2)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2016-2017学年高中数学专题1.2 独立性检验的基本思想及初步应用练习(含解析)新人教A版选修1-2的全部内容。

独立性检验的基本思想及初步班级:姓名:_____________1。

与表格相比,能更直观地反映出相关数据总体状况的是()A。

列联表 B.散点图C。

残差图D。

等高条形图2.分类变量X和Y的列联表如下:Y1Y2总计X1a b a+bX2c d c+d总计a+c b+d a+b+c+d则下列说法中正确的是()A。

ad—bc越小,说明X与Y关系越弱B。

ad—bc越大,说明X与Y关系越强C。

(ad-bc)2越大,说明X与Y关系越强D。

(ad—bc)2越接近于0,说明X与Y关系越强【解析】选C.因为K2=,所以(ad—bc)2越大,则K2越大,X与Y关系越强,故选C.3。

下面是2×2列联表。

y1y2总计x1332154x2a1346总计b34则表中a,b处的值应为( )A.33,66B.25,50 C。

32,67 D.43,56【解析】选A。

由2×2列联表知a+13=46,所以a=33,又b=a+33,所以b=33+33=66。

4。

研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如表所示:硕士博士总计男16227189女1438151总计30535340根据以上数据,则( )A.性别与获取学位类别有关B.性别与获取学位类别无关C。

专题一、独立性检验题型归纳

专题一、独立性检验题型归纳

专题一、独立性检验题型一、独立事件的判断1、独立事件的定义:对于两个事件A 、B ,如果有P(AB)=P(A)P(B)就称事件A 与B 互相独 立,简称A 与B 独立.2、当事件A 与B 独立时,事件A 与B 、A 与B 、A 与B 也独立.【例1】从一副52X 扑克牌(不含大小王)中,任意抽一X 出来,设事件A :“抽到黑桃”, B:“抽到皇后Q ”,试用P(AB)=P(A)·P(B)验证事件A 与B 及A 与B 是否独立?【变式1】设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A不发生的概率相同,则事件A 发生的概率P(A)是( )A 、29B 、118C 、13D 、23【变式2】掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A 、A 与B 相互独立 B 、P(AB)=P(A)·P(B)C 、A 与B 不相互独立D 、P(AB)=14【变式3】坛子中放有3个白球,2个黑球,从中进行不放回地摸球,用A 表示第一次摸到 白球,B 表示第二次摸到白球,则A 与B 是( )A 、互斥事件B 、相互独立事件C 、对立事件D 、不相互独立事件【变式4】假设生男孩和生女孩是等可能的,设事件A 为“一个家庭中既有男孩,又有女孩”,事件B 为“一个家庭中最多有一个女孩”.某一家庭有三个小孩,则事 件A 与B 是否独立?【变式5】(1)甲、乙两名射手同时向一目标射击,设事件A :“甲击中目标”,事件B : “乙击中目标”,则事件A 与事件B ( )A 、相互独立但不互斥B 、互斥但不相互独立C 、相互独立且互斥D 、既不相互独立也不互斥(2)掷一颗骰子一次,设事件A :“出现偶数点”,事件B :“出现3点或6点”, 则事件A ,B 的关系是( )A 、互斥但不相互独立B 、相互独立但不互斥C 、互斥且相互独立D 、既不相互独立也不互斥题型二、独立性检验1、2×2列联表判断两个事件A 、B 是否有关,我们可以把A 发生、A 不发生(A )、B 发生、B 不发生(B )注意:(1)作独立性检验时,要求2×2列联表中的4个数据都要大于等于5。

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

独立性检验练习含答案

独立性检验练习含答案

独立性检验练习含答案一、基础过关1. 5 2×2.706 时,就有 的把握认为“x与y 百大系”。

2.在某医院,由于意心解病而住院的 665名男性病人中,有 214人类殖,而另外772名不是由于忠心鼓励自住院的男性病人中有175人先项,统 计~ (结果保留 3位小数)①ad b c 接小,说明X 与Y 的关系线段. ②ad -bc 越大,说明X 与Y 的关系越来。

②[ad -bo]'越大,说明X 与Y 的关系基础. ①(ad -bc)²能按照下0.说明x 与Y 的关系解析.4. 请对随机询问110名性别有限的血拉工品五级每上项目sh ,是到up 下的网联表:lna −n (ad−log 3)(a+b/c+d/a+c ]b+d其中 xx =110×(40×30−20×20)60×50×60×50=7.8参照班表,得到的正确结论是 .②在配错误的概率不超过 0.1%的前提下,认为“爱好该难运动与性别无关”。

③有 99%以上的把握认为“爱好该项运动与性别有关”。

①有 99%以上的把握认为“爱好该项运动与性别无关”。

3.分类型是 X 和Y填序号)进入.5.为了争辩男子的年龄与吸烟的关系,并查了100个男子,按年龄超过和不超过40岁.0烟就有 的把握确定吸烟量与年龄有关。

二、才能提升为了判定上修统计专业是否与性别有关,依据表示的数据,智可能性为 .7.0.2×2列联表中,如哪个数据变为较大的20.认中方们交入课 文的 。

B.以下说法正确选项 .(填序号)00对大事A 与B 的检验无关,即两个大事无不影响. ②大事A 与B 关系越宗热, x 就越大.③义的大小处判定大事 A 与B 是否相关的参一数据. ④如判定两大事 A 与8有关,就 A 发生8确定发生。

9.为争辩某新药的疗效,输无论 “” 。

”4124 46 36 50 ␡ “ “ -- 21 79 400设 H 。

独立性检验的基本知识点及习题

独立性检验的基本知识点及习题

独立性检验的基本知识点及习题22⨯列联表 随机变量))()()(()(22d b c a d c b a bc ad n K ++++-=. )(2k K P ≥与k 对应值表:k2.7063.8415.0246.6357.87910.828一、基础知识梳理1.独立性检验 利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

2.判断结论成立的可能性的步骤:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

二、例题选讲例1.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。

解:列联表的条形图如图所示:由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。

由下表中数据从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。

例2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调56 283 339解:根据列联表中的数据,得。

因为,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。

练一练:1.在一次独立性检验中,其把握性超过了99%,则随机变量的可能值为()A.6.635B.5.024C.7.897D.3.8412.把两个分类变量的频数列出,称为()A.三维柱形图B.二维条形图C.列联表D.独立性检验3.由列联表则随机变量的值为。

4.某高校“统计初步”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:7 20为了检验主修专业是否与性别有关系,根据表中的数据,得到因为,所以断定主修统计专业与性别有关系。

高中数学独立性检验精选题目(附解析)

高中数学独立性检验精选题目(附解析)

高中数学独立性检验精选题目(附解析)(1)分类变量和列联表①分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.②列联表(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.(ⅱ)2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)等高条形图①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(3)独立性检验一、用2×2列联表分析两分类变量间的关系1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.解:2×2列联表如下:a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.注:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X)A.8B.9C.14D.19解析:选C由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.3.分类变量X和Y的列联表如下:则下列说法正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.4.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:为()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50 D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.5.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b=1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是二、用等高条形图分析两分类变量间的关系1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:续表考前心情不紧94381475张总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.注:利用等高条形图判断两个分类变量是否相关的步骤:2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.3.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.4.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是() A.散点图B.等高条形图C.假设检验的思想D.以上都不对解析:选B用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.三、独立性检验1.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)附:解:根据2×2k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.注:根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.2.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879(2)6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.解:(1)根据所给的二维条形图得到列联表:正确错误总计20~30岁10304030~40岁107080总计20100120k=120×(10×70-10×30)220×100×40×80=3.∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30(岁)抽取:6×40120=2(人);30~40(岁)抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.记至少有一人年龄在20~30岁为事件A,则P(A)=1-C34C36=1-420=45.故至少有一人年龄在20~30岁之间的概率为4 5.3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率解析:选C判断两个分类变量是否有关的最有效方法是进行独立性检验.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为()A.99%C.90% D.无充分证据解析:选B由2×2列联表得K2的观测值k=50×(18×15-8×9)2 27×23×26×24≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.6.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.巩固练习:1.下列关于K2的说法不正确的是()A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系B.K2的观测值k越大,两个分类变量的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.2.在某次独立性检验中,得到如下列联表:最后发现,两个分类变量没有任何关系,则a的值可能是() A.200 B.720C.100 D.180解析:选B由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).①ad≈bc;②aa+b≈cc+d;③c+da+b+c+d≈b+da+b+c+d;④c+aa+b+c+d≈b+da+b+c+d;⑤(a+b+c+d)(ad-bc)2(a+b)(b+d)(a+c)(c+d)≈0.解析:因为分类变量X,Y独立,所以aa+b ≈cc+d,化简得ad≈bc,所以①②⑤正确,③④显然不正确.答案:①②⑤4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?解:(1)设患肝病中常饮酒的人有x人,x+230=415,x=6.常饮酒不常饮酒总计患肝病628 不患肝病41822 总计102030由已知数据可求得K2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15.5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1甲流水线样本频数分布表产品质量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:甲流水线 乙流水线 总计 合格品 a =30 b =36 66 不合格品 c =10 d =4 14 总计4040n =80因为K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706, 所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。

独立性检验的基本思想及其初步应用习题及答案

独立性检验的基本思想及其初步应用习题及答案

数学·选修1-2(人教A版)1.2 独立性检验的基本思想及其初步应用►达标训练1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( )A.散点图B.等高条形图C.2×2列联表D.以上均不对答案:B2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.aa+b与dc+d B.ca+b与ac+dC.aa+b与cc+d D.aa+b与cb+c答案:C3.对分类变量X与Y的随机变量K2的观测值k,说确的是( ) A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大答案:B4.下面是一个2×2列联表:则表中a、b的值分别为( )A.94、96 B.52、50C.52、54 D.54、52答案:C5.性别与身高列联表如下:那么,检验随机变量K2的值约等于( )A.0.043 B.0.367C.22 D.26.87答案:C6.给出列联表如下:根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是( )A.0.4 B.0.5 C.0.75 D.0.85答案:B►素能提高1.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲,下列说法中正确的是( )A .男人、女人中患有色盲的频率分别为0.038、0.006B .男人、女人患色盲的概率分别为19240、3260C .男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的D .调查人数太少,不能说明色盲与性别有关解析:男人患色盲的比例为38480,比女人中患色盲的比例6520大,其差值为⎪⎪⎪⎪⎪⎪38480-6520≈0.067 6,差值较大. 答案:C2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110由K 2=算得, K 2=≈7.8.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.841 6.635 10.828参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案:A3.若由一个2×2列联表中的数据计算得K2=4.013,那么在犯错误的概率不超过0.05的前提下认为两个变量______(填“有”或“没有”)关系.答案:有4.(2013·二模)以下四个命题:①在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,是简单随机抽样;②样本数据:3,4,5,6,7的方差为2;③对于相关系数r,|r|越接近1,则线性相关程度越强;④通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=可得,K2==7.8,则有99%以上的把握认为“选择过马路方式与性别有关”,其中正确的命题序号是________.答案:②③④附表P(K2≥k0)0.050.0100.001k03.8416.63510.8285.某学校为了调查喜欢语文学科与性别的关系,随机调查了一些学生情况,具体数据如下表:类别性别不喜欢语文喜欢语文男1310女720为了判断喜欢语文学科是否与性别有关系,根据表中的数据,得到K2的观测值k=≈4.844,因为k≥3.841,根据下表中的参考数据:P(K2≥k0)0.50.40.250.150.100.050.0250.010.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 判定喜欢语文学科与性别有关系,那么这种判断出错的可能性为________.答案:5%6.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表所示:序号12345678910 数学成绩95758094926567849871物理成绩90637287917158829381序号11121314151617181920数学成绩67936478779057837283物理成绩77824885699161847886若单科成绩85以上(含85分),则该科成绩优秀.(1)根据上表完成下面的2×2列联表(单位:人).数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计解析:(1)2×2列联表为(单位:人):数学成绩优秀数学成绩不优秀合计物理成绩优秀527物理成绩不优秀11213 合计61420(2)根据题(1)中表格的数据计算,能否在犯错误的概率不超过0.005的前提下认为学生的数学成绩与物理成绩之间有关系?参数数据:①假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表(称为2×2列联表)为:y1y2合计x1 a b a+bx2 c d c+d合计a+c b+d a+b+c+d则随机变量K2=,其中n=a+b+c+d为样本容量;②独立检验随机变量K2的临界值参考表如下:P(K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P(K2≥k0)0.050.0250.0100.0050.001k0 3.841 5.024 6.6357.87910.828 解析:根据列联表可以求得K2的观测值k=≈8.802>7.879.在犯错误的概率不超过0.005的前提下认为:学生的数学成绩与物理成绩之间有关系.7.2013年3月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25530使用未经淡化海砂151530 总计402060概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?解析:提出假设H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值k==7.5>6.635.查表得P(K2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?参考数据:解析:用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”的为2530×6=5,“混凝土耐久性不达标”的为6-5=1,“混凝土耐久性达标记”为A 1,A 2,A 3,A 4,A 5”;“混凝土耐久性不达标”的记为B .在这6个样本中任取2个,有以下几种可能:(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,A 5),(A 1,B ),(A 2,A 3),(A 2,A 4),(A 2,A 5),(A 2,B ),(A 3,A 4),(A 3,A 5),(A 3,B ),(A 4,A 5),(A 4,B )(A 5,B ),共15种.设“取出的2个样本混凝土耐久性都达标”为事件A ,它的对立事件A 为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A 1,B ),(A 2,B ),(A 3,B ),(A 4,B ),(A 5,B ),共5种可能.∴P (A )=1-P (A )=1-515=23.即取出的2个样本混凝土耐久性都达标的概率是23.8.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510]的产品为合格品,否则为不合格品.左下表是甲流水线样本频数分布表,右下图是乙流水线样本的频率分布直方图.(1)根据上表数据作出甲流水线样本的频率分布直方图;解析:甲流水线样本的频率分布直方图如下:(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率;解析:由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9.据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品a=b=不合格品c=d=合计n=附表:P(K2≥k0)0.150.100.050.0250.010.0050.001k02.0722.7063.8415.0246.6357.87910.828(参考公式:K2=,其中n=a+b+c+d)解析:2×2列联表如下:甲流水线乙流水线合计合格品a=30b=3666不合格品c=10d=414合计4040n=80∵K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=80×(120-360)266×14×40×40≈3.117>2.706.∴在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.►品味高考1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:性别 是否需要志愿者男 女 需要 40 30不需要 160 270(1)解析:调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为70500=14%.(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解析:K 2的观测值k =500×(40×270-30×160)2200×300×70×430≈9.967, 由于9.967>6.635所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.(3)根据(2)的结论,能否提出更好的调查办法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.解析:由于(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.附:K 2=P (K 2≥k 0) 0.050 0.010 0.0012.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;解析:由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中至少有1名“25岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=710 .(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K2=P(K2≥k0)0.1000.050.0100.001k0 2.706 3.841 6.63510.828解析:由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在年龄组有关”.。

《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档

《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档

统计、回归分析、独立性检验一、考点系统归纳 1.简单随机抽样简单随机抽样是不放回抽样,被抽取样本的个体数有限,从总体中逐个地进行抽取,使抽样便于在实践中操作,每次抽样时,每个个体等可能地被抽到,保证了抽样的公平性,实施方法主要有抽签法和随机数法。

2.系统抽样(1)定义:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样。

(2)系统抽样的步骤:①编号:采用随机的方式将总体中的个体编号 ②分段:先确定分段的间隔k ,当n N (N 为总体中的个体数,n 为样本容量)是整数时,nN k =;当n N 不是整数时,通过从整体中随机剔除一些个体使剩下的总体中个体总数`N 能被n 整除,这时nN k `=③确定起始个体编号。

在第1段用简单随机抽样确定起始的个体编号S④按照事先确定的规则抽取样本.通常是将S 加上间隔k ,得到第2个个体编号S +k ,再将(S +k )加上k ,得到第3个个体编号S +2k ,这样继续下去,获得容量为n 的样本.其样本编号依次是:S ,S +k ,S +2k ,…,S +(n -1)k .3.分层抽样(1)定义:当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本。

这种抽样的方法叫做分层抽样。

分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占的比例抽取。

分层抽样要求对总体的内容有一定的了解,明确分层的界限和数目,分层要恰当。

(2)分层抽样的步骤①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同)④汇合成样本 (3)分层抽样的优点分层抽样充分利用了已知信息,充分考虑了保持样本结构与总体结构的一致性。

8.3.2独立性检验(解析版)

8.3.2独立性检验(解析版)

独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。

【知识点解析】配套例题——独立性检验

【知识点解析】配套例题——独立性检验

独立性检验例1 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表8.3-2中的数据,计算得到χ2=()288337103843457117⨯⨯-⨯⨯⨯⨯≈0.837<2.706=x0.1.根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.例2 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.表8.3-5单位:人根据列联表中的数据,经计算得到χ2=()21361563526676921115⨯⨯-⨯⨯⨯⨯≈4.881<7.879=x0.005.根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.例3 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9 965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.表8.3-6单位:人解:零假设为H0:吸烟与患肺癌之间无关联.根据列联表中的数据,经计算得到χ2=()2996577754942209978172148987491⨯⨯-⨯⨯⨯⨯≈56.632>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.根据表8.3-6中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为7775 7817≈0.994 6和427817≈0.005 4;吸烟者中不患肺癌和患肺癌的频率分别为2099 2148≈0.977 2和492148≈0.022 8.由0.02280.0054≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.。

1.2.2独立性检验的基本思想及其初步应用习题及答案

1.2.2独立性检验的基本思想及其初步应用习题及答案

数学·选修 1-2( 人教 A 版)1.2 独立性检验的基本思想及其初步应用?达标训练1.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是 ()A .散点图C .2×2列联表B .等高条形图 D .以上均不对答案: B2.在等高条形图形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大 ( )a d c aA. a +b 与c +dB. a +b 与c +dacacC.a +b与c +dD.a +b与b +c答案: C3.对分类变量 X 与 Y 的随机变量 K 2的观测值 k ,说法正确的是 ()A .k 越大,“ X 与 Y 有关系”可信程度越小B .k 越小,“ X 与 Y 有关系”可信程度越小C .k 越接近于 0,“ X 与 Y 无关”程度越小D .k 越大,“ X 与 Y 无关”程度越大答案: B4.下面是一个2×2列联表:y1y2总计x1a2173x222527总计b46100则表中 a、b 的值分别为()A.94、96B.52、50C.52、54D.54、52答案: C5.性别与身高列联表如下:高(165 cm 以上 )矮(165 cm 以下 )总计男37441女61319总计431760那么,检验随机变量 K2的值约等于()A.0.043B.0.367C.22D.26.87答案: C6.给出列联表如下:优秀不优秀总计甲班103545乙班73845总计177390根据表格提供的数据,估计“成绩与班级有关系”犯错误的概率约是 ()A.0.4B.0.5C.0.75D.0.85答案: B?素能提高1.在调查中发现 480 名男人中有38 名患有色盲, 520 名女人中有 6 名患有色盲,下列说法中正确的是()A.男人、女人中患有色盲的频率分别为0.038 、0.006B.男人、女人患色盲的概率分别为193 240、260C.男人中患色盲的比例比女人中患色盲的比例大,患色盲是与性别有关的D.调查人数太少,不能说明色盲与性别有关386解析:男人患色盲的比例为480,比女人中患色盲的比例520大,386其差值为480-520≈0.067 6,差值较大.答案: C2.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好40 2060不爱好20 3050总计60 50110由 K2=算得,K2=≈7.8.附表:200.0500.0100.001P( K≥k )k0 3.841 6.63510.828参照附表,得到的正确结论是()A.有 99%以上的把握认为“爱好该项运动与性别有关”B.有 99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关”答案: A3.若由一个 2×2列联表中的数据计算得K2=4.013 ,那么在犯错误的概率不超过 0.05 的前提下认为两个变量 ______(填“有”或“没有” ) 关系.答案:有4.(2013 ·韶关二模 ) 以下四个命题:①在一次试卷分析中,从每个试室中抽取第 5 号考生的成绩进行统计,是简单随机抽样;②样本数据: 3,4,5,6,7的方差为2;③对于相关系数 r ,| r |越接近1,则线性相关程度越强;④通过随机询问 110 名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:男女总计走天桥402060走斑马线203050总计6050110由 K2=可得, K2==7.8,则有99%以上的把握认为“选择过马路方式与性别有关”,其中正确的命题序号是________.答案:②③④附表P( K2≥k0)0.050.0100.001k03.846.63510.828 15.某学校为了调查喜欢语文学科与性别的关系,随机调查了一些学生情况,具体数据如下表:类别喜欢语文性别不喜欢语文男1310女720为了判断喜欢语文学科是否与性别有关系,根据表中的数据,得到 K2的观测值 k=据下表中的参考数据:≈4.844 ,因为k≥3.841,根P( K2≥k0) 0.500.400.250.150.100.050.020.010.000.0050510.450.70 1.32 2.07 2.70 3.84 5.02 6.637.8710.8k08326145928 5判定喜欢语文学科与性别有关系,那么这种判断出错的可能性为________.答案: 5%6.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级 20 名学生某次考试成绩 ( 满分 100 分) 如下表所示:序号12345678910数学成绩95758094926567849871物理成绩90637287917158829381序号11121314151617181920数学成绩67936478779057837283物理成绩77 82 48 85 69 91 61 84 7886若单科成绩 85 以上 ( 含 85 分) ,则该科成绩优秀.(1)根据上表完成下面的 2×2列联表 ( 单位:人 ).数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计解析: (1)2 ×2列联表为 ( 单位:人 ) :数学成绩优秀数学成绩不优秀合计物理成绩优秀527物理成绩不优秀11213合计61420(2)根据题 (1) 中表格的数据计算,能否在犯错误的概率不超过0.005 的前提下认为学生的数学成绩与物理成绩之间有关系?参数数据:①假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2) ,其样本频数列联表 ( 称为 2×2列联表 ) 为:y1y2合计x1a b a+bx2c d c+d合计a+c b+d a+b+c+d 则随机变量 K2=,其中 n=a+b+c+d 为样本容量;②独立检验随机变量K2的临界值参考表如下:P( K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P( K2≥k0)0.050.0250.0100.0050.001 k0 3.841 5.024 6.6357.87910.828解析:根据列联表可以求得K2的观测值k=≈8.802>7.879.在犯错误的概率不超过 0.005 的前提下认为:学生的数学成绩与物理成绩之间有关系.7. 2013 年 3 月 14 日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了 60 个样本,得到了相关数据如下表:混凝土耐混凝土耐总计久性达标久性不达标使用淡化海砂25530使用未经淡化海砂151530总计402060(1)根据表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?解析:提出假设 H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值k==7.5>6.635.查表得 P( K2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2) 若用分层抽样的方法在使用淡化海砂的样本中抽取了 6 个,现从这 6 个样本中任取 2 个,则取出的 2 个样本混凝土耐久性都达标的概率是多少?参考数据:P( K2≥k)0.100.0500.0250.0100.001k 2.706 3.841 5.024 6.63510.828解析:用分层抽样的方法在使用淡化海砂的样本中抽取 6 个,其25中应抽取“混凝土耐久性达标”的为30×6= 5,“混凝土耐久性不达标”的为 6-5=1,“混凝土耐久性达标记”为 A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为 B.在这 6 个样本中任取 2 个,有以下几种可能: ( A1,A2) ,( A1,A3) ,( A1,A4) ,( A1,A5) ,( A1,B) ,( A2,A3 ) ,( A2,A4) ,( A2,A5) ,( A2,B),( A3,A4),( A3,A5),( A3,B),( A4,A5),( A4,B)( A5,B),共15种.A,它的对立设“取出的 2个样本混凝土耐久性都达标”为事件事件 A 为“取出的 2 个样本至少有 1 个混凝土耐久性不达标”,包含( A1,B) ,( A2,B) ,( A3,B) ,( A4,B) ,( A5,B) ,共 5 种可能.5 2∴P( A)=1-P( A )=1-15=3.2即取出的 2 个样本混凝土耐久性都达标的概率是3.8.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取 40 件产品作为样本称出它们的重量 ( 单位:克 ) ,重量值落在 (495,510] 的产品为合格品,否则为不合格品.左下表是甲流水线样本频数分布表,右下图是乙流水线样本的频率分布直方图.产品重量 / 克频数(490,495]6(495,500]8(500,505]14(505,510]8(510,515]4甲流水线样本频数分布表(1)根据上表数据作出甲流水线样本的频率分布直方图;解析:甲流水线样本的频率分布直方图如下:(2)若以频率作为概率,试估计从两条流水线分别任取 1 件产品,该产品恰好是合格品的概率;解析:由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为 (0.06 +0.09 +0.03) ×5×40= 36,故甲样本合3036格品的频率为40=0.75 ,乙样本合格品的频率为40=0.9.据此可估计从甲流水线任取 1 件产品,该产品恰好是合格品的概率为 0.75. 从乙流水线任取 1 件产品,该产品恰好是合格品的概率为0.9.(3)由以上统计数据完成下面 2×2列联表,能否在犯错误的概率不超过 0.1 的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品a=b=不合格品c=d=合计n=附表:P( K2≥k0)0.150.100.050.020.010.000.001505k02.07 2.70 3.84 5.02 6.637.8710.82 2614598( 参考公式:K2=,其中 n=a+b+c+d)解析: 2×2列联表如下:甲流水线乙流水线合计合格品a=30b=3666不合格品c=10d=414合计4040n=80∵K2=n ad-bc 2a+b c+d a+c b+d80× 120-360 2=66×14×40×40≈3.117>2.706.∴在犯错误的概率不超过 0.1 的前提下认为产品的包装质量与两条自动包装流水线的选择有关.?品味高考1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500 位老人,结果如下:性别男女是否需要志愿者需要4030不需要160270(1)估计该地区老年人中需要志愿者提供帮助的老年人的比例.解析:调查的 500 位老年人中有 70 位需要志愿者提供帮助,因70此该地区老年人中需要帮助的老年人的比例的估计值为500=14%.(2)能否在犯错误的概率不超过 0.01 的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解析: K2的观测值 k=500× 40×270-30×160 2200×300×70×430≈9.967 ,由于 9.967>6.635所以在犯错误的概率不超过0.01 的前提下认为该地区的老年人是否需要帮助与性别有关.(3)根据 (2) 的结论,能否提出更好的调查办法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.解析:由于 (2) 的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.附: K2=20.0500.0100.001P( K ≥k )k0 3.841 6.63510.8282.某工厂有 25 周岁以上 ( 含 25 周岁 ) 工人 300 名,25 周岁以下工人 200 名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了 100 名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“ 25 周岁以上 ( 含 25 周岁 ) ”和“ 25周岁以下”分为两组,再将两组工人的日平均生产件数分为 5 组:[50,60) ,[60,70) ,[70,80) ,[80,90) ,[90,100) 分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“ 25 周岁以下组”工人的概率;解析:由已知得,样本中有25 周岁以上组工人 60 名, 25 周岁以下组工人 40 名.所以,样本中日平均生产件数不足60件的工人中, 25 周岁以上组工人有 60×0.05 = 3( 人) ,40×0.05 = 2( 人) ,记为记为 A ,A ,A ;25周岁以下组工人有123B1,B2.从中随机抽取2 名工人,所有的可能结果共有10 种,它们是:( A1,A2) ,( A1,A3) ,( A2,A3) ,( A1,B1) ,( A1,B2) ,( A2,B1 ) ,( A2,B2),( A3,B1),( A3,B2),( B1,B2).其中至少有1名“25岁以下组”工人的可能结果共有 7 种,它们是: ( A1,B1) , ( A1,B2) , ( A2,B1) ,7( A2,B2) ,( A3,B1) ,( A3,B2) ,( B1,B2) .故所求的概率P=10.(2)规定日平均生产件数不少于 80 件者为“生产能手”,请你根据已知条件完成列联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”?附: K2=P( K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828解析:由频率分布直方图可知,在抽取的 100 名工人中,“ 25 周岁以上组”中的生产能手 60×0.25 = 15( 人) ,“ 25 周岁以下组”中的生产能手 40×0.375 = 15( 人) ,据此可得 2×2列联表如下:生产能手非生产能手合计25 周岁以上组15456025 周岁以下组152540合计3070100因为 1.79 <2.706 ,所以没有 90%的把握认为“生产能手与工人所在年龄组有关”.。

高中数学《9、2独立性检验》知识点+教案课件+习题

高中数学《9、2独立性检验》知识点+教案课件+习题

知识点:定义:利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个变量的独立性检验。

分类变量:变量的不同值表示个体所属的不同类别,没有大小之分,像这样的变量称为分类变量。

在现实生活中,分类变量是大量存在的,例如是否吸烟,性别,宗教信仰,国籍,是否喜欢数学等等。

列联表:像下图这样列出两个分类变量的频数表,称为列联表通过上面列联表可以粗略的预估喜欢数学与否跟性别是否有关系,得到一个初步的结论另外常用等高条形图来展示列联表中的频率特征,也可以直观上得到一些结论。

等高条形图如下:随机变量K2:为了能够从定量上分析喜欢数学与否跟性别是否有关系,我们引进了随机变量K2来得到更加准确的结果。

随机变量K2的公式如下:其中n=a+b+c+d,为样本容量。

备注:一定要牢记a,b,c,d在列联表中的位置,这样公式才能套的对。

临界值表:例如,当K=8时,K>7.879,所以可以得到结论如下:“有99.5%((1-0.005)*100%)的把握认为,两个变量之间有关系”或者“在犯错率不超过0.5%(0.005*100%)的前提下,认为两个变量之间有关系。

”备注:如果K≤2.706,就认为没有充分的证据显示两个变量之间有关系独立性检验的基本步骤:①根据实际问题需要的可信程度确定临界值k0;②利用求K值的公式,计算随机变量K2的观测值K;③如果K≥K0,就以(1-P)*100%的把握认为两个变量有关系;否则就说没有(1-P)*100%的把握认为两个变量有关系。

视频教学:练习:1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若的观测值为,我们有的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知有的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有的可能患有肺病C.若从统计量中求出有的把握认为吸烟与患肺病有关系,是指有的可能性使得推断出现错误D.以上三种说法都不正确2.下面是列联表:总计217382533总计46则表中处的值为( )A.94、96B.52、60C.52、59D.59、523.为了调查高一学生在分班选科时是否选择物理科目与性别的关系,随机调查100名高一学生,得到列联表如下:选择物理不选择物理总计男352055女153045总计5050100由此得出的正确结论是( )附:0.0500.0100.0013.841 6.63510.828A.在犯错误的概率不超过0.01的前提下,认为“选择物理与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“选择物理与性别无关”C.有的把握认为“选择物理与性别有关”D.有的把握认为“选择物理与性别无关”4.针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数,若有的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人附表:0.0500.0103.841 6.635附:A.20 B.40 C.60 D.805.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确课件:教案:一.教学内容解析:(1)“独立性检验”是人教B版高中数学选修1-2中第一章第一节的内容,是对必修3概率统计知识的进一步提升和应用.独立性检验作为统计推断的重要内容之一,能培养学生的统计思维、统计态度、批评性精神等,具有丰富的教学价值.了解独立性检验思想能够帮助学生形成合理的统计推断观,同时也为回归分析做了准备.独立性检验是考察两个变量是否独立的统计学方法,具体做法是:首先对两个变量的关系作假设,然后选取合适的统计量,并根据实测样本计算出该统计量的观测值,最后根据预先设定的显著性水平进行检验,做出接受或拒绝原假设的判断.其本质就是运用假设检验原理的一种特例,在现有的有关独立性检验(大学)教材看,都是先介绍假设检验知识,然后介绍独立性检验,即通过假设检验的原理来理解独立性检验的思想.(2)教学重点:通过典型案例的探究体会独立性检验的思想方法.二.教学目标设置:高中课程标准中,要求通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用,课时安排为三课时.在高考中基本以考察操作规则,套用卡方公式进行计算为主,根据以往经验,应用公式对于学生来说较为简单,所以作为本节课的第一课时教学目标设置如下:(1)知识与技能:解两个事件相互独立的含义,通过对典型案例的探究,理清不同的样本,数据不同,比例不同,数据所体现的差异性不同,怎样针对不同样本数据设置统一的评判标准?针对不同的样本数据,可能做出不同的判断,那么你有多大的把握认为自己的判断是正确的?这两个问题从而了解独立性检验的基本思想,方法和简单应用,进一步体会运用统计方法解决实际问题的基本思想.(2)过程与方法:通过生活中实例的探索、研究、比较归纳等,了解知识的发生发展过程,进一步提高学生对统计思想的认识.(3)情感态度与价值观:通过体验独立性检验思想的过程,体会统计知识在生活中的作用,激发学生的学习兴趣.通过卡方统计量的构造过程培养学生严谨的思维和态度.三.学生学情分析:(1)学生通过必修三的学习能够了解到事件的概率可以用相应的频率来估计,了解到统计中用部分数据来推测全体数据性质的思想.但是对于事件的独立的含义不了解,反证法也没有学习;根据以往对学生的了解,运用公式判断两个分类变量的相关性不是难点,但是独立性检验的思想及原理,为什么要构造卡方统计量,为什么要这样构造卡方统计量,以及卡方统计量的概率统计含义等都是学生的疑问点,考虑到文科学生的知识储备及课标的要求,本节课尽量用生活中的实际例子去引导学生,让学生感受到卡方统计量构造的必要性及独立性检验思想的重要性。

高二数学1-2-独立性检验

高二数学1-2-独立性检验

独立性检验教学重点、独立性检验的基本方法,独立性检验的步骤 难点:.基本思想的领会与方法应用.知识点 一、 独立性检验的基本概念和原理独立性检验是研究相关关系的方法. 1.分类变量:变量的不同"值〞表示个体所属的不同类别的变量称为分类变量.比如男女、是否吸烟、是否患癌症,##信仰、国籍等等. 2列联表:分类变量的汇总统计表〔频数表〕. 一般我们只研究每个分类变量只取两个值,为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是"吸烟和患肺癌有关〞.那么我们是否能够以一定的把握认为"吸烟与患肺癌有关〞呢?4.独立性检验的步骤为了回答下面问题,我们先假设H 0:吸烟与患肺癌没有关系,看看能够得到什么样的结论.不患肺癌 患肺癌 合计 不吸烟 a b a+b 吸烟 c d c+d 合计 a+c b+d a+b+c+d样本容量 n=a+b+c+d如果 "吸烟与患肺癌没有关系〞,则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:若 H 0 成立,即"吸烟与患肺癌没有关系〞,则 K "应该很小.根据表3一7中的数据,利用公式〔1〕计算得到 K "的观测值为()22996577754942209956.63278172148987491K ⨯-⨯=≈⨯⨯⨯,这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 H 0成立的情况下,2( 6.635)0.01P K ≥≈. <2><2〕式说明,在H 0成立的情况下,2K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2K 的观测值k ≈56.632 ,远远大于6. 635,所以有理由断定H 0不成立,即认为"吸烟与患肺癌有关系〞.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为"吸烟与患肺癌有关系〞 .在上述过程中,实际上是借助于随机变量2K 的观测值k 建立了一个判断H 0是否成立的规则:如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论"H 0成立〞错判成"H 0不成立〞的概率不会超过2( 6.635)0.01P K ≥≈,即有99%的把握认为H 0不成立. 假设检验 备择假设H 1在H 1不成立的条件下,即H 0成立的条件下进行推理推出有利于H 1成立的小概率事件〔概率不超过α的事件〕发生,意味着H 1成立的可能性〔可能性为〔1-α〕〕很大 推出有利于H 成立的小概率事件不发生,接受原假设第一步:提出假设检验问题H 0:吸烟与患肺癌没有关系↔H 1:吸烟与患肺癌有关系第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++〔它越小,原假设"H 0:吸烟与患肺癌没有关系〞成立的可能性越大;它越大,备择假设"H 1:吸烟与患肺癌有关系〞成立的可能性越大.注意:1观测值是2K 的值2.假设没有关系,如果2K 大,则H 0不成立,即两个量有关系. 如果2K 小,说明没有足够证据证明H 0不成立,即两个量没有关系 3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系4得到两个量有〔没有〕关系的结论是在概率基础上决定的,存在犯错误的概率5有99%的把握〔相当于正确概率99%〕认为有关⇔在犯错误的概率不超过1%的前提下,认为"有关〞说明:95%就是概率,可以说成有95%的把握,这种事件出现的可能性极大5%当然也是概率,这种事件出现的可能性极小,在新闻中播报的水灾20年一遇,就是概率5%事件发生了题型一概念辨析例题在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是<>A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误D.以上三种说法都不正确A变式1下列关于独立性检验的说法中,错误的是〔〕A.独立性检验得到的结论一定正确B.独立性检验依赖小概率原理C.样本不同,独立性检验的结论可能有差异D.独立性检验不是判定两事物是否相关的唯一方法考点:独立性检验的基本思想.分析:对选项进行判断,独立性检验取决于样本、独立性检验是依据小概率原理,用样本计算统计量的、样本不同,观测值统计量也不同、对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,即可得出结论.解答:解:因为独立性检验取决于样本,故结论不一定正确,即A不正确独立性检验是依据小概率原理,用样本计算统计量的,故正确;样本不同,观测值统计量也不同,故正确;对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,故正确.故选:A.点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题A变式2对于独立性检验,下列说法正确的是〔〕A.K2独立性检验的统计假设是各事件之间相互独立B.K2可以为负值C.K2独立性检验显示"患慢性气管炎和吸烟习惯有关〞,这就是指"有吸烟习惯的人必定会患慢性气管炎〞D.2×2列联表中的4个数据可以是任意正数分析:利用独立性检验的定义和解题步骤逐一筛选四个选项即可解答:解:由独立性检验的检验步骤可知A正确;∵2×2列联表中的数据均为正整数,故k2不可能为负值,排除B;∵K2独立性检验显示"患慢性气管炎和吸烟习惯有关〞,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;∵2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D故选A点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题A.变式3独立性检验中,假设H0:变量X与变量Y没有关系.则在H0成立的情况下,估算概率P〔K2≥6.635〕≈0.01表示的意义是〔〕A.变量X与变量Y有关系的概率为1%B.变量X与变量Y没有关系的概率为99%C.变量X与变量Y有关系的概率为99%D.变量X与变量Y没有关系的概率为99.9%考点:实际推断原理和假设检验的应用.分析:根据所给的估算概率,得到两个变量有关系的可信度是1-0.01,即两个变量有关系的概率是99%,这里不用计算,只要理解概率的意义即可.解答:解:∵概率P〔K2≥6.635〕≈0.01,∴两个变量有关系的可信度是1-0.01=99%,即两个变量有关系的概率是99%,故选C.点评:本题考查实际推断原理和假设检验的应用,本题解题的关键是理解所求出的概率的意义,本题是一个基础题.B变式1 在独立性检验中,统计量Χ2有两个临界值:3.841和6.635.当Χ2>3.841时,有95%的把握说明两个事件有关,当Χ2>6.635时,有99%的把握说明两个事件有关,当Χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算Χ2=20.87.根据这一数据分析,认为打鼾与患心脏病之间〔〕A.有95%的把握认为两者有关B.约有95%的打鼾者患心脏病C.有99%的把握认为两者有关D.约有99%的打鼾者患心脏病考点:独立性检验的应用.分析:这是一个独立性检验理论分析题,根据K2的值,同所给的临界值表中进行比较,可以得到有99%的把握认为打鼾与心脏病有关.解答:解:∵计算Χ2=20.87.有20.87>6.635,∵当Χ2>6.635时,有99%的把握说明两个事件有关,故选C.点评:考查独立性检验的应用,是一个典型的问题,注意解题时数字运算要认真,不要出错,本题不需要运算直接考查临界值对应的概率的意义二.独立性检验的应用题型二、独立性检验的应用 例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:由表中数据计算得2K 的观测值 4.514k .能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.在假设"性别与喜欢数学课之间没有关系〞的前提下,事件A ={2K ≥3. 841}的概率为P <2K ≥3. 841>≈0.05因此事件 A 是一个小概率事件.而由样本数据计算得2K 的观测值k=4.514,即小概率事件 A 发生.因此应该断定"性别与喜欢数学课之间有关系〞成立,并且这种判断结果出错的可能性约为5 %.所以,约有95%的把握认为"性别与喜欢数学课之间有关系〞. A .变式1某卫生机构对366人进行健康体检,阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有______的把握认为糖尿病患者与遗传有关系.<>A .99.9%B .99.5%C .99%D .97.5%[解析]可以先作出如下列联表<单位:人>:糖尿病患者与遗传列联表根据列联表中的数据,得到K 2的观测值为 k =错误!≈6.067>5.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系.A .变式2在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒分析:在使用该种血清的人中,有24248.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.A 变式通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表: 男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计 60 50 110 由,算得参照独立性检验附表,得到的正确结论是〔 〕 A . 有99%的把握认为"选择过马路的方式与性别有关〞 B . 有99%的把握认为"选择过马路的方式与性别无关〞 C . 在犯错误的概率不超过0.1%的前提下,认为"选择过马路的方式与性别有关〞 D . 在犯错误的概率不超过0.1%的前提下,认为"选择过马路的方式与性别无关〞B 变式1媒体为调查喜欢娱乐节目A 是否与性格外向有关,随机抽取了500名性格外向的和500名性格内向的居民,抽查结果用等高条形图表示如下:〔1〕作出2×2列联表;〔2〕试用独立性检验的方法分析,能否在犯错的概率不超过0.001的前提下说明喜欢娱乐节目A与性格外向有关?1000×<400×250−100×250>500×500×650×350≈98.901>10.828,∴能在犯错的概率不超过0.001的前提下说明喜欢娱乐节目A与性格外向有关.点评:本题考查独立性检验的应用,本题解题的关键是正确理解观测值对应的概率的意义.B变式2.为研究不同的给药方式〔口服或注射〕和药的效果〔有效与无效〕是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论20×<10×5−2×3> 12×8×13×7≈4.432.因为p 〔K 2>3.84〕=0.05,所以我们有95%把握认为该中学的高三学生选报文理科与性别有关.点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题题型三、已知可信度,求观测值k 2例题4.确定结论"X 与Y 有关系〞的可信度为99.5%时,则随即变量k 2的观测值k 必须〔 〕 A . 小于7.879 B . 大于10.828 C . 小于6.635 D . 大于2.706•A 变式用的方法,我们得到能有99%的把握认为变量X 与Y 有关系,则〔 〕A .K 2≥2.706B .K 2≥6.635C .K 2<2.706D .K 2<6.635A 变式随机调查某校110名学生是否喜欢跳舞,由列联表和公式K 2=计算出K 2,并由此作出结论:"有99%的可能性认为学生喜欢跳舞与性别有关〞,则K 2可以为〔 〕 附表:P 〔K 2≥k 0〕0.10 0.05 0.025 0.010 k 02.7063.841 5.024 6.635 A . 3.565 B .4.204 C .5.233 D .6.842总结:第一步:提出假设检验问题H 0:与没有关系↔H 1:与有关系第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++〔它越小,原假设"H 0:吸烟与患肺癌没有关系〞成立的可能性越大;它越大,备择假设"H 1:吸烟与患肺癌有关系〞成立的可能性越大. 第三步:查表得出结论 1. 观测值是2K 的值2. 假设没有关系,如果2K 大,则H 0不成立,即两个量有关系.如果2K 小,说明没有足够证据证明H 0不成立,即两个量没有关系 3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系4得到两个量有〔没有〕关系的结论是在概率基础上决定的,存在犯错误的概率5有99%的把握〔相当于正确概率99%〕认为有关⇔在犯错误的概率不超过1%的前提下,认为"有关〞。

独立性检验

独立性检验
一、有关概念:
1.定性变量与定量变量: 2.2×2 列联表:
二、独立性检验的简介: 三、检验独立性的方法:
1.频率法: 2.等高条形图法: 3.卡方检验:
(1)卡方检验简述: (2)操作步骤及三个细节: (3)书写格式:
概率与统计简述
样本
抽样
估计 推断
总体
回归分析 分布列及期望 相关分析
概率 计数
超几何分布与二项分布的关联
以下三种情况,按照二项分布来处理
频率代概率 总数一大批 抽取要放回 二项分布也
四大分布之间的关联图
正态分布
连续 二项分布 N →+∞ 超几何分布
(总数充分大) n=1
0—1分布

M N
1 10
1 100
,实际操作时,用二项分布近似来代替
正态分布的性质
1.对称性
f (x) , (x)
法3:相关系数 r 法 (参《必修3》P:92~93) 法4:关系式法:
主要是利用回归方程…… 法5:数表法:
主要观察是否具有单调性……
法3:相关系数 r ——衡量变量之间相关程度的指标
(1)计算公式:r
(2)性质:
n
(xi x)( yi y)
i1
n
n
(xi x)2 ( yi y)2
1
( x )2
e 2 2
2
2.渐近性
正态曲线是钟型 指数二次组合体
3.最大值 4.面积为1
要求概率求面积 左小右大总为 1 均值中众对称轴 比较方差武大郎 前数期望后方差 平方去π同上母
5.期望为μ,方差为δ2
小概率事件原理
一般的,当P(A)≤0.05(或0.01)时 可以认为在一次试验中事件A几乎是不可能发生的 但在多次重复试验中几乎是必然发生的

独立性检验练习含答案

独立性检验练习含答案

§1.1 独立性检验一、基础过关1.当χ2>2.706时,就有________的把握认为“x 与y 有关系”.2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,则χ2≈__________.(结果保留3位小数) 3.分类变量X 和Y .(填序号)①ad -bc 越小,说明X 与Y 的关系越弱; ②ad -bc 越大,说明X 与Y 的关系越强; ③(ad -bc )2越大,说明X 与Y 的关系越强; ④(ad -bc )2越接近于0,说明X 与Y 的关系越强.4.通过随机询问110由χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.①在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”; ②在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”; ③有99%以上的把握认为“爱好该项运动与性别有关”; ④有99%以上的把握认为“爱好该项运动与性别无关”.5.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸则有________的把握确定吸烟量与年龄有关. 二、能力提升6为了判断主修统计专业是否与性别有关,根据表中的数据,得χ2=50×(13×20-10×7)223×27×20×30≈4.844.因为χ2≈4.844>3.841,所以判断主修统计专业与性别有关系,那么这种判断出错的可能性为________.7.在2×2列联表中,若每个数据变为原来的2倍,则卡方值变为原来的________倍. 8.下列说法正确的是________.(填序号)①对事件A 与B 的检验无关,即两个事件互不影响; ②事件A 与B 关系越密切,χ2就越大;③χ2的大小是判断事件A 与B 是否相关的惟一数据; ④若判定两事件A 与B 有关,则A 发生B 一定发生.9设H 0:服用此药的效果与患者的性别无关,则χ2的值约为________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.10.某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材做了调查,根据此资料,你是否认为教龄的长短与支持新的数学教材有关?11(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异.三、探究与拓展12.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:(1)分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填写2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.答案1.90% 2.16.373 3.③ 4.③ 5.99.9% 6.5% 7.2 8.② 9.4.882 5%10.解 由公式得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) =71×(12×24-25×10)237×34×22×49≈0.08.∵χ2<2.706.∴我们没有理由说教龄的长短与支持新的数学教材有关. 11.解 (1)假设:传染病与饮用水的卫生程度无关.由公式得χ2=830×(52×218-466×94)2146×684×518×312≈54.21.因为54.21>10.828.因此我们有99.9%的把握认为该地区这种传染病与饮用水的卫生程度有关. (2)依题意得2×2此时,χ2=86×(5×22-50×9)255×31×14×72≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种传染病与饮用水的卫生程度有关. 两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)问中我们有99.9%的把握肯定结论的正确性,(2)问中我们只有97.5%的把握肯定结论的正确性. 12.解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500×100%=64%. (2)由列联表中的数据,得χ2=1 000×(360×180-320×140)2680×320×500×500≈7.353>6.635.所以有99%的把握认为“两个分厂生产的零件的质量有差异”.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独立性检验的基本知识点及习题
列联表 随机变量. 与k 对应值表:22⨯)
)()()(()(2
2
d b c a d c b a bc ad n K ++++-=
)(2k K P ≥)
(2k K P ≥0.100.050.0250.0100.0050.001k
2.706
3.841
5.024
6.635
7.879
10.828
一、基础知识梳理
1.独立性检验 利用随机变量
来确定在多大程度上可以认为“两个分类变量有关系”的
方法称为两个分类变量的独立性检验。

2.判断结论成立的可能性的步骤:
(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

二、例题选讲
例1.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:
班级与成绩列联表
优秀不优秀总计甲班103545乙班73845总计177390
画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。

解:列联表的条形图如图所示:
由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2
的观察值为k≈0.653>0.455。

由下表中数据
P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828
得:P(K2≥0.455)≈0.50,
从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关
系”犯错误的概率为0.5。

例2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调
查结果如下表所示:
患病不患病合计
吸烟43162205
不吸烟13121134
合计56283339
解:根据列联表中的数据,得

因为,所以我们有99%的把握说:50岁以上的人患慢性气管
炎与吸烟习惯有关。

练一练:
1.在一次独立性检验中,其把握性超过了99%,则随机变量的可能值为( )
A.6.635 B.5.024 C.7.897 D.3.841
2.把两个分类变量的频数列出,称为( )
A.三维柱形图 B.二维条形图 C.列联表 D.独立性检验3.由列联表
合计
43 162205
13121134
合计56283339
则随机变量的值为 。

4.某高校“统计初步”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:
非统计专业统计专业
男1310
女720
为了检验主修专业是否与性别有关系,根据表中的数据,得到
因为,所以断定主修统计专业与性别有关系。

这种判断出错的可能性为 。

5.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表:
药物效果与动物试验列联表
患病未患病总计服用药104555
没服用药203050总计3075105
请问能有多大把握认为药物有效?
6.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料你是否认为在恶劣气候中男人比女人更容易晕机?
晕机不晕机合计
男人243155
女人82634
合计325789。

相关文档
最新文档