独立性检验典型题例解析
【高二统计案例(2)】独立性检验
独立性检验1. 在2013年某大学生运动会期间,某网站针对是否观看大学生运动会的情况进行了一项问卷调查,得出如下表格:(附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d) 则K 2=( )A. 700B. 750C. 800D. 8502. 春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是( )A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”3.附表:由K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),计算得K 2=____________ 参照附表,得到的正确结论为( )A. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C. 有97.5%以上的把握认为“是否爱吃零食与性别有关”D. 有97.5%以上的把握认为“是否爱吃零食与性别无关”第2页,共7页4.由表中数据计算得到K 的观测值k ≈5.059,于是(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.5. 101目的110名观众,得到如下列联表:则有 的把握认为“喜爱该节目与性别有关”.6. 如图是一个2×2列联表,则m+n 的值为 .7. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得则有 的把握认为“喜爱该节目与性别有关”.8. 在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).在犯错误的概率不超过______的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.独立性检验一、选择题(本大题共3小题,共15.0分)9.在2013年某大学生运动会期间,某网站针对是否观看大学生运动会的情况进行了一项问卷调查,得出如下表格:)(附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)则K2=()A. 700B. 750C. 800D. 850【答案】B【解析】【分析】即可求解;本题考查独立性检验,属于基础题型,代入K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)【解答】解:由题意得K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d)=750.=12000×(6000×2000−2000×2000)28000×4000×8000×4000故选B.10.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K2=n(ad−bc)2参照附表,得到的正确结论是()(a+b)(c+d)(a+c)(b+d)A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D. 有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”【答案】C第4页,共7页【解析】【分析】本题考查独立性检验,基础题由公式可计算K 2的观测值k ,与临界值表中的临界值进行比较,即可得答案.【解答】解:由公式可计算K 2的观测值 k =n(ad−bc)2(a+b)(c+d)(a+c)(b+d)=100(45×15−30×10)255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”, 故选C .11.附表:由K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),计算得K 2=100(10×30−20×40)250×50×30×70≈4.762.参照附表,得到的正确结论为( )A. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B. 在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C. 有97.5%以上的把握认为“是否爱吃零食与性别有关”D. 有97.5%以上的把握认为“是否爱吃零食与性别无关” 【答案】A【解析】【分析】本题主要考查独立性检验知识,属于基础题.独立性检验是在犯错的概率不超过多少时认为“是否爱吃零食与性别有关” K 2≈4.762>3.841而P(K 2≥3.841)=0.05,即可得到答案. 【解答】解:因为K 2≈4.762>3.841,P(K 2>3.841)=0.05.所以在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”, 故选A .二、填空题(本大题共8小题,共40.0分)12. 公元五世纪张丘建所著《张丘建算经》卷中第22题为:“今有女善织,日益功疾,初日织五尺,今一月日织九匹三丈,问日益几何”.题目的意思是:有个女子善于织布,一天比一天织得快(每天增加的数量相同),已知第一天织布5尺,一个月(30天)共织布9匹3丈,则该女子每天织布的增加量为 尺.(1匹=4丈,1丈=10尺) 【答案】1629【解析】【分析】本题考查了等差数列的求和.设每天织布的尺数成等差数列{a n },公差为d ,利用等差数列的求和公式即可得出.【解答】解:设每天织布的尺数成等差数列{a n},公差为d,d=390,则5×30+30×292解得d=16.29.故答案为162913.在平面直角坐标系xOy中,抛物线y2=8x的焦点坐标为________.【答案】(2,0)【解析】【分析】本题考查抛物线的几何性质,是容易题.=2即可得解.根据题意,确定抛物线的对称轴和开口方向,求出p2【解答】解:在y2=8x中,2p=8,即p=4,=2.所以,p2又抛物线的焦点在x轴上,且开口向右,故抛物线的焦点坐标为(2,0).答案为(2,0).14.设向量a⃗=(1,−4),b⃗ =(−1,x),c⃗=a⃗+3b⃗ .若a⃗//c⃗,则实数x的值是.【答案】4【解析】【分析】本题考查了平面向量共线的充要条件和平面向量的坐标运算.先计算c→的坐标,根据a→//c→,利用向量平行的条件列出关于x的方程,即可求得x.【解答】解:向量a→=(1,−4),c→=a→+3b→=(−2,−4+3x),因为a⃗//c⃗,所以(−4+3x)−(−4)×(−2)=0,解得x=4.故答案为4.15.第6页,共7页由表中数据计算得到K 的观测值k ≈5.059,于是(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.【答案】不能【解析】【分析】本题考查独立性检验,属于基础题.查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635.本题中,k ≈5.059<6.635,由此即可得到答案. 【解答】解:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635.本题中,k ≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.16. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得到如下列联表:则有 的把握认为“喜爱该节目与性别有关”. 【答案】99%【解析】【分析】本题主要考查独立性检验,属于基础题. 代入独立性检验公式即可求解.【解答】解:由列联表中数据,可得: χ2=110×(40×30−20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱该节目与性别有关”.17. 的值为 .【答案】【解析】【分析】本题主要考查了2×2列联表的数据关系,属于基础题.由a +35=45,可求得a ,则m =a +7,再由b +35=73可得b ,则7+b =n ,即可求解.【解答】解:根据2×2列联表可知a +35=45,解得a =10,则m =a +7=17, 又由35+b =73,解得b =38,则n =7+b =45, 则m +n =62.18. 某新闻媒体为了解观众对《创造101》节目的喜爱与性别是否有关,随机调查了观看该节目的110名观众,得则有 的把握认为“喜爱该节目与性别有关”.【答案】99% 【解析】【分析】本题考查了独立性检验,考查了运算能力,属于基础题.由列联表中数据,代入计算公式可得K 2的值,再判断是否有99%的把握认为“喜爱该节目与性别有关”. 【解答】解:由列联表中数据,可得K 2=110×(40×30−20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱该节目与性别有关”.19. 在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,K 2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).在犯错误的概率不超过______的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.【答案】0.05【解析】【分析】本题考查独立性检验的应用,属于基础题.计算观测值,与题目中的观测值表进行比较,即可得出预测结论. 【解答】解:由题意算得,K 2= 100(10×30−20×40)250×50×30×70 ≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“小动物是否被感染与有没有服用疫苗有关”. 故答案为0.05.。
高中数学选修2-3检测:十八) 独立性检验含解析
课时跟踪训练(十八) 独立性检验1.给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( )A .①②③B .②④⑤C .②③④⑤D .①②③④⑤2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:经计算得χ2=110×(40×30-20×20)260×50×60×50≈7.8.则正确结论是( )A .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关5.下面2×2列联表中a,b的值分别为6.某医疗研究所为了检验某种血清预防甲型H1N1流感的作用,把500名使用血清的人与另外500名未用血清的人一月中的甲型H1N1流感记录作比较,提出假设H0:“这种血清不能起到预防甲型H1N1流感的作用”,利用2×2列联表计算得χ2≈3.918.对此,有以下四个判断:①有95%的把握认为“这种血清能起到预防甲型H1N1流感的作用”②若某人未使用该血清,那么他在一月中有95%的可能性得甲型H1N1流感③这种血清预防甲型H1N1流感的有效率为95%④这种血清预防甲型H1N1流感的有效率为5%则正确命题的序号是____________.(把你认为正确的命题序号都填上)7.某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):(1)求m,n;(2)根据表中数据能得到什么结论?8.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,答 案1.选B 独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验.2.选C 根据独立性检验的思想方法,正确选项为C.3.选C A 、B 是对χ2的误解,99%的把握认为吸烟和患肺病有关,是指通过大量的观察实验得出的一个数值,并不是100个人中必有99个人患肺病,也可能这100个人全健康.4.选B χ2=407×(32×213-61×101)293×314×133×274≈0.164<3.841,即没有充足的理由认为种子是否经过处理跟生病有关.5.解析:∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54. 答案:52 546.解析:χ2≈3.918>3.841,故判断有95%的把握认为“血清能起到预防H1N1流感的作用”,只有①正确. 答案:①7.解:(1)m =45-15=30,n =50+50=100. (2)由表中的数据,得χ2=100×(35×30-15×20)250×50×55×45≈9.091.因为9.091>6.635,所以有99%的把握说“教学方式与成绩有关系”.8.解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)χ2=1 000×(360×180-320×140)2500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.。
独立性检验—高考真题
独立性检验—高考真题一、解答题二、解答题1.一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g ).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m ,再分别统计两样本中小于m 与不小于m 的数据的个数,完成如下列联表m <m≥对照组试验组(ⅱ)根据(i )中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:()()()()22()n ad bc K a b c d a c b d -=++++,()2P K k ≥0.1000.0500.010k2.7063.841 6.6352.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++()2P K k≥0.0500.0100.001k 3.841 6.63510.8283.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:22()()()()()n ad bcKa b c d a c b d-=++++,P(K2≥k)0.0500.010 0.001k 3.841 6.63510.8284.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001k 3.841 6.63510.8285.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:是否需要志愿性别男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由附:P(2K k ≥)0.0500.0100.001k 3.841 6.63510.828()()()()()22n ad bc K a b c d a c b d -=++++6.甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B 21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,()2P K k 0.1000.0500.010k2.7063.841 6.635参考答案:1.(1)19.8(2)(i)23.4m=;列联表见解析,(ii)能【分析】(1)直接根据均值定义求解;(2)(i)根据中位数的定义即可求得23.4m=,从而求得列联表;(ii)利用独立性检验的卡方计算进行检验,即可得解.【详解】(1)试验组样本平均数为:1(7.89.211.412.413.215.516.518.018.819.219.820.220+++++++++++39621.622.823.623.925.128.232.336.5)19.820++++++++==(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,由原数据可得第11位数据为18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6, ,故第20位为23.2,第21位数据为23.6,所以23.223.623.42m+==,故列联表为:m<m≥合计对照组61420试验组14620合计202040(ii)由(i)可得,2240(661414)6.400 3.84120202020K⨯⨯-⨯==>⨯⨯⨯,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异. 2.(1)75%;60%;(2)能.【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=,乙机床生产的产品中的一级品的频率为12060%200=.(2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.3.(1)该市一天的空气质量等级分别为1、2、3、4的概率分别为0.43、0.27、0.21、0.09;(2)350;(3)有,理由见解析.【分析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为1、2、3、4的概率;(2)利用每组的中点值乘以频数,相加后除以100可得结果;(3)根据表格中的数据完善22⨯列联表,计算出2K 的观测值,再结合临界值表可得结论.【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯=(3)22⨯列联表如下:人次400≤人次400>空气质量好3337空气质量不好228()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.4.(1)43 ,55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【分析】(1)从题中所给的22⨯列联表中读出相关的数据,利用满意的人数除以总的人数,分别算出相应的频率,即估计得出的概率值;(2)利用公式求得观测值与临界值比较,得到能有95%的把握认为男、女顾客对该商场服务的评价有差异.【详解】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)1004.762 3.8417030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.【点睛】该题考查的是有关概率与统计的知识,涉及到的知识点有利用频率来估计概率,利用列联表计算2K的值,独立性检验,属于简单题目.5.(1)7014%500=,(2)有99%的把握(3)见解析【详解】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为7014% 500=(2)22500(4027030160)9.96720030070430K⨯⨯-⨯==⨯⨯⨯.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.6.(1)A,B两家公司长途客车准点的概率分别为1213,78(2)有【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算2K ,再利用临界值表比较即可得结论.【详解】(1)根据表中数据,A 共有班次260次,准点班次有240次,设A 家公司长途客车准点事件为M ,则24012()26013==P M ;B 共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N ,则210()27840==P N .A 家公司长途客车准点的概率为1213;B 家公司长途客车准点的概率为78.(2)列联表准点班次数未准点班次数合计A24020260B21030240合计4505050022()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.。
专题08 独立性检验(解析版)
概率与统计专题08 独立性检验常见考点考点一独立性检验典例1.在2021年的一次车展上,某国产汽车厂家的一个品牌推出了1.5升混动版和纯电动版两款车型,自这两款车型上市后,便获得了不错的口碑,汽车测评人老李通过自媒体平台,分8个指标对这两款车型进行了综合评测打分(满分:5分),如图所示:(1)求综合评测分数的平均值;从上图8个指标中任选1个,求指标分数为4.93的概率;(2)老李对两款车型的车主的性别作了统计,得到数据如下2×2列联表:请将上述22⨯列联表补充完整,并判断是否有99.9%的把握认为喜欢哪款车型和性别有关.附:()()()()22()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.)20 k【答案】(1)平均值为4.79,38(2)列联表见解析,有99.9%的把握认为喜欢哪款车型和性别有关.【解析】【分析】(1)根据平均数的计算公式求得综合评测分数的平均值;根据古典概型的概率公式即可求得指标分数为4.93的概率;(2)根据表中数列可算出需要补充的数据;计算出2K的值,和题中已知的表格数据相比较,可得答案.(1)平均值为4.69 4.89 4.80 4.93 4.56 4.93 4.59 4.9338.324.7988 +++++++==,8个指标中分数为4.93的指标有3个,故从8个指标中任选1个,指标分数为4.93的概率为38;(2)由于()221405545152526.2510.82070708060K⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为喜欢哪款车型和性别有关.变式1-1.数字人民币是由中国人民银行发行的数字形式的法定货币,由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.为了进一步了解普通大众对数字人民币的认知情况,某机构进行了一次问卷调查,统计结果如下:(1)如果将高中及以下学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的22⨯列联表;(2)根据(1)中所得列联表,判断是否有95%的把握认为“是否了解数字人民币”与“学历高低”有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析(2)没有【解析】【分析】(1)根据题中数据,填写列联表即可;(2)由22()()()()()n ad bcKa b c d a c b d-=++++,根据列联表数据计算,与临界值比较即可(1)完成的22⨯列联表如下:(2)根据列联表得:22800(150275125250)8003.463 3.841275525400400231K⨯⨯-⨯==≈<⨯⨯⨯,故没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.变式1-2.某校开展党史知识竞赛.现从参加竞赛活动的学生中随机抽取了n名学生,将他们的比赛成绩(满分为100分)分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]得到如图所示的频率分布直方图.(1)求a的值;(2)估计这n名学生的平均成绩(同一组中的数据用该组区间的中点值为代表);(3)活动规定:竞赛成绩位于60分以下为不及格,不低于80分为“优秀”,若抽取的学生中成绩不及格的有15人.请将下面的2×2列联表补充完整,并判断是否有99.9%的把握认为“比赛成绩是否优秀与性别有关”?参考公式及数据:22()()()()()n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)0.025a = (2)74(3)列联表答案见解析,没有99.9%的把握认为“比赛成绩是否优秀与性别有关” 【解析】 【分析】(1)根据频率直方图的特征可知所有的频率之和为1,列出方程,解方程即可; (2)根据频率直方图,利用每组的组中值乘以对应的频率,加起来即可;(3)根据题意补充列联表,利用卡方的计算公式求出2K ,结合表中的数据即可得出结论. (1) 由题可得(0.0050.0100.0200.0300.010)101a +++++⨯=,解得0.025a =.(2)平均成绩为:450.05550.1650.2750.3850.25950.174⨯+⨯+⨯+⨯+⨯+⨯=, (3)∵不及格的人数为15人, ∴抽取的总人数为151000.15n ==, ∴比赛成绩优秀的有1000.3535⨯=人, 由此可得完整的2×2列联表:22100(10252540)9.89010.82835655050K ⨯-⨯=≈<⨯⨯⨯.∴没有99.9%的把握认为“比赛成绩是否优秀与性别有关”变式1-3.某科研机构为了研究喝酒与糖尿病是否有关,对该市30名成年男性进行了问卷调查,并得到了如下列联表,规定“”平均每天喝100mL 以上的”为常喝.已知在所有的30人中随机抽取1人,患糖尿病的概率为4 .(1)请将上表补充完整,并判断是否有99.5%的把握认为糖尿病与喝酒有关?请说明理由;(2)已知常喝酒且有糖尿病的6人中恰有两名老年人,其余为中年人,现从常喝酒且有糖尿病的这6人中随机抽取2人,求恰好抽到一名老年人和一名中年人的概率.参考公式及数据:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)列联表答案见解析,有99.5%的把握认为糖尿病与喝酒有关(2)8 15【解析】【分析】(1)根据题中信息完善22⨯列联表,计算出2K的观测值,结合临界值表可得出结论;(2)设两名老年人分别为a、b,其余四名中年人为c、d、e、f,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得所求事件的概率.(1)解:由题意知430815⨯=,所以,糖尿病患者共有8名,其中不常喝酒的有862-=名,则22⨯列联表如下:由表中的数据可得()2230618428.5237.8791020822K ⨯⨯-⨯=≈>⨯⨯⨯, 因此,有99.5%的把握认为糖尿病与喝酒有关. (2)解:设两名老年人分别为a 、b ,其余四名中年人为c 、d 、e 、f ,则所有可能出现的结果有(),a b 、(),a c 、(),a d 、(),a e 、(),a f 、(),b c 、(),b d 、(),b e 、(),b f 、(),c d 、(),c e 、(),c f 、(),d e 、(),d f 、(),e f ,共15种,其中事件“有一名老年人和一名中年人”包含的结果有:(),a c 、(),a d 、(),a e 、(),a f 、(),b c 、(),b d 、(),b e 、(),b f ,有8种,因此,恰好抽到一名老年人和一名中年人的概率815P =. 典例2.2021年9月3日,教育部召开第五场金秋新闻发布会,会上发布了第八次全国学生体质与健康调研结果.根绝调研结果数据显示,我国大中小中学的健康情况有了明显改善,学生总体身高水平也有所增加.但同时在超重和肥胖率上,中小学生却有一定程度上升,大学生整体身体素质也有所下滑.某市为调研本市学生体质情况,采用按性别分层抽样的方法进行调查,得到体质测试样本的统计数据(单位:人)如下:附:()()()()()22n ad bc K a b c d a c b d -=++++.(1)根据所给数据,完成下面22⨯列联表,并据此判断:能否有95%的把握认为该市学生体质测试是否达标与性别有关.(注:体质测试成绩为优秀、良好或及格则体质达标,否则不达标)(2)体质测试成绩为优秀或良好则称体质测试成绩为优良,以样本数据中男、女生体质测试成绩优良的频率视为该市男、女生体质测试成绩优良的概率,在该市学生中随机选取2名男生,2名女生,设所选4人中体质测试成绩优良人数为X ,求X 的分布列及数学期望. 【答案】(1)表格见解析,没有; (2)分布列见解析,76. 【解析】 【分析】(1)完成列联表,再利用独立性检验求解;(2)由题得X 的所有可能取值为0,1,2,3,4,再求出对应的概率,即得分布列和期望. (1)解:由题得22⨯列联表如下:()22160108012084012019202409601200k ⨯-⨯=⨯⨯⨯27 3.375 3.8418==< ∴没有95%的把握认为该市学生体质达标与性别有关.(2)解:由题意男生体质测试优良率114P =,女生体质测试优良率213P =.X 的所有可能取值为0,1,2,3,4.()02202213121044334P X C C ⎛⎫⎛⎫⎛⎫⎛⎫=== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭()110202111001222213121312514433443312P X C C C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫==+= ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭()200202201111200211222222131213121312372443344334433144P X C C C C C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫==++=⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭()201111202112222213121312534433443372P X C C C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫==+= ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭()202022221312144433144P X C C ⎛⎫⎛⎫⎛⎫⎛⎫===⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭X ∴的分布列为:()153751701234412144721446E X ∴=⨯+⨯+⨯+⨯+⨯=.变式2-1.第24届冬季奥林匹克运动会将于2022年2月4日至20日在北京举行.践行“绿色奥运、科技奥运、人文奥运”理念,举办一届“有特色、高水平”的奥运会,是中国向世界的庄严承诺.为宣传北京冬奥会,某市开展了冬奥知识竞答活动.从参与的市民中随机抽取100人,统计他们的竞答成绩得到下面的列联表(单位:人).(1)完成列联表,并根据列联表判断是否有95%的把握认为该市参与此次冬奥知识竞答的市民的成绩与性别有关?(2)将频率视为概率,从该市所有参与冬奥知识竞答的市民中随机抽取10人赠送礼品,记其中成绩合格的人数为随机变量X ,求X 的数学期望和方差.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++【答案】(1)列联表答案见解析,有95%的把握认为该市参与此次冬奥知识竞答的市民的成绩与性别有关(2)期望7,方差2.1 【解析】 【分析】(1)根据已知数据可得列联表,计算2K 后可得结论;(2)由题意得()~10,0.7X B ,由二项分布的期望公式和方差公式计算可得. (1)完成列联表(单位:人):由列联表,2K 的观测值()2100402010301004.762 3.8415050703021k ⨯⨯-⨯==≈>⨯⨯⨯,∴有95%的把握认为该市参与此次冬奥知识竞答的市民的成绩与性别有关. (2)从参与的市民中随机抽取100人,有70人竞答成绩合格,所以成绩合格的频率为0.7,将频率视为概率,从该市所有参与活动的市民中随机抽取一人,恰好抽到成绩合格的市民的概率为0.7, 由题意知()~10,0.7X B ,∴随机变量X的数学期望()100.77E X=⨯=,方差()100.70.3 2.1D X=⨯⨯=.变式2-2.从某地区高中二年级学生中随机抽取质量监测数学得分在120分以下和120分以上(含120分)的学生各250名作为样本(全体高二学生均参加监测),分别测出他们的注意力集中水平得分,统计如下表.(1)若将学生在质量监测中数学得分在120分以上(含120分)定义为数学成绩优秀,将学生注意力集中水平得分在500分以上(含500分)称为注意力集中水平高;试问:能否有99%以上的把握认为数学成绩优秀与注意力集中水平高有关?(2)若将上述样本的频率视为概率,现从该地区所有高二学生中随机抽取100人,设抽取到的数学得分在120分以上(含120分)且注意力集中水平得分在500分以上(含500分)的人数为随机变量X,求X的数学期望.(()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)【答案】(1)有99%以上的把握认为数学成绩优秀与注意力集中水平高有关;(2)()E X=36.【解析】【分析】(1)根据表格中的数据,代入求观测值公式,求出观测值同临界值进行比较即可得出结论;(2)根据二项分布期望计算公式,计算出数学期望.(1)由22⨯列联表中数据计算可得,2K 的观测值为()25001007015018051.948 6.635250250280220k ⨯⨯-⨯=≈>⨯⨯⨯所以能有99%以上的把握认为数学成绩优秀与注意力集中水平高有关. (2)从22⨯列联表可知,数学得分在120分以上(含120分) 且注意力集中水平得分在500分以上(含500分)的频率为=180950025, 由题意知,XB ⎛⎫ ⎪⎝⎭910025,所以()E X =⨯=91003625.变式2-3.在2021年的一次车展上,某国产汽车厂家的一个品牌推出了1.5升混动版和纯电动版两款车型,自这两款车型上市后,便获得了不错的口碑,汽车测评人老李通过自媒体平台,对市场上这个品牌汽车车主的性别情况进行了调查统计. (1)统计数据得到如下22⨯列联表:请将上述22⨯列联表补充完整,并判断是否有99.9%的把握认为喜欢哪款车型和性别有关; (2)若两款汽车的操控性能优秀率均为23,动力性能优秀率均为34,老李又对这两款车型进行操控性能和动力性能测试(假设进行的各项测试之间互相不影响),求两款车型的这两项测试中恰有2项指标优秀的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表见解析,有 (2)37144【解析】 【分析】(1)按照独立性检验公式进行计算即可;(2)分别计算两款操控性能优秀、两款动力性能优秀、一款操控性能优秀一款动力性能优秀的概率,相加求和即可. (1)男:55 80 女:45合计:70 140(列出表格也得分,其他形式答案正确即可得分)由于()221405545152707526.2510.08086082K ⨯⨯⨯-⨯=⨯>⨯=,所以有99.9%的把握认为喜欢哪款车型和性别有关. (2)记Y 表示混动版测试指标优秀的项目数,Z 表示纯电动版测试指标优秀的项目数,则“两款车型这两项测试中恰有2项指标优秀”的概率为()()()()20,21,12,0P Y Z P Y Z P Y Z P Y Z +====+==+== ()()()()()()021120P Y P Z P Y P Z P Y P Z ===+==+==223232323232337111111343434343434144⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=-⨯-⨯⨯+⨯-+-⨯+⨯⨯-⨯-= ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎣⎦.巩固练习练习一 独立性检验1.每年的六、七月份,我国长江中下游地区进入梅雨季节,如图是江南某镇2012~2021年梅雨季节的降雨量(单位:mm )的频率分布直方图.(1)请用样本平均数估计该镇明年梅雨季节的降雨量;(2)该镇某杨梅种植户统计了他种植的某品种杨梅在2012~2021年的亩产量(单位:kg ),得到如下22⨯列联表(部分数据缺失),依据0.1α=的独立性检验,能否认为该品种杨梅的亩产量与降雨量有关?(完善列联表,并说明理由) 单位:年【答案】(1)280mm(2)表格见解析,认为该品种杨梅的亩产量与降雨量有关 【解析】 【分析】(1)先求出降雨量在[]400,500内的频率,再根据频率直方图求平均数的计算公式直接计算即可; (2)先求出降雨量在[)200,400内的频数,再补全列联表,根据卡方的计算公式求出2χ,利用独立性检验的思想即可得出结论. (1)样本中降雨量在[]400,500内的频率为()11000.0020.0040.0030.1-⨯++=, 所以样本平均数为1500.22500.43500.34500.1280⨯+⨯+⨯+⨯=,所以该镇明年梅雨季节的降雨量约为280mm . (2)根据频率分布直方图可知,降雨量在[)200,400内的频数为()101000.0030.0047⨯⨯+=. 补全22⨯列联表如下: 单位:年则()220.1101162 2.744 2.7067373x χ⨯⨯-⨯=≈>=⨯⨯⨯.所以根据小概率值0.1α=的独立性检验,认为该品种杨梅的亩产量与降雨量有关.2.某航空公司规定:国内航班(不构成国际运输的国内航段)托运行李每件重量上限为50kg ,每件尺寸限制为40cm×60cm×100cm ,其中头等舱乘客免费行李额为40kg ,经济舱乘客免费行李额为20kg .某调研小组随机抽取了100位国内航班旅客进行调查,得到如下数据:(1)请完成如下的2×2列联表,依据0.05α=的独立性检验,能否认为托运行李重量与乘客乘坐的机舱等级有关? 单位:人(2)调研小组为感谢参与调查的旅客,决定从托运行李重量超出免费行李额且不超出10kg 的旅客中(其中女性旅客4人)随机抽取4人,对其中的女性旅客赠送“100元超额行李补助券”,记赠送的补助券总金额为X 元,求X 的分布列与均值. 附:参考公式:()()()()()22n ad bc a b c d a c b d χ-=++++,n a b c d =+++.【答案】(1)表格见解析,在犯错误的概率不超过0.05的前提下,认为托运行李重量与乘客乘坐的机舱等级有关. (2)分布列见解析,16007【解析】 【分析】(1)依据独立性检验的概念,先计算,再进行判断即可.(2)依题意,行李重量超出免费行李额且不超出10kg 的旅客共7人,先明确随机变量X 的取值,然后利用超几何分布列出分布列. (1)补全2×2列联表如下: 单位:人假设0H 为:托运行李重量与乘客乘坐的机舱等级无关. 根据列联表中的数据,经计算得到()220.0510******* 5.499 3.84190105545x χ⨯⨯-⨯=≈>=⨯⨯⨯,根据小概率值0.05α=的独立性检验,我们推断0H 不成立,即在犯错误的概率不超过0.05的前提下,认为托运行李重量与乘客乘坐的机舱等级有关. (2)根据题意可得,托运行李重量超出免费行李额且不超过10kg 的旅客有7人,从中随机抽取4人,则其中女性旅客的人数可能为1,2,3,4,所以X 的所有可能取值为100,200,300,400,()134347C C 4100C 35P X ===,()224347C C 18C 20350P X ===,()314347C C 12300C 35P X ===,()404347C C 1400C 35P X ===,则X的分布列为故()41812110020030040035353535E X =⨯+⨯+⨯+⨯=16007. 3. “双十一”已经成为网民们的网购狂欢节,某电子商务平台对某市的网民在今年“双十一”的网购情况进行摸底调查,用随机抽样的方法抽取了100人,其消费金额t (百元)的频率分布直方图如图1所示:(1)利用图1,求网民消费金额t的平均值t和中位数t;(2)把下表中空格里的数填上,能否有90%的把握认为网购消费与性别有关.t tt t<合计附表:P(χ2≥k0)参考公式:χ2=2()()()()()n ad bca b c d a c b d-++++.【答案】(1)11.5t=,010t=(2)列联表见解析,没有【解析】【分析】(1)根据平均数的定义求平均数,由于前2组的频率和恰好为0.5,从而可求出中位数,(2)根据频率分布表结合已知的数据计算完成列联表,然后计算χ2公式计算χ2,再根据临界值表比较可得结论(1)以每组的中间值代表本组的消费金额,则网民消费金额t的平均值为2.50.27.50.312.50.217.50.1522.50.127.50.0511.5t=⨯+⨯+⨯+⨯+⨯+⨯=0.频率直方图中第一组、第二组的频率之和为0.0450.0650.5⨯+⨯=,∴中位数010t=;(2)把下表中空格里的数填上,得列联表如下;0 t t0 t t<合计计算22100(25302520)1001.012.7064555505099χ⨯⨯-⨯==≈<⨯⨯⨯,所以没有90%的把握认为网购消费与性别有关.4.网课是一种新兴的学习方式,它以互联网为平台,为学习者提供包含视频、图片、文字等多种形式的系列学习课程,由于具有方式多样,灵活便捷等优点,成为许多学生在假期实现自主学习的重要手段.为了调查A地区高中生一周网课学习的时间,随机抽取了500名上网课的学生,将他们一周上网课的时间(单位:h)按[1,6),[6,11),[11,16),[16,21),[21,26]分组,得到频率分布直方图如图所示.(1)求a的值,并估计这500名学生一周上网课时间的平均数(同一组中的数据用该组区间的中点值代表);(2)为了了解学生与家长对网课的态度是否具有差异性,研究人员随机抽取了200人调查,所得数据统计如下表所示,判断是否有99.5%的把握认为学生与家长对网课的态度具有差异性.附:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)0.03,13.35; (2)有 【解析】 【分析】(1)根据频率分布直方图各小矩形的面积之和为1求解,再利用平均数的定义求解; (2)根据列联表求得2K 的值,再与临界值表对照下结论. (1)解:因为()0.0220.050.0751a +++⨯=, 所以0.03a =,平均数为7172737470.0250.0550.0750.0350.03513.3522222⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯=; (2)因为2250(30505070)87.87980120100100K ⨯⨯-⨯=≈>⨯⨯⨯, 所以有99.5%的把握认为学生与家长对网课的态度具有差异性.5.2022年2月1日是春节,百节年为首,春节是中华民族最隆重的传统佳节,它不仅集中体现了中华民族的思想信仰、理想愿望、生活娱乐和文化心理,而且还是祈福攮灾、饮食和娛乐活动的狂欢式展示.为调查某地从外地工作回来过年的市民(以下称为“返赣人员”)人数情况,现对某一区域的居民进行抽样调查,并按年龄(单位:岁)分成五组,得到如图所示的频率分布直方图,其中年龄在[20,25)内的人数为10.(1)请根据样本数据补充完成22⨯列联表,并判断是否有99.9%的把握认为是否是从外地回来过年与性别相关;(2)据了解,该地区今年返赣人员占14.现从该社区居民中随机抽取3人进行调查,记X为这3人中今年是返赣人员的人数,求X的分布列与数学期望.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:【答案】(1)列联表见解析,有99.9%的把握认为是否是从外地回来过年与性别相关(2)分布列见解析,3()4E X=【解析】【分析】(1)由题意可得列联表,根据表格中的数据,代入公式,求出观测值同临界值进行比较即可得出结论;(2)根据独立重复试验概率计算公式,计算出概率可得分布列并求得数学期望.(1)由频率分布直方图可知年龄在[20,25)上的占比为1(0.0220.060.075)50.125-⨯++⨯=,根据已知人数为10计算可得总人数为80,列联表如下:∴22280(25301510)8060011.42910.82835454040354516100⨯⨯-⨯⨯==≈>⨯⨯⨯⨯⨯⨯K , 所以有99.9%的把握认为是否是从外地回来过年与性别相关. (2)X 的取值可为0,1,2,3,3327(0)464P X ⎛⎫=== ⎪⎝⎭,21133127(1)4464⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭P X C , 1223319(2)4464⎛⎫⎛⎫===⎪⎪⎝⎭⎝⎭P X C ,311(3)464P X ⎛⎫=== ⎪⎝⎭. 故分布列为:于是2727483()01239646464646414E X =⨯+⨯+⨯+⨯==. 6.受新冠肺炎疫情的影响,各地推出务工人员就地过年的鼓励政策.某市随机抽选了100名男务工人员和100名女务工人员,调查他们是否有就地过年的意愿,结果如下:(1)能否有99.9%的把握认为务工人员就地过年的意愿与性别有关?(2)若用频率估计概率,从该市所有女务工人员中随机抽取3人进行深入调查,X 表示抽取的女务工人员无就地过年的意愿的人数,求X 的分布列与数学期望.附:22()()()()()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.【答案】(1)没有99.9%的把握认为务工人员就地过年的意愿与性别有关 (2)分布列见解析,数学期望为65【解析】 【分析】(1)计算出2χ后比较临界值可得结论;(2)由于2~3,5X B ⎛⎫⎪⎝⎭,由二项分布可得分布列,由二项分布的期望计算出期望.(1)22200(80402060)9.52410.82810010014060χ⨯⨯-⨯=≈<⨯⨯⨯,故没有99.9%的把握认为务工人员就地过年的意愿与性别有关. (2)由题意可知2~3,5X B ⎛⎫⎪⎝⎭.所以X 的取值范围是{0,1,2,3},3032227(0)C 155125P X ⎛⎫⎛⎫==-=⎪⎪⎝⎭⎝⎭, 12132254(1)C 155125P X ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭, 21232236(2)C 155125P X ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭, 3033228(3)C 155125P X ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭, 所以X 的分布列为所以26()355E X =⨯=.7.2021年1月以来,教育部相继出台文件,对中小学生手机、睡眠、读物、作业、体质管理作出规定.为了在“控量”的同时力求“增效”,提高作业质量,某学校计划设计差异化作业.因此该校对初三年级的400名学生每天完成作业所需时间进行统计,部分数据如下表: 单位:人(1)求x ,y ,z 的值,并根据题中的列联表,依据小概率值0.05α=的独立性检验,判断是否可以认为完成作业所需时间在90分钟以上与性别有关;(2)学校从完成作业所需时间在90分钟以上的学生中用分层随机抽样的方法抽取9人了解情况,甲老师再从这9人中选取3人进行访谈,求甲老师选取的3人中男生人数大于女生人数的概率. 附:参考公式:()()()()()22n ad bc a b c d a c b d χ-=++++,n a b c d =+++.【答案】(1)100x =,80y =,140z =,不能认为完成作业所需时间在90分钟以上与性别有关; (2)1742. 【解析】 【分析】(1)求出x ,y ,z 的值,作出列联表,再利用独立性检验求解;(2)利用古典概型和互斥事件的概率求解. (1)解:由80180x +=可得100x =;由80160y +=可得80y =;由80220z +=可得140z =. 所以2×2列联表如下:()224008014010080 2.694 3.841180220160240χ⨯⨯-⨯=≈<⨯⨯⨯,所以依据小概率值0.05α=的独立性检验,不能认为完成作业所需时间在90分钟以上与性别有关. (2)解:抽取的9人中,男生有8094180⨯=(人),女生有10095180⨯=(人),从这9人中选取3人进行访谈,男生人数大于女生人数的情况分为:①男生2人,女生1人;②男生3人,女生0人.所以所求概率2134543399C C C 17C C 42P =+=.8.2022年是奥运会,我国北京和张家口联合承办第二十四届冬季奥运会,本届冬奥会共设7个大项(滑雪、滑冰、冰球、冰壶、雪车、雪橇、冬季两项)、15个分项(高山滑雪、自由式滑雪、单板滑雪、跳台滑雪、越野滑雪、北欧两项、短道速滑、速度滑冰、花样滑冰、冰球、冰壶、雪车、钢架雪车、雪橇、冬季两项)共计109个小项.某校为了调查学生是否喜欢冬季冰雪运动与性别有关,在高三年级特选取了200名学生进行了问卷调查,得到如下的22⨯列联表:已知从这200名学生中随机抽取1人,这个人喜欢冰雪运动的概率为0.8,表格中100a=,20d=.(1)完成22⨯列联表,并判断是否有90%的把握认为喜欢冰雪运动与性别有关;(2)从上述喜欢冰雪运动的学生中用分层抽样的方法抽取8名学生,再从这8人中抽取3人调查其喜欢的运动,用X表示3人中女生的人数,求X的分布列及数学期望.参考公式及数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析,没有90%的把握认为是否喜欢冰雪运动与性别有关(2)分布列见解析,9 8【解析】【分析】(1)从这个人喜欢冰雪运动的概率为0.8,可以推算出200人中喜欢冰雪运动的总人数,进而可以完成表格;(2)按照分层抽样的原理算出8人中男生和女生的人数,进而确定X的可能取值,按照组合的方法即可算出分布列.(1)由题可知,从200名学生中抽取1人,这个人喜欢冰雪运动的概率为0.8,故喜欢冰雪运动的有2000.8160⨯=人,不喜欢冰雪运动的有20016040-=人,即100a=,60b=,20c=,20d=,22⨯列联表如下:()22200100206020 2.083 2.711604012080K ⨯-⨯=≈<⨯⨯⨯,故没有90%的把握认为是否喜欢冰雪运动与性别有关; (2)按分层抽样,设抽取女生x 名,男生y 名,816060100x y ==,解得3x =,5y =, 即抽取的8人中喜欢冰雪运动的女生有3人,男生有5人, 故X 0=,1,2,3,()3538C 50C 28P X ===,()123538C C 151C 28P X ===,()213538C C 152C 56P X ===,()3035381356C C C P X ===,X 的分布列如下:()51515190123282856568E X =⨯+⨯+⨯+⨯=; 故答案为:列联表见解析,没有90%的把握认为是否喜欢冰雪运动与性别有关; 分布列见解析,98.。
独立性检验典型题例解析
独立性检验典型题例解析所谓独立性检验,就是要把采集样本的数据,利用公式计算2χ的值,比较与临界值的大小关系,来判定事件A 与B 是否无关的问题。
具体步骤:(1)采集样本数据。
(2)由()21212211222112+++++++-=n n n n n n n n n χ计算2χ的值。
(3)统计推断,当2χ>3.841时,有95%的把握说事件A 与B 有关;当2χ>6.635时,有99%的把握说事件A 与B 有关;当2χ≤3.841时,认为事件A 与B 是无关的。
下面我们通过几个典型例题对独立性检验问题进行剖析,使同学们进一步掌握这类问题的研究方法。
例1、为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:根据上述数据试问色盲与性别是否是相互独立的? 分析:问题归结为二元总体的独立性检验问题。
解:由已知条件可得下表依据公式()21212211222112+++++++-=n n n n n n n n n χ得2χ=()5204804495651438644210002⨯⨯⨯⨯-⨯=27.139。
由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
评注:根据假设检验的思想,比较计算出的2χ与临界值的大小,选择接受假设还是拒绝假设。
变式引申1:为了研究患慢性气管炎与吸烟量的关系,调查了228人,其中每天的吸烟支数在10支以上20支以下的调查者中,患者人数有98人,非患者人数有89人;每天的吸烟支数在20支以上的调查者中,患者人数有25人,非患者人数有16人。
试问患慢性气管炎是否与吸烟量互相独立?分析:即求独立性检验问题。
解:由已知条件得出下表:由公式()21212211222112+++++++-=n n n n n n n n n χ得2χ=()4118710512325891698228⨯⨯⨯⨯-⨯=0.994。
高中数学选修1-2独立性检验 例题解析2
独立性检验例题解析2【例1】为研究大气污染与人的呼吸系统疾病是否有关,对重污染地区和轻污染地区作跟踪调查,得出以下数据:请根据统计数据,作出合适的判断分析.【解】假设H:大气污染与人的呼吸系统疾病无关由公式得22()()()()()n ad bca b c d a c b dχ-=++++23000(1031487139713)72.636116288415001500⨯-⨯=≈⨯⨯⨯因为72. 636>10.828,所以拒绝H, 即我们有99.9%的把握认为大气污染与人的呼吸系统疾病有关.【点评】由于2χ≈72. 635远大于10.828,所以“大气污染与人的呼吸系统疾病无关”几乎不可能发生,判断二者有关的准确性很高,也可以说大气污染与人的呼吸系统疾病紧密相关.【例2】在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1000人问卷,只有80人志愿加入西部建设,而国家公布实施西部开发战略后,随机抽取1200名应届大学毕业生问卷,有400人志愿加入国家西部建设.问:实施西部开发战略的公布是否对应届大学毕业生的选择产生了影响.解:据题意信息列出2×2列联表:假设西部开发战略的公布实旋未起作用(零假设H).由公式计算卡方:22()()()()()n ad bca b c d a c b dχ-=++++22200(80800920400)205.22 480172010001200⨯-⨯=≈⨯⨯⨯因为205.22>10.828,所以由小概率原理判断拒绝H.因此我们有99.9%的把握认为西部开发战略的实施起了作用【点评】即使不利用独立性检验我们也能正确地判断“开发战略”起了作用,但利用卡方通过数据信息更有说服力,还可说明实施西部开发战略的公布具有强大的带动作用.【例3】巴西医生马廷思收集犯有各种贪污、受贿罪的官员与廉洁官员寿命的调查资料:500名贪官中有348人的寿命小于平均寿命、152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命、497人的寿命大于或等于平均寿命这里,平均寿命是指“当地人均寿命”试分析官员在经济上是否清廉与他们寿命的长短之间是否独立?【解】据题意列2×2列联表如下:假设H:官员是否清白与他们的寿命长短无关,由公式22()()()()()n ad bca b c d a c b dχ-=++++21090(34849715293)325.635 500590441649⨯-⨯=≈⨯⨯⨯因为325.635>10.828,所以我们有的99.9%的把握拒绝H.即我们有99.9%的把握认为官员在经济上是否清廉与他们的寿命长短有密切关系.【点评】这是社会学调查研究中常用的方式,从数据分析来看,两事物不仅相关,而且紧密相关,我们可以有99 .9%以上的把握说不清廉的官员易过早死亡且这一结论的正确性远大于99.9%。
独立性检验(解析版)
独立性检验例1.2019年11月5日至10日,第二届中国国际进口博览会在上海举行.某宣传媒体组织业内人士对某型号智能机器人进行评分,所得情况如图所示:(Ⅰ)试估计业内人士评分的平均数以及方差(用每个小矩形底边中点近似替代本组数据);(Ⅱ)为了调查评分与性别是否具有相关性,研究人员随机抽取了60位参加评分的业内人士,其中男性与女性人数各一半,根据已知条件完成下面22⨯列联表,据此资料,是否有90%的把握认为评分的高低与性别有关?参考公式:(1)2()()()()()n ad bc K a c b d a b c d -=++++,其中n a b c d =+++.(2)2221122()()()n n DX x EX p x EX p x EX p =-⨯+-⨯+⋯+-⨯. 参考数据:2)0.152.072【解析】解:(Ⅰ)依题意,所求平均数为300.1500.3700.4900.2315281864⨯+⨯+⨯+⨯=+++=, 方差为2222(3064)0.1(5064)0.3(7064)0.4(9064)0.2115.658.814.4135.2324-⨯+-⨯+-⨯+-⨯=+++=. (Ⅱ)由题意完善22⨯列联表如下:∴2260(14201016)102.706243630309K⨯⨯-⨯==<⨯⨯⨯,∴没有90%的把握认为评分的高低与性别有关.例2.某校举行了一次数学竞赛,为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的分数(得分取正整数,满分为100分)作为样本(样本容量为)n进行统计,按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出频率分布直方图,已知得分在[50,60),[90,100]的频数分别为16,4.(Ⅰ)求样本容量n和频率分布直方图中的a,b的值;(Ⅱ)估计本次竞赛学生成绩的平均数(同一组中的数据用该组区间的中点值代表);(Ⅲ)在选取的样本中,若男生和女生人数相同,我们规定成绩在70分以上称为“优秀”,70分以下称为“不优秀”,其中男女生中成绩优秀的分别有24人和30人,请完成列联表,并判断是否有90%的把握认为“学生的成绩优秀与性别有关”?2)附:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【解析】解:(Ⅰ)由题意可知,样本容量161000.01610n ==⨯,40.00410010b ==⨯,0.1000.0040.0100.0160.0400.030a =----=.(Ⅱ)设本次竞赛学生成绩的平均数为x ,则(0.016550.030650.040750.010850.00495)1070.6x =⨯+⨯+⨯+⨯+⨯⨯=.(Ⅲ)100位学生中男女生各有50名,成绩优秀共有54名,所以学生的成绩优秀与性别列联表如下表:22100(24203026)1001.4492.7065050465469K ⨯⨯-⨯==≈<⨯⨯⨯,∴没有90%的把握认为“学生的成绩优秀与性别有关”. 例3.某健身馆为了宣传健身效果,吸引顾客,特别请专业的评估机构对他们500名学员的锻炼成果进行评估打分(满分100分),并且认为评分不低于80分的参与者为健身达人,得到如表:(Ⅰ)判断能否在犯错误的概率不超过0.001的前提下认为健身达人与性别有关系?(Ⅱ)若500名学员中40岁以上的有100人,30岁到40岁的有300人,30岁以下的100人,先从中分层抽取5人进行抽奖活动,再从这5人中抽取两位对其进行全年免单活动,求两人全年免单都在30岁到40岁之间的概率是多少?附:2)2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【解析】解:(Ⅰ)因为22500(20015050100)83.33310.828250250200300K ⨯⨯-⨯=≈>⨯⨯⨯,所以能在犯错误的概率不超过0.001的前提下认为健身达人与性别有关系.(Ⅱ)根据分层抽样可知在40岁以上的学员中应抽取1人,记为a ;在30岁到40岁的学员中应抽取3人,记为A ,B ,C ;在30岁以下的学员中应抽取1人,记为b ,则从这5人中抽取2人,所有可能情况如下:(,)a A ,(,)a B ,(a ,)(C a ,)b ,(,)A B ,(,)A C ,(,)A b ,(,)B C ,(,)B b ,(,)C b共10种情况,2人都在30岁到40岁之间的有(,)A B ,(,)A C ,(,)B C 共3种情况, 所以两人全年免单都在30岁到40岁之间的概率310P =. 例4.某公司为了推广某项技术,对旗下200名员工的年龄和人数进行了统计,统计其对这项技术的接受程度,从而为后期宣传工作做准备,并绘制了如下频率分布直方图.(Ⅰ)根据如图求样本年龄的中位数和平均数(同一组中的数据用该组区间的中点值为代表)(保留两位小数);(Ⅱ)若将样本分为两个年龄段,年龄在区间[18,38)和[38,68]分别称为“青少年”和“中老年”,根据相关条件完成下表,并判断是否有95%的把握认为对新技术接受程度与年龄段有关?参考公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2)0.050【解析】解:(Ⅰ)根据频率分布直方图可知样本年龄的平均数230.01010330.02010430.03010530.02510630.0151044.50x=⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯=.设样本年龄的中位数为x,由题知组距为10,[18,38)的频率为(0.0100.020)100.300.5+⨯=<,[18,48)的频率为0.300.030100.600.5+⨯=>,所以中位数在区间[38,48)内,所以(38)0.030100.50.3x-⨯⨯=-,即238~38.673x=+,所以样本年龄的平均数为44.50,中位数为38.67.(Ⅱ)由题意知,样本中的“青少年”共有200(0.0100.020)1060⨯+⨯=(人),则“中老年”共有20060140-=(人).根据频率分布直方图完成列联表如下:则:22()200(20704070)4.714 3.841()()()()9011060140n ad bcKa b c d a c b d-⨯⨯-⨯==≈> ++++⨯⨯⨯,所以有95%的把握认为对新技术接受程度与年龄段有关.例5.“微信运动”已成为当下热门的健身方式,小王的微信朋友圈内也有大量好友参与了“微信运动”,他随机选取了其中的40人(男、女各20人),记录了他们某一天的走路步数,并将数据整理如下:(Ⅰ)若采用样本估计总体的方式,试估计小王的所有微信好友中每日走路步数超过5000步的概率; (Ⅱ)已知某人一天的走路步数超过8000步被系统评定“积极型”,否则为“懈怠型”,根据题意完成下面的22⨯列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关? 附:22()()()()()n ad bc k a b c d a c b d -=++++,20)k【解析】解:(Ⅰ)由题意知,40人中该日走路步数超过5000步的有35人,频率为357408=, 所以估计他的所有微信好友中每日走路步数超过5000步的概率为78; (Ⅱ)由表中数据,填写列联表如下;计算观测值2240(141268)403.8412020221811K ⨯⨯-⨯==<⨯⨯⨯,所以没有95%以上的把握认为“评定类型”与“性别”有关.例6.为了调查某大学学生在周日上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(Ⅰ)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(Ⅱ)完成表3的22⨯列联表(此表应画在答题卷上),并回答能否有90%的把握认为“学生周日上网时间与性别有关”?(Ⅲ)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率. 表3:附:2()()()()k a b c d a c b d =++++,其中n a b c d =+++20)k 0.5000.455【解析】解:(1)设估计上网时间不少于60分钟的人数x , 依据题意有30750100x =,解得:225x =, 所以估计其中上网时间不少于60分钟的人数是225人;⋯(4分) (2)根据题目所给数据得到如下列联表:其中22200(6034070)2002.198 2.7061001001307091K ⨯⨯-⨯==≈<⨯⨯⨯,因此,没有90%的把握认为“学生周日上网时间与性别有关”; ⋯(8分) (3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为3:2, 所以5人中上网时间少于60分钟的有3人,记为A 、B 、C , 上网时间不少于60分钟的有2人,记为d 、e , 从中任取两人的所有基本事件为:AB 、AC 、Ad 、Ae 、BC 、Bd 、Be 、Cd 、Ce 、de 共10种,其中“至少有一人上网时间超过60分钟”包含了7种, 故所求的概率为710P =. ⋯(12分) 例7.某种疾病可分为Ⅰ、Ⅱ两种类型,为了解该疾病类型与性别的关系,在某地区随机抽取了患该疾病的病人进行调查,其中男性人数为z ,女性人数为2z ,男性患Ⅰ型病的人数占男性病人的56,女性患Ⅰ型病的人数占女性病人的1.(1)完成22⨯联表若在犯错误的概率不超过0.005的前提下认为“所患疾病类型”与“性别”有关,求男性患者至少有多少人?(2)某药品研发公司欲安排甲乙两个研发团队来研发此疾病的治疗药物,两个团队各至多安排2个接种周期进行试验.每人每次接种花费(0)m m >元.甲团队研发的药物每次接种后产生抗体的概率为p ,根据以往试验统计,甲团队平均花费为226mp m -+;乙团队研发的药物每次接种后产生抗体的概率为q ,每个周期必须完成3次接种,若一个周期内至少出现2次抗体,则该周期结束后终止试验,否则进入第二个接种周期.假设两个研发团队每次接种后产生抗体与否均相互独立.若2p q =,从两个团队试验的平均花费考虑,该公司应选择哪个团队进行药品研发?附:22()()()()()n ad bc K a b c d a c b d -=++++20)k0k【解析】解:(1)根据题意填写列联表如下;Ⅰ型病男 若在犯错误的概率不超过0.005的前提下认为“所患疾病类型”与“性别”有关,则225423()263637.879333222z z z z z z K z z z z-==>,解得11.8185z >,由*6z N ∈,且*3zN ∈,所以z 的最小值为12,即男性患者至少有12人; (2)设甲研发试验品花费为X ,则2()26E X mp m =-+; 设乙研发试验品花费为Y ,则Y 的可能取值为3m 、6m ,所以223323(3)(1)23P Y m C q q q q q ==-+=-+, 32(6)123P Y m q q ==+-,所以323232()3(23)6(123)696E Y m q q m q q mq mq m =-+++-=-+; 因为2p q=,所以322322322()()696266926(61)E Y E X mq mq m mp m mq mq mp mq mq mq q -=-++-=-+=-=-;①当106q <<时,610q -<,因为0m >,所以2(61)0mq q -<,所以()()E X E Y >,乙团队试验的平均花费较少,所以选择乙团队进行研发;②当116q <<时,610q ->,因为0m >,所以2(61)0mq q ->,所以()()E X E Y <,甲团队试验的平均花费较少,所以选择甲团队进行研发;③当16q=时,2(61)0mq q-=,所以()()E X E Y=,甲团队试验的平均花费和乙团队试验的平均费用相同,从两个团队试验的平均花费考虑,该公司应选择甲团队或乙团队进行研发均可.例8.某房产中介统计了深圳市某高档小区从2018年12月至2019年11月当月在售二手房均价(单位:万元/平方米)的散点图,如图所示,图中月份代码1至12分别对应2018年12月至2019年11月的相应月份.根据散点图选择y a bx=+和y c dlnx=+两个模型进行拟合,根据数据处理得到两个回归方程分别为ˆ 6.90570.0195y x=+和ˆ 6.86390.1012y lnx=+,并得到以下一些统计量的值:(1)请利用相关指数2R判断哪个模型的拟合效果更好;(2)某位购房者拟于2020年5月份购买深圳市福田区(50160)s s平方米的二手房(欲购房为其家庭首套房).若该小区所有住房的房产证均已满3年,请你利用(1)中拟合效果更好的模型解决以下问题:()i估算该购房者应支付的购房金额.(购房金额=房款+税费;房屋均价精确到0.01万元/平方米)()ii若该购房者拟用不超过760万元的资金购买该小区一套二手房,试估算其可购买的最大面积(精确到1平方米)附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按照房屋的计税价格进行征收.(计税价格=房款)征收方式见如表:90s144s参考数据:20.69ln ≈,3 1.10ln ≈,7 2.83ln≈,19 2.94ln ≈ 1.41 1.73≈ 4.12≈ 4.36,参考公式:相关指数22121ˆ()1()nii i nii i y yR yy ==-=--∑∑.【解析】解:(1)设模型ˆ 6.90570.0195yx =+和ˆ 6.86390.1012y lnx =+的相关指数分别是21R 和22R , 则210.014855710.069193R =-,220.004878110.069193R =-,0.01485570.0048781>,∴2212R R <,∴模型ˆ 6.86390.1012ylnx =+的拟合效果更好. (2)2020年5月份的对应月份代码为18,由(1)知,模型ˆ 6.86390.1012ylnx =+的拟合效果更好, 利用该模型预测可得,这个小区2020年5月份的在售二手房均价为: ˆ 6.86390.1012187.16yln =+≈万元/平方米, ()i 设该购房者应支付的购房金额为h 万元,税费中买方只需缴纳契税,∴①当5090s 时,契税为计税价格的1%,故7.16(1%1)7.2316h s s =⨯⨯+=;②当90144s <时,契税为计税价格的2%, 故7.16(2%1)7.3032h s s =⨯⨯+=;③当144160s <时,契税为计税价格的4%, 故7.16(4%1)7.4464h s s =⨯⨯+=. 故7.2316,50907.3032,901447.4464,144160s s h s s s s ⎧⎪=<⎨⎪<⎩.∴当5090s 时,购房金额为7.2316s 万元;当90144s <时,购房金额为7.3032s 万元;当144160s <时,购房金额为7.4464s 万元.()ii 设该购房者可购买该小区二手房的最大面积为t 平方米,由()i 知,当5090s 时,应支付的购房金额为7.2316s 万元, 又7.23167.231690760s ⨯<,又房屋均价约为7.16万元/平方米,7.16144760⨯>,144t ∴<,得90144t <<.由7.3032760t ,解得760104.17.3032t≈,∴该购房者可购买该小区二手房的最大面积为104平方米.例9.从某小区抽取50户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图1.(1)求频率分布直方图中x 的值并估计这50户用户的平均用电量;(2)若将用电量在区间[50,150)内的用户记为A 类用户,标记为低用电家庭,用电量在区间[250,350)内的用户记为B 类用户,标记为高用电家庭,现对这两类用户进行问卷调查,让其对供电服务进行打分,打分情况见茎叶图如图2:①从B 类用户中任意抽取1户,求其打分超过85分的概率;②若打分超过85分视为满意,没超过85分视为不满意,请填写下面列联表,并根据列联表判断是否有95%的把握认为“满意度与用电量高低有关”?附表及公式:0)k22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.【解析】解:(1)1(0.0060.00360.002420.0012)0.004450x =-++⨯+=, 按用电量从低到高的六组用户数分别为6,9,15,11,6,3, 所以平均用电量为675912515175112256275332518650⨯+⨯+⨯+⨯+⨯+⨯=.(2)①B 类用户共9人,打分超过8(5分)的有6人,所以打分超过8(5分)的概率为6293=. ②2224(6963) 1.6 3.8411212915k ⨯⨯-⨯==<⨯⨯⨯,所以没有95%的把握认为“满意度与用电量高低有关”.例10.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22⨯的列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?2)k2()()()()()n ad bc K a b c d a c b d -=++++.【解析】解:(1)由已知得:样本中有25周岁以上组工人60名,25周岁以下组工人40人,所以样本中日平均生产件数不足60件的工人中25周岁以上组有600.053⨯=人,分别记为:1A ,2A ,3A , 25周岁以下组有工人400.052⨯=人,分别记为1B ,2B ,从中随机抽取2人,所有可能的结果共10种,他们分别是1(A ,2)A ,1(A ,3)A ,2(A ,3)A ,1(A ,1)B ,1(A ,2)B ,2(A ,1)B ,2(A ,2)B ,3(A ,2)B ,3(A ,2)B ,1(B ,2)B ,其中“至少有1名”,25周岁以下组的结果有7种, 故所求概率为710P =; (2)由频率分别直方图可知:在抽取的100名工人中, “25周岁以上组”中的生产能手600.2515⨯=人, “25周岁以下组”中的生产能手400.37515⨯=人, 据此可得22⨯列联表:所以2()100(15254515) 1.786 2.706()()()()60403070n ad bc K a b c d a c b d -⨯⨯-⨯==≈<++++⨯⨯⨯. 所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.例11.某市在对学生的综合素质评价中,将其测评结果分为“优秀、合格、不合格”三个等级,其中不小于80分为“优秀”,小于60分为“不合格”,其它为“合格”.(Ⅰ)某校高二年级有男生500人,女生400人,为了解性别对该综合素质评价结果的影响,采用分层抽样的方法从高二学生中抽取了90名学生的综合素质评价结果,其各个等级的频数统计如表:根据表中统计的数据填写下面22⨯列联表,并判断是否有90%的把握认为“综合素质评价测评结果为优秀与性别有关”?(Ⅱ)以(Ⅰ)中抽取的90名学生的综合素质评价等级的频率作为全市各个评价等级发生的概率,且每名学生是否“优秀”相互独立,现从该市高二学生中随机抽取4人. ()i 求所选4人中恰有3人综合素质评价为“优秀”的概率;()ii 记X 表示这4人中综合素质评价等级为“优秀”的人数,求X 的数学期望.附:参考数据与公式 (1)临界值表:(2)参考公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【解析】解:(Ⅰ)设从高二年级男生中抽出m 人,则90500500400m =+, 解得50m =.503812x ∴=-=,40364y =-=.22∴⨯列联表为:290(30102030) 2.25 2.70650406030K ⨯⨯-⨯∴==<⨯⨯⨯,∴没有90%的把握认为“综合素质评价测评结果为优秀与性别有关”. (Ⅱ)()i 由(Ⅰ)知等级为“优秀”的学生的频率为23, ∴从该市高二学生中随机抽取一名学生,该生为“优秀”的概率为23. 记“所选4名学生中恰有3人综合素质评价为‘优秀’学生”为事件A , 则事件A 发生的概率为:P (A )3342132()3381C =⨯⨯=.()ii X 表示这4个人中综合速度评价等级为“优秀”的个数,由题意,随机变量2~(4,)3X B ,X ∴的数学期望28()433E X =⨯=.例12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”(1)根据已知条件完成下面的22⨯列联表,并据此资料你是否认为“体育迷“与性别有关?(注:0.95以上把握说明有关)(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷“人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望()E X 和方差()D X附:22112212211212()n n n n n X n n n n ++++-=,2)k【解析】解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而22⨯列联表如下:将22⨯列联表中的数据代入公式计算,得22100(30104515) 3.03075254555K ⨯⨯-⨯=≈⨯⨯⨯.⋯(5分)因为3.030 3.841<,所以我们没有充分理由认为“体育迷”与性别有关. ⋯(6分) (2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率14, 即从观众中抽取一名“体育迷”的概率.⋯(7分) 由题意知1~(3,)4X B ,从而X 的分布列为⋯(10分)13()344E X np ==⨯=,139()(1)34416D X np p =-=⨯⨯=.⋯(12分) 例13.随着节能减排意识深入人心以及共享单车在饶城的大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:(1)如果认为每周使用超过3次的用户为“喜欢骑行共享单车”,请完成22⨯列表(见答题卡),并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢骑行共享单车”与性别有关?(2)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,视频率为概率,在我市所有“骑行达人”中,随机抽取4名用户.①求抽取的4名用户中,既有男生“骑行达人”又有女“骑行达人”的概率;②为了鼓励女性用户使用共享单车,对抽出的女“骑行达人”每人奖励500元,记奖励总金额为X ,求X 的分布列及数学期望.附表及公式:22()()()()()n ad bc K a b c d a c b d -=++++【解析】(1)由图中表格可得22⨯列联表如下:将22⨯列联表中的数据代入公式计算得22100(45153010) 3.03 3.84125755545K ⨯-⨯=≈<⨯⨯⨯,所以在犯错误概率不超过0.05的前提下,不能认为是否“喜欢骑行共享单车”与性别有关.(2)视频率为概率,在我市“骑行达人”中,随机抽取1名用户,该用户为男“骑行达人”的概率为35,女“骑行达人”的概率为25.①抽取的4名用户中,既有男“骑行达人”,又有女“骑行达人”的概率为 44325281()()55625P =--=; ②记抽出的女“骑行达人”人数为Y ,则500X Y =.由题意得2~(4,)5Y B ,4423()()()55i i iP Y i C -∴== (0i =,1,2,3,4),Y ∴的分布列为X ∴的分布列为所以28()455E Y =⨯=, 所以X 的数学期望()500()800E X E Y ==元.例14.2021年,辽宁省将实施新高考,2018年暑期入学的高一学生是新高考首批考生,新高考不再分文理科,采用33+模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门科目中自选3门参加考试(6选3),每科目满分100分.为了应对新高考,某高中从高一年级1000名学生(其中男生550人,女生450人)中,采用分层抽样的方法从中抽取n 名学生进行调查.(1)已知抽取的n 名学生中含女生45人,求n 的值及抽取到的男生人数;(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对在(1)的条件下抽取到n 名学生进行问卷调查(假定每名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的22⨯列联表:请将上面的列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说明你的理由; (3)在抽取到的45名女生中按分层抽样再抽出9名女生,了解女生对“历史”的选课意向情况,在这9名女生中再抽取4人,设这4人中含选择“地理”的人数为X ,求X 的分布列及期望.)k参考公式:22112212211212()n n n n n K n n n n ++++-=【解析】解:(1)由题意得:451000450n =,解得100n =, 男生人数为:100550551000⨯=人.⋯⋯⋯⋯(2分) (2)22⨯列联表为:222111212211212()100(45202510)8.1289 6.63555457030n n n n n n n n n ++++-⨯⨯-⨯X ==≈>⨯⨯⨯所以有99%的把握认为选择科目与性别有关.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(7分)(3)从45名女生中分层抽样抽9名女生,所以这9名女生中有5人选择物理,4人选择地理, 9名女生中再选择4名女生,则这4名女生中选择地理的人数X 可为0,1,2,3,4. 设事件X 发生概率为()P X ,则45495(0)126C P X C ===,31544940(1)126C C P X C ===,22544960(2)126C C P X C ===,13544920(3)126C C P X C ===,44491(4)126C P X C ===,X 的分布列为:期望406020116()2341261261261269E X =+⨯+⨯+⨯=.⋯⋯⋯⋯(12分) 例15.微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余每天使用微信在一小时以上.若将员工年龄分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,经常使用微信的员工中23是青年人. (Ⅰ)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出22⨯列联表;(Ⅱ)由列联表中所得数据,是否有99.9%的把握认为“经常使用微信与年龄有关”?)k附:22()()()()()n ad bcKa b c d a c b d-=++++.【解析】解:(Ⅰ)由已知可得,该公司员工中使用微信的共:2000.9180⨯=人经常使用微信的有18060120--人,其中青年人:2 120803⨯=人所以可列下面22⨯列联表:(Ⅱ)将列联表中数据代入公式可得:22180(8055540)13.33310.8281206013545K⨯⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为“经常使用微信与年龄有关”.例16.某校高三4班有50名学生进行了一场投篮测试,其中男生30人,女生20人.为了了解其投篮成绩,甲、乙两人分别都对全班的学生进行编号(150-号),并以不同的方法进行数据抽样,其中一人用的是系统抽样,另一人用的是分层抽样.若此次投篮测试的成绩大于或等于80分视为优秀,小于80分视为不优秀,如表是甲、乙两人分别抽取的样本数据:甲抽取的样本数据乙抽取的样本数据(Ⅰ)在乙抽取的样本中任取3人,记投篮优秀的学生人数为X,求X的分布列和数学期望.(Ⅱ)请你根据乙抽取的样本数据完成下列22⨯列联表,判断是否有95%以上的把握认为投篮成绩和性别有关?(Ⅲ)判断甲、乙各用何种抽样方法,并根据(Ⅱ)的结论判断哪种抽样方法更优?说明理由. 下面的临界值表供参考:2)k(参考公式:2()()()()K a b c d a c b d =++++,其中)n a b c d =+++【解析】解:(Ⅰ)在乙抽取的10个样本中,投篮优秀的学生人数为4,X ∴的取值为0,1,2,3463103.(),0,1,2,3k kC C P X k k C -=== 分布列为:1131601236210305EX =+++=(6分) (Ⅱ)设投篮成绩与性别无关,由乙抽取的样本数据,得22⨯列联表如下:(7分)2210(4402) 4.444 3.8414664K ⨯⨯-⨯=≈>⨯⨯⨯,(9分) 所以有95%以上的把握认为投篮成绩与性别有关.(10分) (Ⅲ)甲用的是系统抽样,乙用的是分层抽样. ⋯(11分)由(Ⅱ)的结论知,投篮成绩与性别有关,并且从样本数据能看出投篮成绩与性别有明显差异,因此采用分层抽样方法比系统抽样方法更优.⋯(12分)例17.已知某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22⨯列联表,并判断是否能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”?(相关系数22()()()()()n ad bc K a b c d a c b d -=++++,2 2.706K >时有99%的把握具有相关性)【解析】解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名, 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053⨯=(人), 记为1A ,2A ,3.25A 周岁以下组工人有400.052⨯=(人),记为1B ,2B . 从中随机抽取2名工人,所有可能的结果共有10种,即: 1(A ,2)A ,1(A ,3)A ,2(A ,3)A ,1(A ,1)B ,1(A ,2)B , 2(A ,1)B ,2(A ,2)B ,3(A ,1)B ,3(A ,2)B ,1(B ,2)B .其中,至少抽到一名“25周岁以下组”工人的可能结果共有7种,是:1(A ,1)B ,1(A ,2)B ,2(A ,1)B ,2(A ,2)B ,3(A ,1)B ,3(A ,2)B ,1(B ,2)B .故所求概率710P =. (2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有600.2515⨯=(人),“25周岁以下组”中的生产能手有400.37515⨯=(人),据此可得22⨯列联表如下:所以得:22100(15251545)251.796040307014K⨯⨯-⨯==≈⨯⨯⨯.因为1.79 2.706<,所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”.例18.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.表1:甲流水线样本频数分布表(1)根据上表数据在答题卡上作出甲流水线样本的频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据完成下面22⨯列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++其中n a b c d=+++;临界值表供参考:)k0.15k 2.072【解析】解:(1)根据所给的每一组的频数和样本容量做出每一组的频率,在平面直角坐标系中做出频率分步直方图,甲流水线样本的频率分布直方图如下:(2)由图知,甲样本中合格品数为30,合格品的频率为300.7540=,乙样本中合格品数为(0.060.090.03)54036++⨯⨯=,合格品的频率为360.940=,据此可估计从甲、乙流水线上任取一件产品该产品为合格品的概率分别为0.75、0.9;(3)22⨯列联表如下。
专题19 独立性检验(解析版)
专题19 独立性检验一、解答题 1.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.(|)(|)P B A P B A 与(|)(|)P B A P B A 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R . (ⅰ)证明:(|)(|)(|)(|)P A B P A B R P A B P A B =⋅;(ⅰ)利用该调查数据,给出(|),(|)P A B P A B 的估计值,并利用(ⅰ)的结果给出R 的估计值.附22()()()()()n ad bc K a b c d a c b d -=++++,(2)(i )证明见解析;(ii)6R =; 【解析】 【分析】(1)由所给数据结合公式求出2K 的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未黄该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)根据(i )结合已知数据求R . (1)由已知222()200(40906010)=24()()()()50150100100n ad bc K a b c d a c b d -⨯-⨯==++++⨯⨯⨯, 又2( 6.635)=0.01P K ≥,24 6.635>,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异. (2) (i)因为(|)(|)()()()()=(|)(|)()()()()P B A P B A P AB P A P AB P A R P B A P B A P A P AB P A P AB =⋅⋅⋅⋅,所以()()()()()()()()P AB P B P AB P B RP B P AB P B P AB =⋅⋅⋅所以(|)(|)(|)(|)P A B P A BRP A B P A B=⋅,(ii)由已知40(|)100P A B=,10(|)100P A B=,又60(|)100P A B=,90(|)100P A B=,所以(|)(|)=6 (|)(|)P A B P A BRP A B P A B=⋅2.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.1000.0500.010 k 2.706 3.841 6.635【答案】(1)A,B两家公司长途客车准点的概率分别为1213,78(2)有【解析】【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算2K,再利用临界值表比较即可得结论.(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则24012 ()26013==P M;B共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N , 则210()27840==P N . A 家公司长途客车准点的概率为1213; B 家公司长途客车准点的概率为78.(2) 列联表2()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 3.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++(2)能. 【解析】根据给出公式计算即可 【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=, 乙机床生产的产品中的一级品的频率为12060%200=. (2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯, 故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.4.(2022·四川省内江市第六中学模拟预测(理))国内某大学有男生6000人,女生4000人,该校想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[]0,3,若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:前提下认为性别与“是否为‘运动达人’”有关;(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人的人数为随机变量X ,求X 的分布列和数学期望()E X 及方差()D X . 附表及公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,在犯错误概率不超过0.025的前提下,可以认为性别与“是否为‘运动达人’”有关(2)分布列答案见解析,9()5E X =,18()25D X =【分析】(1)根据题意完善2×2列联表,根据卡方公式计算出2K ,结合临界表即可得出结论;(2)根据题意可知随机变量X 满足二项分布,求出对应事件的概率,列出随机变量的分布列,结合二项分别的数学期望和方差公式直接计算即可. (1)由题意,该校根据性别采取分层抽样的方法抽取的100人中,有60人为男生, 40人为女生,据此2×2列联表中的数据补充如下.所以2650506040K ==⨯⨯⨯,又6 5.024>, 所以在犯错误概率不超过0.025的前提下,可以认为性别与“是否为‘运动达人’”有关. (2)由题意可知,该校每个男生是运动达人的概率为363605=, 故35~3,X B ⎛⎫⎪⎝⎭,X 可取的值为0,1,2,3,所以30003238(0)C 55125P X -⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭,311132336(1)C 55125P X -⎛⎫⎛⎫===⎪⎪⎝⎭⎝⎭, 322232354(2)C 55125P X -⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭,333332327(3)C 55125P X -⎛⎫⎛⎫===⎪⎪⎝⎭⎝⎭. X 的分布列为:∴()355E X =⨯=,3218()35525D X =⨯⨯=. 5.(2022·青海·海东市第一中学模拟预测(文))某公司为了解用户对公司生产的产品的满意度做了一次随机调查,共随机选取了100位用户对其产品进行评分.用户对产品评分情况如表所示(已知满分100分,选取的100名用户的评分分值在区间[)70,100上). 选取的100名用户中男性用户评分情况:(1)分别估计用户对产品评分分值在70,80,80,90,的概率;(2)若用户评分分值不低于80分,则定位用户对产品满意.填写下面的22⨯列联表,并分析有没有95%以上的把握认为用户对产品满意与否与性别有关?参考公式与数据:22()()()()()n ad -bc K a+b c+d a+c b+d =,n a b c d =+++.【答案】(1)1025,, (2)表格见解析,没有95%以上的把握认为用户对产品满意与否与性别有关. 【解析】 【分析】(1)利用古典概型分别去求用户对产品评分分值在[)70,80,[)80,90,[)90,100的概率;(2)先按要求填写22⨯列联表,再计算出2K 并与3.841进行大小比较,进而判断是否有95%以上的把握认为用户对产品满意与否与性别有关. (1)由统计数据得,用户对产品评分分值在[)70,80的概率为71139303=10010010+++=,用户对产品评分分值在[)80,90的概率为18121285011001002+++==,用户对产品评分分值在[)90,100的概率为88222011001005+++==.(2)男性用户有64人,女性用户有36人,根据统计数据得到22⨯列联表:2100(46122418)0.298 3.84164367030K ⨯-⨯=≈<⨯⨯⨯.所以没有95%以上的把握认为用户对产品满意与否与性别有关.6.(2022·全国·模拟预测)某社区为庆祝中国共产党成立100周年,举办一系列活动,通过调查得知其中参加文艺活动与体育活动的居民人数如下表:0.5%的前提下认为参加活动的类型与性别有关? (2)在参加活动的男性居民中,用分层抽样方法抽取7人,再从这7人中随机抽取3人接受采访,记抽到参加文艺活动的人数为X ,求X 的分布列与期望. 附:()()()()2()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)填表见解析;在犯错的概率不超过0.5%的前提下,可以认为参加活动的类型与性别有关(2)分布列见解析;期望为97【解析】 【分析】(1)先直接补齐联列表,然后计算2K ,即可求解;(2)先求出参加文艺活动的应抽取3人,参加体育活动的有4人,则X 的可能取值为0,1,2,3,再求出每个值所对应的概率即可求解 (1)依题意,22⨯列联表如下:275(15103020)2258.0367.8794530354028K ⨯⨯-⨯==≈>⨯⨯⨯,故在犯错的概率不超过0.5%的前提下,可以认为参加活动的类型与性别有关.(2)因为男性居民中参加文艺活动的有15名,参加体育活动的有20名,用分层抽样方法抽取7人,则参加文艺活动的应抽取3人,参加体育活动的有4人,则X 的可能取值为0,1,2,3,所以()()031234343377C C C C 4180,1C 35C 35P X P X ⋅======,()()2133433377C C C 1212,3C 35C 35P X P X ⋅======. 所以X 的分布列为所以()12190123353535357E X =⨯+⨯+⨯+⨯=. 7.(2022·山西大附中三模(文))甲、乙两所学校高三年级分别有1000人,1100人,为了了解两所学校全体高三年级学生高中某学科基础知识测试情况,采用分层抽样方法从两个学校一共抽取了105名学生的该学科成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校:(2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异?(2)有97.5%的把握认为两个学校的数学成绩有差异 【解析】 【分析】(1)由分层抽样计算甲乙两校分别抽取的人数,结合表格即可求解;(2)补充列联表,计算卡方,根据独立性检验的性质判断. (1)由题可知,采用分层抽样共抽取105人,1000:110010:11=, 所以甲校抽取101055021⨯=人,乙校抽取111055521⨯=人, 故12981010350x +++++++=,解得7x =,231015153155y +++++++=,解得6y =;(2)由频数分布表可得22⨯列联表为所以()210520453010 6.109 5.024********K ⨯⨯-⨯=≈>⨯⨯⨯ 故有97.5%的把握认为两个学校的数学成绩有差异.8.(2022·全国·模拟预测(文))在一次数学考试中,将某班所有学生的成绩按照性别绘制成如下茎叶图,规定;分数不低于125分为优秀.(1)求本次成绩的众数、中位数;(2)从该班中任意抽取一位学生,求该学生成绩优秀的概率;(3)完成下列22⨯列联表,并判断是否有90%的把握认为学生数学成绩是否优秀与性别有关?附:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)1425(3)答案见解析 【解析】 【分析】(1)根据茎叶图可得答案;(2)由图可知,该班有50名学生,成绩优秀的有28名,根据古典概型概率计算公式可得答案; (3)根据茎叶图完成22⨯列联表,代入2K 可得答案. (1)本次成绩的众数为124,中位数为127128127.52+=. (2)由图可知,该班有50名学生,成绩优秀的有28名,所以从该班中任意抽取一名学生,该学生成绩优秀的概率为28145025P ==. (3)22⨯列联表如下,25016131291001.2992822252577⨯⨯-⨯==≈⨯⨯⨯K,因为1.299 2.705<,所以没有90%的把握认为学生数学成绩是否优秀与性别有关.9.(2022·青海西宁·二模(文))第24届冬季奥运会于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为10m(*m∈N),统计得到以下22⨯列联表,经过计算可得2 4.040K≈.(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,求“至少抽到一名女生”的概率.附:独立性检验临界值表(参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)【答案】(1)20m=,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关(2)5 6【解析】【分析】(1)根据题意完成表格,再根据公式计算即可;(2) 抽取的9人中男生的人数为4,设为a,b,c,d,女生的人数为5,设为1,2,3,4,5,用列举法求解即可.(1)解:列联表如下表所示:则()()()()()()2220654520 4.0401010119911n ad bc m m m m m mK a b c d a c b d m m m m-⨯-⨯===≈++++⨯⨯⨯⨯ 因为*m ∈N ,可得20m =, 而4.040 3.841>,且4.040 5.024<因此,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关. (2)采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人, 这9人中男生的人数为4,设为a ,b ,c ,d ,女生的人数为5,设为1,2,3,4,5,则从这9人中抽取2人的情况有:ab ,ac ,ad ,1a ,2a ,3a ,4a ,5a ,bc ,bd ,1b ,2b ,3b ,4b ,5b ,cd ,1c ,2c ,3c ,4c ,5c ,1d ,2d ,3d ,4d ,5d ,12,13,14,15,23,24,25,34,35,45,共36种;其中这2人中至少抽到一名女生的有1a ,2a ,3a ,4a ,5a ,1b ,2b ,3b ,4b ,5b ,1c ,2c ,3c ,4c ,5c ,1d ,2d ,3d ,4d ,5d ,12,13,14,15,23,24,25,34,35,45,共30种.所以这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率为305366P ==. 10.(2022·吉林·洮南市第一中学模拟预测(文))某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如表:(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++,【答案】(1)见解析 (2)815【解析】 【分析】(1)由公式计算出2K 值,与题中所给的值进行比较可得答案;(2)根据分层抽样的定义可知样本中有4个男生,2个女生,然后利用古典概型的概率公式求解可得答案. (1)由公式可得()2255202010511.9787.87930252530K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则63020m=,得4m =,所以样本中有4个男生,2个女生,分别记作1B ,2B ,3B ,4B ,1G ,2G ,从中任选2人的基本事件有()12,B B ,()13,B B ,()14,B B ,()11,B G ,()12,B G ,()23,B B ,()24,B B ,()21,B G ,()22,B G ,()34,B B ,()31,B G ,()32,B G ,()41,B G ,()42,B G ,()12,G G ,共15个,其中恰有1个男生和1个女生的事件有()11,B G ,()12,B G ,()21,B G ,()22,B G ,()31,B G ,()32,B G ,()41,B G ,()42,B G ,共8个, 所以恰有1个男生和1个女生的概率为815. 11.(2022·河南·平顶山市第一高级中学模拟预测(文))2021年10月1日是中华人民共和国第72个国庆日,很多人通过短视频APP 或微信、微博表达了对祖国的祝福.某调查机构为了解通过短视频APP 或微信、微博表达对祖国祝福的人们是否存在年龄差异,将年龄不低于45岁的人称为中老年,低于45岁的人称为青少年.通过不同途径调查了数千个通过短视频APP 或微信、微博表达对祖国祝福的人,并从参与者中随机选出400人.经统计这400人中通过微信、微博表达对祖国祝福的有320人,其中中老年占25,这400人中通过短视频APP 表达对祖国祝福的青少年有28人.(1)完成下列22⨯列联表,并判断是否有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关?5人,再从这5人中随机抽取2人,求这2人中恰好有一个是青少年的概率. 附:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关(2)35【解析】 【分析】(1)首先完成22⨯列联表,再计算2K 即可得到答案. (2)根据古典概型公式求解即可. (1)由题意得22⨯列联表:()2400281285219216.16210.82880320220180K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关. (2)抽取的5人中,青少年:51923320⨯=人,记为a ,b ,c ; 中老年:51282320⨯=人,记为d ,e . 从这5人中随机抽取2人有(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ), (b ,e ),(c ,d ),(c ,e ),(d ,e ),共10种情况.其中恰好有一个是青少年的有(a ,d ),(a ,e ),(b ,d ),(b ,e ),(c ,d ),(c ,e ), 共6种情况.所以这2人中恰好有一个是青少年的概率63105P ==. 12.(2022·河南开封·模拟预测(理))大豆是我国重要的农作物,种植历史悠久.某种子实验基地培育出某大豆新品种,为检验其最佳播种日期,在A ,B 两块试验田上进行实验(两地块的土质等情况一致).6月25日在A 试验田播种该品种大豆,7月10日在B 试验田播种该品种大豆.收获大豆时,从中各随机抽取20份(每份1千粒),并测量出每份的质量(单位:克),按照[)100,150,[)150,200,[]200,250进行分组,得到如下表格:把千粒质量不低于200克的大豆视为籽粒饱满,否则视为籽粒不饱满. (1)判断是否有97.5%的把握认为大豆籽粒饱满与播种日期有关?(2)从A ,B 两块实验田中各抽取一份大豆,求抽取的大豆中至少有一份籽粒饱满的概率;(3)用样本估计总体,从A 试验田随机抽取100份(每份千粒)大豆,记籽粒饱满的份数为X ,求X 的数学期望和方差.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)1625(3)()55E X =,99()4=D X 【解析】 【分析】(1)根据完成列联表,然后根据公式()()()()()22n ad bc K a b c d a c b d -=++++计算2K ,再与临界值表比较可得结论,(2)A ,B 两块实验田中各抽取一份大豆中,籽粒饱满的概率分别为111,,205两份大豆都籽粒不饱满的概率为94920525⨯=,再结合对立事件概率和为1求解即可; (3)根据已知条件,结合二项分布的期望与方差公式,即可求解. (1)22⨯列联表为()()()()()()22240111649 5.227 5.024********n ad bc K a b c d a c b d -⨯⨯-⨯==≈>++++⨯⨯⨯,所以有97.5%的把握认为大豆籽粒饱满与播种日期有关. (2)A ,B 两块实验田中各抽取一份大豆, 抽取的大豆中有一份籽粒饱满的概率分别为1120,15, 两份大豆籽粒都不饱满的概率为111911,20525⎛⎫⎛⎫-⨯-= ⎪ ⎪⎝⎭⎝⎭故抽取的大豆中至少有一份籽粒饱满的概率为91251625-=. (3)从A 试验田的样本中随机抽取1份小麦,抽到饱满的概率为1120, 则11~(100,)20X B ,故11()1005520=⨯=E X , 111199()100(1)20204=⨯⨯-=D X . 13.(2022·山东·德州市教育科学研究院三模)某学校对男女学生是否喜欢长跑进行了调查,调查男女生人数均为()*10n n ∈N ,统计得到以下2×2列联表,经过计算可得2 4.040K ≈.(2)①为弄清学生不喜欢长跑的原因,采用分层抽样的方法从调查的不喜欢长跑的学生中随机抽取9人,再从这9人中抽取3人进行面对面交流,求“至少抽到一名女生”的概率;②将频率视为概率,用样本估计总体,从该校全体学生中随机抽取10人,记其中对长跑喜欢的人数为X ,求X 的数学期望. 附表:附:()()()()2n ad bc K a b c d a c b d -=++++. 【答案】(1)列联表答案见解析,20n =,有95%的把握认为该校学生对长跑喜欢情况与性别有关; (2)①2021;②112. 【解析】 【分析】(1)利用给定数据完善2×2列联表,计算2K 的观测值即可求出n ,再与临界值表比对作答.(2)①利用分层抽样求出抽取的9人中男女生人数,再利用古典概型结合对立事件概率求解作答;②利用二项分布的期望公式计算作答. (1)2×2列联表如下表所示:220(6545)20 4.040101011999n n n n n n K n n n n ⨯⨯-⨯==≈⨯⨯⨯,而*n ∈N ,于是得20n =,又2 4.040 3.841K ≈>,所以有95%的把握认为该校学生对长跑喜欢情况与性别有关. (2)①采用分层抽样的方法从调查的不喜欢长跑的学生中随机抽取9人,这9人中男生的人数为4,女生的人数为5,再从这9人中抽取3人进行面对面交流,“至少抽到一名女生”的概率为3439C 42011C 8421P =-=-=; ②由(1)知,任抽1人喜欢长跑的概率1120p =, 依题意,11~(10,)20X B ,所以X 的数学期望是1111()10202E X =⨯=. 14.(2022·四川省泸县第二中学模拟预测(理))中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了50名学生进行调查,调查样本中有20名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).“嫦娥五号”的关注程度与性别有关”?(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.”关注程度与性别有关(2)分布列见解析,数学期望为9 10【解析】【分析】(1)根据题意中的等高条形图完善22⨯列联表,结合卡方公式计算出2K,比较临界值,利用独立性检验的思想即可得出结论;(2)根据二项分布求出随机变量对应的概率,结合求二项分布数学期望公式计算即可. (1)22⨯列联表如下:所以()()()()()2n ad bc K a b c d a c b d -=++++ ()250151415612001.970 3.84121293020609⨯-⨯==≈<⨯⨯⨯, 所以没有95%的把握认为对“嫦娥五号”关注程度与性别有关. (2)因为随机选一个高三的女生,对此事关注的概率为1234010P ==, 由题意可知随机变量X 满足二项分布,即33,10XB ⎛⎫ ⎪⎝⎭, 所以有()3333C 11010kkk P X k -⎛⎫⎛⎫==- ⎪⎪⎝⎭⎝⎭.所以随机变量X 的分布列为:故()31010E X np ==⨯=. 15.(2022·青海·大通回族土族自治县教学研究室三模(文))如今大家对运动越来越重视,讨论也越来越多,时常听到有人说“有氧运动”和“无氧运动”,有氧运动主要的作用是健身,而无氧运动主要的作用是塑形,一般的健身计划都是有氧运动配合无氧运动以达到强身健体的目的.某健身机构对其60位会员的健身运动进行了一次调查,统计发现有氧运动为主的有42人,30岁以下无氧运动为主的有12人,占30岁以下调查人数的25.(1)根据以上数据完成如下22⨯列联表;附:参考公式:()()()()()2n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)答案见解析(2)没有99%的把握认为运动方式与年龄有关【解析】【分析】(1)根据题干所给数据完善列联表;(2)由(1)中列联表计算出卡方,即可判断;(1)解:依题意可得30岁以下的有212305÷=人,则30岁以上的有603030-=人,所以22⨯列联表如下表所示:(2)由题意,()26024121862.857 6.63542183030K⨯⨯-⨯=≈<⨯⨯⨯,所以没有99%的把握认为运动方式与年龄有关.16.(2022·四川省宜宾市第四中学校模拟预测(文))为了助力北京2022年冬奥会、冬残奥会,某校组织全校学生参与了奥运会项目知识竞赛.为了解学生的竞赛成绩(竞赛成绩都在区间[50,100]内)的情况,随机抽取n名学生的成绩,并将这些成绩按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成了如图所示的频率分布直方图.其中[50,60),[60,70),[70,80)三组的频率成等比数列,且成绩在[90,100]的有16人.(1)求n 的值;(2)在这n 名学生中,将成绩在[80,100]的学生定义为“冬奥达人”,成绩在[50,80)的学生定义为“非冬奥达人”.请将下面的列联表补充完整,并判断是否有99%的把握认为“是否是冬奥达人与性别有关”?并说明你的理由.参考公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:(2)列联表见解析,有,理由见解析【解析】【分析】(1)根据题意列出相应的方程,求得公比,即可求得答案;(2)根据题意结合频率分布直方图可得列联表,计算2K 的观测值k ,和临界值表比较,可得答案.(1)由题意知[50,60),[60,70),[70,80)三组的频率成等比数列,设公比为(1)q q >,则20.080.080.080.280.081q q q ++++=,解得2q 或4q =-(舍去),则[90,100]这一组的频率为0.0820.16⨯=,由题意知160.16n=,解得100n =.(2)成绩在[50,80)的人数为(0.080.160.32)10056++⨯=,成绩在[80,100]的人数为44.补充完整的列联表如下:计算得2K 的观测值10.390 6.6355050564477k ==≈>⨯⨯⨯, 故有99%的把握认为“是否是冬奥达人与性别有关”.17.(2022·福建漳州·三模)漳州布袋木偶戏是传统民俗艺术,2006年被列入首批国家非物质文化产保护,据《漳州府志》记载,漳州地区在宋代就已经有布袋木偶戏了,清朝中叶后,布袋木偶戏开始进入兴盛时期,一直到抗日战争前,漳州的龙溪、漳浦、海澄、长泰等县,几乎乡乡都有布袋木偶戏,在传承的基础上,不断创新和发展壮大,走向更广阔的世界,为了了解民众对布袋木偶戏的了解程度,某单位随机抽取了漳州地区男女各100名市民,进行问卷调查根据调查结果绘制出得分条形图,如图所示形图,完成22⨯联表,并根据列联表,判断能否有90%的把握认为对布袋木偶戏的了解程度与性别有关?(2)恰逢三八妇女节,该单位对参与调查问卷的女市民制定如下抽奖方案;得分低于60分的可以获得1次抽奖机会,得分不低于60分的可以获得2次抽奖机会,每次抽奖结果相互独立,在一次抽奖中,获得一个木偶纪念品的概率为13,获得两个木偶纪念品的概率为16,不获得木偶纪念品的概率为12,在这100名女市民中任选一人.记X 为她获得木偶纪念品的个数,求X 的分布列和数学期望.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++ 参考数据.(2)分布列见解析;期望为76【解析】【分析】(1)直接根据题意即可完成表格,计算出2K 的值即可得结果;(2)求出得分低于60分的概率,列出X 的可能取值,分别求出对应的概率,即可得分布列和数学期望.(1)2×2列联表如下:假设0H :对布袋木偶戏的了解程度与性别无关,根据列联表的数据,可以求得 ()222003575256550 2.381 2.7061001006014021K ⨯⨯-⨯===<⨯⨯⨯, 故没有90%的把握认为对布袋木偶戏的了解程度与性别有关,.(2)在这100名女市民中任选一人,得分低于60分的概率为2511004=,得分不低于60分的概率为7531004=,X 的所有取值为0,1,2,3,4,.()1131113504242281616P X ==⨯+⨯⨯=+= ()11311131124343212123P X ==⨯+⨯⨯⨯=+= ()11311311122464334624P X ==⨯+⨯⨯+⨯⨯⨯=()31113246312 P X==⨯⨯⨯= ()3111446648 P X==⨯⨯=所以X的分布列为故()5111111117 0123416341248324126E X=⨯+⨯+⨯+⨯+⨯=+++=.18.(2022·陕西·宝鸡中学模拟预测(理))2020年至今,因为新冠病毒的肆虐,各地不停地按下暂停键,居家隔离期间,人们对社会的依赖,对政府部门的期待也达到了前所未有的高度.某机构对封管区居民对政府部门的态度进行了一项网络调查,并随机抽取了100份问卷进行了成绩统计,得到下表,规定成绩在[]70,100为满意.状相同的4个白球,4个红球的口袋中,一次摸4个球,如果摸到2个红球获得20元话费,摸到3个红球获得50元话费,4个都是红球获得100元话费,某人参加了问卷调查,他获得的话费为X元,求X的分布列及数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++(2)分布列见解析;数学期望()1627E X =【解析】【分析】 (1)由表格数据补全列联表即可;由列联表计算可得2 3.683 2.706K ≈>,由此可得结论;(2)首先确定X 所有可能的取值,并计算得到每个取值对应的概率,由此可得分布列;利用数学期望公式计算可得期望.(1)由表格数据可得22⨯列联表如下:由列联表计算得:)2210020202535 3.683 2.70655454555K ⨯⨯-⨯=≈>⨯⨯⨯, ∴有90%的把握认为满意度与年龄有关.(2)由题意知:X 所有可能的取值为0,20,50,100;()13444448C C C 170C 70P X +===;()224448C C 361820C 7035P X ====;()314448C C 16850C 7035P X ====;()4448C 1100C 70P X ===; X ∴的分布列为:则数学期望()02050100703535707E X =⨯+⨯+⨯+⨯=. 19.(2022·湖南·长沙县第一中学模拟预测)2021年9月,教育部印发《关于全面加强和改进新时代学校卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼运,结合“微信运动”APP 每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:0.1的前提下认为获得“运动达人”称号与性别有关?(2)从全校运动“参与者”中按性别分层抽取8人,再从8人中选取3人参加特训,将男生人数记为X ,求X 的分布列与期望EX .参考公式:()()()()()22n ad bc X a b c d a c b d -=++++,n a b c d =+++.(2)分布列见解析;期望为158 【解析】【分析】(1)先完善列联表,通过卡方检验中计算2X 与2.706比较大小从而判断在犯错误概率不超过0.1的前提下认为获得“运动达人”称号与性别的相关性;(2)判断X 服从超几何分布概型,得到X 的分布列与期望E (X ).(1)由题意完善23⨯列联表:运动达人参与者合计男生7050[20此时:()2220070305050250.35 2.706120801208072X ⨯⨯-⨯==≈<⨯⨯⨯. 所以:在犯错误概率不超过0.1的前提下不能认为获得“运动达人”称号与性别有关;(2)由题意知:选取的8人运动参与者中男生5人,女生3人则X 服从超几何分布,X 的所有可能情况为:0、1、2、3且()05381056C P X C ===,()31258315156C C P X C ⋅===。
高中高考考点难点常见题型(带答案解析) 独立性检验(解析版)
D.有以上的把握认为“爱好该项运动与性别⽆关”
考点:利⽤k2进⾏独⽴性检验
知识点:2*2列联表、两分类变量之间关联的定性分析的⽅法答案:C 解析:,在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
即有以上的把握认为“爱好该项运动与性别有关”故选:.
⼀般已测:4499次正确率:71.9 %
9.现⾏普通⾼中学⽣在⾼⼀升⾼⼆时⾯临着选⽂理科的问题,学校抽取了部分男、⼥学⽣意愿的⼀份样本,制作出如下两个等⾼堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的是( ).
A.样本中的⼥⽣数量多于男⽣数量
B.样本中有理科意愿的学⽣数量多于有⽂科意愿的学⽣数量
C.样本中的男⽣偏爱理科
D.样本中的⼥⽣偏爱⽂科
考点:列联表与等⾼条形图的应⽤知识点:等⾼条形图答案:D
解析:由图可知,男、⼥⽣均偏爱理科,故错误.故选.
简单已测:4267次正确率:96.0 %
10.如图的等⾼条形图可以说明的问题是( )
99%∵K = ≈7.8>6.6352
60×50×60×50
110×(40×30−20×20)2
∴0.01=1%99%C D D。
2025版新教材高中数学第七章统计案例3独立性检验问题3
3.1 独立性检验3.2 独立性检验的基本思想3.3 独立性检验的应用必备学问基础练学问点一2×2列联表1.如下是一个2×2列联表,则表中m,n的值分别为( )A.10,38B.17,45C.10,45.17,382.某村庄对该村内50名老年人、年轻人每年是否体检的状况进行了调查,统计数据如已知抽取的老年人、年轻人各25名,则完成上面的列联表数据错误的是( )A.a=18B.b=19C.c+d=50D.e-f=2学问点二独立性检验思想3.对于变量X与Y的统计量χ2,下列说法正确的是( )A.χ2越大,“X与Y有关联”的可信程度越小B.χ2越小,“X与Y有关联”的可信程度越小C.χ2越接近于0,“X与Y没有关联”的可信程度越小D.χ2越大,“X与Y没有关联”的可信程度越大4.在探讨打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到了“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的,下列说法中正确的是( )A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,那么这个人有99%的概率打鼾C.在100个心脏病患者中肯定有打鼾的人D.在100个心脏病患者中可能一个打鼾的人都没有学问点三独立性检验的应用5.某机构为探讨学生玩电脑嬉戏和对待作业量看法的关系,随机抽取了100名学生进行调查,所得数据如下表所示:(参考公式:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d))参照以上公式,得到的正确结论是( )A.有95%的把握认为喜爱玩电脑嬉戏与对待作业量的看法有关B.有95%的把握认为喜爱玩电脑嬉戏与对待作业量的看法无关C.有99%的把握认为喜爱玩电脑嬉戏与对待作业量的看法有关D.有99%的把握认为喜爱玩电脑嬉戏与对待作业量的看法无关6.有两个分类变量x与y其中a,15-a均为大于5的整数,则当a=________时,有90%的把握认为x与y之间有关系.7.为了探讨患色盲是否与性别有关,随机调查了男性480人,其中有38人患色盲,女性520人,其中有6人患色盲.(1)依据以上数据建立一个2×2列联表;(2)推断患色盲是否与性别有关.关键实力综合练一、选择题1.如表是一个2×2列联表,则表中a,b的值分别为( )A.94,72B.52,50C.52,74.74,522.假设有两个分类变量X和Y,其2×2列联表如下:注:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)=n(aa+c-bb+d)·(aa+b-cc+d).对于同一样本,以下数据能说明X和Y关联性最大的一组是( )A.a=45,c=15B.a=40,c=20C.a=35,c=25D.a=30,c=303.为探讨某两个变量是否有关系,依据调查数据计算得到χ2≈15.968,所以断定这两个变量有关系的把握为( )A.90%B.95%C.99%D.100%4.两个变量X和Y,值域分别为{X1,X2}和{Y1,Y2},其样本频数分别是a=10,b=21,c+d=35,若X与Y有关联的可信程度为90%,则c=( )A.5B.6C.7D.85.某探讨所为了检验新开发的疫苗对某疾病的预防作用,对1000名注射了疫苗的人与另外1000名未注射疫苗的人的一年健康记录进行比较,并提出假设:这种疫苗不能起到预防该疾病的作用,并计算出P(χ2≥6.635)≈0.01,则下列说法正确的是( ) A.这种疫苗能起到预防该疾病的作用的有效率为1%B.若某人未运用该疫苗,则他在半年内有99%的可能性得该疾病C.有1%的把握认为这种疫苗能起到预防疾病的作用D.有99%的把握认为这种疫苗能起到预防该疾病的作用6.[易错题]在对人们的休闲方式的一次调查中,共调查了120人,其中女性65人,男性55人.女性中有40人主要的休闲方式是看电视,另外25人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外35人主要的休闲方式是运动.则认为性别与休闲方式有关系的把握大约为( )A.0.1B.0.01C.0.9D.0.99二、填空题7.为了调查患慢性支气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:依据列联表数据,求得χ≈________.(精确到0.001)8.某科研机构为了探讨中年人秃发与心脏病是否有关,随机调查了一些中年人的状况,详细数据如下表:依据表中数据得到χ2=775×(20×450-5×300)225×750×320×455≈15.968.因为χ2>6.635,则断定秃发与心脏病有关系,那么这种推断出错的可能性为________.9.有人发觉,多看手机简单使人变近视,下表是一个调查机构对此现象的调查结果:则有________的把握认为多看手机与人变近视有关系. 三、解答题 10.[探究题]某学校课题组为了探讨学生的数学成果与物理成果之间的关系,随机抽取高二年级20名学生某次考试的成果(百分制)如下表所示:(1)依据上表完成下面的2×2列联表:(2)依据题(1)中表格的数据计算,有多少的把握认为学生的数学成果与物理成果之间有关系?参考数据公式:独立性检验统计量χ2值的计算公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.学科素养升级练1.[多选题]千百年来,我国劳动人民在生产实践中依据云的形态、走向、速度、厚度、颜色等的改变,总结了丰富的“看云识天气”的阅历,并将这些阅历编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,视察了A 地区的100天日落和夜晚天气的状况,得到如下2×2列联表:并计算得到χ≈19.05,下列小波对A 地区天气推断正确的是( )A .夜晚下雨的概率约为12B .在未出现“日落云里走”的条件下,夜晚下雨的概率约为514C .有99%的把握认为“日落云里走”是否出现与当晚是否下雨有关D .出现“日落云里走”,有99%的把握认为夜晚会下雨2.对于两个变量X ,Y ,其2×2列联表如下所示.若两个变量X ①ad≈bc; ②a a +b ≈c c +d; ③c +d a +b +c +d ≈b +da +b +c +d ;④c +a a +b +c +d ≈b +da +b +c +d;⑤(a +b +c +d )(ad -bc )(a +b )(b +d )(a +c )(c +d )≈0.其中正确结论的序号是________.3.[学科素养——数据处理]某高校健康社团为调查本校高校生每周运动的时长,随机选取了80名学生,调查他们每周运动的总时长(单位:时),依据[0,5),[5,10),[10,15),[15,20),[20,25),[25,30]共6组进行统计,得到男生、女生每周运动的时长的统计如下表,规定每周运动15小时以上(含15小时)的称为“运动合格者”,其中每周运动25小时以上(含25小时)的称为“运动达人”.表1:男生每周运动的时长表2:女生每周运动的时长(1)从每周运动时长不小于20小时的男生中随机选取2人,求选到“运动达人”的概率; (2)依据题目条件,完成下面的2×2列联表,并推断能否有99%的把握认为本校高校生是否为“运动合格者”与性别有关.参考公式:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.3.1 独立性检验3.2 独立性检验的基本思想 3.3 独立性检验的应用必备学问基础练1.解析:由题意,依据2×2列联表可知:a +35=45,解得a =10,则m =a +7=10+7=17,又由35+b =73,解得b =38,则n =7+38=45,故选B .答案:B2.解析:因为a +7=c =25,6+b =d =25,a +6=e ,7+b =f ,e +f =50,所以a =18,b =19,c +d =50,e =24,f =26,e -f =-2,故选D .答案:D3.解析:对于分类变量X 与Y 的统计量χ2,χ2越大,“X 与Y 有关联”的可信程度越大;χ2越小,“X 与Y 有关联”的可信程度越小,所以选项B 正确.故选B .答案:B4.解析:有99%以上的把握认为“打鼾与患心脏病有关”的结论成立,与多少个人打鼾没有关系,只有D 选项正确,故选D .答案:D5.解析:由题意得χ2=100×(25×35-15×25)240×60×50×50≈4.17>3.841,故有95%的把握认为喜爱玩电脑嬉戏与对待作业量的看法有关.故选A .答案:A6.解析:由题意,可知要有90%的把握认为x 与y 之间有关系,则χ2>2.706,则χ2=65×[a(30+a )-(20-a )(15-a )]220×45×15×50=65×(65a -300)220×45×15×50=13×(13a -60)260×90>2.706.因为a>5且15-a>5,a∈Z ,所以a =6,7,8,9. 代入不等式验证可知8,9均满意要求,故当a 为8或9时,有90%的把握认为x 与y 之间有关系. 答案:8或97.解析:(1)建立的2×2列联表如下表所示:(2)χ2=1000×(38×514-442×6)480×520×44×956≈27.139,因为27.139>6.635,所以有99%的把握认为患色盲与性别有关.关键实力综合练1.解析:a =73-21=52,b =a +22=52+22=74.故选C. 答案:C2.解析:对于A 选项,χ2=100×(4560-1040)(4555-1545)=80033≈24.24;对于B 选项,χ2=100×(4060-1040)(4050-2050)=1006≈16.7;对于C 选项,χ2=100×(3560-1040)(3545-2555)=3200297≈10.77;对于D 选项,χ2=100×(3060-1040)(3040-3060)=254=6.25.由于A 中的χ2最大,故可以推断出,X 和Y 关联性最大.故选A.答案:A3.解析:因为χ2≈15.968>6.635,所以断定这两个变量有关联的把握为99%.故选C. 答案:C4.解析:列2×2当c =5时,d =30,此时χ2=66×(10×30-21×5)15×51×31×35≈3.024>2.706,所以c =5时,X 与Y 有关联的可信程度为90%,而其余的值皆不满意,故选A.答案:A5.解析:由P (χ2≥6.635)≈0.01,可知D 正确. 答案:D6.解析:依据所给的数据得到2×2列联表,如下:计算χ2=120×(20×25-35×40)55×65×60×60≈7.552>6.635,所以有99%的把握认为性别与休闲方式有关系.故选D.答案:D7.解析:χ2=339×(43×121-162×13)2205×134×56×283≈7.469.答案:7.4698.解析:由已知χ2>6.635,可知有99%的把握断定秃发与心脏病有关系,且这种推断出错的可能性为0.01.答案:0.019.解析:由题意题中数据可得,χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=168×(20×42-38×68)258×110×88×80≈11.377>6.635,所以有99%的把握认为多看手机与人变近视有关系. 答案:99%10.解析:(1)列联表为(2)依据上述列联表可以求得χ2=20×(5×12-1×2)6×14×7×13≈8.802>6.635,所以我们有99%的把握认为学生的数学成果与物理成果之间有关系.学科素养升级练1.解析:对于选项A ,因为夜晚下雨的天数一共有25+25=50(天),所以夜晚下雨的概率约为50100=12,故A 正确.对于选项B ,未出现“日落云里走”夜晚下雨的有25天,未出现“日落云里走”的一共有25+45=70(天),所以在未出现“日落云里走”的条件下,夜晚下雨的概率约为2570=514,故B 正确.对于选项C ,因为χ2≈19.05>6.635,所以有99%的把握认为“日落云里走”是否出现与当晚是否下雨有关,故C 正确,D 错误.故选ABC.答案:ABC2.解析:因为变量X ,Y 独立,所以aa +b +c +d ≈a +c a +b +c +d ×a +ba +b +c +d,化简得ad ≈bc ,故①⑤正确;②式化简得ad ≈bc ,故②正确;③④明显不正确.故填①②⑤.答案:①②⑤3.解析:(1)每周运动的时长在[20,25)中的男生有4人,在[25,30]中的男生有2人,从这6名男生中随机选取2人,共有C 26 =15个基本领件,其中[25,30]中至少有1人被选到的可能结果有C 14 ·C 12 +C 22 =9(个),所以选到“运动达人”的概率为915=35.(2)每周运动的时长小于15小时的男生有26人,女生有16人; 每周运动的时长不小于15小时的男生有14人,女生有24人. 可得下列2×2列联表:χ2=80×(26×24-14×16)40×40×42×38≈5.013<6.635,所以没有99%的把握认为本校高校生是否为“运动合格者”与性别有关.。
高中数学独立性检验精选题目(附解析)
高中数学独立性检验精选题目(附解析)(1)分类变量和列联表①分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.②列联表(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.(ⅱ)2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)等高条形图①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(3)独立性检验一、用2×2列联表分析两分类变量间的关系1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.解:2×2列联表如下:a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.注:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X)A.8B.9C.14D.19解析:选C由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.3.分类变量X和Y的列联表如下:则下列说法正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.4.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:为()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50 D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.5.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b=1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是二、用等高条形图分析两分类变量间的关系1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:续表考前心情不紧94381475张总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.注:利用等高条形图判断两个分类变量是否相关的步骤:2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.3.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.4.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是() A.散点图B.等高条形图C.假设检验的思想D.以上都不对解析:选B用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.三、独立性检验1.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)附:解:根据2×2k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.注:根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.2.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879(2)6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.解:(1)根据所给的二维条形图得到列联表:正确错误总计20~30岁10304030~40岁107080总计20100120k=120×(10×70-10×30)220×100×40×80=3.∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30(岁)抽取:6×40120=2(人);30~40(岁)抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.记至少有一人年龄在20~30岁为事件A,则P(A)=1-C34C36=1-420=45.故至少有一人年龄在20~30岁之间的概率为4 5.3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率解析:选C判断两个分类变量是否有关的最有效方法是进行独立性检验.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为()A.99%C.90% D.无充分证据解析:选B由2×2列联表得K2的观测值k=50×(18×15-8×9)2 27×23×26×24≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.6.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.巩固练习:1.下列关于K2的说法不正确的是()A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系B.K2的观测值k越大,两个分类变量的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.2.在某次独立性检验中,得到如下列联表:最后发现,两个分类变量没有任何关系,则a的值可能是() A.200 B.720C.100 D.180解析:选B由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).①ad≈bc;②aa+b≈cc+d;③c+da+b+c+d≈b+da+b+c+d;④c+aa+b+c+d≈b+da+b+c+d;⑤(a+b+c+d)(ad-bc)2(a+b)(b+d)(a+c)(c+d)≈0.解析:因为分类变量X,Y独立,所以aa+b ≈cc+d,化简得ad≈bc,所以①②⑤正确,③④显然不正确.答案:①②⑤4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?解:(1)设患肝病中常饮酒的人有x人,x+230=415,x=6.常饮酒不常饮酒总计患肝病628 不患肝病41822 总计102030由已知数据可求得K2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15.5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1甲流水线样本频数分布表产品质量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:甲流水线 乙流水线 总计 合格品 a =30 b =36 66 不合格品 c =10 d =4 14 总计4040n =80因为K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706, 所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
高中数学统计案例--独立性检验 例题解析
统计案例--独立性检验 例题解析【要点梳理】1、统计学提出假设0H ,采用统计量=2χ 作出判断.2、一般地,对两个研究对象I 和II ,要推断“I 与II 有关系”,其基本步骤:(1) ;(2) ;(3) .3、(1)如果观测值2χ ,那么有99.9%的把握认为“I 与II 有关系”;(2)如果观测值2χ ,那么有99%的把握认为“I 与II 有关系”;(3)如果观测值2χ ,那么有90%的把握认为“I 与II 有关系”;(4)如果观测值2χ ,那么就认为没有充分的证据显示“I 与II 有关系”,但也不能认为“Ⅰ与Ⅱ没有关系”。
【典型例题】例1、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机解:提出假设H0:性别与是否喜欢数学课程之间没有关系根据列联表中的数据,可以求得514.41781222287235851433730022≈⨯⨯⨯⨯-⨯⨯=)(χ 因为当H0成立时,841.32≥χ的概率约为0.05,所以有95%的把握认为:性别与是否喜欢数学课程之间有关系.点评:由列联表的数据可知,有%3012237≈的男生喜欢数学课程,有 %2017835≈的女生喜欢数学课程,从直观上看,性别与是否喜欢数学课程之间有关系.用2χ进行独立检验,给出这个判断的可信程度.例2、调查339名50岁以上吸烟习惯与患慢性气管炎的情况,获数据如下(2)用假设检验的思想给予证明.解:(1)根据列联表的数据,得到()()()()()c d b d c a b a bc ad n ++++-=22χ =()1342835620513162121433392⨯⨯⨯⨯-⨯⨯ =7.469>6.635.所以有99%的把握认为“吸烟与患慢性气管炎病有关”.(2)假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={}635.62≥χ的概率为P 01.0)635.6(2≈≥χ,即A 为小概率事件而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.点评:用独立性检验解决问题要抓住步骤,用好公式细心计算.例3、对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟.解:提出假设:0H :两种手术对病人又发作心脏病的影响没有差别.根据列联表中的数据,可以求得78.119619632468157291673939222≈⨯⨯⨯⨯-⨯⨯=)(χ. 当0H 成立时78.12≈χ,而072.22<χ的概率为0.85.所以,不能否定假设0H .也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.点评:本题是利用))()()(()(22d b c a d c b a bc ad n ++++-=χ,求出2χ的值,再利用临界值的大小关系来判断假设是否成立,解题时应注意准确代数与计算,不可错用公式;准确进行比较与判断.。
专题03 独立性检验(第四篇)(解析版)
备战2020年高考数学大题精做之解答题题型全覆盖高端精品第四篇概率与统计专题03 独立性检验【典例1】【2018年全国卷Ⅲ理数高考试题】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,分析:(1)计算两种生产方式的平均时间即可.(2)计算出中位数,再由茎叶图数据完成列联表.(3)由公式计算出,再与6.635比较可得结果.解:(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:(3)由于()224015155510 6.63520202020K⨯-⨯==>⨯⨯⨯,所以有99%的把握认为两种生产方式的效率有差异.【典例2】【2020届湖北省武汉市武昌区高三元月调研考试】某健身馆在2019年7、8两月推出优惠项目吸引了一批客户.为预估2020年7、8两月客户投入的健身消费金额,健身馆随机抽样统计了2019年7、8两月100名客户的消费金额,分组如下:,[200,400),,…,(单位:元),得到如图所示的频率分布直方图:(1)请用抽样的数据预估2020年7、8两月健身客户人均消费的金额(同一组中的数据用该组区间的中点值作代表);(2)若把2019年7、8两月健身消费金额不低于800元的客户,称为“健身达人”,经数据处理,现在列联表中得到一定的相关数据,请补全空格处的数据,并根据列联表判断是否有的把握认为“健身达人”与性别有关?(3)为吸引顾客,在健身项目之外,该健身馆特别推出健身配套营养品的销售,现有两种促销方案.方案一:每满800元可立减100元;方案二:金额超过800元可抽奖三次,每次中奖的概率为,且每次抽奖互不影响,中奖1次打9折,中奖2次打8折,中奖3次打7折.若某人打算购买1000元的营养品,请从实际付款金额的数学期望的角度分析应该选择哪种优惠方案.附:【分析】(1)利用频率分布直方图计算平均数即可;(2)根据题意补充列表联,由表中数据计算观测值,对照临界值得出结论;(3)分别计算选方案一、方案二所支付的金额,比较它们的大小即可.⨯=(元),解:(1)因为200620所以,预估2020年7、8两月份人均健身消费为620元.(2)列联表如下:因为22100(10302040)4.762 3.84150503070K⨯-⨯==>⨯⨯⨯,因此有的把握认为“健身达人”与性别有关系.(3)若选择方案一:则需付款900元;若选择方案二:设付款元,则可能取值为700,800,900,1000.,,,.所以(元)因为850900<,所以选择方案二更划算.【典例3】【2020届广东省东莞市高三期末调研测试】东莞的轻轨给市民出行带来了很大的方便,越来越多的市民选择乘坐轻轨出行,很多市民都会开汽车到离家最近的轻轨站,将车停放在轻轨站停车场,然后进站乘轻轨出行,这给轻轨站停车场带来很大的压力.某轻轨站停车场为了解决这个问题,决定对机动车停车施行收费制度,收费标准如下:4小时内(含4小时)每辆每次收费5元;超过4小时不超过6小时,每增加一小时收费增加3元;超过6小时不超过8小时,每增加一小时收费增加4元,超过8小时至24小时内(含24小时)收费30元;超过24小时,按前述标准重新计费.上述标准不足一小时的按一小时计费.为了调查该停车场一天的收费情况,现统计1000辆车的停留时间(假设每辆车一天内在该停车场仅停车一次),得到下面的频数分布表:以车辆在停车场停留时间位于各区间的频率代替车辆在停车场停留时间位于各区间的概率.(1)现在用分层抽样的方法从上面1000辆车中抽取了100辆车进行进一步深入调研,记录并统计了停车时长与司机性别的列联表:完成上述列联表,并判断能否有90%的把握认为“停车是否超过6小时”与性别有关?(2)(i)表示某辆车一天之内(含一天)在该停车场停车一次所交费用,求的概率分布列及期望;(ii )现随机抽取该停车场内停放的3辆车,表示3辆车中停车费用大于的车辆数,求的概率. 参考公式:,其中n a b c d =+++【思路引导】(1)先根据频数分布表填写列联表,再将数据代入公式求解即可;(2)(i )的可取值为5,8,11,15,19,30,根据频数分布表分别求得概率,进而得到分布列,并求得期望;(ii )先求得,则,进而求得概率即可 解:(1)由题,不超过6小时的频率为,则100辆车中有40辆不超过6小时,60辆超过6小时, 则列联表如下:根据上表数据代入公式可得()221002030104050079427063070604063K ⨯⨯-⨯==≈<⨯⨯⨯..所以没有超过90%的把握认为“停车是否超过6小时”与性别有关 (2)(i )由题意知:的可取值为5,8,11,15,19,30,则()()7119,302020P X P X ==== 所以的分布列为:∴(ii )由题意得,所以, 所以【典例4】【2020届山东省滨州市高三上学期期末考试】近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采用模式,其中语文、数学、外语三科为必考科目,每门科目满分均为分.另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物门科目中自选门参加考试(选),每门科目满分均为分.为了应对新高考,某高中从高一年级名学生(其中男生人,女生人)中,采用分层抽样的方法从中抽取名学生进行调查,其中,女生抽取人.(1)求的值;(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对抽取到的名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的列联表,请将下面的列联表补充完整,并判断是否有的把握认为选择科目与性别有关?说明你的理由;(3)在抽取到的名女生中,按(2)中的选课情况进行分层抽样,从中抽出名女生,再从这名女生中抽取=+++人,设这人中选择“物理”的人数为,求的分布列及期望.附:,n a b c d【思路引导】(1)根据分层抽样的特征,以及题意,得到,求解,即可得出结果;(2)根据题中数据,可直接完善列联表,根据公式求出,结合临界值表,即可得出结果;(3)从名女生中分层抽样抽名女生,所以这女生中有人选择“物理”,人选择“地理”. 名女生中再选择名女生,则这名女生中选择“物理”的人数可为,,,,,分别求出其对应的概率,即可得到分布列,求出期望. 解:(1)由题意得,解得.(2)2×2列联表为:22100(45202510)8.1289 6.63555457030K ⨯⨯-⨯=≈>⨯⨯⨯,故有的把握认为选择科目与性别有关.(3)从名女生中分层抽样抽名女生,所以这女生中有人选择“物理”, 人选择“地理”. 名女生中再选择名女生,则这名女生中选择“物理”的人数可为,,,,,设事件发生的概率为,则44491(0)126C P X C ===,1354492010(1)12663C C P X C ====,2254496010(2)12621C C P X C ====,3154494020(3)12663C C P X C ====,45495(4)126C P X C ===所以的分布列为:期望()012341261261261261269E X =⨯+⨯+⨯+⨯+⨯=. 【典例5】【广东省佛山市2019-2020学年高三教学质量检测(一)】党中央、国务院历来高度重视青少年的健康成长.“少年强则国强”,青少年身心健康、体魄强健、意志坚强、充满活力,是一个民族旺盛生命力的体现,是社会文明进步的标志,是国家综合实力的重要方面.全面实施《国家学生体质健康标准》,把健康素质作为评价学生全面健康发展的重要指标,是新时代的要求.《国家学生体质健康标准》有一项指标是学生体质指数(),其计算公式为:,当BMI 23.5>时,认为“超重”,应加强锻炼以改善.某高中高一、高二年级学生共2000人,人数分布如表(a ).为了解这2000名学生的指数情况,从中随机抽取容量为160的一个样本.表(a )(1)为了使抽取的160个学生更具代表性,宜采取分层抽样,试给出一个合理的分层抽样方案,并确定每层应抽取出的学生人数;(2)分析这160个学生的值,统计出“超重”的学生人数分布如表(b).(ⅰ)试估计这2000名学生中“超重”的学生数;(ⅱ)对于该校的2000名学生,应用独立性检验的知识,可分析出性别变量与年级变量哪一个与“是否超重”的关联性更强.应用卡方检验,可依次得到的观测值,,试判断与的大小关系.(只需写出结论)【思路引导】(1)按照高一男生、高一女生、高二男生、高二女生分层四层,然后利用分层抽样的方法确定每层的人数.(2)计算出“超重”发生的频率,用样本来估计总体的特征.解:(1)考虑到应与年级或性别均有关,最合理的分层应分为以下四层:高一男生、高一女生、高二男生、高二女生.高一男生:人;高一女生:人;高二男生:人;高二女生:人.(2)(ⅰ)160人中,“超重”人数为人,“超重”发生的频率为0.1,用样本的频率估计总体概率,估计在这2000人中,“超重”人数为人.(ⅱ).【典例6】【四川省绵阳市2019届高三第三次诊断性考试】目前有声书正受着越来越多人的喜爱.某有声书公司为了解用户使用情况,随机选取了名用户,统计出年龄分布和用户付费金额(金额为整数)情况如下图.有声书公司将付费高于元的用户定义为“爱付费用户”,将年龄在岁及以下的用户定义为“年轻用户”.已知抽取的样本中有的“年轻用户”是“爱付费用户”.(1)完成下面的列联表,并据此资料,能否有的把握认为用户“爱付费”与其为“年轻用户”有关?(2)若公司采用分层抽样方法从“爱付费用户”中随机选取人,再从这人中随机抽取人进行访谈,求抽取的人恰好都是“年轻用户”的概率..【思路引导】(1)根据题意可得列联表,然后根据表中的数据求出后与临界值表中的数据对照后可得结论.(2)根据古典概型概率公式求解可得所求概率.解:(1)根据题意可得列联表如下:由表中数据可得,所以有的把握认为“爱付费用户”和“年轻用户”有关.(2)由分层抽样可知,抽取的人中有人为“年轻用户”,记为,,,,人为“非年轻用户”,记为.则从这人中随机抽取人的基本事件有:,,,,,,,,,,共个基本事件.其中满足抽取的人均是“年轻用户”的事件有:,,,,,,共个.所以从中抽取人恰好都是“年轻用户”的概率为.1. 【山东省实验中学等四校2019届高三联合考试】随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到表(单位:人)(1)完成上表,并根据以上数据判断能否在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关?(2)①现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;②将频率视为概率,从我市所有参与调查的市民中随机抽取10人赠送礼品,记其中经常网购的人数为,求随机变量的数学期望和方差.参考公式:【思路引导】(1)完成列联表,由列联表,得2258.333 6.635 3K=≈>,由此能在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关.(2)①由题意所抽取的10名女市民中,经常网购的有人,偶尔或不用网购的有人,由此能选取的3人中至少有2人经常网购的概率.②由列联表可知,抽到经常网购的市民的频率为:,由题意100.6X B(,),由此能求出随机变量的数学期望和方差.解:(1)完成列联表(单位:人):由列联表,得:()2220050305070258.333 6.635120801001003K ⨯⨯-⨯==≈>⨯⨯⨯, ∴能在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关. (2)①由题意所抽取的10名女市民中,经常网购的有人, 偶尔或不用网购的有人,∴选取的3人中至少有2人经常网购的概率为:. ② 由列联表可知,抽到经常网购的市民的频率为:,将频率视为概率,∴从我市市民中任意抽取一人,恰好抽到经常网购市民的概率为0.6, 由题意()100.6XB ,,∴随机变量的数学期望()100.66E X =⨯=,方差D (X )=.2【辽宁省沈阳市铁路实验中学2019-2020学年高三上学期10月月考】.司机在开机动车时使用手机是违法行为,会存在严重的安全隐患,危及自己和他人的生命. 为了研究司机开车时使用手机的情况,交警部门调查了名机动车司机,得到以下统计:在名男性司机中,开车时使用手机的有人,开车时不使用手机的有人;在名女性司机中,开车时使用手机的有人,开车时不使用手机的有人.(1)完成下面的列联表,并判断是否有99.5%的把握认为开车时使用手机与司机的性别有关;(2)以上述的样本数据来估计总体,现交警部门从道路上行驶的大量机动车中随机抽检3辆,记这3辆车中司机为男性且开车时使用手机的车辆数为,若每次抽检的结果都相互独立,求的分布列和数学期望.参考公式与数据:参考公式,其中n a b c d =+++. 【思路引导】(1)根据已知数据即可得到列联表;计算出28.2497.879χ≈>,对比临界值表可得到结果;(2)由样本估计总体思想,可得到随机抽检辆,司机为男性且开车使用手机的概率为,可知,由二项分布概率公式可计算得到每个取值所对应的概率,从而得到分布列;由二项分布数学期望计算公式可得. 解:(1)由已知数据可得列联表如下:()22100402515208.2497.87960405545χ⨯⨯-⨯=≈⨯⨯⨯>有99.5%的把握认为开车时使用手机与司机的性别有关 (2)随机抽检辆,司机为男性且开车时使用手机的概率 有题意可知:可取值是,且 ;;()21232336255125P X C ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭; 则的分布列为:数学期望3,.【河北省唐山市2019-2020学年高三上学期期末】河北省高考综合改革从2018年秋季入学的高一年级学生开始实施,新高考将实行“3+1+2”模式,其中3表示语文、数学、外语三科必选,1表示从物理、历史两科中选择一科,2表示从化学、生物、政治、地理四科中选择两科.某校2018级入学的高一学生选科情况如下表:(1)完成下面的列联表,并判断是否在犯错误概率不超过0.01的前提下,认为“选择物理与学生的性别有关”?(2)以频率估计概率,从该校2018级高一学生中随机抽取3名同学,设这三名同学中选择物理的人数为,求的分布列和数学期望.附表及公式:【思路引导】(1)根据题设的数据可得列联表,计算的值后根据临界值表可得相应结论.(2)利用二项分布可求的分布列和数学期望.解:(1)依题意可得列联表将列联表中的数据代入公式计算得()2900300175300125600300425475⨯-⨯=⨯⨯⨯ 5.573 6.635≈<, 所以,不能在犯错误概率不超过0.01的前提下认为“选择物理与学生的性别有关”.(2)由(1)可知,从该校2018级高一学生中任取一名同学,该同学选择物理的概率,可取0,1,2,3. ,, ,.的分布列为:()124801232279927E X =⨯+⨯+⨯+⨯=. 4.【辽宁省辽阳市2019-2020学年高三上学期期末】某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.(1)根据以上数据完成列联表,并判断是否有的把握认为购买金额是否少于60元与性别有关.(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为(每次抽奖互不影响,且的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数(元)的分布列并求其数学期望.附:参考公式和数据:,n a b c d=+++. 附表:【思路引导】(1)完善列联表,计算214403.841 247K=>得到答案.(2)先计算,分别计算,,,,得到分布列,计算得到答案.解:(1)列联表如下:,因此有的把握认为购买金额是否少于60元与性别有关.(2)可能取值为65,70,75,80,且.,,,,所以的分布列为.5.【广东省阳春市第一中学2018届高三上学期第三次月考】某公司即将推车一款新型智能手机,为了更好地对产品进行宣传,需预估市民购买该款手机是否与年龄有关,现随机抽取了50名市民进行购买意愿的问卷调查,若得分低于60分,说明购买意愿弱;若得分不低于60分,说明购买意愿强,调查结果用茎叶图表示如图所示.(1)根据茎叶图中的数据完成列联表,并判断是否有95%的把握认为市民是否购买该款手机与年龄有关?(2)从购买意愿弱的市民中按年龄进行分层抽样,共抽取5人,从这5人中随机抽取2人进行采访,求这2人都是年龄大于40岁的概率.附:.试题分析:(1)由茎叶图能完成列联表,由列联表求出2 3.46 3.841K≈<,从而得到没有的把握认为市民是否购买该款手机与年龄有关.(2)购买意愿弱的市民共有20人,抽样比例为,所以年龄在20~40岁的抽取了2人,记为,年龄大于40岁的抽取了3人,记为,列出所有可能的情况,由古典概型可求其概率.解析:(1)由茎叶图可得:由列联表可得:.所以,没有95%的把握认为市民是否购买该款手机与年龄有关.(2)购买意愿弱的市民共有20人,抽样比例为,所以年龄在20~40岁的抽取了2人,记为年龄大于40岁的抽取了3人,记为,从这5人中随机抽取2人,所有可能的情况为,,,,,,,,,,共10种,其中2人都是年龄大于40岁的有,,3种,所以概率为.6.【广西柳州市2019届高三毕业班1月模拟】我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施.其中一项是为了减少燃油汽车对大气环境污染.从2018年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车.政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高.所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高.有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行.满分分,将分数按照分成5组,得如下频率分布直方图.(1)若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,把得分不少于分为满意.根据提供的条件数据,完成下面的列联表.并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?(2)以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元.但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元.则购买外地产的新能源汽车每台最多补贴多少万元?=+++.附:,其中n a b c d【思路引导】(1)利用频率分布直方图可求出列联表中数据,代入公式即可求出,然后与表中数据比较即可判断;(2)设购买新能源汽车的补贴每台为万元,则或,分别求出对应概率,即可得到对应的分布列,进而表示出期E x≤,解不等式即可。
【知识点解析】配套例题——独立性检验
独立性检验例1 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表8.3-2中的数据,计算得到χ2=()288337103843457117⨯⨯-⨯⨯⨯⨯≈0.837<2.706=x0.1.根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.例2 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.表8.3-5单位:人根据列联表中的数据,经计算得到χ2=()21361563526676921115⨯⨯-⨯⨯⨯⨯≈4.881<7.879=x0.005.根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.例3 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9 965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.表8.3-6单位:人解:零假设为H0:吸烟与患肺癌之间无关联.根据列联表中的数据,经计算得到χ2=()2996577754942209978172148987491⨯⨯-⨯⨯⨯⨯≈56.632>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.根据表8.3-6中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为7775 7817≈0.994 6和427817≈0.005 4;吸烟者中不患肺癌和患肺癌的频率分别为2099 2148≈0.977 2和492148≈0.022 8.由0.02280.0054≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.。
独立性检验例题
以在犯错误的概率不超过0.01的前提下认为该地区的老年人
是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知,该地区的老年人是否需要志愿者提供帮助 与性别有关,并且从样本数据能看出该地区男性老年人与女 性老年人中需要帮助的比例有明显差异,因此在调查时,先 确定该地区老年人中男、女的比例,再把老年人分成男、女 两层并采用分层抽样方法,这比采用简单随机抽样方法更好.
4.根据下表计算k≈_____.
【解析】根据列联表中的数据得K2的观测值
nadbc2
39239167157292
kabcdac(bd) 19619668324
≈1.78.
答案:1.78
5.运动员参加比赛前往往做热身运动,下表是一体育运动的 研究机构对160位专业运动员追踪而得的数据,试问:由此数 据,你认为运动员受伤与不做热身运动有关吗?
【解析】选C.由K2的计算公式可知,(ad-bc)2越大,则K2越 大,故相关关系越强.
3.若由一个2×2列联表中的数据计算得K2=4.013,则两个变 量有关系的概率为_____. 【解析】因随机变量K2的观测值k=4.013>3.841.所以在犯 错误的概率不超过0.05的前提下,认为两个变量有关系. 答案:0.95
独立性检验例题
分类变量关系的分析
1.判断分类变量及其关系的方法: (1)利用数形结合思想,借助等高条形图来判断两个分类变量 是否相关是判断变量相关的常见方法. (2)一般地,在等高条形图中, a 与 c 相差越大,两个
ab cd
分类变量有关系的可能性就越大.
2.分析分类变量关系的步骤: (1)作大量的调查、研究,统计出结果. (2)列出列联表利用频率粗略估计. (3)作出等高条形图,从直观上进一步判断分类变量之间的关 联关系.
统计案例——独立性检验( 讲义 修改版 附详解答案)
第二讲 统计案例 ——独立性检验一.独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为参考公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++3.独立性检验:利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验.4.独立性检验的步骤①计算随机变量2K 的观测值k ,查表确定临界值k 0②如果k ≥0k ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (2K ≥0k );否则,就认为在犯错误的概率不超过P (2K ≥0k )的前提下不能推断“X 与Y 有关系”. 对点练习:通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:计算得2211040302020K 7.860506050⨯⨯-⨯=≈⨯⨯⨯()正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关” B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【题型讲解】考点一 独立性检验【1-1】,,A B C 三个班共有100名学生,为调查他们的体育锻炼情况,通过分层抽样获得了部分(1)试估计班的学生人数;(2) 从A 班和C 班抽出的学生中,各随机选取一人,A 班选出的人记为甲,C 班选出的人记为乙,假设所有学生的锻炼时间相对独立,求该周甲的锻炼时间比乙的锻炼时间长的概率; (3)再从,,A B C 三个班中各随机抽取一名学生,他们该周的锻炼时间分别是7,9,8.25(单位:小时),这3个新数据与表格中的数据构成的新样本的平均数记为1μ,表格中数据的平均数记为0μ ,试判断0μ和1μ的大小,(结论不要求证明).【1-2】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:则可以说其亲属的饮食习惯与年龄有关的把握为( )A .90% B .95% C .99% D .99.9%【变式训练1】某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生根据表中数据得到()22501320107 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯,已知()2 3.8410.05P χ≥≈,()2 5.0240.025P χ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为( )A. 97.5% B. 95% C. 2.5% D. 5% 【变式训练2】2018年1月22 日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15-75岁之间的100人进行调查,经统计“青少年”与“中老年”的人数之比为9: 11.(1)根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”;【易错典题】为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查喜爱打篮球 不喜爱打篮球 合计 男生 5 女生 10 合计50已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35.(1)请将上表补充完整(不用写计算过程);(2)能否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.下面的临界值表供参考:考点三 分层训练A 基础巩固训练1.若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( )A. 变量x 和y 是正相关,变量u 和v 是正相关B. 变量x 和y 是正相关,变量u 和v 是负相关C. 变量x 和y 是负相关,变量u 和v 是负相关D. 变量x 和y 是负相关,变量u 和v 是正相关 2.假设有两个分类变量和的列联表为:1y 2y总计1xa 10 10a +2xc30 30c + 总计6040100对同一样本,以下数据能说明与有关系的可能性最大的一组为( )A. 45,15a c ==B. 40,20a c ==C. 35,25a c ==D. 30,30a c ==数学成绩较好 数学成绩一般 合计 物理成绩较好 18 7 25 物理成绩一般 6 19 25 合计242650由22()()()()()n ad bc K a b c d a c b d -=++++,解得2250(181967)11.525252426K ⨯⨯-⨯=≈⨯⨯⨯ 得到的正确结论是( )(A )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩有关” (B )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩无关” (C )有00100的把握认为“数学成绩与物理成绩有关” (D )有0099以上的把握认为“数学成绩与物理成绩无关”4.某校迎新晚会结束后,学校就观众是否喜欢歌舞类节目进行了调查.(1)学校从观看晚会的5名观众,,,,A B C D E 中随机抽取2人进行访谈,求观众A 和B 至少有1人被抽中的概率.(2)学校从现场抽取100名观众进行调查,经数据处理后得到下列图表:图甲:男性与女性观众不喜欢歌舞 图乙:男性观众中不喜欢歌舞节目的人数分布统计图 节目的人数分布统计图请根据上述图表的数据信息,完成下列22⨯列联表的填写,并说明有多大的把握认为“是否喜欢歌舞类节目和性别有关”.5.为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,如下: 女生:睡眠时间(小时) [)4,5[)5,6 [)6,7 [)7,8 []8,9人数 248 4 2男生:睡眠时间(小时) [)4,5[)5,6 [)6,7 [)7,8 []8,9人数15653(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率; (2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?睡眠时间少于7小时 睡眠时间不少于7小时 合计 男生 女生 合计B 能力提升训练1. 在独立性检验中,统计量2χ有两个临界值:3.841和6.635.当2 3.841χ>时,有95%的把握说明两个事件有关,当2 6.635χ>时,有99%的把握说明两个事件有关,当2 3.841χ≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算220.87χ=.根据这一数据分析,认为打鼾与患心脏病之间( )(A )有95%的把握认为两者有关 (B )约有95%的打鼾者患心脏病(C )有99%的把握认为两者有关 (D )约有99%的打鼾者患心脏病2.甲、乙、丙、丁四位同学各自对,A B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲 乙 丙 丁 r0.820.780.690.85m106 115 124 103则哪位同学的试验结果体现,A B两变量有更强的线性相关性()A. 甲B. 乙C. 丙D. 丁3.对某校900名学生每周的运动时间进行调查,其中男生有540名,女生有360名,根据性别利用分层抽样的方法,从这900名学生中选取60名学生进行分析,统计数据如下表(运动时间单位:小时)男生运动时间统计:女生运动时间统计:(1)计算,x y的值;(2)若每周运动时间不低于6小时的同学称为“运动爱好者”,每周运动时间低于6小时的同学称为“非运动爱好者”,根据以上统计数据填写下面的22列联表,能否在犯错误的概率不超过0.025的前提下认为“‘运动爱好者’ 与性别有关”?4.为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的45;不吸烟的人数中,患肺癌与不患肺癌的比为1:4.(1)若吸烟不患肺癌的有人,现从患肺癌的人中用分层抽样的方法抽取人,再从这人中随机抽取人进行调查,求这两人都是吸烟患肺癌的概率;(2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?C 思维拓展训练1.【改编题】在性别与吃零食这两个分类变量的计算中,下列说法正确的是()A. ①②B.②③C. ①③D.②①若K2的观测值k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.2.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;③对分类变量X与Y的随机变量k2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.其中真命题的个数为()A. 3 B.2 C.1 D.03.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:喜欢数学课不喜欢数学课合计男30 60 90女20 90 110合计50 150 200经计算K≈6.06,根据独立性检验的基本思想,约有_________ (填百分数)的把握认为“性别与喜欢数学课之间有关系”.4.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:专业性别非统计专业统计专业男13 10 女7 20为了判断主修统计专业是否与性别有关系,根据表中的数据,计算得到2χ=_____(保留三位小数),判定__________(填“有”或“没有”)95%的把握认为主修统计专业与性别有关系.5. 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的频率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22⨯的列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附表:22()()()()().n ad bcKa b c d a c b d-=++++答案一.独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1 y2 总计公式22Kn ad bca b c d a c b d-=++++()()()()(),其中n=a+b+c+d为样本容量.3.独立性检验:利用随机变量2K来判断“两个分类变量有关系”的方法称为独立性检验.4.独立性检验的步骤①计算随机变量2K的观测值k,查表确定临界值k0②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(2K≥k0);否则,就认为在犯错误的概率不超过P(2K≥k0)的前提下不能推断“X与Y有关系”.对点练习:通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:由22Kn ad bca b c d a c b d-=++++()()()()(),计算得2211040302020K7.860506050⨯⨯-⨯=≈⨯⨯⨯()正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 【答案】【题型讲解】考点一 独立性检验【1-1】,,A B C 三个班共有100名学生,为调查他们的体育锻炼情况,通过分层抽样获得了部分学生一周的锻炼时间,数据如下表(单位:小时);A 班 6 6.5 7 7.5 8B 班6 7 8 9 10 11 12C 班3 4.5 6 7.5 9 10.5 12 13.5(1)试估计C 班的学生人数;(2) 从A 班和C 班抽出的学生中,各随机选取一人,A 班选出的人记为甲,C 班选出的人记为乙,假设所有学生的锻炼时间相对独立,求该周甲的锻炼时间比乙的锻炼时间长的概率; (3)再从,,A B C 三个班中各随机抽取一名学生,他们该周的锻炼时间分别是7,9,8.25(单位:小时),这3个新数据与表格中的数据构成的新样本的平均数记为1μ,表格中数据的平均数记为0μ ,试判断0μ和1μ的大小,(结论不要求证明). 【答案】(1)40(2)38(Ⅲ)10μμ< 【解析】(1)由题中的表可知,在A 班,B 班,C 班中被调查的人数分别是5,7,8,再由分层抽样的方法可知,C 班的学生人数估计值是810040578⨯=++.(3)10μμ<.因为表格中三组数据的平均数分别为7,9,8.25,所以总的的平均值,08.2μ=. 新加的三个数据7,9,8.25,平均值为8.08,比0μ小,所以拉低了平均值,即10μμ<. 【1-2】某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下22⨯列联表:偏爱蔬菜 偏爱肉类 合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030则可以说其亲属的饮食习惯与年龄有关的把握为( )A .90% B .95% C .99% D .99.9% 【答案】C【变式训练1】某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生 理科 文科 合计 男 13 10 23 女 7 20 27 合计203050根据表中数据得到()22501320107 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯,已知()2 3.8410.05P χ≥≈,()2 5.0240.025P χ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为( )A. 97.5% B. 95% C. 2.5% D. 5% 【答案】D【解析】2 4.844 3.841K ≈> ,而()2 3.8410.05P K ≥≈,这种判断出错的可能性约为5% ,选D.【变式训练2】2018年1月22 日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15-75岁之间的100人进行调查,经统计“青少年”与“中老年”的人数之比为9: 11.(1)根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”;(2)现从抽取的青少年中采用分层抽样的办法选取9人进行问卷调查.在这9人中再选取3人进行面对面询问,记选取的3人中关注“国际教育信息化大会”的人数为X ,求X 的分布列及数学期望. 附:参考公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:【答案】(1)列联表见解析,有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.(2)分布列见解析, ()1E X =【解析】试题分析:(Ⅰ)根据统计数据,可得2×2列联表,根据列联表中的数据,计算K 2的值,即可得到结论;(Ⅱ)ξ的可能取值有0,1,2,3,求出相应的概率,可得ξ的分布列及数学期望. 试题解析:解:(1)依题意可知,抽取的“青少年”共有91004520⨯=人,“中老年”共有1004555-=人. 完成的22⨯列联表如下:则()()()()()22n ad bc K a b c d a c b d -=++++ ()2100303520159.0915*******⨯⨯-⨯=≈⨯⨯⨯,因为()2 6.6350.01,9.091 6.635P K >=>,所以有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.【易错典题】为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查喜爱打篮球不喜爱打篮球合计男生 5女生10合计50已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35.(1)请将上表补充完整(不用写计算过程);(2)能否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.下面的临界值表供参考:(参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)易错分析:解答此类问题,主要有两类错误,一是不能正确理解临界值表;二是因计算繁琐,出现错误.温馨提醒:(1)独立性检验是近几年考查渐多的知识点之一,学习中应重视,不能因高考题难度不大而“轻敌”.(2)摆脱对计算器的依赖,多做一些计算训练,提高计算能力. 考点三 分层训练A 基础巩固训练1.【云南省昆明一中2018届高三第一次摸底测试】若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( ) A. 变量x 和y 是正相关,变量u 和v 是正相关 B. 变量x 和y 是正相关,变量u 和v 是负相关 C. 变量x 和y 是负相关,变量u 和v 是负相关 D. 变量x 和y 是负相关,变量u 和v 是正相关 【答案】D【解析】变量x 增加,变量y 减少,所以变量x 和y 是负相关;变量u 增加,变量v 增加,所以变量u 和v 是正相关,因此选D.2.【2017届湖南省邵阳市高三下学期第二次联考】假设有两个分类变量X 和Y 的22 列联表为:1y 2y总计对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( )A. 45,15a c ==B. 40,20a c ==C. 35,25a c ==D. 30,30a c == 【答案】A【解析】由题意可得,当10a a +与30cc +相差越大,X 与Y 有关系的可能性最大,分析四组选项,A 中的a,c 的值最符合题意,故选A.3.对某班级50名学生学习数学与学习物理的成绩进行调查,得到如下表所示:由22()()()()()n ad bc K a b c d a c b d -=++++,解得2250(181967)11.525252426K ⨯⨯-⨯=≈⨯⨯⨯参照附表,得到的正确结论是( )(A )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩有关” (B )在犯错误的概率不超过000.1的前提下,认为“数学成绩与物理成绩无关” (C )有00100的把握认为“数学成绩与物理成绩有关” (D )有0099以上的把握认为“数学成绩与物理成绩无关” 【答案】A4.某校迎新晚会结束后,学校就观众是否喜欢歌舞类节目进行了调查.(1)学校从观看晚会的5名观众,,,,A B C D E 中随机抽取2人进行访谈,求观众A 和B 至少有1人被抽中的概率.(2)学校从现场抽取100名观众进行调查,经数据处理后得到下列图表:图甲:男性与女性观众不喜欢歌舞 图乙:男性观众中不喜欢歌舞 节目的人数分布统计图 节目的人数分布统计图请根据上述图表的数据信息,完成下列22⨯列联表的填写,并说明有多大的把握认为“是否喜欢歌舞类节目和性别有关”.注:()()()()()22n ad bc K a b a d a c b d -=++++【答案】(1)107;(2)列联表见解析,有0090的把握认为喜欢歌舞类节目和性别有关. 【解析】试题解析:(1)从5名观众中任取2名,共有,,,,,,,,,AB AC AD AE BC BD BE CD CE DE10种不同的取法,,A B至少有1人被抽中共有7种,所以710 P=.(2)男性不喜欢歌舞节目的共有4人,所以男性共有42020=人,其中喜欢歌舞节目的有20416-=人,女性不喜欢歌舞节目的共有6人,喜欢歌舞节目的有10020674--=人,22∴⨯列联表如下图:()221001667442.7820809010k⨯-⨯==⨯⨯⨯因为2.782,706>,所以有090的把握认为喜欢歌舞类节目和性别有关.5.为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,如下: 女生:睡眠时间(小时) [)4,5[)5,6[)6,7[)7,8[]8,9人数24842男生:睡眠时间(小时) [)4,5[)5,6[)6,7[)7,8[]8,9人数1 5 6 5 3(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率;(2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?睡眠时间少于7小时 睡眠时间不少于7小时 合计 男生 女生 合计2()0.150.100.050.0250.0100.0050.0012.072 2.7063.841 5.024 6.6357.87910.828P K k k ≥(22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)35;(2)没有把握. 【解析】试题分析:本小题主要考查学生对概率知识的理解,以及统计案例的相关知识,同时考查学生的数据处理能力,考查学生的分析问题解决问题的能力、转化能力、计算能力.第一问,根据题意知,“睡眠严重不足”的有2人,睡眠时间在[5,6)的有4人,在这6人中选2人,把所有人都用字母表示,写出所有情况,在所有情况中选出符合题意的情况共12种,最后计算概率;第二问,第二问,利用2k 的公式计算,再查表进行比较大小即可判断.(2)睡眠少于7小时 睡眠不少于7小时 合计 男生 12 8 20 女生 14 6 20 合计261440220(126148)400.440 2.7062026142091k ⨯-⨯==≈<⨯⨯⨯所以没有90%的把握认为“睡眠时间与性别有关”B 能力提升训练1.某同学利用课余时间做了一次社交软件使用习惯调查,得到22⨯列联表如下:则下列结论正确的是( )A. 在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B. 在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C. 在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D. 在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关 【答案】A 【解析】()2230421681020101218K ⨯-⨯==⨯⨯⨯ ,由于6.6351010828<<,可以认为在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,选A .2. 在独立性检验中,统计量2χ有两个临界值:3.841和6.635.当2 3.841χ>时,有95%的把握说明两个事件有关,当2 6.635χ>时,有99%的把握说明两个事件有关,当2 3.841χ≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算220.87χ=.根据这一数据分析,认为打鼾与患心脏病之间( )(A )有95%的把握认为两者有关 (B )约有95%的打鼾者患心脏病 (C )有99%的把握认为两者有关 (D )约有99%的打鼾者患心脏病 【答案】C【解析】比较估计值与临界值的关系20.87 6.635>,因此可以说有有99%的把握说明两个事件有关3.甲、乙、丙、丁四位同学各自对,A B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.82 0.78 0.69 0.85m106 115 124 103则哪位同学的试验结果体现,A B两变量有更强的线性相关性()A. 甲B. 乙C. 丙D. 丁【答案】D4.对某校900名学生每周的运动时间进行调查,其中男生有540名,女生有360名,根据性别利用分层抽样的方法,从这900名学生中选取60名学生进行分析,统计数据如下表(运动时间单位:小时)男生运动时间统计:女生运动时间统计:(1)计算,x y的值;(2)若每周运动时间不低于6小时的同学称为“运动爱好者”,每周运动时间低于6小时的同列联表,能否在犯错误的概率不学称为“非运动爱好者”,根据以上统计数据填写下面的22超过0.025的前提下认为“‘运动爱好者’ 与性别有关”?【答案】(1)12x =,10y =;(2)列联表见解析,能在犯错不超过0.025的前提下认为“‘运动爱好者’与性别有关”.试题解析:(1)由题意,男生应该选取36名,女生应选取24名,故12x =,10y =; (2)由题意得,2260(2416812) 6.4336243228K ⨯⨯-⨯=≈⨯⨯⨯,因为6.43 5.024>,故在犯错不超过0.025的前提下认为“‘运动爱好者’与性别有关” .5.为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的45;不吸烟的人数中,患肺癌与不患肺癌的比为1:4.(1)若吸烟不患肺癌的有人,现从患肺癌的人中用分层抽样的方法抽取人,再从这人中随机抽取人进行调查,求这两人都是吸烟患肺癌的概率;男生 女生 合计运动爱好者24 8 32 非运动爱好者 12 1628合计36 2460(2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少? 附: ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()0P K k ≥ 0.100 0.050 0.010 0.001 0k2.7063.8416.63510.828【答案】(1)35;(2)吸烟人数至少为20人. 【解析】试题分析:(1)先求出吸烟的人有20人,按比例可得其中肺癌的有16人,不患肺癌的有4人,按分层抽样的定义可得抽取的5人中,4人患病,1人不患病,利用列举法可得抽取方式共有10种,都患病的6种,由概率计算公式可得结果;(2)设吸烟人数为5x ,列出22⨯列联表,由表计算出2 3.6K x =,根据表得3.610.828x ≥,解出x 即可得最后结果.(2)设吸烟人数为5x ,由题意可得列联表如下:患肺癌不患肺癌合计吸烟 4xx5x不吸烟 x4x 5x 总计5x5x10x由表得, ()()222241016 3.65x x xK x x -==,由题意3.610.828x ≥,∴ 3.008x ≥,x ,即吸烟人数至少为20人.∵x为整数,∴x的最小值为4.则520C 思维拓展训练1.【改编题】在性别与吃零食这两个分类变量的计算中,下列说法正确的是()A. ①②B.②③C. ①③D.②①若K2的观测值k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.【答案】D【解析】①若k>=6.635,我们有99%的把握认为吃零食与性别有关系,不表示有99%的可能女性,故①不正确.②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%,所以②正确.③若从统计量中求出有99%的把握认为吃零食与性别有关系,不表示有1%的可能性使得推断出现错误,故③不正确.故答案为D.2.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;③对分类变量X与Y的随机变量k2的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大.其中真命题的个数为()A. 3 B.2 C.1 D.0【答案】C3.为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:喜欢数学课不喜欢数学课合计男30 60 90女20 90 110合计50 150 200经计算K2≈6.06,根据独立性检验的基本思想,约有_________ (填百分数)的把握认为“性别与喜欢数学课之间有关系”.【答案】97.5%.4.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:专业性别非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中的数据,计算得到2χ=_____(保留三位小数),所以判定__________(填“有”或“没有”)95%的把握认为主修统计专业与性别有关系. 【答案】4.844,有。
高中数学9-2独立性检验1苏教版选择性必修第二册
数学建构
为了便于研究一般情况,我们将数据用字母代替,得到字母表示的 2×2 列
联表.
患病
未患病
合计
吸烟
a
不吸烟
c
b
a+b
d
c+d
合计
a+c
b+d
a+b+c+d
如果实际观测值与在事件 A,B 相互独立的假设下的估计值相差不“大”,
那么我们就可以认为这些差异是由随机误差造成的,假设 H0 不能被所给数据否 定;否则,应认为假设 H0 不能接受.
根据这些数据能否断定:患呼吸道疾病与吸烟有关?
学生活动
为了研究这个问题,我们将数据用下表表示(单位
183
220
不吸烟
21
274
295
合计
58
457
515
这样的表格称为 2×2 列联表.由此表可以粗略地估计出:在吸烟的人中,有
37 ≈16.82%的人患病;在不吸烟的人中有 21 ≈7.12%的人患病.因此,从直
课堂练习
1.某桑场为了解职工发生皮炎是否与采桑有关,对其工作人员进行了一次
调查,结果如下表.问:发生皮炎是否与采桑有关?
患皮炎 未患皮炎 合计
采桑 18 4 22
不采桑 12 78 90
合计 30 82 112
课堂练习
2.为了鉴定新疫苗的效力,将 60 只豚鼠随机地分为两组,在其中一组接种
疫苗后,两组都注射了病源菌,其结果列于下表.问:能否有 90%的把握认为新
数学建构
现在的2=11.8634>6.635,由(2)式可知出现这样的观测值2 的概率不超 过 0.01.因此,我们有 99%的把握认为 H0 不成立,即有 99%的把握认为“患呼 吸道疾病与吸烟有关系”.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验典型题例解析
所谓独立性检验,就是要把采集样本的数据,利用公式计算2
k 的值,比较与临界值的大小关系,来判定事件A 与B 是否无关的问题。
具体步骤:(1)采集样本数据。
(2)由 22
()()()()()
n ad bc K a d c d a c b d -=++++ 计算2K 的值。
(3)统计推断,当2K >3.841时,有95%的把握说事件A 与B 有关;当2
K >6.635时,有99%的把握说事件A 与B 有关;当2
K ≤3.841时,认为事件A 与B 是无关的。
附临界值参考表:
P (K 2≥x 0)
0.10 0.05 0.025 0.10 0.005 0.001 x 0
2.706
3.841
5.024
6.635
7.879
10.828
下面我们通过几个典型例题对独立性检验问题进行剖析,使同学们进一步掌握这类问题的研究方法。
例1、为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
根据上述数据试问色盲与性别是否是相互独立的? 分析:问题归结为二元总体的独立性检验问题。
解:由已知条件可得下表
男 女 合计 正常 442 514 956 色盲 38 6 44 合计
480
520
1000
依据公式22
()()()()()n ad bc K a d c d a c b d -=++++得2
k =()520
4804495651438644210002
⨯⨯⨯⨯-⨯=27.139。
由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以
认为色盲与性别不是相互独立的。
评注:根据假设检验的思想,比较计算出的2
k 与临界值的大小,选择接受假设还是拒绝假设。
男 女
正常
442 514 色盲
38 6
变式引申1:为了研究患慢性气管炎与吸烟量的关系,调查了228人,其中每天的吸烟支数在10支以上20支以下的调查者中,患者人数有98人,非患者人数有89人;每天的吸烟支数在20支以上的调查者中,患者人数有25人,非患者人数有16人。
试问患慢性气管炎是否与吸烟量互相独立?
分析:即求独立性检验问题。
例2、某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。
其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。
根据上面的数据,你能得出什么结论?
分析:转化为二元独立性检验问题。
解:由已知数据得到下表
合格品不合格品合计
设备改造后65 30 95
设备改造前36 49 85
合计101 79 180
根据公式
()2
11221221
2
1212
n n n n n
k
n n n n
++++
-
=
+++
得
()
79
101
85
95
30
36
49
65
1802
⨯
⨯
⨯
⨯
-
⨯
≈12.38。
由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。
变式引申2:考察黄烟经过培养液处理与否跟发生青花病的关系。
调查了457株黄烟,得到下表中数据,请根据数据作统计分析。
培养液处理未处理合计
青花病25 210 235
无青花病80 142 222
合计105 352 457
利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测。
因此,在学习中通过统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题中的应用,以提高我们处理生活和工作中的某些问题的能力。