列联表和等高条形图的应用-学易试题君之每日一题君2018学年下学期高二数学(文)人教版(课堂同步系列一)
2023-2024学年重庆市高二(下)期末数学试卷(含答案)
2023-2024学年重庆市高二(下)期末考试数学试卷一、单选题:本题共8小题,每小题5分,共40分。
在每小题给出的选项中,只有一项是符合题目要求的。
1.已知f′(x)是函数f(x)的导函数,则满足f′(x)=f(x)的函数f(x)是( )A. f(x)=x 2B. f(x)=e xC. f(x)=lnxD. f(x)=tanx2.如图是学校高二1、2班本期中期考试数学成绩优秀率的等高堆积条形图,如果再从两个班中各随机抽6名学生的中期考试数学成绩统计,那么( )A. 两个班6名学生的数学成绩优秀率可能相等B. 1班6名学生的数学成绩优秀率一定高于2班C. 2班6名学生中数学成绩不优秀的一定多于优秀的D. “两班学生的数学成绩优秀率存在差异”判断一定正确3.对于函数f(x)=x 3+bx 2+cx +d ,若系数b ,c ,d 可以发生改变,则改变后对函数f(x)的单调性没有影响的是( )A. bB. cC. dD. b ,c4.某地根据以往数据,得到当地16岁男性的身高ycm 与其父亲身高xcm 的经验回归方程为y =1417x +29,当地人小王16岁时身高167cm ,他父亲身高170cm ,则小王身高的残差为( )A. −3cmB. −2cmC. 2cmD. 3cm5.若函数f(x)=(x 2+bx +1)e x ,在x =−1时有极大值6e −1,则f(x)的极小值为( )A. 0B. −e −3C. −eD. −2e 36.甲、乙、丙、丁、戊五个人站成一排照相,若甲不站最中间的位置,则不同的排列方式有( )A. 48种B. 96种C. 108种D. 120种7.若王阿姨手工制作的工艺品每一件售出后可以获得纯利润4元,她每天能够售出的工艺品(单位:件)均值为50,方差为1.44,则王阿姨每天能够获得纯利润的标准差为( )A. 1.2B. 2.4C. 2.88D. 4.88.若样本空间Ω中的事件A 1,A 2,A 3满足P(A 1)=P(A 1|A 3)=14,P(A 2)=23,P(−A 2|A 3)=25,P(−A 2|−A 3)=16,则P(A 1−A 3)=( )A. 114B. 17C. 27D. 528二、多选题:本题共3小题,共18分。
【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37
列联表与独立性检验 高二下学期数学人教A版(2019)选择性必修第三册
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是 否互相影响,常用等高堆积条形图展示列联表数据的频率特征.
你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能
“两校学生的数学成绩优秀率存在差异 ”这个结论是根据两个频率间存在差异推断出 来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但 两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随 机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时, 犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法, 同时也希望能对出 现错误推断的概率有一定的控制或估算.
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对 于Ω中每一名学生,定义分类变量X和Y如下:
X
=
[ { l
0, 该生来 自 甲校, ,
1,该生来 自 乙校,
学校
数学成绩
不优秀 Y=
优
=
合计
[0, 该生数学成绩不优秀,
甲校 (
Y = { l 1 ,该生数学成绩优秀,
乙校(X 1) 合计
用χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成 立,否则认为H0成立。这种利用χ2 的取值推断分类变量X和Y是否独立的方法称为χ2
4.临界值的定义
对于任何小概率值α , 可以找到相应的正实数xα , 使得P(x≥xα)=α成立,我们称xα为 α 的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
高中数学选择性必修三 8 3 分类变量与列联表(精练)(含答案)
8.3 分类变量与列联表(精练)【题组一列联表】1.(2020·全国)为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过()A.0.001 B.0.01 C.0.99 D.0.999【答案】B【解析】k=7.069>6.635,对照表格,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过0.01,故选:B.2.(2020·全国高二单元测试)在一次对性别与是否说谎有关的调查中,得到如下数据,说法正确的是()A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有95%的把握认为是否说谎与性别无关C.在此次调查中有99%的把握认为是否说谎与性别有关D.在此次调查中没有充分证据显示说谎与性别有关【答案】D【解析】由表中数据得2230(6987)14161317K⨯⨯-⨯=⨯⨯⨯≈0.002 42<3.841.因此没有充分证据认为说谎与性别有关,故选:D.3.(2020·全国)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=2()()()()()n ad bca b c d a c c d-++++,算得K2=2110(40302020)60506050⨯⨯-⨯⨯⨯⨯≈7.822.附表:参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”【答案】C【解析】根据独立性检验的定义,由27.822 6.635K≈>,可知我们在犯错误的概率不超过0.01的前提下,有99%以上的把握认为“爱好该项运动与性别有关”.故选:C.4.(2020·全国高二课时练习)某中学共有5000人,其中男生有3500人,女生有1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们()A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D.有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”【答案】B【解析】由题意得,男生、女生各抽取的人数为35001500 300210,30090 50005000⨯=⨯=,又由频率分布直方图可知,每周平均体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周平均体育锻炼时间超过4小时的人数为3000.75225⨯=,又有60位女生的每周平均体育锻炼时间超过4小时,所以男生每周平均体育锻炼时间超过4小时的人数为22560165-=,可得如下的22⨯列联表:结合列联表可得22300(456016530)4.762 3.8412109075225Κ⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”,故选:B.5.(2020·全国高二课时练习)通过随机询问100名性别不同的大学生是否爱好踢毽子,得到如下的列联表:附表:)2k随机变量22()()()()()n ad bcXa b c d a c b d-=++++,经计算2 4.762X≈,参照附表,下列结论正确的是()A.在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别有关”B.在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别无关”C.有99%以上的把握认为“是否爱好踢毽子与性别有关”D.有99%以上的把握认为“是否爱好踢毽子与性别无关”【答案】A【解析】2 4.762 3.841X≈>,则参照题中附表,可得在犯错误的概率不超过5%的前提下,认为“是否爱好踢毽子与性别有关”或有95%以上的把握认为“是否爱好踢毽子与性别有关”.故选:A.6.(2020·全国高二单元测试)现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20名市民,得到如下22⨯列联表:附:22(),()()()()n ad bcK n a b c da b c d a c b d-==+++++++.)2k0.12.706根据表中的数据,下列说法中正确的是()A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”B.有99%以上的把握认为“是否认可与城市的拥堵情况有关”C.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”D.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”【答案】D【解析】由题意,根据22⨯列联表中的数据,得2240(131557)6.46518222020K⨯⨯-⨯=≈⨯⨯⨯,又3.841 6.465 6.635<<,所以可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”.故选:D.7.(多选)(2020·全国高三专题练习)(多选)2018年12月1日,贵阳市地铁1号线全线开通,在一定程度上缓解了市内交通的拥堵状况.为了了解市民对地铁1号线开通的关注情况,某调查机构在地铁开通后的某两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构,并制作出如下等高条形图:根据图中(35岁以上含35岁)的信息,下列结论中一定正确的是()A.样本中男性比女性更关注地铁1号线全线开通B.样本中多数女性是35岁以上C.样本中35岁以下的男性人数比35岁以上的女性人数多D.样本中35岁以上的人对地铁1号线的开通关注度更高【答案】ABD【解析】设等高条形图对应2×2列联表如下:根据第1个等高条形图可知,35岁以上男性比35岁以上女性多,即a>b;35岁以下男性比35岁以下女性多,即c>d.根据第2个等高条形图可知,男性中35岁以上的比35岁以下的多,即a>c;女性中35岁以下的比35岁以下的多,即b>d.对于A,男性人数为a+c,女性人数为b+d,因为a>b,c>d,所以a+c>b+d,所以A正确;对于B,35岁以上女性人数为b,35岁以下女性人数为d,因为b>d,所以B正确;对于C,35岁以下男性人数为c,35岁以上女性人数为b,无法从图中直接判断b与c的大小关系,所以C 不一定正确;对于D,35岁以上的人数为a+b,35岁以下的人数为c+d,因为a>c,b>d,所以a+b>c+d,所以D正确.故选:ABD.8.(多选)(2021·全国高二专题练习)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:附表:附:22()()()()()n ad bc K a b c d a c b d -=++++以下说法正确的有( )A .满意度的调查过程采用了分层抽样的抽样方法B .该学校学生对学校的管理和服务满意的概率的估计值为0.6C .有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D .没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系 【答案】AC【解析】因为男女比例为4000︰5000,故A 正确.满意的频率为204020.667903+=≈,所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B 错误.由列联表2290(20102040)9 6.63540506030K ⨯⨯-⨯==>⨯⨯⨯,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C 正确,D 错误. 故选:AC.【题组二 独立性检验】1.(2021·安徽芜湖市)“直播带货”是指通过一些互联网平台,使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式.某高校学生会调查了该校100名学生2020年在直播平台购物的情况,这100名学生中有男生60名,女生40名.男生中在直播平台购物的人数占男生总数的23,女生中在直播平台购物的人数占女生总数的78. (1)填写22⨯列联表,并判断能否有99%的把握认为校学生的性别与2020年在直播平台购物有关?(2)若把这100名学生2020年在直播平台购物的频率作为该校每个学生2020年在直播平台购物的概率,从全校所有学生中随机抽取4人,记这4人中2020年在直播平台购物的人数与未在直播平台购物的人数之差为X ,求X 的分布列与期望.附:n a b c d =+++,22()()()()()n ad bc K a b c d a c b d -=++++.【答案】(1)列联表答案见解析,没有99%的把握认为该校学生的性别与220年在直播平台购物有关;(2)分布列答案见解析,数学期望:2. 【解析】(1)列22⨯列联表:22100(4053520) 5.556 6.63575256040K ⨯-⨯=≈<⨯⨯⨯.故没有99%的把握认为该校学生的性别与220年在直播平台购物有关 (2)设这4人中2020年在直播平台购物的人数为Y ,则0,1,2,3,4Y =,且3~4,4Y B ⎛⎫ ⎪⎝⎭,(4)24X Y Y Y =--=-,故4,2,0,2,4X =--,且4411(4)(0)4256P X P Y C ⎛⎫=-==== ⎪⎝⎭, 1314313(2)(1)4464P X P Y C ⎛⎫⎛⎫=-==== ⎪ ⎪⎝⎭⎝⎭,22243127(0)(2)44128P X P Y C ⎛⎫⎛⎫===== ⎪ ⎪⎝⎭⎝⎭, 3343127(2)(3)4464P X P Y C ⎛⎫⎛⎫=====⎪ ⎪⎝⎭⎝⎭,444381(4)(4)4256P X P Y C ⎛⎫===== ⎪⎝⎭. 所以X 的分布列为()434E Y =⨯=,()(24)2()42342E X E Y E Y =-=-=⨯-=, 即()2E X =2.(2021·安徽高二期末)随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行2亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了50人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于45岁的人数占总人数的35.(1)若以“年龄45岁为分界点”,由以上统计数据完成下面22⨯列联表,并判断是否有99%的把握认为是否使用消费券与人的年龄有关.参考数据:)20k 0.15 2.072 22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)从使用消费券且年龄在[15,25)与[25,35)的人中按分层抽样方法抽取6人,再从这6人中选取2名,记抽取的两人中年龄在[15,25)的人数为X ,求X 的分布列与数学期望.【答案】(1)列联表答案见解析,有99%的把握认为是否使用消费券与人的年龄有关;(2)分布列答案见解析,数学期望:23. 【解析】(1)由题意得515105505153505m n m +++++=⎧⎪++⎨=⎪⎩解得10,5m n ==;由以上统计数据填写下面22⨯列联表,如下 根据公式计算2250(1027103)9.98 6.63537133020K ⨯-⨯=≈>⨯⨯⨯,所以有99%的把握认为是否使用消费券与人的年龄有关:(2)由题意知抽取的6人中年龄在[15,25)的有2人,年龄在[25,35)的有4人, 所以X 的可能取值为0,1,2.且21124242222666281(0),(1),(2)51515C C C C P X P X P X C C C =========, 所以X 的分布列为()012515153E X =⨯+⨯+⨯=.3.(2021·江西新余市·高二期末(文))推进垃圾分类处理,是落实绿色发股理心的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+,数据统计如下:已知511405i i y y ===∑,52190i i x ==∑,51885i i i x y ==∑,根据所给数据求t 和回归直线方程.y bx a =+.附:1221ni ii nii x y nx yb xnx ==-=-∑∑,a y bx =-.(2)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民和女性居民人数相同,男性居民中不喜欢担任垃圾分类志愿者占男性居民的35,女性居民中不喜欢担任垃圾分类志愿者占女性居民的15. ①若被调查的男性居民人数为a 人,请完成以下2×2列联表:②若研究得到在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,则被调查的女性居民至少多少人?附()()()()()22n ad bc k a b c d a c b d -=++++,n a b c d =+++,【答案】(1)60t =,8.56y x =+;(2)①2×2列联表见解析;②20 【解析】(1)根据表中数据可知()125304045405y t =++++=,解得60t =, ()12345645x =++++=, 5152221588554408.590545i ii ii x y x yb xx ==--⨯⨯∴===-⨯-∑∑,408.546a =-⨯=,所以回归直线方程为8.56y x =+; (2)①根据题意可得2×2列联表如下:②在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,22214325555 6.63564355a a a a a a K a a a a ⎛⎫⋅⋅-⋅ ⎪⎝⎭∴==>⋅⋅⋅,解得19.905a >,故a 的最小值为20,所以被调查的女性居民至少20人.4(2021·云南曲靖市)移动支付(支付宝及微信支付)已经渐渐成为人们购物消费的一种支付方式,为调查曲靖市民使用移动支付的年龄结构,随机对100位市民做问卷调查得到22⨯列联表如下:(1)将上22⨯列联表补充完整,并请说明在犯错误的概率不超过0.01的前提下,认为支付方式与年龄是否有关?(2)在使用移动支付的人群中采用分层抽样的方式抽取10人做进一步的问卷调查,从这10人随机中选出3人颁发参与奖励,设年龄都低于35岁(含35岁)的人数为X,求X的分布列及期望.)2k0.500.455(参考公式:22()()()()()n ad bcKa b c d a c b d-=++++)(其中n a b c d=+++)【答案】(1)列联表见解析,在犯错误的概率不超过0.010的前提下,认为支付方式与年龄有关.;(2)分布列见解析,125.【解析】(1)根据题意及22⨯列联表可得完整的22⨯列联表如下:根据公式可得22100(40401010)36 6.63550505050K⨯-⨯==>⨯⨯⨯,所以在犯错误的概率不超过0.010的前提下,认为支付方式与年龄有关.(2)根据分层抽样,可知35岁以下(含35岁)的人数为4010850⨯=人,35岁以上的有2人,所以获得奖励的35岁以下(含35岁)的人数为X , 则X 的可能为1,2,3,且122138282833310101085656(1),(2),(3)12010120C C C C C P X P X P X C C C =========,其分布列为1231201201205EX =⨯+⨯+⨯=. 5.(2021·江西高二期末)某花圃为提高某品种花苗质量,开展技术创新活动,在A ,B 实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在A ,B 试验地随机抽选各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80及以上的花苗为优质花苗.(1)求图中a 的值,并求综合评分的中位数;(2)用样本估计总体,以频率作为概率,若在A ,B 两块实验地随机抽取3棵花苗,求所抽取的花苗中的优质花苗数的分布列和数学期望;(3)填写下面的列联表,并判断是否有90%的把握认为优质花苗与培育方法有关.附:下面的临界值表仅供参考.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)【答案】(1)0.040a =,82.5;(2)分布列见解析,95EX =;(3)列联表见解析,有90%的把握认为优质花苗与培育方法有关系.【解析】(1)由0.005100.010100.02510100.020101a ⨯+⨯+⨯+⨯+⨯=, 解得0.040a =.令得分中位数为x ,由()0.020100.040900.5x ⨯+⨯-=, 解得82.5x =.故综合评分的中位数为82.5. (2)由(1)与频率分布直方图 ,优质花苗的频率为()0.040.02100.6+⨯= ,即概率为0.6, 设所抽取的花苗为优质花苗的颗数为X ,则3~35X B ⎛⎫ ⎪⎝⎭,,()3032805125P X C ⎛⎫==⨯= ⎪⎝⎭;()2133236155125P X C ⎛⎫==⨯⨯=⎪⎝⎭; ()2233254255125P X C ⎛⎫==⨯⨯= ⎪⎝⎭;()33332735125P X C ⎛⎫==⨯=⎪⎝⎭. 其分布列为:所以,所抽取的花苗为优质花苗的数学期望355EX =⨯=. (3)结合(1)与频率分布直方图, 优质花苗的频率为()0.040.02100.6+⨯=,则样本中,优质花苗的颗数为60棵,列联表如下表所示:可得()221002010304016.667 6.63560405050K⨯-⨯=≈>⨯⨯⨯.所以,有90%的把握认为优质花苗与培育方法有关系.6.(2020·四川成都市)一网络公司为某贫困山区培养了100名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这100名“乡土直播员”中每天直播时间不少于5小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面22⨯列联表:(1)根据列联表判断是否有95%的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,在这6人中选2人作为“乡土直播推广大使”.设被选中的2名“乡土直播推广大使”中男性人数为ξ,求ξ的分布列和期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)有95%的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为23. 【解析】(1)由题中22⨯列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有95%的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为106230⨯=人;女性人数为206430⨯=人. 由题,随机变量ξ所有可能的取值为0,1,2.()022426620155C C P C ξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴ξ的分布列为∴ξ的数学期望()01251515153E ξ=⨯+⨯+⨯==. 7.(2020·山东济南市)2019年6月25日,《固体废物污染环境防治法(修订草案)》初次提请全国人大常委会审议,草案对“生活垃圾污染环境的防治”进行了专章规定.草案提出,国家推行生活垃圾分类制度.为了了解人民群众对垃圾分类的认识,某市环保部门对该市市民进行了一次垃圾分类网络知识问卷调查,每一位市民仅有一次参加机会,通过随机抽样,得到参加问卷调查的1000人(其中450人为女性)的得分(满分:100分)数据,统计结果如表所示:(1)由频数分布表可以认为,此次问卷调查的得分Z 服从正态分布(),210N μ,μ近似为这1000人得分的平均值(同一组数据用该组区间的中点值作为代表),请利用正态分布的知识求()50.594P Z <<;(2)把市民分为对垃圾分类“比较了解”(不低于60分的)和“不太了解”(低于60分的)两类,请完成如下22⨯列联表,并判断是否有99%的把握认为市民对垃圾分类的了解程度与性别有关?(3)从得分不低于80分的被调查者中采用分层抽样的方法抽取10名.再从这10人中随机抽取3人,求抽取的3人中男性人数的分布列及数学期望.14.5≈;②若()2,XN μσ,则()0.6827P X μσμσ-<<+=,()220.9545P X μσμσ-<<+=,()330.9973P X μσμσ-<<+=;③()()()()()22n ad bc K a b c d a c b d -=++++, .n a b c d =+++【答案】(1)0.8186;(2)列联表答案见解析,有99%的把握认为学生对垃圾分类的了解程度与性别有关;(3)分布列详见见解析,数学期望:95. 【解析】(1)由题意知:350.025450.15550.2650.25750.225850.1950.0565μ=⨯+⨯+⨯+⨯+⨯+⨯+⨯=,又50.565≈9465≈+ 所以11(50.594)0.68270.95450.818622P Z <<=⨯+⨯=. (2)由题意得列联表如下:221000(235310315140)14.249 6.635375625550450K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%的把握认为学生对垃圾分类的了解程度与性别有关.(3)不低于80分的被调查者的男女比例为3:2,所以采用分层抽样的方法抽取10人中,男性为6人,女性为4人.设从这10人中随机抽取的3人中男性人数为ξ,则ξ的取值为0,1,2,3343101(0)30C P C ξ===,21463103(1)10C C P C ξ===,12463101(2)2C C P C ξ===,363101(3)6C P C ξ===,所以随机变量ξ的分布列为所以其期望()2310265E ξ=+⨯+⨯= 8.(2020·四川师范大学附属中学)新冠肺炎疫情期间,各地均响应“停课不停学,停课不停教”的号召开展网课学习.为检验网课学习效果,某机构对2000名学生进行了网上调查,发现有些学生上网课时有家长在旁督促,而有些没有网课结束后进行考试,根据考试结果将这2000名学生分成“成绩上升”和“成绩没有上 升”两类,对应的人数如下表所示:(1)完成以上列联表,并通过计算(结果精确到()0.001)说明,是否有90%的把握认为家长督促学生上网课与学生的成绩上升有关联(2)从有家长督促的800名学生中按成绩是否上升,采用分层抽样的方法抽出8人,再从8人中 随机抽取 3人做进一步调查,记抽到3名成绩上升的学生得1分,抽到1名成绩没有上升的学生得1-分,抽到3名生的总得分用X 表示,求X 的分布列和数学期望.附:()()()()()22,n ad bc K n a b c d a b c d a c b d -==+++++++【答案】(1)列联表见解析,有90%的把握认为家长督促学生上网课与学生的成绩上升有关联;(2)分布列见解析,数学期望为34. 【解析】(1)()222000500500300700125 3.472 2.7068001200120080036K ⨯-⨯==≈>⨯⨯⨯∴有90%的把握认为家长督促学生上网课与学生的成绩上升有关联.(2)从有家长督促的800名学生中按成绩是否上升,采用分层抽样的方法抽出8人,其中成绩上升的有5人,成绩没有上升的有3人,再从8人中随机抽取3人,随机变量X 所有可能的取值为3,1,1,3--()0353381356C C P X C ⋅=-== ()12533815156C C P X C ⋅=-==()21533815128C C P X C ⋅=== ()3053385328C C P X C ⋅===X ∴的分布列如下:()115301033113565656564E X =-⨯-⨯+⨯+⨯= 9.(2020·全国高二专题练习)景泰蓝(Cloisonne ),中国的著名特种金属工艺品之一,到明代景泰年间这种工艺技术制作达到了最巅峰,因制作出的工艺品最为精美而闻名,故后人称这种瓷器为“景泰蓝”.其制作过程中有“掐丝”这一环节,某大型景泰蓝掐丝车间共有员工10000人,现从中随机抽取100名对他们每月完成合格品的件数进行统计.得到如下统计表:(1)若每月完成合格品的件数超过18件,则车间授予“工艺标兵”称号,由以上统计表填写下面的22⨯列联表,并判断是否有95%的把握认为“工艺标兵”称号与性别有关;(2)为提高员工的工作积极性,该车间实行计件工资制:每月完成合格品的件数在12件以内(包括12件),每件支付员工200元,超出(0,2]的部分,每件支付员工220元,超出(2,4]的部分,每件支付员工240元,超出4件以上的部分,每件支付员工260元,将这4段频率视为相应的概率,在该车间男员工中随机抽取2人,女员工中随机抽取1人进行工资调查,设实得计件工资超过3320元的人数为ξ,求ξ的分布列和数学期望.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)2k0.12.706【答案】(1)表格见解析,有95%的把握认为“工艺标兵”称号与性别有关;(2)分布列见解析,1310. 【解析】(1)22⨯列联表如下:22100(488422)4 3.84150509010K ⨯⨯-⨯==>⨯⨯⨯,所以有95%的把握认为“工艺标兵”称号与性别有关.(2)若员工实得计件工资超过3320元,则每月完成合格品的件数需超过16件,由题中统计表数据可得,男员工实得计件工资超过3320元的概率125P =,女员工实得计件工资超过3320元的概率212P =. 设随机抽取的男员工中实得计件工资超过3320元的人数为X ,随机抽取的女员工中实得计件工资超过3320元的人数为Y ,则21~2,,~1,52X B Y B ⎛⎫⎛⎫ ⎪ ⎪⎝⎭⎝⎭. 由题意可知,ξ的所有可能取值为0,1,2,3,2319(0)(0,0)5250P P X Y ξ⎛⎫=====⨯= ⎪⎝⎭,210223213121(1)(1,0)(0,1)5525250P P X Y P X Y C C ξ⎛⎫====+===⨯⨯⨯+⨯⨯= ⎪⎝⎭, 22122213218(2)(2,0)(1,1)5255225P P X Y P X Y C C ξ⎛⎫====+===⨯⨯+⨯⨯⨯= ⎪⎝⎭,2212(3)(2,1)5225P P X Y ξ⎛⎫=====⨯= ⎪⎝⎭,所以随机变量ξ的分布列为所以9218213()01235050252510E ξ=⨯+⨯+⨯+⨯=. 10.(2020·广东广州市)某学校高三年级数学备课组的老师为了解新高三年级学生在假期的自学情况,在开学初进行了一次摸底测试,根据测试成绩评定“优秀”、“良好”、“要加油”三个等级,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现随机抽取年级120名学生的成绩,统计结果如下所示:(1)若测试分数90分及以上认定为优良.分数段在[]120,150,[)90,120,[)0,90内女生的人数分别为4人,40人,20人,完成下面的22⨯列联表,并判断:是否有95%以上的把握认为性别与数学成绩优良有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的学生中选取10人进行座谈,现再从这10人中任选2人,所选2人的量化分之和记为X ,求X 的分布列及数学期望()EX .附表及公式:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)表格见解析,没有95%以上的把握认为性别与数学成绩优良有关;(2)分布列见解析,8. 【解析】(1)解:依题意,完成下面的22⨯列联表:()22120164440200.102 3.84136845664K ⨯⨯-⨯=≈<⨯⨯⨯.故没有95%以上的把握认为性别与数学成绩优良有关.(2)解:按照分层抽样,评定为“优秀”、“良好”、“要加油”三个等级的学生分别抽取1人,6人,3人.现再从这10人中任选2人,所选2人的量化分之和X 的可能取值为15,10,5,0.()1116210162154515C C P X C ⨯====,()211613*********104515C C C P X C C ==+==()116321018654515C C P X C ====,()232103104515C P X C ====所以X 的分布列为:所以()151050815151515E X =⨯+⨯+⨯+⨯=. 11.(2020·湖南高三月考)某公司有1400名员工,其中男员工900名,用分层抽样的方法随机抽取28名员工进行5G 手机购买意向调查,将计划在今年购买5G 手机的员工称为“追光族”,计划在明年及明年以后购买5G 手机的员工称为“观望者”,调查结果发现抽取的这28名员工中属于“追光族”的女员工有2人,男员工有10人.(1)完成下面2×2列联表,并判断是否有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)在抽取的属于“追光族”的员工中任选4人,记选出的4人中男员工有X 人,女员工有Y 人,求随机变量X Y ξ=-的分布列与数学期望.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)20k 0.15 2.072【答案】(1)列联表答案见解析,没有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)分布列答案见解析,数学期望:83. 【解析】1)由题意得:2×2列联表如下:2228(28810)448= 3.3212161018135K ⨯⨯-⨯=≈⨯⨯⨯ 3.841<,故没有95%的把握认为该公司员工属于“追光族”与“性别”有关;(2)由(1)知在样本里属于“追光族"的员工有12人.其中男员工10人,女员工2人, 所以ξ可能的取值有0,2,4,4010241221014(4)(40)=49533C C P P X Y C ξ======且,3110241224016(2)(31)=49533C C P P X Y C ξ======且,221024121(0)(22)=4951145C C P P X Y C ξ======且, ξ∴的分布列为:ξ∴的期望()024*******E ξ=⨯+⨯+⨯=. 12.(2020·全国高三专题练习)某电商平台为提升服务质量,从用户系统中随机选出300名客户,对该平台售前服务和售后服务的评价进行统计,得到一份样本数据,并用以估计所有用户对该平台服务质量的满意度.其中售前服务的满意率为1315,售后服务的满意率为23,对售前服务和售后服务都不满意的客户有20人(1)完成下面22⨯列联表,并分析是否有97.5%的把握认为售前服务满意度与售后服务满意度有关;(2)若用频率代替概率,假定在业务服务协议终止时,对售前服务和售后服务两项都满意的客户保有率为95%,只对其中一项不满意的客户保有率为66%,对两项都不满意的客户保有率为1%,从该运营系统中任选3名客户,求在业务服务协议终止时保有客户人数ξ的分布列和期望,附:22()()()()()n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)列联表见解析,有97.5%的把握认为售前服务满意与售后服务满意有关;(2)分布列见解析,数学期望为125.【解析】(1)由题意知对售前服务满意的有1330026015⨯=人,对服务不满意的有13001003⨯=人,所以,补全22⨯列联表如下:经计算得22300(180208020)755.77 5.0242001002604013K⨯⨯-⨯==≈>⨯⨯⨯,所以有97.5%的把握认为售前服务满意与售后服务满意有关.(2)在业务服务协议终止时,对售前服务和售后服务都满意的客户保有的概率为1805795%300100⨯=, 只有一项满意的客户保有的概率为1002266%300100⨯=, 对二者都不满意的客户保有的概率为20115%300100⨯=. 所以,从系统中任选一名客户保有的概率为5722141005++=, 故4~3,5B ξ⎛⎫⎪⎝⎭,{0,1,2,3}ξ∈, 311(0)5125P ξ⎛⎫=== ⎪⎝⎭, 2134112(1)55125P C ξ⎛⎫==⨯⨯=⎪⎝⎭, 2231448(2)55125P C ξ⎛⎫==⨯⨯=⎪⎝⎭, 3464(3)5125P ξ⎛⎫===⎪⎝⎭ 所以ξ的分布列为:()1248641201231251251255E ξ=+⨯+⨯+⨯=. 【点睛】此题考查独立性检验、二项分布、独立重复试验以及离散型随机变量的分布列与数学期望,考查分析问题的能力.本题第二问解题的关键在于根据保有率计算得到系统中任选一名客户保有的概率为5722141005++=,进而得到4~3,5B ξ⎛⎫⎪⎝⎭,属于中档题。
人教版高中数学精讲精练选择性必修三8.3 列联表与独立性检验(解析版)
8.3列联表与独立性检验考法一分类变量与列联表【例1-1】(2024上海)下面是一个22⨯列联表,其中a 、b 处填的值分别为()1y 2y 总计1x a 21732x 22527总计b46100A .52、54B .54、52C .94、146D .146、94【答案】A【解析】由题意可得21732a a b +=⎧⎨+=⎩,解得5254a a =⎧⎨=⎩,所以a 、b 值分别为52、54.故选:A.【例1-2】(2024广西)假设有两个变量x 与y 的22⨯列联表如下表:1y 2y 1x a b2x c d对于以下数据,对同一样本能说明x 与y 有关系的可能性最大的一组为()A .20a =,30b =,40c =,50d =B .50a =,30b =,30c =,40d =C .30a =,60b =,20c =,50d =D .50a =,30b =,40c =,30d =【答案】B【解析】对于A ,200ad bc -=,对于B ,1100ad bc -=,对于C ,300ad bc -=,对于D ,300ad bc -=显然B 中ad bc -最大,该组数据能说明x 与y 有关系的可能性最大,故选:B.【例1-3】(2023河北)观察下图的等高条形图,其中最有把握认为两个分类变量x ,y 之间没有关系的是()A .B .C .D .【答案】B【解析】根据题意,在等高的条形图中,当1x ,2x 所占比例相差越大时,越有把握认为两个分类变量x ,y 之间有关系,由选项可得:B 选项中,1x ,2x 所占比例相差无几,所以最有把握认为两个分类变量x ,y 之间没有关系,故选:B 【一隅三反】1.(2024江苏·课时练习)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:优秀非优秀总计甲班10b乙班c30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是()A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .列联表中c 的值为20,b 的值为50D .由列联表可看出成绩与班级有关系【答案】D 【解析】依题意102=1057c +,解得20c =,由102030=105b +++解得45b =.补全22⨯列联表如下:优秀非优秀总计甲班104555乙班203050总计3075105甲班的优秀率为102=5511,乙班的优秀率为202=505,22115<,所以成绩与班级有关.所以D 选项正确,ABC 选项错误.故选:D2.(2024湖北)假设有两个分类变量x 与y 的22⨯列联表如下表:1y 2y 1x ab2x cd对于以下数据,对同一样本能说明x 与y 有关系的可能性最大的一组为()A .5a =,4b =,3c =,2d =B .5a =,3b =,4c =,2d =C .2a =,3b =,4c =,5d =D .2a =,3b =,5c =,4d =【答案】D【解析】对于两个分类变量x 与y 而言,ad bc -的值越大,说明x 与y 有关系的可能性最大,对于A 选项,52432ad bc -=⨯-⨯=,对于B 选项,52342ad bc -=⨯-⨯=,对于C 选项,25342ad bc -=⨯-⨯=,对于D 选项,24357ad bc -=⨯-⨯=,显然D 中ad bc -最大,故选:D.3.(2023·四川达州)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是()A .样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B .样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C .样本中选择物理学科的人数较多D .样本中男生人数少于女生人数【答案】C【解析】根据等高条形图图1可知样本中选择物理学科的人数较多,故C 正确;根据等高条形图图2可知样本中男生人数多于女生人数,故D 错误;样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A 错误;样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B 错误.故选:C.4.(2024吉林·阶段练习)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是()A .是否倾向选择生育二胎与户籍无关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数【答案】D【解析】对于A ,城镇户籍中40%选择生育二胎,农村户籍中80%选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A 错误;对于B ,男性和女性中均有60%选择生育二胎,则是否倾向选择生育二胎与性别无关,B 错误;对于C ,由于男性和女性中均有60%选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C 错误;对于D ,倾向选择不生育二胎的人员中,农村户籍有5020%10⨯=人,城镇户籍有5060%30⨯=人,农村户籍人数少于城镇户籍人数,D 正确.故选:D.考法二独立性检验的概念及辨析【例2-1】(2024·广东广州)根据分类变量x 与y 的成对样本数据,计算得到27.174χ=.依据0.005α=的独立性检验,结论为()α0.10.050.010.0050.001x α2.7063.8416.6357.87910.828A .变量x 与y 独立B .变量x 与y 独立,这个结论犯错误的概率不超过0.005C .变量x 与y 不独立D .变量x 与y 不独立,这个结论犯错误的概率不超过0.005【答案】A【解析】因为20.0057.1747.879x χ=<=,所以,依据0.005α=的独立性检验,我们认为变量x 与y 独立,故选:A.【例2-2】(2023山东烟台·期中)下列关于独立性检验的说法正确的是()A .独立性检验是对两个变量是否具有线性相关关系的一种检验B .独立性检验可以100%确定两个变量之间是否具有某种关系C .利用2χ独立性检验推断吸烟与患肺病的关联中,根据小概率值0.01α=的独立性检验,认为吸烟与患肺病有关系时,则我们可以说在100个吸烟的人中,有99人患肺病D .对于独立性检验,随机变量2χ的值越小,判定“两变量有关系”犯错误的概率越大【答案】D【解析】对于A ,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,故错误;对于B ,独立性检验并不能100%确定两个变量相关,故错误;对于C ,99%是指“抽烟”和“患肺病”存在关联的可能性,并非抽烟人中患肺病的发病率,故错误;对于D ,根据卡方计算的定义可知该选项正确;故选:D.【一隅三反】1.(2023全国·专题练习)(多选)根据分类变量x 与y 的观察数据,计算得到χ2=2.974,依据表中给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是()α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828A .根据小概率值α=0.05的独立性检验,分析变量x 与y 相互独立B .根据小概率值α=0.05的独立性检验,分析变量x 与y 不相互独立C .变量x 与y 相互独立,这个结论犯错误的概率不超过0.1D .变量x 与y 不相互独立,这个结论犯错误的概率不超过0.1【答案】AD【解析】因为2 2.974,3.841 2.974 2.706χ>>=,0.05α=的独立性检验变量x 与y 相互独立,0.1α=的独立性检验变量x 与y 不相互独立,这个结论犯错误的概率不超过0.1.故选:AD.2.(2023云南)(多选)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的22⨯列联表中,由列联表中的数据计算得29.616χ≈.参照附表,下列结论正确的是()附表:α0.10.050.010.0050.001x α2.7063.8416.6357.87910.828A .根据小概率值0.001α=的独立性检验,分析认为“药物有效”B .根据小概率值0.001α=的独立性检验,分析认为“药物无效”C .根据小概率值0.005α=的独立性检验,分析认为“药物有效”D .根据小概率值0.005α=的独立性检验,分析认为“药物无效”【答案】BC【解析】因为29.616χ≈,所以27.87910.828χ<<,所以根据小概率值0.001α=的独立性检验,分析认为“药物无效”;根据小概率值0.005α=的独立性检验,分析认为“药物有效”;故选:BC.3.(2023北京)(多选)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K2的观测值为9认可不认可40岁以下202040岁以上(含40岁)4010已知()26.6350.010P χ= ,()210.8280.001P χ= ,则下列判断正确的是()A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .根据小概率值α=0.01的独立性检验,认为“光盘行动”的认可情况与年龄有关D .根据小概率值α=0.001的独立性检验,认为“光盘行动”的认可情况与年龄有关【答案】AC【解析】根据题目提供的数据,计算出2χ的观测值,结合选项进行判断.∵2χ的观测值为9,且P (2χ≥6.635)=0.010,P (2χ≥10.828)=0.001,又∵9>6.635,但9<10.828,∴根据小概率值α=0.01的独立性检验,认为“光盘行动”的认可情况与年龄有关,所以选项C 正确,选项D 错误,由表可知认可“光盘行动”的人数为60人,所以在该餐厅用餐的客人中认可“光盘行动”的比例为6010090⨯%≈66.7%,故选项A 正确,选项B 错误.故选:AC.考法三独立性检验的计算【例3】(2024江西九江)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状的这一阶段称为潜伏期.各种传染疾病的潜伏期不同,数小时、数天、甚至数月不等.某市疾病预防控制中心统计了该市200名传染病患者的相关信息,得到如下表格:潜伏期(单位:天)[]0,2(]2,4(]4,6(]6,8(]8,10(]10,12(]12,14人数174360502631该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系判断是否有99%的把握认为该传染病的潜伏期与患者年龄有关,请根据上表数据将如下列联表补充完整后,求出随机变量2K 的观测值k =.潜伏期6≤天潜伏期6>天总计50岁以上(含50岁)10050岁以下55总计200附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】18.75【解析】由题意得列联表:潜伏期≤6天潜伏期>6天总计50岁以上(含50岁)752510050岁以下4555100总计12080200由上表可得()222007555254518.7512080100100K ⨯-⨯==⨯⨯⨯.故答案为:18.75.【一隅三反】1.(2023·四川绵阳)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,调查样本中女生人数是男生人数的12,男生追星人数占男生人数的16,女生追星的人数占女生人数的23,若有95%的把握认为是否追星和性别有关,则调查样本中男生至少有人.参考数据及公式如下:22()()()()()n ad bc K a b c d a c b d -=++++()20P K k ≥0.0500.0100.0010k 3.8416.63510.828【答案】12【解析】设男生人数为x ,依题意可得22⨯列联表如下:喜欢追星不喜欢追星总计男生6x 56x x 女生3x 6x 2x 总计2x x32x 若在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,则2 3.841K >,由222235236183 3.841822x x x K x x x x x ⎛⎫- ⎪⎝⎭==>⋅⋅⋅,解得10.24x >,因为2x ,6x 为整数,所以若在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,则男生至少有12人.故答案为:12.2.(2024·陕西安康·模拟预测)作为一个基于大型语言处理模型的文字聊天工具,ChatGPT 走红后,大模型的热度持续不减,并日渐形成了“千模大战”的局面.百度的文心一言、阿里的通义千问、华为的盘古、腾讯的混元以及科大讯飞的星火等多种大模型正如火如茶的发布上线.现有某大模型给出了会员有效期30天的两种不同费用,100次的使用费为6元,500次的使用费为24元.后台调取了购买会员的200名用户基本信息,包括个人和公司两种用户,统计发现购买24元的用户数是140,其中个人用户数比公司用户数少20,购买6元的公司用户数是个人用户数的一半.(1)完成如下用户类别与购买意向的22⨯列联表;购买6元购买24元总计个人用户公司用户总计(2)能否有99.5%的把握认为购买意向与用户类别有关?(运算结果保留三位小数)附:()()()()22()n ad bc K a b c d a c b d -=++++,临界值表如下:()20P K k ≥0.100.050.0250.010.0050.0010k 2.7063.8415.0246.6357.87910.828【答案】(1)列联表见解析(2)有99.5%的把握认为用户类别与购买意向有关系【解析】(1)解:设购买24元的个人用户数为x ,则购买24元的公司用户数为20x +,设购买6元的公司用户数为y ,则购买6元的个人用户数为2y ,则有220140260x y y +=⎧⎨+=⎩,解得60,20x y ==,所以用户类别与购买意向22⨯列联表如下:购买6元购买24元总计个人用户4060100公司用户2080100总计60140200(2)解:由(1)中22⨯列联表,可得()()()()222()200(32001200)9.5247.87910010014060n ad bc K a b c d a c b d -⨯-==≈>++++⨯⨯⨯,所以有99.5%的把握认为用户类别与购买意向有关系.3.(2024·陕西商洛)随着科学技术飞速发展,科技创新型人才需求量增大,在2015年,国家开始大力推行科技特长生招生扶持政策,教育部也出台了《关于“十三五”期间全面深入推进教育信息化工作的指导意见(征求意见稿)》为选拔和培养科技创新型人才做好准备.某调研机构调查了A B 、两个参加国内学科竞赛的中学,从A B 、两个中学的参赛学员中随机抽取了60人统计其参赛获奖情况,并将结果整理如下:未获得区前三名及以上名次获得区前三名及以上名次A 中学116B 中学349(1)试判断是否有90%的把握认为获得区前三名及以上名次与所在的学校有关?(2)用分层抽样的方法,从样本中获得区前三名及以上名次的学生中抽取5人,再从这5人中任选3人进行深度调研,求所选的3人中恰有2人来自B 中学的概率.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.100.050.0250.0100k 2.7063.8415.0246.635【答案】(1)没有90%的把握认为获得区前三名及以上名次与所在的学校有关(2)35【解析】(1)补全22⨯列联表如下:未获得区前三名及以上名次获得区前三名及以上名次总计A 中学11617B 中学34943总计451560所以2260(119634) 1.341 2.70617434515K ⨯⨯-⨯=≈<⨯⨯⨯,故没有90%的把握认为获得区前三名及以上名次与所在的学校有关.(2)由题知,用分层抽样抽取的5人中,来自A 中学的有2人,记为,a b ,来自B 中学的有3人,记为,,A B C ,从这5人中任选3人进行深度调研,所有的结果有,,,,,,,,,abA abB abC aAB aAC aBC bAB bAC bBC ABC ,共10种,其中恰有2人来自B 中学的结果有,,,,,aAB aAC aBC bAB bAC bBC ,共6种,故所求概率63105P ==.考法四独立性检验解决实际问题【例4】(2024·陕西商洛·模拟预测)已知某校高一有600名学生(其中男生320名,女生280名).为了给学生提供更为丰富的校园文化生活,学校增设了两门全新的校本课程,A B ,学生根据自己的兴趣爱好在这两门课程中任选一门进行学习.学校统计了学生的选课情况,得到如下的22⨯列联表.选择课程A选择课程B 总计男生200女生60总计(1)请将22⨯列联表补充完整,并判断是否有99.9%的把握认为选择课程与性别有关?说明你的理由;(2)在所有男生中按列联表中的选课情况采用分层抽样的方法抽出8名男生,再从这8名男生中抽取3人做问卷调查,设这3人中选择课程A 的人数为X ,求X 的分布列及数学期望.附:()()()()22(),n ad bc K n a b c d a b c d a c b d -==+++++++.()20P K k ≥0.010.0050.0010k 6.6357.87910.828【答案】(1)表格见解析,有关,理由见解析(2)分布列见解析,98.【解析】(1)解:由男生320名,女生280名,结合表中数据,22⨯列联表,如图所示,选择课程A选择课程B总计男生120200320女生60220280总计180420600可得()()()()222()600(12022020060)90018.36710.82818042032028049n ad bc K a b c d a c b d -⨯⨯-⨯===≈>++++⨯⨯⨯,所以有99.9%的把握认为选择课程与性别有关.(2)解:抽出8名男生中,选择课程A 的人数为:12083120200⨯=+(名),选择课程B 的人数为:2008120200⨯=+5(名),随机变量X 的所有可能取值为0,1,2,3,可得()()3125353388C C C 5150,1C 28C 28P X P X ======,()()2133533388C C C 1512,3C 56C 56P X P X ======,则X 的分布列为X0123P52815281556156所以()51515190123282856568E X =⨯+⨯+⨯+⨯=.【一隅三反】1.(2023河北保定·开学考试)在治疗某种疾病中,某医院有两套治疗方案,方案一:以中医药为主,方案二:以西医药为主,为了检验这两种方案哪种方案更有效,随机选取150名患者进行分组对照治疗,其中应用方案一为80人,应用方案二为70人,经过一段时间治疗后,应用方案一组有65人明显好转或治愈,应用方案二组有45人明显好转或治愈.(1)根据小概率值0.05α=的2χ独立性检验,能否判断方案的选择和治疗效果有关?(2)利用分层随机抽样的方法从这两组中疗效不明显的患者中随机选取8人,再从这8人中随机选取4人,这4人中,选自方案二组的人数为X ,求X 的分布列与数学期望.参考公式及参考数据:()()()()22(),n ad bc n a b c d a b c d a c b d χ-==+++++++.α0.250.150.100.050.0250.0100.001x α1.3232.0722.7063.8415.0246.63510.828【答案】(1)能,理由见详解;(2)分布列见详解,()52E X =.【解析】(1)根据题意可得方22⨯列联表如下所示:有效果(好转或治愈)效果不明显合计方案一651580方案二452570合计11040150零假设0H :方案的选择和治疗效果无关.故可得:2χ()21506525154527075 5.494 3.8411104080704928⨯-⨯==≈>⨯⨯⨯,故根据小概率值0.05α=的2χ独立性检验,推断0H 不成立,故可以判断方案的选择和治疗效果有关.(2)由题可得两组中疗效不明显的患者共有40人,从中抽取8人,则方案一组抽取11535⨯=,方案二组抽取12555⨯=人;再从中抽取4人,选自方案二组的人数为X ,则1,2,3,4X =,()135348C C 511C 7014P X ⋅====,()225348C C 3032C 707P X ⋅====,()315348C C 3033C 707P X ⋅====,()405348C C 514C 7014P X ⋅====故X 的分布列如下所示:X1234()P X 1143737114()1331512341477142E X =⨯+⨯+⨯⨯.2.(2023全国·开学考试)2023年11月,世界首届人工智能峰会在英国举行,我国因为在该领域取得的巨大成就受邀进行大会发言.为了研究不同性别的学生对人工智能的了解情况,我市某著名高中进行了一次抽样调查,分别抽取男、女生各50人作为样本.设事件A =“了解人工智能”,B =“学生为男生”,据统计34(,()57P A B P B A ==∣∣.(1)根据已知条件,填写下列22⨯列联表,是否有99%把握推断该校学生对人工智能的了解情况与性别有关?了解人工智能不了解人工智能合计男生女生合计(2)①现从所抽取的女生中利用分层抽样的方法抽取20人,再从这20人中随机选取3人赠送科普材料,求选取的3人中至少有2人了解人工智能的概率;②将频率视为概率,从我市所有参与调查的学生中随机抽取20人科普材料,记其中了解人工智能的人数为X ,求随机变量X 的数学期望和方差.参考公式:()()()()()22n ad bc a b c d a c b d χ-=++++.常用的小概率值和对应的临界值如下表:α0.1500.1000.0500.0250.0100.0050.001x α2.0722.7063.8415.0246.6357.87910.828【答案】(1)列联表见解析;没有(2)①187285;②()14E X =,()215D X =.【解析】(1)因为34 (()57P A B P B A==∣∣,所以了解人工智能的女生为350305⨯=,了解人工智能的总人数为3070417=-,则了解人工智能的男生有703040-=人,结合男生和女生各有50人,填写22⨯列联表为:了解人工智能不了解人工智能合计男生401050女生302050合计7030100因()22100402010301004.762 6.6355050307021χ⨯-⨯==≈<⨯⨯⨯,故没有99%把握推断该校学生对人工智能的了解情况与性别有关.(2)①由题意可知,所抽取的20名女市民中,了解人工智能的有30201250⨯=人,不了解人工智能的有2020850⨯=人,所以,选取的3人中至少有2人了解人工智能的概率为21312812320C C C187C285 P+==;②由22⨯列联表可知,抽到了解人工智能的学生的频率为707 10010=,将频率视为概率,所以,从我市高中生中任意抽取一人,恰好抽到了解人工智能学生的概率为7 10,由题意可知,7~20,10X B⎛⎫⎪⎝⎭,所以,()7201410E X=⨯=,()73212010105D X=⨯⨯=.3.(2024·湖北)某高中学校为了解学生参加体育锻炼的情况,统计了全校所有学生在一年内每周参加体育锻炼的次数,现随机抽取了60名同学在某一周参加体育锻炼的数据,结果如下表:一周参加体育锻炼次数01234567合计男生人数1245654330女生人数4556432130合计579111086460(1)若将一周参加体育锻炼次数为3次及3次以上的,称为“经常锻炼”,其余的称为“不经常锻炼”.请完成以下22⨯列联表,并依据小概率值0.1α=的独立性检验,能否认为性别因素与学生体育锻炼的经常性有关系;性别锻炼合计不经常经常男生女生合计(2)若将一周参加体育锻炼次数为0次的称为“极度缺乏锻炼”,“极度缺乏锻炼”会导致肥胖等诸多健康问题.以样本频率估计概率,在全校抽取20名同学,其中“极度缺乏锻炼”的人数为X ,求()E X 和()D X ;(3)若将一周参加体育锻炼6次或7次的同学称为“运动爱好者”,为进一步了解他们的生活习惯,在样本的10名“运动爱好者”中,随机抽取3人进行访谈,设抽取的3人中男生人数为Y ,求Y 的分布列和数学期望.附:()()()()22(),n ad bc n a b c d a b c d a c b d χ-==+++++++α0.10.050.01x α2.7063.8416.635【答案】(1)填表见解析;性别因素与学生体育锻炼的经常性有关系(2)()53E X =,()5536D X =(3)分布列见解析;期望为2.1【解析】】(1)根据统计表格数据可得列联表如下:性别锻炼合计不经常经常男生72330女生141630合计213960零假设为0H :性别与锻炼情况独立,即性别因素与学生体育锻炼的经常性无关;根据列联表的数据计算可得2220.160(7162314)60(730)140 3.590 2.706213930302139303039x χ⨯-⨯⨯⨯===≈>=⨯⨯⨯⨯⨯⨯根据小概率值0.1α=的独立性检验,推断0H 不成立,即性别因素与学生体育锻炼的经常性有关系,此推断犯错误的概率不超过0.1(2)因学校总学生数远大于所抽取的学生数,故X 近似服从二项分布,易知随机抽取一人为“极度缺乏锻炼”者的概率51.6012P ==即可得120,12X B ⎛⎫~ ⎪⎝⎭,故()1520123E X =⨯=,()1115520121236D X =⨯⨯=.(3)易知10名“运动爱好者”有7名男生,3名女生,所以Y 的所有可能取值为0,1,2,3;且Y 服从超几何分布:()()0312737333101012170,112012040C C C C P Y P Y C C =======()()21307373331010213213572,31204012024C C C C P Y P Y C C ⨯========故所求分布列为Y0123P11207402140724可得()17217370123 2.112040402410E Y ⨯=⨯+⨯+⨯+⨯==4.(2024上海浦东新·阶段练习)环境监测部门为调研汽车流量对空气质量的影响,在某监测点统计每日过往的汽车流量x (单位:辆)和空气中的PM2.5的平均浓度y (单位:3μg /m ).调研人员采集了50天的数据,制作了关于()()12350i i x y i = ,,,,,的散点图,并用直线1500x =与100y =将散点图分成如图所示的四个区域Ⅰ、Ⅱ、Ⅲ、Ⅳ,落入对应区域的样本点的个数依次为6,20,16,8.(1)完成下面的22⨯列联表,并判断至少有多大把握认为“PM2.5平均浓度不小于3100μg /m 与“汽车日流量不小于1500辆”有关;汽车日流量1500x <汽车日流量1500x ≥合计PM2.5的平均浓度100y <PM2.5的平均浓度100y ≥合计(2)经计算得回归方程为0.12 3.6ˆ73yx =-,且这50天的汽车日流量x 的标准差252x s =,PM2.5的平均浓度y 的标准差36y s =.①求相关系数r ,并判断该回归方程是否有价值;②若这50天的汽车日流量x 满足50281 1.210i i x ==⨯∑,试推算这50天的PM2.5日均浓度y 的平均数y .(精确到0.1)参考公式:()()()()()22n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.()2P kχ≥0.1000.0500.0100.001k2.7063.8416.63510.828回归方程ˆˆˆya bx =+,其中()()()121ˆniii nii x x y y b x x ==--=-∑∑.相关系数()()niix x y y r --=∑.若0.75r ≥,则认为y 与x 有较强的线性相关性.【答案】(1)列联表见解析,至少有99%的把握;(2)①0.84,有价值;②()3110.1μg /m 【解析】(1)22⨯列联表如下:汽车日流量1500<汽车日流量1500x ≥合计2.5PM 的平均浓度100y <168242.5PM 的平均浓度100y ≥62026合计222850零假设0H :“PM2.5平均浓度不小于100μg/m 3”与“汽车日流量不小于1500辆”无关,因为()()22501620869.62 6.63510.82824262228χ⨯⨯-⨯=≈∈⨯⨯⨯,,所以至少有99%的把握(但还不能有99.9%的把握)认为“ 2.5PM 平均浓度不小于3100/m g μ”与“汽车日流量不小于1500辆有关”.(2)①因为回归方程为0.12 3.6ˆ73yx =-,所以()()()5015021ˆ0.12iii ii x x y y b x x ==--==-∑∑,252=36=,所以()()502520.120ˆ.8436i i x x y y r b--===⨯=∑.0.840.75r y =>∴ ,与x 有较强的相关性,∴该回归方程有价值.②252x s ====,解得1528.56x ≈而样本中心点(),x y 位于回归直线0.12 3.6ˆ73yx =-上,因此可推算()30.121528.5673.36110.1/my g μ≈⨯-=.一.单选题1.(2023高二·全国·专题练习)某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:每年体检每年未体检合计老年人a7c年轻人6b d合计ef50已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是()A .18a =B .19b =C .50c d +=D .2f e -=-【答案】D【解析】因为725a c +==,625b d +==,6a e +=,7b f +=,50e f +=,50c d +=,所以18a =,19b =,24e =,26f =,2f e -=.故选:D .2.(2023·云南昆明)考查棉花种子经过处理跟生病之间的关系得到如表数据:项目种子处理种子未处理总计得病32101133不得病192213405总计224314538根据以上数据,则()A .种子是否经过处理决定是否生病B .种子是否经过处理跟是否生病无关C .种子是否经过处理跟是否生病有关D .以上都是错误的【答案】C【解析】由列联表中的数据可知,种子经过处理,得病的比例明显降低,种子未经过处理,得病的比例要高些,所以可得结论:种子是否经过处理跟是否生病有关.故选:C3(2024吉林长春)观察下面频率等高条形图,其中两个分类变量x ,y 之间的随机变量2χ的观测值最小的是()A .B .C .D .【答案】B【解析】等高的条形图中12,x x 所占比例相差越小,随机变量2χ的观测值越小.故选:B.4.(2023江西九江)假设有两个变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其22⨯列联表为()1y 2y 1x ab2x cd根据以下选项中的数据计算2χ的值,其中2χ最大的一组为()A .60,50,40,30a b c d ====B .60,40,50,30a b c d ====C .40,30,50,60a b c d ====D .30,40,50,60a b c d ====【答案】C【解析】对于A ,221180(60305040)9771107010080χ⨯⨯-⨯⨯=⨯=⨯,对于B ,222180(60304050)9771008011070χ⨯⨯-⨯⨯=⨯=⨯,对于C ,223180(40603050)18077701109090χ⨯⨯-⨯=⨯⨯=⨯,对于D ,222180(30604050)9777011080100χ⨯⨯-⨯⨯=⨯=⨯,显然23χ最大,故C 正确.故选:C.5.(2024江西九江)某校随机调查了100名高中生是否喜欢篮球,按照男女区分得到列联表,经计算得28.133χ=.根据独立性检验的相关知识,对照下表,可以认为有()把握喜欢篮球与性别有关.p0.050.010.0050.0012χ 3.841 6.6357.87910.828A .95%B .99.5%C .99%D .99.9%【答案】B【解析】()28.1337.879,10.828χ=∈ ,∴有99.5%把握认为喜欢篮球与性别有关,故选:B.6.(2024四川成都)在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下22⨯列联表(部分数据缺失):被某病毒感染未被某病毒感染合计注射疫苗1050未注射疫苗3050合计30100α0.10.050.010.0050.001x α2.7063.8416.6357.87910.828计算可知,根据小概率值α=______的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”()附:22()()()()()n ad bc a b c d a c b d χ-=++++,n a b c d =+++.A .0.001B .0.05C .0.01D .0.005【答案】B【解析】完善22⨯列联表如下:被某病毒感染未被某病毒感染合计注射疫苗104050未注射疫苗203050合计3070100假设0H :“给基因编辑小鼠注射该疫苗不能起到预防该病毒感染的效果”.因为:()2210010302040 4.76230705050χ⨯-⨯=≈⨯⨯⨯,而3.841 4.762 6.635<<,所以根据小概率值0.05α=的独立性检验,推断0H 不成立.即认为“给基因编辑小鼠注射该疫苗能起到预防该病毒感染的效果”.故选:B7(2024四川绵阳)为研究高中生的性别与是否喜欢数学课程之间的关系,运用22⨯列联表进行检验,经计算28.069K =,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过()。
人教版高中数学选修三8.3.1 分类变量与列联表 课件
4.(多空题)下面是一个2×2列联表:
x1 x2 合计
y1
y2
a
21
2
25
b
46
则表中a=________,b=__________.
合计 73 27 100
解析 由题意得aa+ +221==b7,3,解得ab= =5524, . 答案 52 54
5.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:
(× )
提示 分类变量中的变量是指一定范围内的表中的数据是两个分类变量的频数.
(√)
3.列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系.
(√)
[微训练]
1.下列不是分类变量的是( )
A.近视
B.成绩
C.血压
D.饮酒
解析 近视变量有近视与不近视两种类别,血压变量有异常、正常两种类
答案
男 女 合计
喜欢吃甜食 117 492 609
不喜欢吃甜食 413 178 591
合计 530 670 1 200
3.根据如图所示的等高堆积条形图可知吸烟与患肺病________关系(填“有”或“没 有”).
解析 从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频 率. 答案 有
人,六十岁以下的 54 人.六十岁以上的人中有 43 人的饮食以蔬菜为主,另外 27 人 则以肉类为主;六十岁以下的人中有 21 人饮食以蔬菜为主,另外 33 人则以肉类为 主.请根据以上数据作出饮食习惯与年龄的列联表,并利用a+a b与c+c d判断二者是否 有关系.
解 2×2列联表如下:
年龄在六十岁
合计 a+b c+d a+b+c+d
3.等高堆积条形图 等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列联表数据的__频__率__特征,依据__频__率__稳__定__于__概__率__的原 理,我们可以推断结果.
每周一测-学易试题君之每日一题君2018学年下学期高二数学(文)人教版(课堂同步系列一)
1
3月11日 每周一测
高考频度:★★★★☆ 难易程度:★★★☆☆
1.在一组样本数据112212()()()(2n n n x y x y x y n x x x ≥,,,,,,,,,,不全相等)的散点图中,若所有样本点()(,1,2,
,)i i x y i n =都在直线1
23
y x =--上,则这组样本数据的样本相关系数为
A .-1
B .1
C .13-
D .
13
2.为了调查“小学成绩”与“中学成绩”两个变量之间是否存在相关关系,某科研机构将所调查的结果统计如下表所示:
中学成绩不优秀
中学成绩优秀
总计 小学成绩优秀 5 20 25 小学成绩不优秀
10 5 15 总计
15
25
40
参考数据:
20()P K k ≥
0.15 0.10 0.05 0.025 0.010 0.005 0.001
0k 2.072
2.706
3.841
5.024
6.635
7.879 10.828
则下列说法正确的是
A .在犯错误的概率不超过0.005的前提下,认为“小学成绩与中学成绩无关”
B .在犯错误的概率不超过0.005的前提下,认为“小学成绩与中学成绩有关”
C .在犯错误的概率不超过0.01的前提下,认为“小学成绩与中学成绩无关”
D .在犯错误的概率不超过0.01的前提下,认为“小学成绩与中学成绩有关” 3.某车间加工的零件数x 与加工时间y 的统计数据如下表:
零件数x (个) 10 20 30 加工时间y (分钟)
21
30
39。
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)
一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
排列-学易试题君之每日一题君2018学年下学期高二数学(理)人教版(课堂同步系列二)
1 5月1日 排列
高考频度:★★★☆☆ 难易程度:★★★☆☆
某班上午有五节课,分别安排语文,数学,英语,物理,化学各一节课.要求语文与化学相邻,数学与物理不相邻,且数学课不排第一节,则不同排课法的种数是
A .16
B .24
C .8
D .12
【参考答案】
A 【解题必备】(1)理解排列定义的注意点:①排列的定义包含两方面的含义:一是“取出元素”;二是“按照一定的顺序”;②定义中规定给出的n 个元素各不相同,并且只研究被取出的元素也各不相同的情况.也就是说,如果某个元素已被取出,则这个元素就不能再取了;③定义中的“一定的顺序”与位置有关.如取出数字1,2,3,4组成一个四位数,就与位置有关,因为1234和4321是不同的四位数.
(2)判断一个具体问题是否为排列问题,就是从n 个不同元素中取出m 个元素后,在安排这m 个元素的时候是否有序,有序就是排列,无序就不是排列.而检验是否有序的依据就是变换元素的“位置”,看结果是否有变化,有变化就是有序,无变化就是无序.学科=网
(3)“在”与“不在”的有限制条件的排列问题,一般都是对某个或某些元素加以限制,被限制的元素通常称为特殊元素,被限制的位置称为特殊位置.这一类问题通常以三种途径考虑:①以元素为主考虑,这时,一般先解决特殊元素的排法问题,即先满足特殊元素,再安排其他元素;②以位置为主考虑,这时,一般先解决特殊位置的排法问题,即先满足特殊位置,再考虑其他位置;③用间接法解题,先不考虑限制条件,计算出排列总数,再减去不符合要求的排列数.
(4)①对于相邻问题,一般采用“捆绑法”,主要用于解决元素相邻问题,含有整体思想,解题思路是先整体再局部.事实上,相邻问题是有限制条件的排列问题.②对于不相邻问题,一般采用“插空法”,主要用于。
数学课堂探究:独立性检验的基本思想及其初步应用
课堂探究探究一列联表与等高条形图利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b与错误!相差越大,两个分类变量有关系的可能性就越大.在作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,以便对结论的判断不出现偏差.【典型例题1】研究人员选取170名青年男女大学生对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.思路分析:通过阅读理解得出列联表,画出相应的条形图,得到变量的关联性.解:根据题目所给数据建立如下列联表:比较来看,女生中肯定的人数的比例要高于男生中肯定的人数的比例,因此可以在某种程度上认为性别与态度之间有关系.点评大致判断一下两个分类变量是否有关,可以借助等高条形图,这种判断可加深对独立性检验基本思想的理解.探究二独立性检验解决一般的独立性检验问题,首先由所给的2×2列联表确定a,b,c,d,n的值,然后代入随机变量的计算公式求出观测值k,将k 与临界值k0进行对比,确定有多大的把握认为两个分类变量有关系.【典型例题2】为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:50思路分析:求出观测值k,对照临界值即可得出结论.解:由2×2列联表可知:a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=a+b+c+d =339,代入公式得K2的观测值为k=错误!≈7。
469。
由于7.469>6.635,所以在犯错误的概率不超过1%的前提下认为50岁以上的人患慢性气管炎与吸烟有关系.规律小结解决一般的独立性检验问题的步骤:(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K 2=()()()2 ()()n ad bc a b c d a c b d ++++-求出K 2的观测值k ;(3)如果k ≥k 0,就推断“两个分类变量有关系",这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.探究三 独立性检验的综合应用1.独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K 2应该很小.如果由观测数据计算得到的K 2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的相关关系作出判断.2.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质,因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.【典型例题3】为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0。
人教版高二下数学选择性必修第三册-8.3 列联表与独立性检验(第1课时)【课件】
d
c+d
合计
a+c
b+d
n=a+b+c+d
2×2 列联表给出了成对分类变量数据的交叉分类频数.
要点 3 独立性检验
(1)定义:利用随机变量 χ2 的取值推断___两__个_分__类_变__量_是__否_独__立_____的方法称为
独立性检验.
n(ad-bc)2
(2)χ2=____(_a_+__b_)_(__c_+_d_)__(__a+__c_)__(_b_+__d_)___,其中 n=a+b+c+d.
有关系.
【解析】 等高堆积条形图如图所ቤተ መጻሕፍቲ ባይዱ:
由图可以直观地看出铅中毒病人组与对照组相比,尿棕色素为阳性的频率差 异明显,因此铅中毒病人与尿棕色素为阳性有关系.
(2)为了了解某高校学生喜欢使用手机支付是否与 性别有关,随机抽取了部分学生,统计后作出如图所示 的等高堆积条形图,则下列说法正确的是( D )
思考题 2 下面是 2×2 列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中 a,b 的值分别为( C )
1.两个分类变量之间关联关系的定性分析的方法 (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小 进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中a+a b与c+c d 值的大小粗略地判断分类变量之间有无关系.一般其值相差越大,分类变量有关 系的可能性越大.
(2)图形分析法:与表格相比,图形能更直观地反映出两个分类变量间是否互 相影响,常用等高堆积条形图展示列联表数据的频率特征.
思考题 1 (1)观察下列等高堆积条形图,其中最有把握认为两个分类变量 X,Y 之间有关系的是( D )
83列联表与独立性检验(基础知识基本题型)(含解析)-高二数学下学期(人教A版2019选择性)
8.3 列联表与独立性检验(基础知识+基本题型)知识点一 列联表与等高条形图1.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表(也称为22⨯列联表)为:1y 2y 总计 1x aba b + 2xc d c d + 总计a c +b d +a b c d +++2.等高条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.图就是一个等高条形图,其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率. 提示⑴等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即a ab +和c c d+相差很大),就判断两个分类变量之间有关系. ⑴列联表与等高条形图的关系与特点:它们都可以用来分析分类变量之间是否有关系,但等高条形图能更直观地反映出两个分类变量是否相互影响. 知识点二 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.要判断“两个分类变量有关系”,首先假设该结论不成立,即“0H :两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K 应该很小.若由观测数据计算得到的2K 的观测值k 很大,则断言0H 不成立,即认为“两个分类变量有关系”;若观测值k 很小,则说明在样本数据中没有发现足够证据拒绝0H .上面这种利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. 提示独立性检验与反证法的比较一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表为:若要推断的论述为1H :“X 与Y 有关系”.⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查临界值表确定临界值0k . 附:临界值表⑴利用公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++,计算随机变量2K 的观测值k .⑶如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.考点一利用等高条形图判断两个分类变量之间的关系例1为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组合对照组的尿棕色素定性检查,结果如下表:用等高条形图判断铅中毒病人和对照人群的尿棕色素阳性数有无差别.解:根据列联表,画出等高条形图,如图所示.其中,阴影部分的高分别为病人组和对照组中尿棕色素呈阴性的频率.比较图中两个无色条的高可以发现,病人组中尿棕色素呈阳性的频率要比对照组中尿棕色素呈阳性的频率高很多,因此,只管上可以认为铅中毒病人和对照人群的尿棕色素阳性数有差别.(1)利用等高条形图可以粗略地判断两个分类变量是否有关系.(2)还可以利用ad bc-越大,说明两个分类变量的关-的大小判断两个分类变量关系的强弱,ad bc系越强;ad bc-越小,说明两个分类变量的关系越弱.考点二独立性检验的相关检验例2某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.他们两人的结论正确吗?他们的结论为什么不一样? 解:正确.由列联表中的数据求得2K 的观测值为()21895463403210.759949586103k ⨯⨯-⨯=≈⨯⨯⨯.10.7597.879 6.635>>,若以07.879k =为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;若以0 6.635k =为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系. 故李明和张宇的结论都正确.造成结论不一样的原因是两人采用了两种不同的判断规则,即所选用的临界值不同.总结:随机变量2K 的观测值k 越大,说明“X 与Y 有关系”成立的可能性越大,因为根据列联表中数据求得2K 的观测值k ,而选用不同的临界值0k 作为比照时,认为“X 与Y 有关系”犯错误的概率就会有所有所不同.考点三 独立性检验的无关检验 例3 为了研究高中学生选学文科、理科是否与“对外语的兴趣”有关,某老师调查了361名高二在校学生,调查结果如下:理科对外语感兴趣的有138人,不感兴趣的有52人.能否在犯错误的概率不超过0.1的前提下认为学生选学文科、理科与“对外语的兴趣”有关? 解:由上表,知138a =,73b =,98c =,52d =,211a b +=,150c d +=,236a c +=,125b d +=,361n =, 代入公式,得2K 的观测值为()24361138527398 1.87110211150236125k -⨯⨯-⨯=≈⨯⨯⨯⨯.因为41.87110 2.706-⨯<,所以在犯错误的概率不超过0.1的前提下不能推断学生选学文科、理科与“对外语的兴趣”有关. 总结(1)计算()()()()22()n ad bc K a b c d a c b d -=++++,如果2K 的值较大,就拒绝假设,也就是拒绝两个分类变量无关,从而认为它们是有关的.(2)若2 6.635K ≥,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关;若2 2.706K ≤,则认为没有发现足够证据说明两个分类变量有关. 考点四 独立性检验的基本思想及综合应用例4 下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异. 解:(1)假设0H :传染病与饮用水的卫生程度无关. 把表中数据代入公式,得2K 的观测值为()2830522184669454.21518312146684k ⨯⨯-⨯=≈⨯⨯⨯,因为54.2110.828>,所以拒绝0H .因为在犯错误的概率不超过0.001的前提下认为这种传染病与饮用水的卫生程度有关. (2)依题意,得如下列联表:根据列联表中的数据得到2K 的观测值为()286522509 5.78555311472k ⨯⨯-⨯=≈⨯⨯⨯.因为5.785 5.024>,所以在犯错误的概率不超过0.025的前提下认为这种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中是在犯错误的概率不超过0.001的前提下认为结论正确,(2)中是在犯错误的概率不超过0.025的前提下认为结论正确.解决这类问题,关键是正确计算2K 的观测值,利用临界值来进行判断.如果求出的2K 的观测值很大,就认为两个分类变量有关;如果2K 的观测值很小,就认为没有足够证据说明两个分类变量有关. 例5 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目不低于40min 的观众称为“体育迷”.(1)根据已知条件完成下面的列联表,并据此资料你是否能在犯错误的概率不超过0.05的前提下“体(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3此,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,数学期望()E X 和方差()D X .解:(1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有()1000.0200.0051025⨯+⨯=(人) 则22⨯列联表如下:将列联表中的数据代入公式计算,得2K 的观测值为()210030101545 3.03045557525k ⨯⨯-⨯=≈⨯⨯⨯.因为3.030 3.841<,所以在犯错误的概率不超过0.05的前提下没有足够的理由认为“体育迷”与性别有关.(2)由频率分布直方图,知随机抽到“体育迷”的概率为14.将频率视为概率,即从观众中随机抽到1名“体育迷”的概率为14. 由题意,知13,4XB ⎛⎫⎪⎭,从而X 的分布列为()13344E X =⨯=, ()119314416D X ⎛⎫=⨯⨯-= ⎪⎝⎭.(1)解决第(1)问的关键是先根据频率分布直方图求出“体育迷”的人数,进而完成22⨯列联表,再计算出的观测值2K ,从而作出判断.(2)解决第(2)问的关键是正确写出分布列.。
2017-2018学年高二数学人教A版选修2-3文档:第3章 3-2 学业分层测评 含答案 精品
学业分层测评(建议用时:45分钟)[学业达标]一、选择题1.通过对K2的统计量的研究得到了若干个临界值,当K2≤2.706时,我们认为()A.在犯错误的概率不超过0.05的前提下认为X与Y有关系B.在犯错误的概率不超过0.01的前提下认为X与Y有关系C.没有充分理由认为X与Y有关系D.不能确定【解析】∵K2≤2.706,∴没有充分理由认为X与Y有关系.【答案】 C2.下列关于等高条形图的叙述正确的是()A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图中可以粗略地看出两个分类变量是否有关系D.以上说法都不对【解析】在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能够找出频率,无法找出频数,故B错.【答案】 C3.分类变量X和Y的列联表如下:A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越弱C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强【解析】对于同一样本,|ad-bc|越小,说明X与Y之间关系越弱;|ad-bc|越大,说明X与Y之间的关系越强.【答案】 C4.某校为了研究初一学生吃零食是否与性别有关,从初一年级抽取了100名学生调查购买零食的费用,规定每月在零食上花费不低于30元的为吃零食较多,每月在零食上花费不满30元的为吃零食较少.根据收集的数据得到了一个2×2列联表,并计算得出K2的观测值为k=4.365,则下列结论正确的是() A.有97.5%的把握认为“初一学生吃零食与性别有关”B.有95%的把握认为“初一学生吃零食与性别有关”C.该校初一学生中有95%的学生吃零食较多D.该校初一学生中有95%的女生吃零食较多【解析】因为k=4.365>3.841,所以有95%的把握认为“初一学生吃零食与性别有关”.【答案】 B5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下表的列联表:由K2=n(ad(a+b)(c+d)(a+c)(b+d)算得,k=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”【解析】由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.【答案】 C二、填空题6.在对某小学的学生进行吃零食的调查中,得到如下表数据:【导学号:29472088】【解析】由公式可计算得k=102×(27×29-34×12)239×63×61×41≈2.334.【答案】 2.3347.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.(填序号)【解析】K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.【答案】③8.某小学对232名小学生调查发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验的方法判断多动症与性别________.(填“有关”或“无关”) 【解析】由题目数据列出如下列联表:k=232×(98×50-82×2)2180×52×100×132≈42.117>10.828.所以,在犯错误的概率不超过0.001的前提下,认为多动症与性别有关系.【答案】有关三、解答题9.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?【解】列出2×2列联表:代入公式得K2k=361×(138×52-73×98)2236×125×211×150≈1.87×10-4.因为1.87×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关.10.有人发现一个有趣的现象,中国人的邮箱里含有数字比较多,而外国人邮箱名称里含有数字比较少,为了研究国籍和邮箱名称里含有数字的关系,他收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立2×2列联表;(2)他发现在这组数据中,外国人邮箱里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?【解】(1)2×2的列联表:(2)假设“由表中数据得k=124×(43×33-27×21)270×54×64×60≈6.201.因为k>5.024,所以有理由认为假设“国籍和邮箱名称里与是否含有数字无关”是不合理的,即在犯错误的概率不超过0.025的前提下认为“国籍和邮箱名称里与是否含有数字有关”.[能力提升]1.对两个分类变量A,B,下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据.A.1B.2C.3D.0【解析】①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助等高条形图等.故选A.【答案】 A2.某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列叙述中正确的是()A.有95%的把握认为“这种血清能起到预防感冒的作用”B.若有人未使用该血清,那么他一年中有95%的可能性得感冒C.这种血清预防感冒的有效率为95%D.这种血清预防感冒的有效率为5%【解析】K2≈3.918>3.841,因此有95%的把握认为“这种血清能起到预防感冒的作用”,故选A.【答案】 A3.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:设H k≈________(小数点后保留一位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【导学号:29472089】【解析】由公式计算得K2的观测值k≈4.9.∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.【答案】 4.95%4.某教育科研机构研发了一款新的学习软件,为了测试该软件的受欢迎程度,该公司在某市的两所初中和两所小学按分层抽样法抽取部分学生进行了调研.已知这四所学校在校学生有9 000人,其中小学生5 400人,参加调研的初中生有180人.(1)参加调研的小学生有多少人?(2)该科研机构将调研的情况统计后得到下表:软件”与“学生年龄”有关?【解】(1)这四所学校共9 000人,其中小学生5 400人,所以初中生有3 600人.因为参加调研的初中生有180人,所以抽取比例为1803 600=120,所以参加调研的小学生有5 400×120=270人.(2)由(1)知参加调研的总人数为180+270=450,所以,表格中的数据如下表:因为K2=240×210×180×270≈48.214>10.828,所以有99.9%的把握认为“喜爱玩该游戏”与“性别”有关.。
2017_2018学年高中数学课下能力提升二新人教A版选修1_2
[学业水平达标练]
题组1 用2×2列联表分析两分类变量间的关系
1.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
那么以下说法正确的选项是( )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
k0
3.841
6.635
10.828
参照附表,取得的正确结论是( )
A.有99%以上的把握以为“爱好该项运动与性别有关”
B.有99%以上的把握以为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1% 的前提下,以为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1% 的前提下,以为“爱好该项运动与性别无关”
3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,取得统计数据如表1至表4,那么 与性别有关联的可能性最大的变量是( )
表1
成绩性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商性别
②
从独立性查验可知在犯错误的概率不超过0.01的前提下,以为抽烟与患肺病有关系时,假设某人抽烟,那么他有99%的可能患有肺病;
广西专版2023_2024学年新教材高中数学第8章成对数据的统计分析8.3列联表与独立性检验训练提升
8.3列联表与独立性检验课后·训练提升基础巩固1.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:单位:人班级数学成绩合计优秀及格甲班113445乙班83745合计197190则随机变量χ2的值约为()A.0.600B.0.828C.2.712D.6.004答案:A解析:根据列联表中的数据,可得随机变量χ2=≈0.600.故选A.2.分类变量X和Y的列联表如下,则下列说法判断正确的是()X Y合计Y1Y2X1a b a+bX2c d c+d合计a+c b+d a+b+c+dA.ad-bc越小,说明X和Y关系越弱B.ad-bc越大,说明X和Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强答案:C解析:2×2列联表可以较为准确地判断两个变量之间的相关关系,由χ2=,得(ad-bc)2越大,χ2越大,表明X与Y的关系越强.3.有两个分类变量X,Y,其列联表如下所示,X YY1Y2X1a20-a X215-a30+a其中a,15-a均为大于5的整数,若变量X与Y不独立,这个结论犯错误的概率不超过0.05,则a的值为()A.8B.9C.8或9D.6或8答案:C解析:根据公式,得χ2==≥3.841,根据a>5,且15-a>5,a∈Z,求得当a=8或9时满足题意.4.若由一个2×2列联表中的数据计算得χ2≈4.013,那么可以认为两个变量有关系,这个结论犯错误的概率不超过()α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828A.0.005B.0.05C.0.01D.0.001答案:B解析:由一个2×2列联表中的数据计算得χ2≈4.013,因为χ2≈4.013>3.841=x0.05,那么可以认为两个变量有关系,这个结论犯错误的概率不超过0.05.5.下列关于等高堆积条形图的叙述正确的是()A.从等高堆积条形图中可以精确地判断两个分类变量是否有关系B.从等高堆积条形图中可以看出两个变量频数的相对大小C.从等高堆积条形图中可以粗略地看出两个分类变量是否有关系D.以上说法都不对答案:C6.某大学为调查毕业学生的就业状况,抽查了100名学生毕业一个月能否就业的情况,得到2×2列联表如下:单位:人性别就业合计能就业不能就业男生401050女生302050合计7030100如果该大学认为毕业学生一个月能否找到工作与性别有关,那么犯错误的概率不会超过.附:χ2=α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828答案:0.05解析:由列联表数据可得,χ2=≈4.762>3.841=x0.05,故犯错误的概率不会超过0.05.7.某学生对其亲属30人的饮食进行了一次调查,30人的饮食指数如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)甲(50岁以下)214345587476777882 838590乙(50岁以上)202125262627323336 373942444558617578(1)根据以上数据完成下列2×2列联表;单位:人年龄主食合计主食蔬菜主食肉类50岁以下50岁以上合计(2)根据小概率值α=0.01的独立性检验分析其亲属的饮食习惯与年龄是否有关,并写出简要分析.解(1)2×2列联表如下:单位:人年龄主食合计主食蔬菜主食肉类50岁以下481250岁以上16218合计201030(2)零假设为H0:亲属的饮食习惯与年龄无关联.根据列联表中的数据,经计算得到χ2==10>6.635=x0.01.根据小概率值α=0.01的独立性检验,推断H0不成立,即认为其亲属的饮食习惯与年龄有关,此推断犯错误的概率不大于0.01.8.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:单位:人年龄是否喜欢合计喜欢不喜欢大于40岁2052520岁至40岁102030合计302555(1)根据小概率值α=0.005的独立性检验分析喜欢“人文景观”景点与年龄是否有关.(2)用分层随机抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1名大于40岁的市民和1名20岁至40岁的市民的概率.解(1)零假设为H0:喜欢“人文景观”景点与年龄无关联.根据列联表中的数据,经计算得χ2=≈11.978>7.879=x0.005.根据小概率值α=0.005的独立性检验,推断H0不成立,因此可以认为喜欢“人文景观”景点与年龄有关联,此推断犯错误的概率不大于0.005.(2)由题意知抽取的6人中大于40岁的市民有4人,20岁至40岁的市民有2人,分别记为B1,B2,B3,B4,C1,C2,从中任选2人的可能结果有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C 1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1名大于40岁的市民和1名20岁至40岁的市民的结果有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,因此恰有1名大于40岁的市民和1名20岁至40岁的市民的概率为.9.某市环保部门对该市市民进行了一次垃圾分类知识的网络问卷调查,每位市民仅有一次参加机会,通过随机抽样,得到参与问卷调查的100人的得分(满分:100分)数据,统计结果如表所示.组别[40,50)[50,60)[60,70)[70,80)[80,90)[90,100)男235151812女051010713小概率值α=0.05的独立性检验,分析“环保关注者”是否与性别有关.(2)若问卷得分不低于80分的人称为“环保达人”,视频率为概率:①在我市所有“环保达人”中,随机抽取3人,求抽取的3人中,既有男“环保达人”又有女“环保达人”的概率;②为了鼓励市民关注环保,针对此次的调查制定了如下奖励方案:“环保达人”获得两次抽奖机会;其他参与的市民获得一次抽奖机会,每次抽奖获得红包的金额和对应的概率如下表:红包金额/元1020概率现某市民要参加此次问卷调查,记X(单位:元)为该市民参加问卷调查获得的红包金额,求X的分布列及均值.附表及公式:χ2=,n=a+b+c+d.χ2独立性检验中常用的小概率值和相应的临界值α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828解:(1)零假设为H0:“环保关注者”与性别无关联.由题中表格可得2×2列联表如下:单位:人性别是否为“环保关注者”合计非“环保关注者”“环保关注者”男104555女153045合计2575100将2×2列联表中的数据代入公式χ2=,n=a+b+c+d,得χ2=≈3.03<3.841=x0.05.根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为性别与“环保关注者”无关联.(2)视频率为概率,则抽取1人为男“环保达人”的概率为,为女“环保达人”的概率为.①抽取的3人中既有男“环保达人”又有女“环保达人”的概率为P=1-.②X的取值为10,20,30,40;P(X=10)=;P(X=20)=;P(X=30)=;P(X=40)=.故X 的分布列为X10203040PE(X)=10×+20×+30×+40×.能力提升1.(多选题)针对当下的“短视频热”,某校团委对“学生性别和喜欢短视频是否有关”做了一次调查,其中被调查的男女生人数相同,男生喜欢短视频的人数占男生人数的,女生喜欢短视频的人数占女生人数的.若认为喜欢短视频和性别有关犯错误的概率不大于0.05,则调查中男生的人数可能是()α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828附:χ2=.A.25B.35C.45D.55答案:CD解析:设男生的人数为5n(n∈N*),根据题意列出2×2列联表如表所示:是否喜欢短视频性别合计男生女生喜欢4n3n7n不喜欢n2n3n合计5n5n10n则χ2=.因为认为喜欢短视频和性别有关犯错误的概率不大于0.05,则χ2≥3.841,即≥3.841,得n≥8.0661.因为n∈N*,所以n的可能取值有9,10,11,…,所以调查人数中男生人数可能是45,50,55,….2.某校为了解学生对餐厅食品质量的态度(满意或不满意),对在餐厅就餐的学生随机做了一次调查.其中被调查的男生、女生人数相同,有的男生态度是“不满意”,有的女生态度是“不满意”,根据小概率值α=0.01的χ2独立性检验得到男生和女生对餐厅食品质量的态度有差异,则调查的总人数可能为()A.120B.160C.240D.260答案:C解析:设调查的总人数为x,则男生人数有人,女生人数有人,由题意完成2×2列联表如下:性别态度合计满意不满意男生女生合计x根据小概率值α=0.01的χ2独立性检验得到男生和女生对餐厅食品质量的态度有差异,则χ2=≥6.635=x0.01,x≥179.145,结合选项知,调查的总人数可能为240或260,又260×≈21.7,不符合题意,故选C.3.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得到数据如下表所示:单位:人性别是否有效果合计无效有效男性患者153550女性患者64450合计2179100答案:4.9解析:由公式计算得χ2≈4.9.4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10 000株的生长情况进行研究,现采用分层随机抽样方法抽取50株作为样本,统计结果如下:单位:株玉米粒的形状植株的高矮合计高茎矮茎圆粒102030皱粒14620合计242650(1)现采用分层随机抽样的方法,先从该样本所含的圆粒玉米中取出6株玉米,再从这6株玉米中随机选出2株,求这2株之中既有高茎玉米又有矮茎玉米的概率; (2)根据小概率值α=0.05的独立性检验,分析玉米粒的形状与植株的高矮有无关联.解:(1)依题意,取出的6株圆粒玉米中含高茎2株,记为a,b;矮茎4株,记为A,B,C,D,从中随机选取2株有如下15种情况:aA,aB,aC,aD,bA,bB,bC,bD,ab,AB,AC,AD,BC,BD,CD.其中满足题意的共有aA,aB,aC,aD,bA,bB,bC,bD,共8种,则所求概率为P=.(2)零假设为H0:玉米粒的形状与植株的高矮之间无关联.根据已知列联表,得χ2=≈6.464>3.841=x0.05,根据小概率值α=0.05的独立性检验,推断H0不成立,即认为玉米粒的形状与植株的高矮有关联,此推断犯错误的概率不大于0.05.5.为比较注射A,B两种药物产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2所示的分别是注射药物A和药物B后皮肤疱疹面积的频数分布.(疱疹面积单位:mm2)表1疱疹面积[60,65)[65,70)[70,75)[75,80]频数30402010表2疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85]频数1025203015(1)完成图①和图②所示的分别注射药物A,B后皮肤疱疹面积的频率分布直方图,并求注射药物A后疱疹面积的中位数;图①图②(2)完成2×2列联表,根据小概率值α=0.001的独立性检验,分析疱疹面积是否与注射两种药物有关.单位:只注射药物疱疹面积合计疱疹面积小于70 mm2疱疹面积不小于70 mm2注射药物A a=b=注射药物B c=d=合计附:χ2=,n=a+b+c+d.χ2独立性检验中常用的小概率值和相应的临界值α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828解:(1)根据题意,完成图①和图②的频率分布直方图,如图所示:图①图②注射药物A后疱疹面积的中位数为=65+5×=67.5.(2)零假设为H0:疱疹面积与注射两种药物独立,即疱疹面积与注射两种药物无关.单位:只注射药物疱疹面积合计疱疹面积小于70mm2疱疹面积不小于70mm2注射药物A a=70b=30100注射药物B c=35d=65100合计10595200得χ2==≈24.56>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为疱疹面积与注射两种药物有关,此推断犯错误的概率不大于0.001.6.高铁、网购、移动支付和共享单车被誉为中国的“新四大发明”,彰显出中国式创新的强劲活力.某移动支付公司从某市移动支付用户中随机抽取100名进行调查,得到如下数据:每周移动支付次数1次2次3次4次5次6次及以上男10873215女5464630合计1512137845(1)把每周使用移动支付超过3次的用户称为“移动支付活跃用户”,依据小概率值α=0.005的χ2独立性检验,分析“移动支付活跃用户”与性别是否有关.(2)把每周使用移动支付6次及6次以上的用户称为“移动支付达人”,视频率为概率,在该市所有“移动支付达人”中,随机抽取4名用户.①求抽取的4名用户中,既有男“移动支付达人”又有女“移动支付达人”的概率;②为了鼓励男性用户使用移动支付,对抽出的男“移动支付达人”每人奖励300元,记奖励总金额为X,求X的分布列及均值.附公式及表如下:χ2=α0.10.050.010.0050.001xα 2.706 3.841 6.6357.87910.828单位:名性别用户合计非移动支付活跃用户移动支付活跃用户男252045女154055合计4060100零假设为H0:“移动支付活跃用户”与性别无关.将列联表中的数据代入公式计算得χ2==≈8.249>7.879=x0.005.依据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为“移动支付活跃用户”与性别有关.(2)视频率为概率,在某市所有“移动支付达人”中,随机抽取1名用户,该用户为男“移动支付达人”的概率为,女“移动支付达人”的概率为.①抽取的4名用户中,既有男“移动支付达人”,又有女“移动支付达人”的概率为P=1-.②记抽出的男“移动支付达人”人数为Y,则X=300Y.由题意得Y~B,P(Y=0)=;P(Y=1)=;P(Y=2)=;P(Y=3)=;P(Y=4)=.所以Y的分布列为Y01234P所以X的分布列为X03006009001200P由E(Y)=4×,得X的均值E(X)=300E(Y)=400元.。
等高条形图与列联表
1.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( )A. 吸烟,不吸烟B. 患病,不患病C. 是否吸烟,是否患病D. 以上都不对2.为考察A、B两种药物预防某疾病的效果,进行动物试验,分别得到等高条形图:根据图中信息,在下列各项中,说法最佳的一项是()A. 药物A、B对该疾病均没有预防效果B. 药物A、B对该疾病均有显著的预防效果C. 药物A的预防效果优于药物B的预防效果D. 药物B的预防效果优于药物A的预防效果3.下面是一个2×2列联表:则表中a、b处的值分别为()y1y2总计x1a21 73x28 25 33总计b46A. 94,96B. 52,50C. 52,60D. 54,524.现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图两个等高堆积条形图,根据这两幅图中的信息,下列哪个统计结论不正确的是A. 样本中的女生数量多于男生数量B. 样本中有理科意愿的学生数量多于有文科意愿的学生数量C. 样本中的男生偏爱理科D. 样本中的女生偏爱文科5.假设有两个分类变量X和Y的2×2列联表为:Xy1y2总计Yx1 5 b5+bx215 d15+d总计20 40 60对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为()A. b=5,d=35B. b=15,d=25C. b=20,d=20D. b=30,d=106.2019年,非洲猪瘟疫情侵袭了大半个中国.为考察某种药物对其治疗的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对治疗该种疾病有效果的条形图是()A. B.C. D.7.如图所示的等高条形图可以说明的问题是( )A. “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握B. “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C. 此等高条形图看不出两种手术有什么不同的地方D. “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的8.观察下列各图,其中两个分类变量之间关系最强的是()A. B.C. D.。
【高中数学】新人教A版高二8.3.1 分类变量与列联表(练习题)
新人教A版高二8.3.1 分类变量与列联表(2465)1.下列变量中不属于分类变量的是()A.性别B.吸烟C.宗教信仰D.国籍2×2则表中a,b的值分别为()A.52,50B.52,54C.54,52D.94,96跟得病之间的关系得到下表数据:根据以上数据,下列说法正确的是()A.种子是否经过处理跟是否得病有关B.种子是否经过处理跟是否得病无关C.种子是否经过处理决定是否得病D.以上都是错误的4.在等高堆积条形图中,两个因式的比值相差越大,要推断的论述成立的可能性就越大的是()A.aa+b 与dc+bB.ca+b与ac+bC.aa+b与cc+dD.aa+b与cb+c5.观察图中的各图,其中两个分类变量X,Y之间关系最强的是()A. B.C. D.形图中正确的是()A. B.C. D.7.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如图所示的等高堆积条形图,下列说法正确的是()A.样本中的男生人数多于女生人数B.样本中喜欢手机支付的人数多于喜欢现金支付的人数C.样本中多数男生喜欢手机支付D.样本中多数女生喜欢现金支付8.(多选题)甲、乙两个班级进行数学考试,按照成绩大于或等于85分为优秀,小于85分为非优秀统计成绩,得到如下表所示的列联表(单位:人):已知在全部105人中随机抽取1人,成绩优秀的概率为2,则下列说法正确的是7()A.列联表中c的值为30B.列联表中c的值为20C.列联表中b的值为35D.列联表中b的值为459.有四位同学在研究分类变量A与B的关系时,各自搜集的数据如下:这四位同学搜集的数据最能说明变量A ,B 之间存在差异的是( )A.甲B.乙C.丙D.丁2×2表(单位:人)中,d = .11.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样的方法在校园内调查了120位学生,2×2则a −b −c = .2×2其中a = ,b = .13.某市社保局为了调查工人文化程度与月收入之间的关系,随机调查了部2×2位:人):由表中数据直观分析,月收入4000元及以上是否与文化程度是本科文化以上有关.14.2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了男、女学生对网络课程的态度,426名男学生中有332人喜欢网络课程,594名女学生中有213人喜欢网络课程.作出等高堆积条形图,利用图形判断性别与对网络课程的态度是否有关系.15.机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下经计算得χ2=100×(35×28−15×22)2≈6.895.之后又对被研究者的身高进行了统计,50×50×57×34得到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正A.在犯错误的概率不超过1%的前提下,认为“是否爱好拳击运动与性别有关”B.在100个男生中,至少有一个人爱好拳击运动C.男生身高的平均数为175,男生身高的标准差为16D.女生身高的平均数为164,女生身高的标准差为316.BMI指数(身体质量指数,英文为BodyMassIndex,简称BMI)是衡量人体胖瘦程度的一个标准,BMI=体重(kg)/身高(m)的平方.根据中国肥胖问题工作组标准,当BMI⩾28时为肥胖.某地区随机调查了1200名35岁以上成人的身体健康状况,其中有200名高血压患者,将数据整理,可得如图所示的频率分布直方图.(1)求被调查者中肥胖人群的BMI的平均值μ;(2)填写下面的列联表(单位:人),并由表中数据直观分析,35岁以上成人患参考答案1.【答案】:B【解析】:“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选 B.2.【答案】:B【解析】:依题意a+21=73,故a=73−21=52,又a+2=b,所以b=54,故选 B.3.【答案】:A【解析】:由列联表中的数据可知,种子经过处理,得病的比例明显降低,种子未经过处理,得病的比例要高些,所以可得结论:种子是否经过处理跟是否得病有关.故选 A.4.【答案】:C【解析】:由等高堆积条形图可知aa+b 与cc+d的值相差越大,|ad−bc|就越大,两个分类变量的相关性就越强,要推断的论述成立的可能性就越大.5.【答案】:D【解析】:在四幅图中,选项D的图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选 D.6.【答案】:D【解析】:根据统计表所提供的信息,x1对应的y1,y2的比为1∶4;x2对应的y1,y2的比为2∶3,可得等高堆积条形图为D中所示.故选 D.7.【答案】:BC【解析】:由题图(1)知,样本中的男生人数少于女生人数,A不正确;由题图(2)知,样本中喜欢手机支付的人数多于喜欢现金支付的人数B正确;由题图(2)知,样本中多数男生喜欢手机支付,C正确;由题图(2)知,样本中女生喜欢现金支付的人数与喜欢手机支付的人数一样多,D不正确.故选BC.8.【答案】:B;D【解析】:∵在全部105人中随机抽取1人,成绩优秀的概率为27,∴成绩优秀的人数为105×27=30,成绩非优秀的人数为105−30=75,∴c=30−10=20,b=75−30=45,故选BD.9.【答案】:D【解析】:甲同学搜集的数据中,ba+b =224254≈0.88,dc+d=13551379≈0.98;乙同学搜集的数据中,ba+b =630=0.2,dc+d=2036≈0.56;丙同学搜集的数据中,ba+b =3155≈0.56,dc+d=2634≈0.76;丁同学搜集的数据中,ba+b =2050=0.4,dc+d=4050=0.8.所以最能说明变量A,B之间存在差异的是丁同学搜集的数据.故选 D.10.【答案】:49【解析】:在2×2列联表中,肝癌患者的人数为9924−9830=94,则d=94−45= 49.11.【答案】:9【解析】:根据题意,得c=120−73−25=22,a=74−22=52,b=73−52=21,所以a−b−c=52−21−22=9.12.【答案】:35;50【解析】:由题意可得a+35=70,得a=35,a+15=b,得b=50.13.【答案】:方法一:因为本科文化以上的55人中有45人月收入在4000元及以上,而本科文化及以下的50人中有30人月收入在4000元及以上,即ba+b =4555,dc+d=30 50=3355,两者相差较大,所以经直观分析,月收入4000元及以上与文化程度是本科文化以上有关.方法二:令X={0,本科文化以上,1,本科文化及以下,Y={0,月收入4000元以下,1,月收入4000元及以上,则P(Y=1|X=0)=n(X=0,Y=1)n(X=0)=4555,P(Y=1|X=1)=n(X=1,Y=1)n(X=1)=3050=3355,因为两者相差较大,所以经直观分析,月收入4000元及以上与文化程度是本科文化以上有关.如下:相应的等高堆积条形图如图所示:图中阴影部分的高度表示喜欢网络课程与不喜欢网络课程的学生中男生的频率.从图中可以看出,喜欢网络课程的学生中男生的频率比不喜欢网络课程的学生中男生的频率高,所以可以认为对网络课程的态度与性别有关.15.【答案】:A;D【解析】:χ2≈6.895>6.635,A正确,显然B错误,男生身高的标准差为4,C错误,显然D正确,故选AD.16(1)【答案】被调查者中肥胖人群的BMI的平均值μ=29×0.2+31×0.1+33×0.05+ 29×0.16+31×0.06+33×0.01=17.38.(2)【答案】高血压人群中肥胖的人数为200×(0.2+0.1+0.05)=70,不肥胖的人数为200−70=130,非高血压人群中肥胖的人数为(1200−200)×(0.16+0.06+0.01)=230,不肥胖的人数为1200−200−230=770.所以2×2列联表如下:方法一:因为200名高血压患者中有70人肥胖,而1000名非高血压患者中有230人肥胖,所以aa+b =70200=35100,cc+d=2301000=23100,两者相差较大,所以经直观分析,35岁以上成人患高血压与肥胖有关.方法二:令X={0,高血压,1,非高血压,Y={0,肥胖,1,不肥胖,则P(Y=0|X=0)=n(X=0,Y=0)n(X=0)=70200=35100,P(Y=0|X=1)=n(X=1,Y=0)n(X=1)=2301000=23100,两者相差较大,所以经直观分析,35岁以上成人患高血压与肥胖有关。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
3月6日 列联表和等高条形图的应用
高考频度:★☆☆☆☆ 难易程度:★★☆☆☆
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?
参考公式和数据:22
()()()()()
n ad bc K a c b d a b c d -=++++,其中n a b c d =+++.学¥科网
20()P K k ≥
0.15 0.10 0.05 0.025 0.010 0.005 0.001 0k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【参考答案】在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系.
【试题解析】根据题目所给数据得如下2×2列联表:
合格品 次品 总计 甲在生产现场 982 8 990 甲不在生产现场
493 17 510 总计
1475
25
1500
相应的等高条形图如下图所示:
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品的频率.
从图中可以看出,甲不在生产现场样本中次品的频率明显高于甲在生产现场样本中次品的频率. 因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.。