高中数学:统计与统计案例练习

合集下载

2020新课标高考数学典型习题专项训练:统计与统计案例

2020新课标高考数学典型习题专项训练:统计与统计案例

统计与统计案例[A 组 夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A —结伴步行,B —自行乘车,C —家人接送,D —其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A 类人数是( )A .30B .40C .42D .48解析:选A.由条形统计图知,B —自行乘车上学的有42人,C —家人接送上学的有30人,D —其他方式上学的有18人,采用B ,C ,D 三种方式上学的共90人,设A —结伴步行上学的有x 人,由扇形统计图知,A —结伴步行上学与B —自行乘车上学的学生占60%,所以x +42x +90=60100,解得x =30,故选A. 4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程y =-2x +60,则a 的值为( ) A .48 B .62 C .64D .68解析:选C.由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a =64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x 甲=26+28+29+31+315=29,乙队的平均得分x 乙=28+29+30+31+325=30,x 甲<x 乙,选项A 不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B 不正确;甲队得分的方差s 2甲=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185,乙队得分的方差s 2乙=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s 2甲>s 2乙,选项C 正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D 不正确.故选C.6.(多选)CPI 是居民消费价格指数(consumer price index)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI 涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是 ( )A .2018年1月至6月各月与去年同期比较,CPI 有涨有跌B .2018年2月至6月CPI 只跌不涨C .2018年3月以来,CPI 在缓慢增长D .2017年8月与同年12月相比较,8月环比更大解析:选ABC.A 选项,2018年1月至6月各月与去年同期比较,CPI 均是上涨的,故A 错误;B 选项,2018年2月CPI 是增长的,故B 错误;C 选项,2018年3月以来,CPI 是下跌的,故C 错误;D 选项,2017年8月CPI 环比增长0.4%,12月环比增长0.3%,故D 正确.故选ABC.二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________,平均数为________.解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为14+162=15,平均数为110(5+8+9+12+14+16+16+19+21+24)=14.4.答案:15 14.48.已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为________.解析:根据方差的性质可知,a 2×2=8,故a =2. 答案:29.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同; ③若一组数据a ,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y ^=a ^+b ^x ,其中a ^=2,x =1,y =3,则b ^=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为16(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a +0+1+2+3=5,解得a =-1,故样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为2,故③是假命题;在④中,回归直线方程为y ^=b ^x +2,又回归直线过点(x ,y ),把(1,3)代入回归直线方程y ^=b ^x +2,得b ^=1,故④是真命题.答案:②④ 三、解答题10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)20 000×40200=4 000.(2)2×2列联表为K 2=200×(3540×160×140×60≈7.292>6.635,故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x (单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X 服从正态分布N (μ,σ2),其中μ近似为年平均收入x ,σ2近似为样本方差s 2,经计算得s 2=6.92.利用该正态分布,解决下列问题:(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式6.92≈2.63,若X ~N (μ,σ2),则 ①P (μ-σ<X ≤μ+σ)≈0.682 7; ②P (μ-2σ<X ≤μ+2σ)≈0.954 5; ③P (μ-3σ<X ≤μ+3σ)≈0.997 3.解:(1)x =12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X ~N (17.40,6.92). (i)P (X >μ-σ)≈12+0.682 72≈0.841 4,μ-σ≈17.40-2.63=14.77, 即最低年收入大约为14.77千元.(ii)由P (X ≥12.14)=P (X ≥μ-2σ)≈0.5+0.954 52≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B (103,p ),其中p =0.977 3,于是恰好有k 位农民的年收入不少于12.14千元的事件的概率是P (ξ=k )=C k 103p k (1-p )103-k ,从而由P (ξ=k )P (ξ=k -1)=(1 001-k )×pk ×(1-p )>1,得k <1 001p ,由P (ξ=k )P (ξ=k +1)=(k +1)(1-p )(1 000-k )p>1,得k >1 001p -1,而1 001p =978.277 3, 所以,977.277 3<k <978.277 3,由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978. 12.(2019·洛阳市统考)某学校高三年级共有4个班,其中实验班和普通班各2个,且各班学生人数大致相当.在高三第一次数学统一测试(满分100分)成绩揭晓后,教师对这4个班的数学成绩进行了统计分析,其中涉及试题“难度”和“区分度”等指标.根据该校的实际情况,规定其具体含义如下:难度=4个班平均分100,区分度=实验班平均分-普通班平均分100.(1)现从这4个班中各随机抽取5名学生,根据这20名学生的数学成绩,绘制茎叶图如下:请根据以上样本数据,估计该次考试试题的难度和区分度;(2)为了研究试题的区分度与难度的关系,调取了该校上一届高三6次考试的成绩分析数据,得到下表:考试序号 1 2 3 4 5 6 难度x 0.65 0.71 0.73 0.76 0.77 0.82 区分度y0.120.160.160.190.200.13①用公式r =∑i =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2计算区分度y 与难度x 之间的相关系数r (精确到0.001);②判断y 与x 之间相关关系的强与弱,并说明是否适宜用线性回归模型拟合y 与x 之间的关系.参考数据:∑6i =1x i y i =0.713 4, ∑6i =1 (x i -x )2∑6i =1 (y i -y )2≈0.009 2.解:(1)由茎叶图知,实验班这10人的数学总成绩为860分,普通班这10人的数学总成绩为700分,故这20人的数学平均成绩为860+70020=78(分),由此估计这4个班的平均分为78分, 所以难度=78100=0.78.由86010=86估计实验班的平均分为86分,由70010=70估计普通班的平均分为70分, 所以区分度=86-70100=0.16.(2)①由于∑ni =1 (x i -x )(y i -y ) =∑ni =1 (x i y i -yx i -xy i +xy ) =∑ni =1x i y i -y ∑ni =1x i -x ∑ni =1y i +nx y =∑n i =1x i y i -nx y -nx y +nx y =∑n i =1x i y i -nx y , 且∑6i =1x i y i =0.713 4, ∑6i =1(x i -x )2∑6i =1 (y i -y )2 ≈0.009 2,6x y =6×0.74×0.16=0.710 4, 所以r =∑6i =1 (x i -x )(y i -y )∑6i =1(x i -x )2∑6i =1 (y i -y )2=∑6i =1x i y i -6x y∑6i =1(x i -x )2∑6i =1 (y i -y )2≈0.713 4-0.710 40.009 2≈0.326.②由于r ≈0.326∈[0.30,0.75),故两者之间相关性非常一般,不适宜用线性回归模型拟合y 与x 之间的关系,即使用线性回归模型来拟合,效果也不理想.[B 组 大题增分专练]1.(2019·济南市七校联合考试)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 ≥600 1 总计10附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 00.4550.7081.3232.0722.706解:(1)0.1. 所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 2 4 ≥600 5 1 6 总计7310K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323. 故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.2.(2019·佛山模拟)表中的数据是一次阶段性考试某班的数学、物理原始成绩: 学号 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 数学117128 96 113 136 139 124 124 121 115 115 123 125 117 123 122 132 129 96 105 106 120 物理 8084838589819178859172 7687827982848963737745学号 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 数学108137 87 95 108 117 104 128 125 74 81 135 101 97 116 102 76 100 62 86 120 101 物理 768071577265697955567763707563596442627765学号为22号的A 同学由于严重感冒导致物理考试发挥失常,学号为31号的B 同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将A ,B 两同学的成绩(对应于图中A ,B 两点)剔除后,用剩下的42个同学的数据作分析,计算得到下列统计指标:数学学科平均分为110.5,标准差为18.36,物理学科的平均分为74,标准差为11.18,数学成绩x 与物理成绩y 的相关系数r =0.822 2,回归直线l (如图所示)的方程为y ^=0.500 6x +18.68.(1)若不剔除A ,B 两同学的数据,用全部44人的成绩作回归分析,设数学成绩x 与物理成绩y 的相关系数为r 0,回归直线为l 0,试分析r 0与r 的大小关系,并在图中画出回归直线l 0的大致位置.(2)如果B 同学参加了这次物理考试,估计B 同学的物理分数(精确到个位).(3)就这次考试而言,学号为16号的C 同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平,可按公式Z i =x i -xs统一化成标准分再进行比较,其中x i 为学科原始成绩,x 为学科平均分,s 为学科标准差)解:(1)r 0<r ,说明理由可以是①离群点A ,B 会降低变量间的线性关联程度;②44个数据点与回归直线l 0的总偏差更大,回归效果更差,所以相关系数更小; ③42个数据点与回归直线l 的总偏差更小,回归效果更好,所以相关系数更大; ④42个数据点更加贴近回归直线l ; ⑤44个数据点与回归直线l 0更离散. 其他言之有理的理由均可.(直线l 0的斜率须大于0且小于l 的斜率,具体位置稍有出入没关系,无需说明理由) (2)将x =125代入y ^=0.500 6x +18.68中, 得y =62.575+18.68≈81,所以估计B 同学的物理分数大约为81分.(3)由表中数据知C 同学的数学原始成绩为122分,物理原始成绩为82分, 则数学标准分Z 16=x 16-x s 1=122-110.518.36=11.518.36≈0.63,物理标准分Z ′16=y 16-y s 2=82-7411.18=811.18≈0.72, 因为0.72>0.63,所以C 同学物理成绩比数学成绩要好一些.3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤芯是否需要更换相互独立),三级滤芯无需更换.若客户在安装净水系统的同时购买滤芯,则一级滤芯每个80元.二级滤芯每个160元.若客户在使用过程中单独购买滤芯,则一级滤芯每个200元,二级滤芯每个400元.现需决策安装净水系统的同时购买滤芯的数量,为此参考了根据100套该款净水系统在十年使用期内更换滤芯的相关数据制成的图表,其中图1是根据200个一级过滤器更换的滤芯个数制成的柱状图,表1是根据100个二级过滤器更换的滤芯个数制成的频数分布表.二级滤芯更换的个数5 6频数6040以200个一级过滤器更换滤芯的频率代替1个一级过滤器更换滤芯发生的概率,以100个二级过滤器更换滤芯的频率代替1个二级过滤器更换滤芯发生的概率.(1)求一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30的概率;(2)记X表示该客户的净水系统在使用期内需要更换的一级滤芯总数,求X的分布列及数学期望;(3)记m,n分别表示该客户在安装净水系统的同时购买的一级滤芯和二级滤芯的个数,若m+n=28,且n∈{5,6},以该客户的净水系统在使用期内购买各级滤芯所需总费用的期望值为决策依据,试确定m,n的值.解:(1)由题意可知,若一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30,则该套净水系统中的两个一级过滤器均需更换12个滤芯,二级过滤器需要更换6个滤芯.设“一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30”为事件A,因为一个一级过滤器需要更换12个滤芯的概率为0.4,二级过滤器需要更换6个滤芯的概率为0.4,所以P(A)=0.4×0.4×0.4=0.064.(2)由柱状图可知,一个一级过滤器需要更换的滤芯个数为10,11,12,对应的概率分别为0.2,0.4,0.4,由题意,X可能的取值为20,21,22,23,24,并且P(X=20)=0.2×0.2=0.04,P(X=21)=0.2×0.4×2=0.16,P(X=22)=0.4×0.4+0.2×0.4×2=0.32,P(X=23)=0.4×0.4×2=0.32,P(X=24)=0.4×0.4=0.16.所以X的分布列为X 2021222324P 0.040.160.320.320.16E(X)=20×0.04(3)因为m+n=28,n∈{5,6},所以若m=22,n=6,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为22×80+200×0.32+400×0.16+6×160=2 848.若m=23,n=5,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为23×80+200×0.16+5×160+400×0.4=2 832.故m,n的值分别为23,5.4.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X(单位:小时)30<X<5050≤X≤70X>70光照控制仪运行台数32 1则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?附相关系数公式:r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4.因为∑i=15(x i-x)(y i-y)=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=910≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)记商家周总利润为Y 元,由条件可知至少需安装1台,最多安装3台光照控制仪. ①安装1台光照控制仪可获得周总利润3 000元. ②安装2台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润Y =3 000-1 000=2 000(元),P (Y =2 000)=1050=0.2,当30<X ≤70时,2台光照控制仪都运行,此时周总利润Y =2×3 000=6 000(元),P (Y =6 000)=4050=0.8,故Y 的分布列为③安装3台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润 Y =1×3 000-2×1 000=1 000(元). P (Y =1 000)=1050=0.2.当50≤X ≤70时,有2台光照控制仪运行,此时周总利润 Y =2×3 000-1×1 000=5 000(元), P (Y =5 000)=3550=0.7,当30<X <50时,3台光照控制仪都运行,周总利润Y =3×3 000=9 000(元),P (Y =9 000)=550=0.1, 故Y 的分布列为综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.。

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100 名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1 : 3 : 5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()领率组距A. 200 C. 400 0.0350.015B. 240D. 48010平均每周上网时间(h)解析:选C 设频率分布直方图中从左到右前3个小矩形的面积分别为A3K5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)X2 = 0.1.由于频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即尸=0.1.所以平均每周上网时间少于4h的学生所占比例为尸+3P=0.4,由此估计学生人数为0.4X1 000 =400.2. AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0〜50),二级良(51〜100),三级轻度污染(101〜150),四级中度污染(151〜200),五级重度污染(201〜300),六级严重污染(大于300).如图是昆明市2021年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2021年4月份空气质量优的天数为 ()A. 3B. 4C. 12D. 2142解析:选c 从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为 1 V.Z 22所以估计昆明市2021年4月份空气质量为优的天数为30X5=12,应选C.3.〔成都模拟〕某城市收集并整理了该市2021年1月份至10月份各月最低气温与最高气 温〔单位:C 〕的数据,绘制了下面的折线图.该城市各月的最低气温与最高气温具有较好的线性关系,那么根据折线图,以下结论错误 的是〔〕A.最低气温与最高气温为正相关B. 10月的最高气温不低于5月的最高气温C.月温差〔最高气温减最低气温〕的最大值出现在1月D.最低气温低于0C 的月份有4个解析:选D 在A 中,最低气温与最高气温为正相关,故A 正确;在B 中,10月的最高气温 不低于5月的最高气温,故B 正确;在C 中,月温差〔最高气温减最低气温〕的最大值出现在1月, 故C 正确:在D 中,最低气温低于0℃的月份有3个,故D 错误.应选D.4 .〔承德模拟〕为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取 了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体 中倾向选择生育二胎与倾向选择不生育二胎的人数比例图〔如下图〕,其中阴影局部表示倾向 选择生育二胎的对应比例,那么以下表达中错误的选项是〔〕A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关♦最高气温 ♦最低气温C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C 由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不 生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为 60X60% =36,女性人数为40X60%=24,不相同.应选C.5 .(石家庄模拟)某学校48两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过 茎叶图比拟两个班兴趣小组成绩的平均值及标准差.3 4 28 8 4 6 8 65152①A 班兴趣小组的平均成绩高于B 班兴趣小组的平均成绩; ②B 班兴趣小组的平均成绩高于A 班兴趣小组的平均成绩; ③A 班兴趣小组成绩的标准差大于B 班兴趣小组成绩的标准差;@B 班兴趣小组成绩的标准差大于A 班兴趣小组成绩的标准差. 其中正确结论的编号为()A.①④C. ®®其方差为白义[(53—78尸+(62—78/ +…+ (95—78)2]=121.6, 那么其标准差为'121.6%11.03;45+48+5H -------- F91B 班兴趣小组的平均成成为'」=66,其方差为表义[(45—66)2+(48 - 66)2 + ... + (91-66)2] =169.2, 那么其标准差为1169.2%13.01.应选A.6 .某商场对某一商品搞活动,该商品每一个的进价为3元,销售价为8元,每天售出的 第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如下图,设M 个)为每天商 品的销量,M 元)为该商场每天箱售这种商品的利润.从日利润不少于96元的几天里任选2天, 那么选出的这2天日利润都是97元的概率为()4 5 5 1 6 2 7 38班8 3 6 4 5 3 4 02B.②③D.①③解析:选A A 班兴趣小组的平均成绩为 53+62+64+…+92+95--------------- ---------------- =785x, x=18, 19, y =<l95+(x-19)(4-3), x=20, 21, J5x, x=18, 19, 即 L176+x, x=20, 21.当日销量不少于20个时,日利泗不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利泗为96元的有3天,记为日利泗为97元的有2天,记为人丛从中任选2天有 (.4),(〃石),(.力),(.1),3/),(48),3«),(c4),(.,8),(48),共 10 种情况.其中选出的这2天日利泗都是97元的有(A,8)1种情况. 故所求概率为关.应选B. 二、填空题7 .某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x/元 3.0 3.2 3.4 3.6 3.8 4.0 销量w 瓶504443403528x,y 的关系符合回归方程£=£+2其中分=-20.假设该品牌饮料的进价为2元,为使利润 最大,零售价应定为 元.解析:依题意得:x =3.5, y =40,A所以.=40—(- 20)X3.5=110,所以回归直线方程为f=-20x+110,利润 L = (A —2)(-20A + 110)= -201+ 150x-220,B 选• •1 - 9 1 - 5 A.C 解BioD.g由题意知频数(天)0 18 19 20 2 俏量〔个〕所以x=* = 3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如下图的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是.解析:设所求的人数为〃,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08 +0.16) X 2.5=0.7, n=0.7 X 200=140.答案:1409.为比拟甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:C) 制成如下图的茎叶图,甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,那么甲地该月11时的平均气温的标准差为.甲9 8 2 62 m 03 I解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+〃?,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,那么乙地该月11时的平均气温为(26+28+29+31+31计5 = 29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m + 32)+5 = 30,解得〃?=1,那么甲地该月11时的平均气温的标准差为嗝义[(28 - 30产+(29 - 30)2+(30 - 30/+(31 - 30/+(32 - 30户]=\(2.答案:^2三、解做题10.某篮球运发动的投篮命中率为50%,他想提升自己的投篮水平,制定了一个夏季练习计划,为了了解练习效果,执行练习前他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为463执行练习后也统计了10场比赛的得分,茎叶图如下图:0 8 91 2 4 4 5 6 82 1 3(1)请计算该篮球运发动执行练习后统计的10场比赛得分的中位数、平均得分与方差;⑵如果仅从执行练习前后统计的各10场比赛得分数据分析,你认为练习方案对该运发动的投篮水平的提升是否有帮助?为什么?解:(1)练习后得分的中位数为上芋=14.5;平均得分为8+9+12+14+14+15+16+18 + 21+23= 15:10方差为击义[(8—15)2 + (9 — 15>+(12 —15>+(14 — 15)2+(14 — 15> + (15 —15>+(16 — 15产+(18-15)2+(21-15)2+(23 —15)2]=20.6.(2)尽管中位数练习后比练习前稍小,但平均得分一样,练习前方差20.6小于练习前方差46.3, 说明练习后得分稳定性提升了(阐述观点合理即可),这是投篮水平提升的表现.故此练习方案对该篮球运发动的投篮水平的提升有帮助.11.(西安八校联考)在2021年俄罗斯世界杯期间,莫斯科的局部餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:⑴销售单价),与等级代码数值x之间存在线性相关关系,求),关于x的线性回归方程(系数精确到0.1);(2)假设莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(xi1 ),3,光),…其回归直线f=源+2的斜率和截距的最小2Xyi一〃x y八 '। A — A——二乘估计分别为Z? = ----------------- a= y —b x .n _Xxr-n x 26 6参考数据:2>»=8 440, 2e = 25 564.—38+48 + 58 + 68 + 78 + 88解:(1)由题意,得x -■= 63,- 16.8+18.8+20.8 + 22.8 + 24+25.8 _y = 6 =21.5,yA_8 440 - 6X63X21.5〜h = ~~6Z—=25 564—6X63X63「026 A 2A — A 一a= y -bx =21.5-0.2X63 = 8.9.故所求线性回归方程为f=0.2x+8.9.⑵由(1)知,当%=98 时,>=0.2X98+8.9=28.5.・•・估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术测试的100人的成绩进行了统计, 绘制的频率分布直方图如下图.规定80分以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中.的值;(2)估计该次测试的平均分不(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面2X2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.P(K?2k)0.40 0.25 0.15 0.1()0.050.025k0.708 1.323 2.072 2.706 3.841 5.024解:(1)由频率分布直方图中各小长方形面积总和为1,得(2.+ 0.020+0.03.+0.040)义10=1,解得〃=0...5.⑵由频率分布直方图知洛小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05.30,0.40,0.20.05,那么估计该次测试的平均分为 x = 55X0.05 + 65X0.30 + 75X0.40 + 85X0.20 + 95X0.05 = 74(分). ⑶由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100X0.25 = 25,填写2X2列联表如下:晋级成功 晋级失败合计男 16 34 50 女 9 41 50 合计2575100100X(16X41 ——25X75X50X50^2,613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.1 .为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单 位:小时)如下:248 256 232 243 188 268 278 266 289 312 274296 288 302 295 228 287 217 329 283K 2=n(acl-bc)2(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)频率分布表及频率分布直方图如下所示:0.0100 ——⑵由题意可得8乂(0.30+0.10+0.05) = 3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x =190X0.05 + 210X0.05 + 230X0.10 + 250X0.15 + 270X0.20 + 290X0.30 + 310X0.10 + 330X0.05 = 269(小时),所以样本的平均无故障连续使用时限为269小时.2 .海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg 〞,估计A 的概率;⑵填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量V50 kg箱产量250 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比拟. 附:P (心2)0.050 0.010 0.001 k3.841 6.635 10.8280.01500.0125频率 仇距0.0075 0.0050 0.0025.厂工丁丁丁丁厂!无故障连续使用时用/小时新养殖法、n(ad-bc)1 _ .K-= . , , ,,其中〃=a+/?+c+d.(a+Z?)(c 十d)(a十c)(Z?+d)解:⑴旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)X5=0.62.因此,事件A的概率估计值为0.62.⑵根据箱产量的频率分布直方图得到联表:K2=---------- -------------------- 15 705100X100 X 96X104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图说明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =+£即=9.97,5=、*ZG L x )21 /=1 \ / 1O/=1/ 1 16 _ / 16 16 _=、/讳16 X 2比0.212, / L G-8.5)2^ 18.439,Z (x,- x )(L8.5)=—2.78,其中为为抽取的第i个零件的尺寸,i= 1,2, (16)(1)求⑶,i)(i= 12…,16)的相关系数二并答复是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(假设加V0.25,那么可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(刀-35,7 +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(7 -35,7 +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(H,v)(i = 12…4的相关系数£(X,-7)(57-7)r=I ______/ / ・、/(),008公丫0・09・、/ £ d )2、/ £ 8 - 5 )216 _Z (XL x )(/—8.5)尸1解:(1)由样本数据得8,i)(i= 1,2,…,16)的相关系数为r= --------- /--- 1/16 _ / 16、/ Z (即- X C-8.5)2 -2.78剔除第13个数据,剩下数据的样本方差为aX 〔1 591.134 —9.22?—15X 10.022〕=0.008,A Q 这条生产线当天生产的零件尺寸的标准差的估计值为廊而比0.09.4.〔昆明模拟〕〞工资条里显红利,个税新政入民心〞.随着2021年新年钟声的敲响,我国 自1980年以来,力度最大的一次个人所得税〔简称个税〕改革迎来了全面实施的阶段.某IT 从业 者为了解自己在个税新政下能享受多少税收红利,绘制了他在26〜35岁〔2021〜2021年〕之间各 年的月平均收入〕,〔单位:千元〕的散点图:20・・・・ 16- ・ , 12- ., 8 ■ •4°123456789 io"年龄代码工注:年龄代码1~10分别对应年的26〜35岁⑴由散点图知,可用回归模型y=h\n x+a 拟合〕,与x 的关系,试根据有关数据建立〕,关于x 的回归方程;〔2〕如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用〔1〕的结果,将月平 均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.1010 10 _10_ _ 10附注:参考数据:= 55,2〕〉= 155.5,N 〔即一x 〕2 =82.5,2 — x〕〔F — y 〕 = 94.9,26= i=li=li=lJ =1io _ io _ _15.1,2 缶- 1〕2=4.84,£〔力一 t 〕〔yi- y 〕 =242其中"=ln 为;取 In 11 =24,In 36=361=1 /=1参考公式:回归方程.=筋+味中斜率和截距的最小二乘估计分别为公= n ______ _X 〔出一〃〕〔.- V 〕 曰 A - A — -------------------------- \a= v —b u .Z 〔3一 〃 〕2月平均收入y千元解:(1)令 f=lnx,那么 y=bf+a10__Z & -,)()L y)24.2, b ~ ~__Z _痴_5ze —)2r=l10Zu-_2__155.5-_2_=而=-^-=15.55, t =苗A — A —a= y —b t = 15.55 —5X 1.51=8,所以〕,关于/的回归方程为〕,=5/+8.1015.1 lo"=L51由于/=lnx,所以y关于x的回归方程为y=51nx+8.⑵由⑴得,该IT从业者36岁时月平均收入为y=51n 11+8 = 5X2.4+8 = 20〔千元〕.旧个税政策下每个月应缴纳的个人所得税为1 500X3%+3 000X10%+4 500X20%+〔20 000-3 500-9 000〕X25% = 3 120〔元〕.新个税政策下每个月应缴纳的个人所得税为3 000X3%+〔20 000-5 OOO-3OOO-3 000〕X 10%=990〔元〕.故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(70).I— 0 180.212X716X18.439 ',由于lrlV0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于7 =9.97,产0.212,由样本数据可以看出抽取的第13个零件的尺寸在(T—3s,7 + 3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为右义(16义9.97—9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162X?=16X0.212I2+16X9.972^1 591.134,。

高中数学重点强化训练5统计与统计案例

高中数学重点强化训练5统计与统计案例

重点强化训练(五)统计与统计案例A组基础达标(建议用时:30分钟)一、选择题1.(2017·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A.101B.808C.1 212D.2 012B[由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N=808.]2.设某大学的女生体重y(单位:kg)写身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kgD[∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵y=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.]3.亚冠联赛前某参赛队准备在甲、乙两名球员中选一人参加比赛.如图8所示的茎叶图记录了一段时间内甲、乙两人训练过程中的成绩,若甲、乙两名球员的平均成绩分别是x1,x2,则下列结论正确的是()A.x1>x2,选甲参加更合适B.x1>x2,选乙参加更合适C.x1=x2,选甲参加更合适D.x1=x2,选乙参加更合适A[根据茎叶图可得甲、乙两人的平均成绩分别为x1≈31.67,x2≈24.17,从茎叶图来看,甲的成绩比较集中,而乙的成绩比较分散,因此甲发挥得更稳定,选甲参加比赛更合适.]4.(2017·安徽皖南八校联考)某同学在研究性学习中,收集到某制药今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x(月份)1234 5y(万盒)55668若x,y6月份生产甲胶囊产量为()A.8.1万盒B.8.2万盒C.8.9万盒D.8.6万盒A[由题意知x=3,y=6,则a=y-0.7x=3.9,∴x=6时,y=8.1.] 5.(2017·郑州质量预测)利用如图9所示算法在平面直角坐标系上一系列点,则的点在圆x2+y2=10内的个数为()导学号:66482445图9A.2 B.3C.4 D.5B[执行题中的算法框图,的点的坐标依次为(-3,6),(-2,5),(-1,4),(0,3),(1,2),(2,1),其中点(0,3),(1,2),(2,1)位于圆x2+y2=10内,因此的点位于圆x2+y2=10内的共有3个.]二、填空题6.在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图10),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.图10160[设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.]7.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:女男总计喜爱402060不喜爱203050总计6050110与否和性别有关”.参考附表:P(χ2≥x0)0.0500.0100.001x0 3.841 6.63510.82899%[假设喜爱该节目和性别无关,分析列联表中数据,可得χ2=110×(40×30-20×20)2≈7.8>6.635,60×50×60×50所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.]8.(2017·太原模拟)数列{a n}满足a n=n,阅读如图11所示的算法框图,运行相应的程序,若输入n=5,a n=n,x=2的值,则输出的结果v=________.图11129[该算法框图循环4次,各次v的值分别是14,31,64,129,故输出结果v=129.]三、解答题9. (2017·桂林联考)如图12所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x ,已知甲、乙两组的平均成绩相同.图12(1)求x 的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率.[解] (1)x 甲=9+9+11+114=10,x 乙=8+9+12+10+x 4=10,∴x =1,2分又s 2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1, s 2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52, ∴s 2甲<s 2乙,∴甲组成绩比乙组稳定. 5分(2)记甲组4名同学为:A 1,A 2,A 3,A 4;乙组4名同学为:B 1,B 2,B 3,B 4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),共16种. 10分其中得分之和低于20分的共6种,∴得分之和低于20分的概率P =616=38. 12分10.(2015·重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 20112012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元) 567810(1)求y 关于t 的回归方程y =bt +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y =bt +a 中,b =∑i =1nt i y i -n t y∑i =1nt 2i -n t 2,a =y -b t .[解] (1)列表计算如下:这里n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2. 2分又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1n t i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt=1210=1.2,a =y -b t =7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6. 7分(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元). 12分B组能力提升(建议用时:15分钟)1.如图13所示的算法框图,若输出k的值为6,则判断框内可填入的条件是()图13A.s>12B.s>35C.s>710D.s>45C[第一次执行循环:s=1×910=910,k=8,s=910应满足条件;第二次执行循环:s=910×89=810,k=7,s=810应满足条件,排除选项D;第三次执行循环:s=810×78=710,k=6,不再满足条件,结束循环.因此判断框中的条件为s>710.]2.(2017·西安调研)已知某产品连续4个月的广告费用x1(千元)与销售额y1(万元),经过对这些数据的处理,得到如下数据信息:①∑i=14x i=18,∑i=14y i=14;②广告费用x和销售额y之间具有较强的线性相关关系;③回归直线方程y =bx +a 中的b =0.8(用最小二乘法求得).那么,广告费用为6千元时,可预测销售额约为________万元.导学号:664824464.7 [因为∑i =14x i =18,∑i =14y i =14,所以x =4.5,y =3.5,因为回归直线方程y =bx +a 中的b =0.8, 所以3.5=0.8×4.5+a ,所以a =-0.1,所以y =0.8x -0.1. x =6时,可预测销售额约为4.7万元.] 3.(2015·高考)某36名工人的年龄数据如下表.机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的均值x 和方差s 2;(3)36名工人中年龄在x -s 与x +s 之间有多少人?所占的百分比是多少(精确到0.01%)?[解] (1)36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,所以所有样本数据的编号为4n-2(n=1,2,…,9),其年龄数据为:44,40,36,43,36,37,44,43,37. 5分(2)由均值公式知:x=44+40+…+379=40,由方差公式知:s2=19[(44-40)2+(40-40)2+…+(37-40)2]=1009. 8分(3)因为s2=1009,s=103,所以36名工人中年龄在x-s和x+s之间的人数等于年龄在区间[37,43]上的人数,即40,40,41,…,39,共23人.所以36名工人中年龄在x-s和x+s之间的人数所占的百分比为23 36×100%≈63.89%. 12分。

统计案例练习

统计案例练习

第一章:统计案例一.选择题1. 炼钢时钢水的含碳量与冶炼时间有( )A.确定性关系B.相关关系C.函数关系D.无任何关系 2.下列说法正确的有( )①回归方程适用于一切样本和总体。

②回归方程一般都有时间性。

③样本取值的范围会影响回归方程的适用范围。

④回归方程得到的预报值是预报变量的精确值。

A. ①② B. ②③ C. ③④ D. ①③ 3.下列结论正确的是( )①函数关系是一种确定性关系; ②相关关系是一种非确定性关系 ③回归分析是对具有函数关系的两个变量进行统计分析的一种方法 ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

A. ①② B. ①②③ C. ①②④ D. ①②③④ 4. 设有一个回归方程为y=2-2.5x,则变量x 增加一个单位时( ) A.y 平均增加2.5个单位 B.y 平均增加2个单位 C.y 平均减少2.5个单位 D.y 平均减少2个单位5.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) A. y ∧=1.23x +4 B. y ∧=1.23x+5 C. y ∧=1.23x+0.08 D. y ∧=0.08x+1.23 6. 已知x 与y 之间的一组数据:则y 与x 的线性回归方程为y=bx+a 必过( )A.(2,2)点B.(1.5,0)点C.(1,2)点D.(1.5,4)点7. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A. 越大B.越小C.无法判断D. 以上都不对 8.身高与体重有关系可以用( )分析来分析A.殘差B.回归C.二维条形图D.独立检验9. 设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A. b 与r 的符号相同B. a 与r 的符号相同C. b 与r 的相反D. a 与r 的符号相反10. 为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是( )A. 1l 与2l 重合B. 1l 与2l 一定平行C. 1l 与2l 相交于点),(y xD. 无法判断1l 和2l 是否相交 11. 考察棉花种子经过处理跟生病之间的关系得到如下表数据:A.种子经过处理跟是否生病有关B. 种子经过处理跟是否生病无关C.种子是否经过处理决定是否生病D. 以上都是错误的12.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( ) A.16 B.17 C.15 D.12 二.填空题13 .有下列关系:(1)人的年龄与他(她)拥有的财富之间的关系; (2)曲线上的点与该点的坐标之间的关系; (3)苹果的产量与气候之间的关系;(4)森林中的同一种树木,其断面直径与高度之间的关系;(5)学生与他(她)的学号之间的关系,其中有相关关系的是 14. 归直线方程为y=0.5x-0.81,则x=25时,y 的估计值为15. 在两个变量的回归分析中,作散点图的目的是______________________________16. 许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人数占本州人数的百分比(y )的数据,建立的回归直线方程如下ˆ0.8 4.6yx =+,斜率的估计等于0.8说明 ,成年人受过9年或更少教育的百分比(x )和收入低于官方的贫困线的人数占本州人数的百分比(y )之间的相关系数 (填充“大于0”或“小于0”) 三.解答题17. 在回归分析中,通过模型由解释变量计算预报变量时,应注意什么问题?18.若)101(,1531≤≤=+=i iy y i x i i ,求.,y x19.某企业为考察生产同一种产品的甲、乙两条生产线的产品合格率,同时各抽取100件产品,检验后得到如下联表:生产线与产品合格率列联表请问甲、乙两线生产的产品合格率在多大程度上有关系?20.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1) 用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图 (2) 描述解释变量与预报变量之间的关系 (3) 计算残差、相关指数R 2.1.1 回归分析的基本思想及其初步应用例题:1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上(C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2. …n)若e i 恒为0,则R 2为3. 假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:若由资料可知y 对x 呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?课后练习:1. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.2. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98B.模型2的相关指数2R 为0.80C.模型3的相关指数2R 为0.50D.模型4的相关指数2R 为0.253.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R 24.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是( ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元5.线性回归模型y=bx+a+e中,b=_______,a=_________e称为_________6. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________7. 一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)变量y对x进行相关性检验;(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?1.2 独立性检验的基本思想及其初步应用例题:1.三维柱形图中柱的高度表示的是( )A.各分类变量的频数B.分类变量的百分比C.分类变量的样本数D.分类变量的具体值2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?课后练习:1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就()A.越大B.越小C.无法判断D.以上都不对2.下列关于三维柱形图和二维条形图的叙述正确的是: ( )A .从三维柱形图可以精确地看出两个分类变量是否有关系B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对K的观测值K ,说法正确的是()3.对分类变量X 与Y 的随机变量2A . k 越大," X 与Y 有关系”可信程度越小;B . k 越小," X 与Y 有关系”可信程度越小;C . k 越接近于0," X 与Y 无关”程度越小D . k 越大," X 与Y 无关”程度越大4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.5.若由一个2*2列联表中的数据计算得k2=4.013,那么有把握认为两个变量有关系6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:性别 专业非统计专业统计专业 男 13 10 女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到250(1320107) 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯因为2 3.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

高三数学统计案例试题

高三数学统计案例试题

高三数学统计案例试题1.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制所在的范围是()A.10转/s以下B.15转/s以下C.20转/s以下D.25转/s以下【答案】B【解析】则a=-b=-0.857 5.∴回归直线方程为=0.728 6x-0.857 5.要使y≤10,则0.728 6x-0.857 5≤10,∴x≤14.901 9.因此,机器的转速应该控制在15转/s以下.故选B.2.登山族为了了解某山高y(km)与气温x(°C)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(°C)181310-1由表中数据,得到线性回归方程,由此请估计出山高为72(km)处气温的度数为()A.-10B.-8C.-6D.-6【答案】C【解析】由题意可得=10,=40.5,所以=+2=40.5+2×10=60.5,所以,当=72时,,解得x≈-6,故选C.【考点】回归分析3.为了调查某大学学生在周日上网的时间,随机对名男生和名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表上网时间(分5253025151020402010(Ⅰ)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(Ⅱ)完成表3的列联表,并回答能否有90%的把握认为“学生周日上网时间与性别有关”?(Ⅲ)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3 :上网时间少于60分钟上网时间不少于60分钟合计附:,其中【答案】(I)225;(II)否;(III).【解析】(I)统计得到女生样本中的上网时间不少于60分钟的频数,根据频数与容量之比等于频率,易得到全校上网时间不少于60分钟的人数;(II)由以上列联表1、2的数据,可统计得到表3的数据,根据独立性检验原理可知:没有90%的把握认为“学生周日上网时间与性别有关”;(III)五名男生中任取两人的基本事件数10个,根据表3可知男生上网超过60分钟与不超过60分钟的人数比为3:2,再写出至少一人超过60分钟的事件数7个,易求得概率为.试题解析:(1)设估计上网时间不少于60分钟的人数,依据题意有,解得:,所以估计其中上网时间不少于60分钟的人数是225人.(2)根据题目所给数据得到如下列联表:上网时间少于60分钟上网时间不少于60分钟合计其中 ,因此,没有90%的把握认为“学生周日上网时间与性别有关”.(3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为,所以5人中上网时间少于60分钟的有3人,记为上网时间不少于60分钟的有2人,记为从中任取两人的所有基本事件为:(),(),(),(),(),(),(),(),(),(),共10种,其中“至少有一人上网时间超过60分钟”包含了7种, .【考点】1、用样本估计总体; 2、独立性检验;3、古典概型的概率求法.4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000 株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:高茎矮茎合计10株玉米,再从这10株玉米中随机选出3株,求选到的3株之中既有圆粒玉米又有皱粒玉米的概率;(2) 根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?(下面的临界值表和公式可供参考:,其中)【答案】(1);(2) 能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.【解析】本小题通过统计与概率的相关知识,具体涉及到随机变量的分布列、数学期望的求法和统计案例中独立性检验等知识内容,考查学生对数据处理的能力,对考生的运算求解能力、推理论证能力都有较高要求. 本题属于统计概率部分综合题,对考生的统计学的知识考查比较全面,是一道的统计学知识应用的基础试题. .(1)采用分层抽样的比例关系确定个数,然后利用排列组合的知识,借助随机事件的概率求解;(2)根据已知的公式,经过仔细的计算出的值,然后借助表格进行数据对比,得到相关性的结论.试题解析:(1) 现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为. (6分) (2) 根据已知列联表:所以.又,因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关. (12分)【考点】(1)随机变量的分布列;(2)统计案例中独立性检验5.(本小题共12分)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.月收入(单[15,25[25,35[35,45[45,55[55,65[65,75510151055(1)由以上统计数据填下面2乘2列联表并问是否有99%的把握认为“月收入以5500为分界点对“楼市限购令” 的态度有差异;(2)若对在[15,25),[25,35)的被调查中各随机选取两人进行追踪调查,记选中的4人中不赞成“楼市限购令”人数为,求随机变量的分布列。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)

一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。

高中数学第九章统计经典大题例题(带答案)

高中数学第九章统计经典大题例题(带答案)

高中数学第九章统计经典大题例题单选题1、为保障食品安全,某监管部门对辖区内一家食品企业进行检查,现从其生产的某种产品中随机抽取100件作为样本,并以产品的一项关键质量指标值为检测依据,整理得到如下的样本频率分布直方图.若质量指标值在[25,35)内的产品为一等品,则该企业生产的产品为一等品的概率约为()A.0.38B.0.61C.0.122D.0.75答案:B×组距,即可得解.分析:利用频率=频率组距根据频率分布直方图可知,质量指标值在[25,35)内的概率P=(0.080+0.042)×5=0.122×5=0.61故选:B2、为了更好地支持“中小型企业”的发展,某市决定对部分企业的税收进行适当的减免,某机构调查了当地的中小型企业年收入情况,并根据所得数据画出了样本的频率分布直方图,下面三个结论:①样本数据落在区间[300,500)的频率为0.45;②如果规定年收入在500万元以内的企业才能享受减免税政策,估计有55%的当地中小型企业能享受到减免③样本的中位数为480万元.其中正确结论的个数为A.0B.1C.2D.3答案:D解析:根据直方图求出a=0.0025,求出[300,500)的频率,可判断①;求出[200,500)的频率,可判断②;根据中位数是从左到右频率为0.5的分界点,先确定在哪个区间,再求出占该区间的比例,求出中位数,判断③.由(0.001+0.0015+0,002+0.0005+2a)×100=1,a=0.0025,[300,500)的频率为(0.002+0.0025)×100=0.45,①正确;[200,500)的频率为(0.0015+0.002+0.0025)×100=0.55,②正确;[200,400)的频率为0.3,[200,500)的频率为0.55,,中位数在[400,500)且占该组的45×100=480,③正确.故中位数为400+0.5−0.30.25故选:D.小提示:本题考查补全直方图,由直方图求频率和平均数,属于基础题3、某地区对当地3000户家庭的当年所得年收入情况调查统计,年收入(单位:万元)的频率分布直方图如图所示,数据的分组依次为[2,4),[4,6),[6,8),[8,10],则年收入不超过6万元的家庭有( )A.900户B.600户C.300户D.150户分析:根据频率分布直方图求出[2,4)和[4,6)这两组的频率之和,用这个频率之和乘以样本总量3000即可的答案.由图可知,[2,4)和[4,6)这两组的频率之和为(0.05+0.1)×2=0.3,年收入不超过6万元的家庭有3000×0.3=900户.故选:A.4、新莽铜嘉量是由王莽国师刘歆等人设计制造的标准量器,它包括了龠(yuè)、合、升、斗、斛这五个容量单位.每一个量又有详细的分铭,记录了各器的径、深、底面积和容积.现根据铭文计算,当时制造容器时所用的圆周率分别为3.1547,3.1992,3.1498,3.2031,比《周髀算经》的“径一而周三”前进了一大步,则上面4个数据与祖冲之给出的约率(227≈3.1429)、密率(355113≈3.1416)这6个数据的中位数与极差分别为()A.3.1429,0.0615B.3.1523,0.0615C.3.1498,0.0484D.3.1547,0.0484答案:B分析:先对这6个数由小到大(或由大到小)排列,然后利用中位数和极差的定义求解即可所给6个数据由小到大排列依次为3.1416,3.1429,3.1498,3.1547,3.1992,3.2031,所以这6个数据的中位数为(3.1498+3.1547)÷2≈3.1523,极差为3.2031−3.1416=0.0615,故选:B.5、下表是某校校级联欢晚会比赛中12个班级的得分情况,则得分的30百分位数是()答案:D分析:根据百分位数的定义求解即可.12×30%=3.6,把12个班级的得分按照从小到大排序为7,7,8,9,9,10,10,10,11,13,13,14,可得30百分位数是第4个得分数,即9.故选:D6、某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图,90后从事互联网行业岗位分布条形图,则下列结论错误的是()注:90后指1990年及以后出生,80后指1980−1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后一定比80前多D.互联网行业中从事技术岗位的人数90后一定比80后多答案:D解析:根据整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,对四个选项逐一分析,即可得出正确选项.对于选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A正确;对于选项B,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B正确;对于选项C,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C正确;选项D,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出从事技术岗位的占比,故不能判断,所以选项D错误.故选:D.小提示:关键点点睛:本题考查利用扇形统计图和条形统计图解决实际问题,解本题的关键就是利用条形统计图中“90后”事互联网行业岗位的占比乘以“90后”所占总人数的占比,再对各选项逐一分析即可.7、总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从如下随机数表的第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为()第1行78 16 62 32 08 02 62 42 62 52 53 69 97 28 01 98第2行32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81A.27B.26C.25D.19答案:D分析:根据随机数表法的步骤即可求得答案.由题意,取出的数有23,20,80(超出范围,故舍去),26,24,26(重复,故舍去),25,25(重复,故舍去),36(超出范围,故舍去),99(超出范围,故舍去),72(超出范围,故舍去),80(超出范围,故舍去),19.故选:D.8、某学校在校学生有2000人,为了增强学生的体质,学校举行了跑步和登山比赛,每人都参加且只参加其中一项比赛,高一、高二、高三年级参加跑步的人数分别为a,b,c,且a:b:c=2:5:3,全校参加登山的人数占总人数的1.为了了解学生对本次比赛的满意程度,按分层抽样的方法从中抽取一个容量为200的样本进4行调查,则应从高三年级参加跑步的学生中抽取()A.15人B.30人C.40人D.45人答案:D分析:由题知全校参加跑步的人数为2000×3=1500,再根据分层抽样的方法求解即可得答案.4=1500,解:由题意,可知全校参加跑步的人数为2000×34=450.所以a+b+c=1500.因为a:b:c=2:5:3,所以c=1500×32+5+3因为按分层抽样的方法从中抽取一个容量为200的样本,所以应从高三年级参加跑步的学生中抽取的人数为450×200=45.2000故选:D多选题9、最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是()A.甲同学体温的极差为0.4℃B.乙同学体温的众数为36.4℃,中位数与平均数相等C.乙同学的体温比甲同学的体温稳定D.甲同学体温的第60百分位数为36.4℃答案:ABC分析:根据给定的折线图,逐一分析判断各个选项即可作答.观察折线图知,甲同学体温的极差为36.6−36.2=0.4℃,A正确;乙同学体温从小到大排成一列:36.3℃,36.3℃,36.4℃,36.4℃,36.4℃,36.5℃,36.5℃,(36.3×2+36.4×3+36.5×2)=46.4℃,B正乙同学体温的众数为36.4℃,中位数为36.4℃,平均数x=17确;乙同学的体温波动较甲同学的小,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,C正确;将甲同学的体温从小到大排成一列:36.2℃,36.2℃,36.4℃,36.4℃,36.5℃,36.5℃,36.6℃,因7×60%=4.2,则甲同学体温的第60百分位数为36.5℃,D不正确.故选:ABC10、下表记录了某地区一年之内的月降水量是53mm和56mmC.该年份月降水量的25%分位数是52mmD.该年份月降水量的中位数是56mm答案:ACD分析:A. 利用极差的定义判断;B.利用众数的定义判断;C.利用百分位数的定义判断;D.利用中位数的定义判断.A. 该年份月降水量的极差是71-46=25mm,故正确;B.该年份月降水量的众数是56mm,故错误;C.该年份月降水量从小到大为46,48,51,53,53,56,56,56,56,58,64,66,71,12×25%=3,=52mm,故正确;所以年份月降水量的25%分位数是51+532D. 该年份月降水量从小到大为46,48,51,53,53,56,56,56,56,58,64,66,71,所以该年份月降水量的中位数是56+56=56mm,故正确;2故选:ACD11、某教育局对全区高一年级的学生身高进行抽样调查,随机抽取了200名学生,他们的身高都处在A,B,C,D,E五个层次内,根据抽样结果得到统计图表如下,则下列结论正确的是().A.男生人数为80人B.B层次男女生人数差值最大C.D层次男生人数多于女生人数D.E层次女生人数最少答案:ABD分析:根据条形图求出抽取女生人,得出抽取男生人,再对照图表判断选项中的命题是否正确即可.解:由条形图知,抽取女生学生有18+48+30+18+6=120(人),所以抽取男生有200−120=80(人),选项A正确;B层次的男生有80×(1−10%−15%−20%−25%)=24(人),A,B,C,D,E五个层次男生人数分别:8,24,20,16,12(人),与女生各层次差值分别为:10,24,10,2,6,选项B正确;D层次的男生有12(人),女生有18人,男生人数少于女生,选项C错误;E层次的女生人数最少,选项D正确.故选:ABD.12、某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险:戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:用该样本估计总体,以下四个选项正确的是()A.54周岁以上参保人数最少B.18~29周岁人群参保总费用最少C.丁险种更受参保人青睐D.30周岁以上的人群约占参保人群20%答案:AC分析:根据选项逐一对相应的统计图进行分析判断即可.解:对A:由扇形图可知,54周岁以上参保人数最少,故选项A正确;对B:由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故选项B错误;对C:由柱状图可知,丁险种参保比例最高,故选项C正确;对D:由扇形图可知,30周岁以上的人群约占参保人群80%,故选项D错误.故选:AC.13、睡眠很重要,教育部《关于进一步加强中小学生睡眠管理工作的通知》中强调“小学生每天睡眠时间应达到10小时,初中生应达到9小时,高中生应达到8小时”.某机构调查了1万个学生时间利用信息得出下图,则以下判断正确的有()A .高三年级学生平均学习时间最长B .中小学生的平均睡眠时间都没有达到《通知》中的标准,其中高中生平均睡眠时间最接近标准C .大多数年龄段学生平均睡眠时间长于学习时间D .与高中生相比,大学生平均学习时间大幅下降,释放出的时间基本是在睡眠答案:BC分析:根据图象提供数据对选项进行分析,从而确定正确答案.根据图象可知,高三年级学生平均学习时间没有高二年级学生平均学习时间长,A 选项错误.根据图象可知,中小学生平均睡眠时间都没有达到《通知》中的标准,高中生平均睡眠时间最接近标准,B 选项正确.学习时间大于睡眠时间的有:初二、初三、高一、高二、高三,占比516.睡眠时间长于学习时间的占比1116,C 选项正确.从高三到大学一年级,学习时间减少9.65−5.71=3.94,睡眠时间增加8.52−7.9=0.62,所以D 选项错误. 故选:BC填空题14、已知一组样本数据5、2、3、6,则该组数据的第70百分位数为__________.答案:5分析:首先计算指数,再由百分位数的定义可得答案.解:这组样本数据5、2、3、6,从小到大排列为2、3、5、6,又4×70%=2.8,则该组数据的第70百分位数为第3个数5,所以答案是:5.15、若样本数据x1,x2,⋅⋅⋅,x8的标准差为1,则数据2x1−1,2x2−1,⋅⋅⋅,2x8−1的标准差为_______.答案:2解析:若一组数据x1,x2,x3,⋯,x n的方差为s2,则数据ax1+b,ax2+b,ax3+b,⋯,ax n+b的方差为a2s2.若样本数据x1,x2,⋅⋅⋅,x8的标准差为1,则其方差也为1,所以数据2x1−1,2x2−1,⋅⋅⋅,2x8−1的方差为4,标准差为2.所以答案是:2.16、某车间生产A,B,C三种不同型号的产品,产量之比分别为5:k:3,为检验产品的质量,现用分层抽样的方法抽取一个容量为120的样本进行检验,已知B种型号的产品共抽取了24件,则C种型号的产品抽取的件数为_________.答案:36分析:根据题意可得24120=k5+k+3,解方程求出k的值,再根据C种型号的产品所占的比例,求出C种型号的产品应抽取的数量.由题意,得24120=k5+k+3,所以k=2,所以C种型号的产品抽取的件数为120×35+2+3=36.所以答案是:36.解答题17、在①55%分位数,②众数这两个条件中任选一个,补充在下面问题中的横线上,并解答问题.维生素C又叫L-抗坏血酸,是一种水溶性维生素,是高等灵长类动物与其他少数生物的必需营养素.现从猕猴桃、柚子两种食物中测得每100克维生素C的含量(单位:mg)各10个数据如下,其中猕猴桃的一个数据x被污损.猕猴桃:104,119,106,102,132,107,113,134,116,x;柚子:121,113,109,122,114,116,132,121,131,117.已知x等于柚子的10个数据中的___________.(1)求x的值与猕猴桃的数据的中位数;(2)分别计算上述猕猴桃、柚子两种食物中测得每100克维生素C含量的平均数.答案:(1)121,中位数为114.5(2)115.4mg,119.6mg分析:(1)先将柚子从小到大排序,若选①,利用55%分位数的定义得到x=121,若选②,利用众数的定义进行也得到x=121,接着代入猕猴桃里面,从小到大排序算出中位数;(2)利用平均数的定义进行计算(1)柚子的10个数据按照从小到大的顺序排列为:109,113,114,116,117,121,121,122,131,132.选①,因为10×55%=5.5,所以柚子10个数据的55%分位数为第6个数,即121,所以x=121.猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则(113+116)=114.5.中位数为12选②,因为柚子的10个数据的众数为121,所以x=121.猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则(113+116)=114.5.中位数为12(2)×(102+104+106+107+113+116+119+121+由(1)得每100克猕猴桃维生素C含量的平均数为110132+134)=115.4mg×(109+113+114+116+117+121+121+122+131+每100克柚子维生素C含量的平均数为110132)=119.6mg18、从某校高一年级新生中随机抽取一个容量为20的身高样本,数据如下(单位:cm,数据间无大小顺序要求):152,155,158,164,164,165,165,165,166,167,168,168,169,170,170,170,171,x,174,175.(1)若x为这组数据的一个众数,求x的取值集合;(2)若样本数据的第90百分位数是173,求x的值;(3)若x=174,试估计该校高一年级新生的平均身高.答案:(1){164,165,168,170}(2)172(3)166.5(cm)分析:(1)首先排列19个数据,根据众数的定义,即可确定x的取值集合;(2)首先确定第90百分位数是第18项和第19项数据的平均数,再讨论x的取值,根据百分位数,列式求值;(3)根据平均数公式,列式求值.(1)其余十九个数据152,155,158,164,164,165,165,165,166,167,168,168,169,170,170,170,171,174,175中,数据出现的频数为3的数有165,170,出现频数为2的数据有164,168.因为x为这组数据的一个众数,所以x的取值集合为{164,165,168,170}.(2)因为20×90%=18,所以90百分位数是第18项和第19项数据的平均数,若x⩽171,则90百分位数为1(171+174)=17,矛盾.2(x+174)=173,所以x=172.若171<x<175,即12(174+175)=174.5,矛盾.若x⩾175,则90百分位数为12综上,x的值为172.(3)依题意可得152+155+158+164+164+165+165+165+166+167+168+168+169+170+170+170+171+174+174+175=3330所以平均数为3330÷20=166.5(cm),估计该校高一年级学生的平均身高.。

新高考数学复习专题-专题二十 统计与统计案例(原卷版)

新高考数学复习专题-专题二十    统计与统计案例(原卷版)

专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试(包含答案解析)(3)

(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试(包含答案解析)(3)

一、选择题1.已知x 与y 之间的几组数据如下表: x 1 2 3 4 y1mn4参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑.上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 4.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01k k kP k C ξ-==5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .17.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A .有95%的把握认为两者无关B .约有95%的打鼾者患心脏病C .有99%的把握认为两者有关D .约有99%的打鼾者患心脏病8.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K =,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是( )A .90%B .95%C .97.5%D .99.5%12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.为了解某班学生喜爱打篮球是否与性别有关,对该班50名 学生进行了问卷调查, 得到了如下22⨯ 列联表喜爱打篮球 不喜爱打篮球 合计男生20 525 女生 10 1525合计30 2050则至少有_____的把握认为喜爱打篮球与性别有关(请用百分数表示). 17.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.)三、解答题21.第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii x x =-=∑, 52215176i i y y =-=∑,515151i ii x y xy =-=∑13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a =+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii ni i x y nx y bx nx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑22.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件,试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?23.2020年初,新型冠状病毒(2019-nCoV )肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为22.25.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,2σ近似为样本方差2s .(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有()*k k ∈N 个属于“长期潜伏”的概率是()g k ,当k 为何值时,()g k 取得最大值. 附:()()()()()22n ad bc a b c d a c b d χ-=++++若()2,N ξμσ则()0.6862P μσξμσ-<<+=.()220.9544P μσξμσ-<<+=,()330.9974P μσξμσ-<<+=.24.某地一所妇产科医院为了解婴儿性别与出生时间(白天或晚上)之间的联系,从该医院最近出生的200名婴儿获知如下数据:这200名婴儿中男婴的比例为55%,晚上出生的男婴比白天出生的男婴多75%,晚上出生的女婴人数与白天出生的男婴人数恰好相等. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99%的把握认为婴儿的性别与出生时间有关,说明你的理由.附:22()()()()()n ad bcKa b c d a c b d-=++++(n=a+b+c+d),参考数据:221999≈0.0368.25.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.26.“微粒贷”是腾讯旗下2015年9月开发上市的微众银行网货产品.腾讯公司为了了解“微粒贷”上市以来在C市的使用情况,统计了C市2015年至2019年使用了“微粒货”贷款的累计人数,统计数据如表所示:(1)已知变量x ,y 具有线性相关关系,求累计人数y (万人)关于年份代号x 的线性回归方程y bx a =+;并预测2020年使用“微粒贷“贷款的累计人数;(2)“微粒贷”用户拥有的贷款额度是根据用户的账户信用资质判定的,额度范围在500元至30万元不等,腾讯公司在统计使用人数的同时,对他们所拥有的贷款额度也作了相应的统计.我们把拥有货款额度在500元至5万元(不包括5万元)的人群称为“低额度贷款人群”,简称“A 类人群”;把拥有贷款额度在5万元及以上的人群称为“高额度贷款人群”,简称“B 类人群”.根据统计结果,随机抽取6人,其中A 类人群4人,B 类人群2人.现从这6人中任取3人,记随机变量ξ为A 类人群的人数,求ξ的分布列及其期望.参考公式:1122211()()()()nni iiii i nniii i x y nx y x x y y b xn x x x ====---==--∑∑∑∑, a y bx =-参考数据:5162i ii x y=≈∑【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()42222211.50.50.5 1.55i i x x =-=-+-++=∑ ,()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 4.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4).【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A.点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。

高中数学统计与统计案例全章复习题型完美版

高中数学统计与统计案例全章复习题型完美版

第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当Nn是整数时,取k=Nn,当Nn不是整数时,随机从总体中剔除余数,再取k=N′n(N′为从总体中剔除余数后的总数).1知识梳理(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k).(4)按照一定的规则抽取样本,通常是将l 加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.2题型分类【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017?葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3【变式1】(2017?大连二模)某单位员工按年龄分为A,B,C三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到1,则该单位员工总数为()的概率是9A.110B.10C.90D.80【变式2】(2017?黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19【变式3】(2017?宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层2,则男运动员应抽取()抽样的方法抽取一个样本,每名运动员被抽到的概率都是7A.18人B.16人C.14人D.12人3课后作业1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显着差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9B.10C.12D.134.将参加英语口语测试的1 000名学生编号为000,001,002,...,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002, (019)且第一组随机抽取的编号为015,则抽取的第35个编号为( )A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A.1030人B.97人C.950人D.970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;1知识梳理第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征方差s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中s为标准差题型一茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016?唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.2题型分类【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋?宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017?东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋?威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017?灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017?唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2](2,4](4,6](6,8](8,10]人数104025205(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017?肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.3课后作业1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )A.19B.20C.21.5D.232.我国古代数学名着《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( )A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A .45B .50C .55D .604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个5.(2015?广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1知识梳理1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i i xn x yx n yx x x y y x x b 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2题型分类题型一相关关系的判断【例】某公司2010~2015年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:根据统计资料,则()A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017?延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B.产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017?南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x?85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017?西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017?成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x yˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .101.2B .108.8C .111.2D .118.2题型三 线性相关关系检验【例1】(2017?广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为0.976 C .模型③的相关指数为0.076B .模型②的相关指数为0.776D .模型④的相关指数为0.351【例2】(2015春?祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017?泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017?乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017?全国模拟)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄y i(单位:千元)的数据资料,算得∑==10180iix,∑==10120iiy,∑==101184iiiyx,∑==10 12720iix.(1)求家庭的月储蓄y关于月收入x的线性回归方程ax byˆˆˆ+=;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017?甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i i y ,17.4071=∑=i i i y t ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y btt ==--=-∑∑,=.a y bt -【例3】(2017?河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i i x x ,456)(812≈-∑=i i y y ,550)(812≈-∑=i i z z ,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017?汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i i i y x ,64.4761=∑=i i i z x ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y46.56. 6.表中i ww =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017?衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii x w 1=,∑==101101i i w w .(1)根据散点图判断,a bx y+=ˆ,c xdy ˆˆˆ+=哪一个更适宜作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;(3)若该产品的日销售量g (x )(件)与时间x 的函数关系为120100)(+-=xx g (x ∈N *),求该产品投放市场第几天的销售额最高?最高为多少元?3课后作业1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显着B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是yˆ=0.849x-85.712,则第3名学生的体重估计为_____kg.3.(2017?合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=niiniiixxyyxxb121)())((,选用数据:1.1231=∑=niiiyx,1.512=∑=ni ix4.(2017?包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业污水净化量;(3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i i y y t t ,74.314≈,49)ˆ(712=-∑=i i i yy . 参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1知识梳理一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。

统计案例分析及典型例题

统计案例分析及典型例题

统计案例分析及典型例题§11.1 抽样方法基础自测1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 .答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .答案①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .答案3,9,184.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .答案80例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l .(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.答案108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n .解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n =6,12,18,36.当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计基础自测1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .分数 5 4 3 2 1 人数2010303010答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n , 则有n =第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 .①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值答案①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩比稳定.答案甲乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为 .答案0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x甲、x乙,则x甲x乙,比稳定.答案<乙甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a、b的取值分别是 .答案10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. 答案 ①②2.为了考察两个变量x 、y 之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l 1和l 2.已知在两人的试验中发现变量x 的观测数据的平均值恰好基础自测相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势.其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化 肥施用量的增加而增长.例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:家庭编号 12345678910x i (收入)千元 0.8 1.1 1.3 1.5 1.5 1.8 2.0 2.2 2.4 2.8y i (支出)千元0.7 1.0 1.2 1.0 1.3 1.5 1.3 1.7 2.0 2.5(1)判断家庭平均收入与月平均生活支出是否相关? (2)若二者线性相关,求回归直线方程. 解 (1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y =101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-•-ni ini i i x n xyx n y x 1221≈0.813 6,a ˆ=1.42-1.74×0.813 6≈0.004 3,13分∴回归方程y ˆ=0.813 6x +0.004 3. 14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.x 3 4 5 6 y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -•-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -b ˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.年平均气温 12.51 12.84 12.84 13.69 13.33 12.74 13.05 年降雨量748542507813574701432(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:温度(x ) 0 10 20 50 70 溶解度(y )66.776.085.0112.3128.0由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.880 9.aˆ=y -b ˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x +67.173.3.某企业上半年产品产量与单位成本资料如下:月份 产量(千件)单位成本(元)1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6568(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x x yx yx i i i ii -•-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y -b ˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案 a ,c ,b2.回归方程yˆ=1.5x -15,则下列说法正确的有 个. ①y =1.5x -15 ②15是回归系数a ③1.5是回归系数a ④x =10时,y =0 答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为yˆ=8.25x +60.13,下列叙述正确的是 . ①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x +5.75 5.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 .答案①③④8.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:使用年限2 3 4 5 6x维修费用2.23.8 5.5 6.5 7.0y若y对x呈线性相关关系,则回归直线方程yˆ=bˆx+aˆ表示的直线一定过定点 .答案(4,5)二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:学生A B C D E学科数学80 75 70 65 60物理70 66 68 64 62(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点.解(1)数学成绩和物理成绩具有相关关系.(2)以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.10.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x(m2) 115 110 80 135 105销售价格y(万24.8 21.6 18.4 29.2 22元)(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.196 2aˆ=y -b ˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x +1.814 2. 11.某公司利润y 与销售总额x (单位:千万元)之间有如下对应数据:x 10 15 17 20 25 28 32 y11.31.822.62.73.3(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y =71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i i x =102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -•-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -b ˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x -0.084. (3)把x =24(千万元)代入方程得,yˆ=2.412(千万元). ∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)画出散点图; (2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 x i 2 4 5 6 8 y i3040605070x i y i60 160 300 300 560因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -•-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -b ˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据χ2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .基础自测①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:患慢性气管炎未患慢性气管炎 总计 吸烟 43 162 205 不吸烟 13 121 134 合计56283339试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r =)4)(4(42412241241y yx xyx yx i ii ii ii --•-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x -0.857 1. (3)要使yˆ≤10⇒0.728 6x -0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.数x年均价格y(美元)2 651 1 943 1 494 1 087 765 538 484 290 226 204解作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用yˆ=e a x bˆˆ 来刻画题中模型更为合理,令zˆ=ln yˆ,则zˆ=bˆx+aˆ,题中数据变成如下表所示:x 1 2 3 4 5 6 7 8 9 10z 7.8837.5727.3096.9916.646.2886.1825.675.4215.318相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r≈-0.996.|r|>r0.05.认为x与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,aˆ≈8.165,所以zˆ=-0.298x+8.165,最后回代zˆ=ln yˆ,即yˆ=e-0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18 7 25(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y =71(66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r =)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.。

统计案例练习题(附答案)

统计案例练习题(附答案)

统计案例练习题(附答案)一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y=a+bx中,回归系数b()A.可以小于0B.只能大于0C.可能等于0D.只能小于0【解析】b可能大于0,也可能小于0,但当b=0时,x,y不具有线性相关关系.【答案】A2.下列两个变量间的关系不是函数关系的是()A.正方体的棱长与体积B.角的弧度数与它的正弦值C.单产为常数时,土地面积与粮食总产量D.日照时间与水稻亩产量【解析】∵A、B、C都可以得出一个函数关系式,而D不能写出确定的函数关系式,它只是一个不确定关系.【答案】D3.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为()A.63.36万元B.65.5万元C.67.7万元D.72.0万元【解析】x=4+2+3+54=3.5,y=49+26+39+544=42,∴a=y-bx=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】B4.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回归直线方程y=bx+a,那么下列说法中不正确的是()A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(xn,bn)中的一个点C.直线y=bx+a的斜率为∑ni=1xiyi-nx•y∑ni=1x2i-nx2D.直线y=bx+a的纵截距为y-bx【解析】回归直线可以不经过任何一个点.其中A:由a=y-bx代入回归直线方程y=bx+y-ax,即y=b(x-x)+y过点(x,y).∴B错误.【答案】B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是()A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1xiyi=1481.b=1481-6×72×7179-6× 72 2≈-1.8182,a=71-(-1.8182)×72≈77.36,则销量每增加1000箱,单位成本下降________元.【解析】由上表可得,y=-1.8182x+77.36,销量每增加1千箱,则单位成本下降1.8182元.【答案】1.81828.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】由题意知0.254(x+1)+0.321]-(0.254x+0.321)=0.254.【答案】0.254三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)求年推销金额y关于工作年限x的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.【解】(1)设所求的线性回归方程为y=bx+a,则b=i=15 xi-x yi-y i=15 xi-x 2=1020=0.5,a=y-bx=0.4.所以年推销金额y关于工作年限x的线性回归方程为y=0.5x+0.4. (2)当x=11时,y=0.5x+0.4=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件个数.现观测得到(x,y)的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y与x之间存在线性相关关系,求y与x之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1)【解】(1)设回归方程为y=a+bx,则x=8+12+14+164=12.5,y=5+8+9+114=8.25,∑4i=1x2i=660,∑4i=1xiyi=438,b=∑4i=1xiyi-4xy∑4i=1x2i-4x2=438-4×12.5×8.25660-4×12.52≈0.73,a=y-bx=8.25-0.73×12.5=-0.875,所以所求回归方程为y=-0.875+0.73x.(2)由y≤10,即-0.875+0.73x≤10,得x≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:x24152319161120161713y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i12345678910xi24152319161120161713yi92799789644783687159xiyi22081185223116911024517166010881207767∑10i=1x2i=3182,∑10i=1xiyi=13578于是可得b=∑10i=1xiyi-10xy∑10i=1x2i-10x2=545.4154.4≈3.53,a=y-bx=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.。

统计与统计案例小题突破练-高三数学二轮专题复习

统计与统计案例小题突破练-高三数学二轮专题复习

冲刺高考二轮统计与统计案例小题突破练(原卷+答案)一、单项选择题1.已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为() A.200,25 B.200,2 500C.8 000,25 D.8 000,25002.某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:则()A.讲座前问卷答题的正确率的中位数小于70%B.讲座后问卷答题的正确率的平均数大于85%C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差3.国外新冠肺炎疫情形势严峻,国内疫情传播风险加大,为了更好地抗击疫情,国内进一步加大新冠疫苗的接种力度.某制药企业对某种新冠疫苗开展临床接种试验,若使用该疫苗后的抗体呈阳性,则认为该新冠疫苗有效.该企业对参与试验的1 000名受试者的年龄和抗体情况进行统计,结果如下图表所示:年龄频率[20,30)0.20[30,40)0.30[40,50)0.10[50,60)0.20[60,70)0.10[70,80]0.10则下列结论正确的是( )A .在受试者中,50岁以下的人数为700B .在受试者中,抗体呈阳性的人数为800C .受试者的平均年龄为45岁D .受试者的疫苗有效率为80%4.下图是根据某班学生在一次数学考试中的成绩画出的频率分布直方图,则由直方图得到的25%分位数为( )A .66.5B .67C .67.5D .685.已知一组数据:x 1,x 2,x 3的平均数是5,方差是4,则由2x 1+1,2x 2+1,2x 3+1和11 这四个数据组成的新数据组的方差是( )A .16B .14C .12D .116.某新能源汽车销售公司统计了某款汽车行驶里程x (单位:万千米)对应维修保养费用y (单位:万元)的四组数据,这四组数据如下表:行驶里程x /万千米 1 2 4 5 维修保养费用y /万元 0.50 0.90 2.30 2.70若用最小二乘法求得回归直线方程为y ^ =0.58x +a ^,则估计该款汽车行驶里程为6万千米时的维修保养费是( )A .3.34万元B .3.62万元C .3.82万元D .4.02万元7.通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:已知χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (χ2≥10.828)=0.001,根据小概率值α=0.001的χ2独立性检验,以下结论正确的为( )A .爱好跳绳与性别有关B .爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001C .爱好跳绳与性别无关D .爱好跳绳与性别无关,这个结论犯错误的概率不超过0.0018.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 5 6.5 7 8 8.5 y 9 8 6 4 3若由最小二乘法求得y 关于x 的回归直线方程为y ^ =-1.8x +a ^,则据此计算残差为0的样本点是( )A .(5,9)B .(6.5,8)C .(7,6)D .(8,4)二、多项选择题9.下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A .样本x 1,x 2,…,x n 的标准差 B .样本x 1,x 2,…,x n 的中位数 C .样本x 1,x 2,…,x n 的极差 D .样本x 1,x 2,…,x n 的平均数10.有一组样本数据x 1,x 2,…,x n ,由这组数据得到新样本数据y 1,y 2,…,y n ,其中y i =x i +c (i =1,2,…,n ),c 为非零常数,则( )A .两组样本数据的样本平均数相同B .两组样本数据的样本中位数相同C .两组样本数据的样本标准差相同D .两组样本数据的样本极差相同11.某车间加工某种机器的零件数x 与加工这些零件所花费的时间y 之间的对应数据如下表所示:x /个 10 20 30 40 50 y /min 62 68 75 81 89由表中的数据可得回归直线方程y ^ =b ^x +54.9,则以下结论正确的有( ) A .相关系数r >0B .b ^=0.67C .零件数10,20,30,40,50的中位数是30D .若加工60个零件,则加工时间一定是95.1 min12.小李上班可以选择公交车、自行车两种交通工具,他分别记录了100次坐公交车和骑车所用时间(单位:分钟),得到下列两个频率分布直方图:基于以上统计信息,则( )A .骑车时间的中位数的估计值是22分钟B .骑车时间的众数的估计值是21分钟C .坐公交车时间的中位数的估计值是20分钟D .坐公交车时间的平均数的估计值小于骑车时间的平均数的估计值 三、填空题13.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400名(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层抽样的方法抽取23人,则抽取的男生人数为________.14.为了解某社区居民的2021年家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 t 9.8根据上表可得回归直线方程y ^=0.76x +0.4,则t =________.15.定义一个同学数学成绩优秀的标准为“连续5次数学考试成绩均不低于120分(满分150分)”.现有甲、乙、丙三位同学连续5次数学考试成绩的数据(数据都是正整数)的描述:①甲同学的5个数据的中位数为125,总体均值为128; ②乙同学的5个数据的中位数为127,众数为121;③丙同学的5个数据的众数为125,极差为10,总体均值为125. 则数学成绩一定优秀的同学是________.16.在对某中学高一年级学生每周体育锻炼时间的调查中,采用随机数法,抽取了男生30人,女生20人. 已知男同学每周锻炼时间的平均数为17小时,方差为11;女同学每周锻炼时间的平均数为12小时,方差为16. 依据样本数据,估计本校高一年级学生每周体育锻炼时间的方差为________.参考答案1.解析:由扇形分布图结合分层抽样知识易知样本容量为8040% =200,则样本中高中生的人数为200×25%=50,易知总体的容量为501%=5 000,结合近视率条形图得该地区高中生近视人数为5 000×50%=2 500. 故选B. 答案:B 2.解析:由统计图可知,讲座前这10位社区居民问卷答题的正确率分别为65%,60%,70%,60%,65%,75%,90%,85%,80%,95%.对于A 项,将这10个数据从小到大排列为60%,60%,65%,65%,70%,75%,80%,85%,90%,95%,因此这10个数据的中位数是第5个与第6个数的平均数,为70%+75%2=72.5%>70%,A 错误.对于B 项,由统计图可知,讲座后这10位社区居民问卷答题的正确率分别为90%,85%,80%,90%,85%,85%,95%,100%,85%,100%,所以讲座后这10位社区居民问卷答题的正确率的平均数为110×(90%+85%+80%+90%+85%+85%+95%+100%+85%+100%)=89.5%>85%,B 正确.对于C 项,讲座后这10位社区居民问卷答题的正确率的方差s 2后 =110×[(90%-89.5%)2+(85%-89.5%)2+…+(85%-89.5%)2+(100%-89.5%)2]=42.2510 000 ,所以标准差s 后=6.5%.讲座前这10位社区居民问卷答题的正确率的平均数为110×(60%+60%+65%+65%+70%+75%+80%+85%+90%+95%)=74.5%,所以讲座前这10位社区居民问卷答题的正确率的方差为s 2前 =110×[(60%-74.5%)2+(60%-74.5%)2+…+(90%-74.5%)2+(95%-74.5%)2]=142.2510 000,所以标准差s 前≈11.93%.所以s 前>s 后,C 错误.对于D 项,讲座前问卷答题的正确率的极差为95%-60%=35%,讲座后问卷答题的正确率的极差为100%-80%=20%,D 错误.故选B.答案:B3.解析:50岁以下1 000×(0.2+0.3+0.1)=600人,A 选项错误.在受试者中,抗体呈阳性的人数为600×0.9+400×0.85=880,B 选项错误.受试者的平均年龄为25×0.2+35×0.3+45×0.1+55×0.2+65×0.1+75×0.1=45,C 选项正确.受试者的疫苗有效率为8801 000×100%=88%,D 选项错误.故选C. 答案:C4.解析:第一组的频率为0.010×10=0.1,前两组的频率之和为(0.010+0.020)×10=0.3,知25%分位数在第二组[60,70)内,故25%分位数为60+10×0.25-0.10.2=67.5.故选C. 答案:C5.解析:由已知得x 1+x 2+x 3=15,(x 1-5)2+(x 2-5)2+(x 3-5)2=12,则新数据的平均数为14 (2x 1+1+2x 2+1+2x 3+1+11)=2(x 1+x 2+x 3)+3+114=11,所以方差为14[(2x 1+1-11)2+(2x 2+1-11)2+(2x 3+1-11)2+(11-11)2],=14 [4(x 1-5)2+4(x 2-5)2+4(x 3-5)2]=(x 1-5)2+(x 2-5)2+(x 3-5)2=12, 故选C. 答案:C6.解析:由已知x - =1+2+4+54 =3,y - =0.5+0.9+2.3+2.74=1.6,所以1.6=0.58×3+a ^ ,a ^ =-0.14,即y ^=0.58x -0.14,x =6时,y ^=0.58×6-0.14=3.34, 故选A. 答案:A7.解析:a +b =40+20=60,c +d =20+30=50,a +c =40+20=60, b +d =20+30=50,ad -bc =40×30-20×20=800,n =110,χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) =110×800260×50×60×50 ≈7.822<10.828,故爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001, 故选D. 答案:D8.解析:由题意可知,x - =5+6.5+7+8.5+85 =7,y - =9+8+6+4+35=6,所以回归方程的样本中心点为(7,6),因此有6=-1.8×7+a ^ ⇒a ^=18.6,所以y ^=-1.8x +18.6,在收集的5个样本点中,(7,6)一点在y ^=-1.8x +18.6上,故计算残差为0的样本点是(7,6).故选C. 答案:C9.解析:由标准差的定义可知,标准差考查的是数据的离散程度; 由中位数的定义可知,中位数考查的是数据的集中趋势; 由极差的定义可知,极差考查的是数据的离散程度; 由平均数的定义可知,平均数考查的是数据的集中趋势. 答案:AC10.解析:A :E (y )=E (x +c )=E (x )+c 且c ≠0,故平均数不相同,错误;B :若第一组中位数为x i ,则第二组的中位数为y i =x i +c ,显然不相同,错误;C :D (y )=D (x )+D (c )=D (x ),故方差相同,正确; D :由极差的定义知:若第一组的极差为x max -x min ,则第二组的极差为y max -y min =(x max+c )-(x min +c )=x max -x min ,故极差相同,正确.答案:CD11.解析:由表中的数据,得x - =10+20+30+40+505=30,y -=62+68+75+81+895 =75,将x - ,y - 代入y ^ =b ^ x +54.9,得b ^=0.67,选项A ,B 均正确, 10,20,30,40,50的中位数是30,选项C 正确;当x =60时,y ^=0.67×60+54.9=95.1,所以加工时间约是95.1 min ,而非一定是95.1min ,选项D 错误.故选ABC. 答案:ABC12.解析:在骑车时间频率分布直方图中,设骑车时间的中位数为a 1, 所以有0.1×2+0.2×(a 1-20)=0.5⇒a 1=21.5,因此选项A 不正确; 骑车时间的众数的估计值为21分钟,因此选项B 正确; 设骑车时间的平均数为b 1,b 1=(19×0.1+21×0.2+23×0.15+25×0.05)×2=21.6;在坐公交车时间频率分布直方图中,设坐公交车时间的中位数为a 2,因为(0.025+0.05+0.075+0.1)×2=0.5,所以a 2=20,因此选项C 正确; 设坐公交车时间的平均数为b 2,b 2=(13×0.025+15×0.05+17×0.075+19×0.1+21×0.1+23×0.075+25×0.05+27×0.025)×2=20,因为b 1>b 2,所以选项D 正确, 故选BCD. 答案:BCD13.解析:根据等高条形图可知: 喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为300+160=460,按分层抽样的方法抽取23人,则抽取的男生人数为300460×23=15人.答案:1514.解析:分别求出收入和支出的平均数,可得:x - =8.2+8.6+10.0+11.3+11.95=10,y - =6.2+7.5+8.0+9.8+t 5 =31.5+t 5,代入y ^=0.76x +0.4可得:31.5+t 5=0.76×10+0.4,解得:t =8.5. 答案:8.515.解析:在①中,甲同学的5个数据的中位数为125,总体均值为128,可以找到很多反例,如118,119,125,128,150,故甲同学的数学成绩不一定优秀; 在②中,乙同学的5个数据的中位数为127,众数为121,所以前三个数为121,121,127,则后两个数肯定大于127,故乙同学的数学成绩一定优秀;在③中,丙同学的5个数据的众数为125,极差为10,总体均值为125,最大值与最小值的差为10,若最大值为129,则最小值为119.即119,125,125,127,129,故丙同学的数学成绩不一定优秀.综上,数学成绩一定优秀的同学只有乙. 答案:乙16.解析:根据平均数的计算公式,全班的平均数为z - =17×30+12×2030+20=15,设男同学为x 1,x 2,…,x 30,女同学为y 1,y 2,…,y 20,答案:19。

高考数学专题《统计与统计案例》练习

高考数学专题《统计与统计案例》练习

专题10.1 统计与统计案例1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关2.(2021·四川·成都七中高三期中(文))奥运会跳水比赛中共有7名评委给出某选手原始评分,在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到5个有效评分,则与7个原始评分(不全相同)相比,一定会变小的数字特征是()A .众数B .方差C .中位数D .平均数3.(2020·安徽·高三学业考试)已知某学校高二年级的一班和二班分别有m 人和n 人()m n ≠.某次学校考试中,两班学生的平均分分别为a 和()b a b ≠,则这两个班学生的数学平均分为( )A .2a b +B .ma nb +C .ma nb m n++D .a bm n++4.(2021·天津·南开中学高三月考)某校有200位教职员工,他们每周用于锻炼所用时间的频率分布直方图如图所示,据图估计,每周锻炼时间在[8,12]小时内的人数为()练基础A.18B.46C.54D.925.(2017·全国高考真题(理))某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳6.(2017课标1,文2)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数7.(2019·全国高考真题(文))某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是A.8号学生B.200号学生C.616号学生D.815号学生8.(2021·吉林·桦甸市第四中学高三月考(理))在“双11”促销活动中,某网店在11月11日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为42万元,则9时到11时的销售额为()A.9万元B.18万元C.24万元D.30万元9.(2021·内蒙古赤峰·高三月考(文))汽车的“燃油效率”是指汽车每消耗1L汽油行驶的里程,如图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A .消耗1L 汽油,乙车最多可行驶5kmB .甲车以80km/h 的速度行驶1h 消耗8L 汽油C .以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多D .若机动车最高限速80km/h ,在相同条件下,乙,丙两辆车节油情况无法比较.10.(2020·新疆·克拉玛依市教育研究所三模(理))已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程为^^y bx a =+,计算得^7b =,则当投入10万元广告费时,销售额的预报值为( )A .75万元B .85万元C .95万元D .105万元1.(2021·河南·高三月考(理))某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()练提升A .这50名学生中成绩在[]80,100内的人数占比为20%B .这50名学生中成绩在[)60,80内的人数有26人C .这50名学生成绩的中位数为70D .这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表)2.(2021·云南大理·模拟预测(理))在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.过去10日,甲、乙、丙、丁四地新增疑似病例数据信息如下:甲地:总体平均数为3,中位数为4; 乙地:总体平均数为1,总体方差大于0;丙地:中位数为2,众数为3; 丁地:总体平均数为2,总体方差为3.则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是( )A .甲地B .乙地C .丙地D .丁地3.(2021·广东茂名·高三月考)某市居民月均用水量的频率分布直方图如图所示:其众数1X ,中位数2X ,平均数X 的估计值分为,则下列结论正确的是( )A .21X X X >>B .21X X X >>C .12X X X >>D .21X X X>>4.(2021·云南·曲靖一中高三月考(文))有20名学生参加数学夏令营活动,分A , B 两组进行,每组10人夏令营结束时对两组学生进行了一次考核,考核成绩的茎叶图如图所示.则下列说法错误的是()A .A 组学生考核成绩的众数是78B .A ,B 两个组学生平均成绩一样C .B 组考核成绩的中位数是79D .A 组学生成绩更稳定5.(2021·辽宁丹东·高三期中)高三(1)班男女同学人数之比为3:2,班级所有同学进行踢毽球(毽子)比赛,比赛规则是:每个同学用脚踢起毽球,落地前用脚接住并踢起,脚接不到毽球比赛结束.记录每个同学用脚踢起毽球开始到毽球落地,脚踢到毽球的次数,已知男同学用脚踢到毽球次数的平均数为17,方差为11,女同学用脚踢到毽球次数的平均数为12,方差为16,那么全班同学用脚踢到毽球次数的平均数和方差分别为( )A .14.5,13.5B .15,13C .13.5,19D .15,196.(2021·广东福田·高三月考)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):根据此频率分布直方图,下面结论中正确的是( )A .该地农户家庭年收入低于4.5万元的农户比率估计为6%B .该地农户家庭年收入的中位数约为7.5万元C .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D .估计该地农户家庭年收入的平均值不超过6.5万元7.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.6358.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.6359.(2021·新疆·克拉玛依市教育研究所模拟预测(文))推进垃圾分类处理,是落实绿色发展理念的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民30人,女性居民20人,男性居民中不喜欢担任垃圾分类志愿者占男性居民的23,女性居民中不喜欢担任垃圾分类志愿者占女性居民的14,判断能否在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关?附:()()()()()22n ad bc k a b c d a c b d -=++++,n a b c d =+++.()20P K k ≥0.1000.0500.0100.0050.0010k 2.7063.8416.6357.87910.828(2)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+$$$,数据统计如表:志愿者人数x (人)23456日垃圾分拣量y (千克)24294146t已知511405i i y y ===∑,52190i i x ==∑,51889i i i x y ==∑,根据所给数据求t ,预测志愿者人数为10人时,该垃圾站的日垃圾分拣量.附:1221ni ii nii x y nxybxnx==-=-∑∑ ,a y bx =-$$.10.(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5), [0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.0.500.42(I)求直方图中的a值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.练真题1.(2021·全国高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间2.(2020·全国高考真题(理))在一组样本数据中,1,2,3,4出现的频率分别为1234,,,p p p p ,且411i i p ==∑,则下面四种情形中,对应样本的标准差最大的一组是( )A .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====3.(2019·全国高考真题(文))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:.P (K 2≥k )0.0500.0100.001k3.8416.63510.8284.(2021·全国高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x 和y ,样本方差分别记为21s 和22s .(1)求x ,y ,21s ,22s ;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥不认为有显著提高).5.(2017·全国高考真题(文))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:22()()()()()n ad bc K a b c d a c b d -=++++(1)记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:P (K 2≥k )0.0500.0100.001k3.8416.63510.8286.(2018·全国高考真题(文))下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17 )建立模型①:22()()()()()n ad bc K a b c d a c b d -=++++ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7 )建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.。

高中数学选修1-2第一章统计案例测试题带详细解答(可编辑修改word版)

高中数学选修1-2第一章统计案例测试题带详细解答(可编辑修改word版)
()
1
A、增加3个单位B、增加个单位C、减少3个单位D、减少个单位
3
【答案】C
【解析】
解释变量即回归方程里的自变量xˆ,由回归方程知预报变量yˆ减少 3 个单位
4.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U
与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之
选修 1-2 第一章、统计案例测试
一、选择题
1.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为ybxa必过点() A.(2,2)B. (1.5 ,4)C.(1.5 ,0)D.(1,2)
【答案】B
【解析】
试题分析:由数据可知x1.5,y4,∴线性回归方程
4
为yb xa必过点(1.5,4)
5 =11.72
. Y =(1+2+3+4+5)
5 =3
∴这组数据的相关系数是r=7.2
19.172 =0.3755,
变量U与V相对应的一组数据为(10,5),(11.3,4),
(11.8,3),(12.5,2),(13,1)
. U =(5+4+3+2+1)
5 =3,
∴这组数据的相关系数是-0.3755,
【解析】
试题分析:由题意,年劳动生产率x(千元)和工人工资y(元)之间回归方程为
y1070x,
故当x增加 1 时,y要增加 70 元,
∴劳动生产率每提高1千元时,工资平均提高70元,故A正确.

(好题)高中数学选修1-2第一章《统计案例》测试卷(包含答案解析)(2)

(好题)高中数学选修1-2第一章《统计案例》测试卷(包含答案解析)(2)

一、选择题1.下列说法:①对于独立性检验,2χ的值越大,说明两事件相关程度越大;②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则c ,k 的值分别是4e 和0.3;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程y a bx =+中,2b =,1x =,3y =,则1a =;④通过回归直线y bx a =+及回归系数b ,可以精确反映变量的取值和变化趋势,其中正确的个数是( ) A .1B .2C .3D .42.甲射击时命中目标的概率为0.75,乙射击时命中目标的概率为23,则甲乙两人各自射击同一目标一次,则该目标被击中的概率为( ) A .12B .1C .56D .11123.已知12P(B|A)=,P(A)=35,则()P AB 等于( ) A .56B .910 C .215D .1154.从装有形状大小相同的3个黑球和2个白球的盒子中依次不放回地任意抽取3次,若第二次抽得黑球,则第三次抽得白球的概率等于( ) A .15B .14C .13D .125.某商品的售价x (元)和销售量y (件)之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较好的线性相关关系,且回归直线方程是3.ˆ2yx a =-+,则实数a =( ) A .30B .35C .38D .406.在一次独立性检验中,得出列表如下:合计 190 400a + 590a +且最后发现,两个分类变量A 和B 没有任何关系,则a 的可能值是( ) A .720 B .360C .180D .907.工人月工资(元)关于劳动生产率x(千元)的回归方程为,下列说法中正确的个数是( )①劳动生产率为1000元时,工资为730元; ②劳动生产率提高1000元,则工资提高80元; ③劳动生产率提高1000元,则工资提高730元; ④当月工资为810元时,劳动生产率约为2000元. A .1B .2C .3D .48.将两枚质地均匀的骰子各掷一次,设事件A ={两个点数互不相同},B ={出现一个5点},则()/P B A =( ) A .13B .518C .16D .149.甲乙丙三位同学独立的解决同一个问题,已知三位同学单独正确解决这个问题的概率分别为12,13,15,则有人能够解决这个问题的概率为( ) A .130 B .415C .1115D .131510.甲、乙两位同学各自独立地解答同一个问题,他们能够正确解答该问题的概率分别是23和12,在这个问题至少被一个人正确解答的条件下,甲、乙两位同学都能正确解答该问题的概率为( )A .27B .25C .15D .1911.为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:及格 不及格 合计 很少使用手机 20 5 25 经常使用手机 10 15 25 合计302050则有( )的把握认为经常使用手机对数学学习成绩有影响.参考公式:()()()()()22=n ad bc K a b c d a c b d -++++,其中n a b c d =+++()2P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.001 k 2.0722.7063.8415.0246.6357.87910.828A .97.5%B .99%C .99.5%D .99.9%12.甲、乙两人独立地破译一份密码,破译的概率分别为11,32,则密码被破译的概率为( ) A .16B .23C .56D .1二、填空题13.有甲、乙两台机床生产某种零件,甲获得正品乙不是正品的概率为14,乙获得正品甲不是正品的概率为16,且每台获得正品的概率均大于12,则甲乙同时生产这种零件,至少一台获得正品的概率是___________.14.三个元件正常工作的概率分别为,,,将两个元件并联后再和串联接入电路,如图所示,则电路不发生故障的概率为_________.15.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)16.设甲、乙两套方案在一次试验中通过的概率均为0.3,且两套方案在试验过程中相互之间没有影响,则两套方案在一次试验中至少有一套通过的概率为___________. 17.关于变量,x y 的一组样本数据11()a b ,,22()a b ,,……,(),n n a b (2n ≥,12,,,n a a a ⋅⋅⋅不全相等)的散点图中,若所有样本点(,)i i a b (1,2,,i n =⋅⋅⋅)恰好都在直线21y x =-+上,则根据这组样本数据推断的变量,x y 的相关系数为_____________.18.把一枚硬币任意抛掷三次,事件A =“至少出现一次反面”,事件B =“恰好出现一次正面”,则(/)P B A =__________.19.甲、乙两个小组各10名学生的英语口语测试成绩的茎叶图如图所示.现从这 20名学生中随机抽取一人,将“抽出的学生为甲小组学生”记为事件A ;“抽出的学生英语口语测试成绩不低于85分”记为事件B .则P (A|B )的值是_____.20.2020年新型冠状病毒疫情期间,大学生小白同学在家里根据某款运动软件安排的训练计划进行运动,每天训练一次,连续3天为一个运动周期,若小白每天不能参加训练的概率为14,假设小白每天的训练是相互独立的,若一个训练周期内出现2次不能参加训练,则停止该训练计划,则这个训练计划在第二个完整周期后结束的概率为______.三、解答题21.一网络公司为某贫困山区培养了100名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这100名“乡土直播员”中每天直播时间不少于5小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面22⨯列联表:网红乡土直播员 乡土直播达人 合计 男 10 40 50 女 20 30 50 合计3070100(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,在这6人中选2人作为“乡土直播推广大使”.求这两人中恰有一男一女的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.15 0.10 0.05 0.025 0.010 0.005 0.00122.近年来,随着互联网的发展,诸如“滴滴打车”“神州专车”等网约车服务在我国各城市迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在M省的发展情况,M省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数,(1,2,3,4,5)i ix y i=,数据如下表所示:==2s==.(1)试求y与x间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系(若0.75r>,则线性相关程度很高,可用线性回归模型拟合);(2)建立y关于x的回归方程,并预测当A指标数为7时,B指标数的估计值;(3)若城市的网约车A指标数x落在区间(3,3)x s x s-+之外,则认为该城市网约车数量过多,会对城市交通管理带来较大的影响,交通管理部门将介入进行治理,直至A指标数x回落到区间(3,3)x s x s-+之内.现已知2018年11月该城市网约车的A指标数为13,问:该城市的交通管理部门是否要介入进行治理?试说明理由.附:相关公式:()()ni ix x y yr--=∑,121()()()ni iiniix x y ybx x==--=-∑∑,a y bx=-.0.55≈0.95≈.23.随着网络的发展,人们可以在网络上购物、玩游戏、聊天、导航等,所以人们对上网流量的需求越来越大.某电信运营商推出一款新的“流量包”套餐.为了调查不同年龄的人是否愿意选择此款“流量包”套餐,随机抽取50个用户按年龄分组进行访谈,统计结果如下表.(1)若在第2、3、4组愿意选择此款“流量包”套餐的人中,用分层抽样的方法抽取15人,则各组应分别抽取多少人?(2)若从第5组的被调查者访谈人中随机选取2人进行追踪调查,求2人中至少有1人愿意选择此款“流量包”套餐的概率.(3)按以上统计数据填写下面2×2列联表,并判断以50岁为分界点,能否在犯错误不超过1%的前提下认为是否愿意选择此款“流量包”套餐与人的年龄有关;参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.24.目前,新冠病毒引发的肺炎疫情在全球肆虐,为了解新冠肺炎传播途径,采取有效防控措施,某医院组织专家统计了该地区500名患者新冠病毒潜伏期的相关信息,数据经过汇总整理得到如下图所示的频率分布直方图(用频率作为概率).潜伏期不高于平均数的患者,称为“短潜伏者”,潜伏期高于平均数的患者,称为“长潜伏者”.(1)求这500名患者潜伏期的平均数(同一组中的数据用该组区间的中点值作代表),并计算出这500名患者中“长潜伏者”的人数;(2)为研究潜伏期与患者年龄的关系,以潜伏期是否高于平均数为标准进行分层抽样,从上述500名患者中抽取300人,得到如下列联表,请将列联表补充完整,并根据列联表判断是否有97.5%的把握认为潜伏期长短与患者年龄有关:(3)研究发现,有5种药物对新冠病毒有一定的抑制作用,其中有2种特别有效,现在要通过逐一试验直到把这2种特别有效的药物找出来为止,每一次试验花费的费用是500元,设所需要的试验费用为X ,求X 的分布列与数学期望. 附表及公式:()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0k2.0722.7063.8415.0246.6357.87910.82822()()()()()n ad bc K a b c d a c b d -=++++25.支付宝作为一款移动支付工具,在日常生活中起到了重要的作用.(1)通过现场调查12位市民得知,其中有10人使用支付宝.现从这12位市民中随机抽取3人,求至少抽到2位使用支付宝的市民的概率;(2)为了鼓励市民使用支付宝,支付宝推出了“奖励金”活动,每使用支付宝支付一次,分别有12,13,16的概率获得0.1,0.2,0.3元奖励金,每次支付获得的奖励金情况互不影响.若某位市民在一天内使用了2次支付宝,记X 为这一天他获得的奖励金数,求X 的概率分布和数学期望.26.新能源汽车已经走进我们的生活,逐渐为大家所青睐.现在有某品牌的新能源汽车在甲市进行预售,预售场面异常火爆,故该经销商采用竞价策略基本规则是:①竞价者都是网络报价,每个人并不知晓其他人的报价,也不知道参与竞价的总人数;②竞价采用“一月一期制”,当月竞价时间截止后,系统根据当期汽车配额,按照竞价人的出价从高到低分配名额.某人拟参加2020年6月份的汽车竞价,他为了预测最低成交价,根据网站的公告,统计了最近5个月参与竞价的人数(如下表) 月份2020.012020.022020.032020.042020.05(1)由收集数据的散点图发现,可用线性回归模型拟合竞价人数y (万人)与月份编号t 之间的相关关系.请用最小二乘法求y 关于t 的线性回归方程:ˆ bt y a =+,并预测2020年6月份(月份编号为6)参与竞价的人数;(2)某市场调研机构对200位拟参加2020年6月份汽车竞价人员的报价进行了一个抽样调查,得到如表所示的频数表:(i )求这200位竞价人员报价的平均值x 和样本方差s 2(同一区间的报价用该价格区间的中点值代替)(ii )假设所有参与竞价人员的报价X 可视为服从正态分布()2,,N μσ且μ与σ2可分别由(i )中所示的样本平均数x 及s 2估计.若2020年月6份计划提供的新能源车辆数为3174,根据市场调研,最低成交价高于样本平均数x ,请你预测(需说明理由)最低成交价. 参考公式及数据:①回归方程ˆˆˆy bx a =+,其中1221ˆˆˆ,ni ii nii x y nx ybay bx xnx ==-⋅==--∑∑ ②5521155, 2.6;ii i i i tx y ====≈∑∑③若随机变量X 服从正态分布()2,,N μσ则()()0.6826,220.9544,P X P X μσμσμσμσ-<<+=-<<+= ()330.9974P X μσμσ-<<+=.【参考答案】***试卷处理标记,请不要删除一、选择题1.C 解析:C 【分析】根据独立性检验、非线性回归方程以及回归直线方程相关知识进行判断. 【详解】对于命题①,根据独立性检验的性质知,两个分类变量2χ越大,说明两个分类变量相关程度越大,命题①正确;对于命题②,由kxy ce =,两边取自然对数,可得ln ln y c kx =+,令ln z y =,得ln z kx c =+,0.34z x =+,所以ln 40.3c k =⎧⎨=⎩,则40.3c e k ⎧=⎨=⎩,命题②正确;对于命题③,回归直线方程y a bx =+中,3211a y bx =-=-⨯=,命题③正确; 对于命题④,通过回归直线y bx a =+及回归系数b ,可估计和预测变量的取值和变化趋势,命题④错误.故选C. 【点睛】本题考查了回归直线方程、非线性回归方程变换以及独立性检验相关知识,考查推理能力,属于中等题.2.D解析:D 【分析】记事件:A 甲乙两人各自射击同一目标一次,该目标被击中,利用独立事件的概率乘法公式计算出事件A 的对立事件的概率,再利用对立事件的概率公式可得出事件A 的概率. 【详解】记事件:A 甲乙两人各自射击同一目标一次,该目标被击中, 则事件:A 甲乙两人各自射击同一目标一次,两人都未击中目标, 由独立事件的概率乘法公式得()321114312P A ⎛⎫⎛⎫=--= ⎪⎪⎝⎭⎝⎭, ()()111111212P A P A ∴=-=-=,故选D. 【点睛】本题考查独立事件的概率乘法公式,解题时要弄清楚各事件之间的关系,可以采用分类讨论,本题采用对立事件求解,可简化分类讨论,属于中等题.3.C解析:C 【解析】分析:根据条件概率的计算公式,即可求解答案.详解:由题意,根据条件概率的计算公式()()|()P AB P B A P A =, 则()()()122|3515P AB P B A P A =⋅=⨯=,故选C. 点睛:本题主要考查了条件概率的计算公式的应用,其中熟记条件概率的计算公式是解答的关键,着重考查了推理与运算能力.4.D解析:D 【解析】分析:这是一个条件概率,可用古典概型概率公式计算,即从5个球中取三个排列,总体事件是第二次是黑球,可在第二次是黑球的条件下抽排第一次和第三次球.详解:111223122412C C C P C A ==. 点睛:此题是一个条件概率,条件是第二次抽取的是黑球,不能误以为是求第二次抽到黑球,第三次抽到白球的概率,如果那样求得错误结论为1132353310C C A ⨯=. 5.D解析:D 【解析】由表中数据知,199.51010.511105x =⨯++++=(),1111086585y =⨯++++=(),代入回归直线方程 3.ˆ2yx a =-+中,求得实数 3.28 3.21040a y x =+=+⨯=,故选D. 6.B解析:B 【解析】∵两个分类变量A 和B 没有任何关系,∴()()()()2259010090400 2.70219040090500a a K a a +-⨯=<⨯++,代入验证可知360a =满足,故选B.7.C解析:C 【解析】对于①当劳动生产率为1000元时,工资为65080730y =+=元,故①正确;对于②劳动生产率提高1000元,则工资提高80元正确;故③错误;对于④当月工资为810元时,由81065080x =+得2x =,即劳动生产率约为2000元,故④正确;故选C.8.A解析:A 【解析】由题意事件A={两个点数都不相同},包含的基本事件数是36−6=30, 事件B:出现一个5点,有10种,∴()101303|P B A ==, 本题选择A 选项.点睛:条件概率的计算方法:(1)利用定义,求P (A )和P (AB ),然后利用公式进行计算;(2)借助古典概型概率公式,先求事件A 包含的基本事件数n (A ),再求事件A 与事件B 的交事件中包含的基本事件数n (AB ),然后求概率值.9.C解析:C 【分析】先利用相互独立事件的概率乘法公式求出“三人都未解答这个问题”的概率,利用对立事件的概率公式得到“有人能够解决这个问题”的概率即可. 【详解】三人都未解答这个问题的概率为 (112-)(113-)(115-)415=,故有人能够解决这个问题的概率为14111515-=, 故选:C . 【点睛】本题考查了相互独立事件的概率乘法公式、互斥事件和对立事件的概率公式,考查了正难则反的原则,属于中档题.10.B解析:B 【分析】先计算“这个问题至少被一个人正确解答”和“甲、乙两位同学都能正确解答该问题”概率,再利用条件概率公式计算即可. 【详解】由已知,不妨设A =“这个问题至少被一个人正确解答”,B =“甲、乙两位同学都能正确解答该问题”,因为甲、乙两位同学各自独立正确解答该问题的概率分别是23和12, 故215()111326P A ⎛⎫⎛⎫=---= ⎪⎪⎝⎭⎝⎭,121()233P B =⨯=,易知1()()3P AB P B ==.故()1()235()56P AB P BA P A ===∣. 故选:B. 【点睛】本题考查了条件概率的应用,属于中档题.11.C解析:C 【分析】根据2×2列联表,求出k 的观测值2K ,结合题中表格数据即可得出结论. 【详解】 由题意,可得:222()50(2015105)258.3337.879()()()()302025253n ad bc K a b c d a c b d -⨯⨯-⨯===≈>++++⨯⨯⨯,所以有99.5%的把握认为经常使用手机对数学学习成绩有影响. 故选C. 【点睛】本题考查了独立性检验的应用,考查了计算能力,属于基础题.12.B解析:B 【分析】密码被破译分三种情况:甲破译出密码乙未破译,乙破译出密码甲未破译,甲乙都破译出密码,根据相互独立事件的概率和公式可求解出答案. 【详解】设 “甲独立地破译一份密码” 为事件A , “乙独立地破译一份密码” 为事件B , 则()13P A =,()12P B =,()12133P A =-=,()11122P B =-=, 设 “密码被破译” 为事件C ,则()()()()P C P AB P AB P AB =++11211123232323=⨯+⨯+⨯=, 故选:B. 【点睛】本题以实际问题为背景考查相互独立事件的概念及其发生的概率的计算,考查分析问题和解决问题的能力,属于中档题.二、填空题13.【分析】设甲乙两台机床生产正品的概率分别为则根据题意列方程组解得甲乙同时生产这种零件至少一台获得正品为甲获得正品乙不是正品乙获得正品甲不是正品以及甲乙均获得正品根据概率加法公式求解即可【详解】设甲乙 解析:1112【分析】设甲乙两台机床生产正品的概率分别为p ,q ,则112p <≤,112q <≤,根据题意列方程组()()114116p q q p ⎧-=⎪⎪⎨⎪-=⎪⎩,解得3423p q ⎧=⎪⎪⎨⎪=⎪⎩,“甲乙同时生产这种零件,至少一台获得正品”为甲获得正品乙不是正品,乙获得正品甲不是正品,以及甲乙均获得正品,根据概率加法公式求解即可. 【详解】设甲乙两台机床生产正品的概率分别为p ,q ,则112p <≤,112q <≤. 甲获得正品乙不是正品的概率为14()114p q ∴-=① 又乙获得正品甲不是正品的概率为16()116q p ∴-=② ①②联立得()()114116p q q p ⎧-=⎪⎪⎨⎪-=⎪⎩,解得3423p q ⎧=⎪⎪⎨⎪=⎪⎩则甲乙均获得正品的概率为321432p q ⋅=⨯= 即甲乙同时生产这种零件,至少一台获得正品的概率是1111146212++= 故答案为:1112【点睛】本题考查概率的加法与乘法公式,属于中档题.14.【解析】分析:组成的并联电路可从反面计算即先计算发生故障的概率然后用对立事件概率得出不发生故障概率详解:由题意故答案为点睛:零件不发生故障的概率分别为则它们组成的电路中如果是串联电路则不发生故障的概解析:【解析】分析:23,T T 组成的并联电路可从反面计算,即先计算发生故障的概率,然后用对立事件概率得出不发生故障概率. 详解:由题意11115(1)24432P =⨯-⨯=. 故答案为1532. 点睛:零件12,,,k a a a 不发生故障的概率分别为12,,,k p p p ,则它们组成的电路中,如果是串联电路,则不发生故障的概率易于计算,即为12k p p p ,如果组成的是并联电路,则发生故障的概率易于计算,即为12(1)(1)(1)k p p p ---.15.③④【解析】①为了了解800名学生对学校某项教改试验的意见打算从中抽取一个容量为40的样本考虑用系统抽样则分段的间隔为800÷40=20故①错误;②已知如图所示:长方形面积为2以O 为圆心1为半径作圆解析:③④ 【解析】①为了了解800名学生对学校某项教改试验的意见, 打算从中抽取一个容量为40的样本,考虑用系统抽样, 则分段的间隔为800÷40=20,故①错误; ②已知如图所示:长方形面积为2,以O 为圆心,1为半径作圆, 在矩形内部的部分(半圆)面积为π2. 因此取到的点到O 的距离大于1的概率22P 124ππ-==-; 故②错误; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 23sin263y x x ππ⎡⎤⎛⎫=-+= ⎪⎢⎥⎝⎭⎣⎦的图象, 故③正确,④∵回归直线为ˆybx a =+, 的斜率的值为1.23, ∴方程为 1.23ˆyx a =+,∵直线过样本点的中心(4,5), ∴a=0.08,∴回归直线方程是为=1.23x+0.08; ∴故④正确. 故答案为:③④.16.51【解析】由于两套方案互不影响故至少有一套方案通过的概率是解析:51 【解析】由于两套方案互不影响,故至少有一套方案通过的概率是2120.3C 0.3(10.3)0.51+⋅⋅-=.17.-【解析】所有样本点都在直线上说明这两个变量间完全负相关故其相关系数为-1故填-1解析:-1 【解析】所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.18.【解析】表示在已经发生事件的情况下事件发生的概率又事件恰有一次出现正面包含于事件至少一次出现反面所以所以解析:37【解析】(/)P B A 表示在已经发生事件A 的情况下,事件B 发生的概率,又事件B = “恰有一次出现正面”包含于事件A =“至少一次出现反面”,所以()()(/)()()P AB P B P B A P A P A ==,37(),()88P B P A ==,所以()3()7P B P A =. 19.【解析】试题分析:抽出的学生英语口语测试成绩不低于85分的有9种其中抽出的学生为甲小组学生的事件有5种所以概率为考点:条件概率 解析:【解析】试题分析:抽出的学生英语口语测试成绩不低于85分的有9种,其中抽出的学生为甲小组学生”的事件有5种,所以概率为59. 考点:条件概率.20.【分析】由题意求得一个周期内就停止训练的概率再结合相互独立事件的概率计算公式即可求解【详解】由题意小白每天不能参加训练的概率为若一个训练周期内出现2次不能参加训练可得一个周期内就停止训练的概率为这个 解析:811024【分析】由题意,求得一个周期内就停止训练的概率,再结合相互独立事件的概率计算公式,即可求解.【详解】由题意,小白每天不能参加训练的概率为14,若一个训练周期内出现2次不能参加训练,可得一个周期内就停止训练的概率为221135244432⎛⎫⎛⎫+⨯⨯=⎪ ⎪⎝⎭⎝⎭,这个训练计划持续两个周期的概率为2513811232441024⎛⎫⎛⎫-⨯⨯⨯=⎪ ⎪⎝⎭⎝⎭.故答案为:81 1024.【点睛】本题主要考查了相互独立事件的概率的计算,其中解答中正确理解题意,结合独立事件的概率计算公式求得一个周期内就停止训练的概率是解答的关键,着重考查分析问题和解答问题的能力.三、解答题21.(1)有95%的把握认为“网红乡土直播员”与性别有关系;(2)8 15.【分析】(1)由题中22⨯列联表中的数据代入()()()()()22n ad bcKa b c d a c b d-=++++然后与所给表值进行比较可得答案;(2)列出从这6人中随机抽取2人的所有可能情况,选中的2人中恰有一男一女的所有可能情况可得答案.【详解】(1)由题中22⨯列联表,可得()22100103020404.762 3.84150503070K⨯-⨯=≈>⨯⨯⨯.∴有95%的把握认为“网红乡土直播员”与性别有关系.(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,男性人数为106230⨯=人,记为A,B;女性人数为206430⨯=人,记为a,b,c,d.则从这6人中随机抽取2人的所有可能情况有以下“A,B;A,a;A,b;A,c;A,d;B ,a ; B ,b ; B ,c ; B ,d ;a ,b ; a ,c ; a ,d ; b ,c ; b ,d ; c ,d ”共15种.其中,选中的2人中恰有一男一女的所有可能情况有以下“A ,a ; A ,b ; A ,c ; A ,d ; B ,a ; B ,b ; B ,c ; B ,d ”共8种. ∴选中的2人中恰有一男一女的概率815P =. 【点睛】古典概型的概率的计算方法,首先计算所有基本事件数,再计算事件A 包含的基本事件数,应用古典概率公式计算求解.22.(1)0.95r ≈,y 与x 具有较强的线性相关关系,可用线性回归模型拟合y 与x 的关系;(2)35102y x =+,当7x =时, 4.6y =;(3)要介入进行治理. 【分析】(1)由已知数据可得,x y ,利用公式,求得相关系数r ,即可作出判断,得到结论;(2)由(1),求得b 和ˆa,求得回归直线的方程,代入7x =,即可求得回归方程; (3)由(3,3)(1,11)x s x s -+=-,而1311>,即可得到结论. 【详解】(1)由已知数据可得2456855x ++++==,3444545y ++++==.所以相关系数5()x x y y r --=0.95==≈. 因为0.75r >,所以y 与x 具有较强的线性相关关系,可用线性回归模型拟合y 与x 的关系.(2)由(1)可知()51521()632ˆ010()i i i i i x x y y b x x ==--===-∑∑,354ˆ2ˆ510a y bx =-=-⨯=, 所以y 与x 之间线性回归方程为35102ˆy x =+. 当7x =时,3576102ˆ 4.y=⨯+=. (3)()()3,31,11x s x s -+=-,而1311>,故2018年11月该城市的网约车已对城市交通带来较大的影响,交通管理部门将介入进行治理. 【点睛】本题主要考查了回归直线方程的求解及应用问题,其中解答中,认真审题,正确理解题意,利用公式准确计算是解答此类问题的关键,着重考查了推理与运算能力,属于基础题.23.(1)各组分别为5人,6人,4人;(2)35;(3)在犯错误不超过1%的前提下认为是否愿意选择此款“流量包”套餐与人的年龄有关. 【解析】试题分析:(1)三组一共有30人,抽取15人,故两个人抽一人,由此得到抽取的人数分别为5,6,4人.(2)利用列举法列举出所有可能性有15种,其中符合题意的有9种,故概率为35.(3)根据题意填写好表格后,计算29.979 6.635K ≈>,故有在犯错误不超过1%的前提下认为是否愿意选择此款“流量包”套餐与人的年龄有关. 试题解:(1)因为1012815=5,15=615=4303030,⨯⨯⨯,所以第2、3、4组愿意选择此款“流量包”套餐的人中,用分层抽样的方法抽取15人,各组分别为5人,6人,4人.(2)设第5组中不愿意选择此款“流量包”套餐A,B,C,D,愿意选择此款“流量包”套餐人为a,b,则愿意从6人中选取2人有:,,,,,,,,,,,,,,,AB AC AD Aa Ab BC BD Ba Bb CD Ca Cb Da Db ab 共15个结果,其中至少有1人愿意选择此款“流量包”,,,,,,,,,Aa Ab Ba Bb Ca Cb Da Db ab 共9个结果,所以求2人中至少有1人愿意选择此款“流量包”套餐的概率93155P ==. (3)2×2列联表∴()()()()25010310279.979 6.63510271031010273K ⨯⨯-⨯=≈>++++∴在犯错误不超过1%的前提下认为是否愿意选择此款“流量包”套餐与人的年龄有关. 24.(1)平均数为6,“长潜伏者”的人数为250人(2)列联表见解析, 有97.5%的把握认为潜伏期长短与年龄有关 (3)分布列见解析,()1750E X = 【分析】(1)由频率分布直方图可计算出潜伏期的均值,再由频率分布直方图可得“长潜伏者”的频率,从而得人数;(2)由所给数据计算出2K 后可得结论;(3)由题意知所需要的试验费用X 所有可能的取值为1000,1500,2000,分别计算出概率得概率分布列,再由期望公式得期望.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高中数学:统计与统计案例练习A组一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()A.200 B.240C.400 D.480解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400.2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为()A.3 B.4C.12 D.21解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为410=25,所以估计昆明市2020年4月份空气质量为优的天数为30×25=12,故选C.3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是()A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是()A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为60×60%=36,女性人数为40×60%=24,不相同.故选C.5.(石家庄模拟)某学校A,B两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过茎叶图比较两个班兴趣小组成绩的平均值及标准差.①A班兴趣小组的平均成绩高于B班兴趣小组的平均成绩;②B班兴趣小组的平均成绩高于A班兴趣小组的平均成绩;③A班兴趣小组成绩的标准差大于B班兴趣小组成绩的标准差;④B班兴趣小组成绩的标准差大于A班兴趣小组成绩的标准差.其中正确结论的编号为()A.①④B.②③C.②④D.①③解析:选A A班兴趣小组的平均成绩为53+62+64+…+92+9515=78,其方差为115×[(53-78)2+(62-78)2+…+(95-78)2]=121.6, 则其标准差为121.6≈11.03;B班兴趣小组的平均成绩为45+48+51+…+9115=66,其方差为115×[(45-66)2+(48-66)2+…+(91-66)2]=169.2,则其标准差为169.2≈13.01.故选A.6.某商场对某一商品搞活动,已知该商品每一个的进价为3元,销售价为8元,每天售出的第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如图所示,设x(个)为每天商品的销量,y(元)为该商场每天销售这种商品的利润.从日利润不少于96元的几天里任选2天,则选出的这2天日利润都是97元的概率为()A.19B.110C.15D.18解析:选B 由题意知y =⎩⎨⎧5x ,x =18,19,95+(x -19)(4-3),x =20,21, 即y =⎩⎨⎧5x ,x =18,19,76+x ,x =20,21.当日销量不少于20个时,日利润不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利润为96元的有3天,记为a ,b ,c ,日利润为97元的有2天,记为A ,B ,从中任选2天有(a ,A ),(a ,B ),(a ,b ),(a ,c ),(b ,A ),(b ,B ),(b ,c ),(c ,A ),(c ,B ),(A ,B ),共10种情况.其中选出的这2天日利润都是97元的有(A ,B )1种情况. 故所求概率为110.故选B. 二、填空题7.某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x /元 3.0 3.2 3.4 3.6 3.8 4.0 销量y /瓶504443403528已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌饮料的进价为2元,为使利润最大,零售价应定为________元.解析:依题意得:x =3.5,y =40, 所以a^=40-(-20)×3.5=110, 所以回归直线方程为y ^=-20x +110,利润L=(x-2)(-20x+110)=-20x2+150x-220,所以x=15040=3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.解析:设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.答案:1409.为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,则甲地该月11时的平均气温的标准差为________.解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+m,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,则乙地该月11时的平均气温为(26+28+29+31+31)÷5=29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m+32)÷5=30,解得m=1,则甲地该月11时的平均气温的标准差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]= 2.答案: 2三、解答题10.某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差;(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110×[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.11.(西安八校联考)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:等级代码数值x384858687888销售单价y/元16.818.820.822.82425.8(1)(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b^x +a ^的斜率和截距的最小二乘估计分别为b^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a^=y -b ^x . 参考数据:∑i =16x i y i =8 440,∑i =16x 2i =25 564.解:(1)由题意,得x =38+48+58+68+78+886=63,y =16.8+18.8+20.8+22.8+24+25.86=21.5,b ^=∑i =16x i y i -6x y∑i =16x 2i -6x 2=8 440-6×63×21.525 564-6×63×63≈0.2,a^=y -b ^x =21.5-0.2×63=8.9. 故所求线性回归方程为y ^=0.2x +8.9.(2)由(1)知,当x =98时,y =0.2×98+8.9=28.5. ∴估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x (同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功晋级失败合计男16女50 合计参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+dP(K2≥k)0.400.250.150.100.050.025k 0.708 1.323 2.072 2.706 3.841 5.024 解:(1)0.040)×10=1,解得a=0.005.(2)由频率分布直方图知,各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.30+75×0.40+85×0.20+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功晋级失败合计男163450女94150合计2575100K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.B组1.为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248256232243188268278266289312274296288302295228287217329283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62.(2)根据箱产量的频率分布直方图得到联表:K 2=200×(62×66100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:=116∑i =116x 2i -16x 2≈0.212, ∑i =116(i -8.5)2≈18.439,∑i =116(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2.0.008≈0.09.解:(1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑i =116(x i -x )(i -8.5)∑i =116(x i -x )2∑i =116(i -8.5)2=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i =16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115×(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.4.(昆明模拟)“工资条里显红利,个税新政入民心”.随着2019年新年钟声的敲响,我国自1980年以来,力度最大的一次个人所得税(简称个税)改革迎来了全面实施的阶段.某IT 从业者为了解自己在个税新政下能享受多少税收红利,绘制了他在26~35岁(2009~2018年)之间各年的月平均收入y (单位:千元)的散点图:(1)由散点图知,可用回归模型y =b ln x +a 拟合y 与x 的关系,试根据有关数据建立y 关于x 的回归方程;(2)如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用(1)的结果,将月平均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.附注:参考数据:∑i =110x i =55,∑i =110y i =155.5,∑i =110(x i -x )2=82.5,∑i =110(x i -x )(y i -y )=94.9,∑i =110t i =15.1,∑i =110(t i -t )2=4.84,∑i =110(t i -t )(y i -y )=24.2,其中t i =ln x i ;取ln 11=2.4,ln 36=3.6.参考公式:回归方程v =b^u +a ^中斜率和截距的最小二乘估计分别为b ^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,a^=v -b ^u .新旧个税政策下每月应纳税所得额(含税)计算方法及税率表如下:b^=∑i=110(t i-t)(y i-y)∑i=110(t i-t)2=24.24.84=5,y=∑i=110y i10=155.510=15.55,t=∑i=110t i10=15.110=1.51,a^=y-b^t=15.55-5×1.51=8,所以y关于t的回归方程为y=5t+8.因为t=ln x,所以y关于x的回归方程为y=5ln x+8.(2)由(1)得,该IT从业者36岁时月平均收入为y=5ln 11+8=5×2.4+8=20(千元).旧个税政策下每个月应缴纳的个人所得税为1 500×3%+3 000×10%+4 500×20%+(20 000-3 500-9 000)×25%=3 120(元).新个税政策下每个月应缴纳的个人所得税为3 000×3%+(20 000-5 000-3 000-3 000)×10%=990(元).故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(元).。

相关文档
最新文档