新高考2020版高考数学二轮复习专题过关检测十七统计与统计案例文

合集下载

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.

的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从

的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.


2020新课标高考数学(文)二轮总复习课件:1-4-1 统计、统计案例

2020新课标高考数学(文)二轮总复习课件:1-4-1 统计、统计案例

上一页
返回导航
下一页
新课标高考第二轮总复习•文科数学
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; [解析] (1)根据茎叶图中的数据知, 用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟, 用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 78 分钟, 所以第二种生产方式的工作时间较少些,效率更高.
返回导航
下一页
新课标高考第二轮总复习•文科数学
(1)在图②中作出 B 地区用户满意度评分的频率分布直方图,并通过直方图比较两 地区满意度评分的平均值及分散程度;(不要求计算出具体值,给出结论即可)
B 地区用户满意度评分的频率分布直方图
上一页

返回导航
下一页
[解析] (1)如图所示.
新课标高考第二轮总复习•文科数学
排在中间的两个数据是 79 和 81,它们的中位数 m=80.
填写列联表如下:
超过 m 不超过 m 总计
第一种生产方式 15
5
20
第二种生产方式 5
15
20
总计
20
20
40
上一页
返回导航
下一页
新课标高考第二轮总复习•文科数学
(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附:K2=a+bcn+add-ab+cc2b+d.
卷Ⅱ 频率分布表、平均数与标准差的计
2019
算·T19
是由生活情境、文字描 述、图表数据、公式组
古典概型概率计算·T3 卷Ⅲ 随机抽样、样本估计总体·T4
频率分布直方图和平均数计算·T17
成,一般设计2~3个问 题,是试卷中阅读量最大 的题目.

2020届高考数学(理)二轮复习全程方略课件:专题17 统计与统计案例 Word版含答案

2020届高考数学(理)二轮复习全程方略课件:专题17 统计与统计案例 Word版含答案
数学
大二轮复习
第一部分 全程方略课件
专题17 统计与统计案例
知识网络构建
1 高考考点聚

2 核心知识整

3 高考真题体

4 命题热点突

5 课后强化训

高考考点聚焦
• 备考策略
• 本部分内容在备考时应注意以下几个方面:
• (1)掌握三种抽样的特点及相互联系,特别 是系统抽样和分层抽样的应用.
(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕 平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.
• 4.变量间的相关关系
• (1)利用散点图可以初步判断两个变量之间 是否线性相关.如果散点图中的点从整体 上看大致分布在一条直线的附近,我们说 变量x和y具有线性相关关系.
核心知识整合
• 1.抽样方法 • 三种抽样方法包括:___简_单__随_机__抽_样______、
___系_统__抽_样___、___分_层__抽_样___. • 2.统计图表 • (1)在频率分布直方图中:
• ①各小矩形的面积表示相应各组的频率, 各小矩形的高=___频组_率距_____;②各小矩形面 积之和等于___1____;③中位数左右两侧的 直方图面积___相__等___,因此可以估计其近 似值.
(2)①由于 x =9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件
的尺寸在( x -3s, x +3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.
5.(2016·山东卷,3)某高校调查了

2020版高考数学大二轮专题突破文科通用版 课件:6.2.1 统计与统计案例

2020版高考数学大二轮专题突破文科通用版 课件:6.2.1 统计与统计案例

������
∑ xi2
������=1− Nhomakorabeax2.
-6-
2.变量间的相关关系
(1)如果散点图中的点从整体上看大致分布在一条直线的附近,那
么我们说变量x和y具有线性相关关系.
(2)线性回归方程:若变量x与y具有线性相关关系,有n个样本数据
(xi,yi)(i=1,2,…,n),则回归方程为
^ ^ ^ ^ ^ ^ ������
之和为0.5处的横坐标;
(3)平均数������ = ���1���(x1+x2+…+xn).体现在频率分布直方图中是由各小
矩形的宽的中点的横坐标乘以相应小矩形的面积,然后求和得到;
(4)方差
s2=���1���[(x1-������)2+(x2-������)2+…+(xn-������)2]=���1���
由公式:���^���=(2×250+3×30(04++49+×14600++255+×43560)-+5×6×16600)-5×4×400
=85,
a^ =400-85×4=60,∴���^���=85x+60.
(2)由题意:w=-5x2+85x-80,
所以,年平均利润������������
=-5x+85-80=85-5
的平均值
频率、频数分 布表,平均数、 方差
样本估 计总体
分析、计算
频率,频率分布 样本估 直方图;平均数 计总体
观察、分析、 计算,方程思 想
-5-
1.样本的数字特征
(1)众数:是指出现次数最多的数,体现在频率分布直方图中,是指

2020届高三数学二轮复习(文理通用)《统计和统计案例》专题训练

2020届高三数学二轮复习(文理通用)《统计和统计案例》专题训练

2020届高三数学二轮复习(文理)《统计与统计案例》专题训练一.选择题(本大题共12小题)1.某大学中文系共有本科生5 000人,期中一、二、三、四年级的学生比为5:4:3:1,要用分层抽样的方法从该系所有本科生中抽取一个容量为260的样本,则应抽二年级的学生()A.100人B.60人C.80人D.20人2.某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39.现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,则选出来的第5个零件编号是()0347 4373 8636 9647 3661 4698 6371 6233 2616 8045 6011 1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179 A.36B.16C.11D.143.某校有高一学生n名,其中男生数与女生数之比为6:5,为了解学生的视力情况,的样本,若样本中男生比女生多12现要求按分层抽样的方法抽取一个样本容量为n10人,则n=()A.990B.1320C.1430D.15604.某市重点中学奥数培训班共有14人,分为两个小组,在一次阶段考试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是 的值是()89,则m nA.10 B.11 C.12D.135.下列说法中错误的个数是()①从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样方法是分层抽样x y②线性回归直线ŷ=b̂x+â一定过样本中心点(,)③对于一组数据1,2,3,4,5,如果将它们改变为11,12,13,14,15,则平均数与方差均发生变化④若一组数据1、a、2、3的众数是2,则这组数据的中位数是2⑤用系统抽样方法从编号为1,2,3,…,700的学生中抽样50人,若第2段中编号为20的学生被抽中,按照等间隔抽取的方法,则第5段中被抽中的学生编号为76. A .0B .1C .2D .36.某学校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30],样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30).根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .140D .1207.已知变量x 、y 的取值如下表所示,若y 与x 线性相关,且0.5ˆyx a =+,则实数a =( )A .3.5B .2.2C .4.8D .3.28.现有一组数据()11,x y ,()22,x y ,()33,x y ,()44,x y ,()55,x y ,根据收集到的数据可知9x =,由最小二乘法求得回归直线方程为 1.20.8y x =+,则12345y y y y y ++++=( )A .11.6B .11C .58D .559.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生在规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( ) A .甲地:总体均值为3,中位数为4 B .乙地:总体均值为1,总体方差大于0 C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为310.AQI 即空气质量指数,AQI 越小,表明空气质量越好,当AQI 不大于100时称空气质量为“优良”.如图是某市3月1日到12日AQI 的统计数据.则下列叙述正确的是( )A .这12天的AQI 的中位数是90B .12天中超过7天空气质量为“优良”C .从3月4日到9日,空气质量越来越好D .这12天的AQI 的平均值为100 11.已知一组数据丢失了其中一个,另外六个数据分别是10,8,8,11,16,8,若这组数据的平均数、中位数、众数依次成等差数列,则丢失数据的所有可能值的和为( ) A .12B .20C .25D .2712.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030),7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得 附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 二.填空题(本大题共4小题)13.总体由编号为010*******⋯,,,,,的50个个体组成,利用随机数表(以下选取了随机数表中的第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第9列开始由左向右读取,则选出来的第5个个体的编号为______________;14.某种品牌汽车的销量y (万辆)与投入宣传费用x (万元)之间具有线性相关关系,样本数据如下表所示:经计算得回归直线方程ˆˆˆybx a =+的斜率为0.7,若投入宣传费用为8万元,则该品牌汽车销量的预测值为________________万辆.15.有两个分类变量x 和y ,其中一组观测值为如下的2×2列联表:其中a ,15a -均为大于5的整数,则a =__________时,在犯错误的概率不超过0.01的前提下为“x 和y 之间有关系”.附:()()()()()22n ad bc K a b c d a c b d -=++++16.已知一组数据1x ,2x ,3x ,…,n x 的平均数为x ,方差为2S .若131x +,231x +,331x +,…,31n x +的平均数比方差大4,则22S x -的最大值为_________三.解答题(本大题共6小题)17.为了调查一款手机的使用时间,研究人员对该款手机进行了相应的测试,将得到的数据统计如下图所示:并对不同年龄层的市民对这款手机的购买意愿作出调查,得到的数据如下表所示:(1)根据图中的数据,试估计该款手机的平均使用时间;(2)请将表格中的数据补充完整,并根据表中数据,判断是否有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:18. 某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,2010,5t x z y =-=-得到下表2: (1)求z 关于t 的线性回归方程;(2)通过(Ⅰ)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程ˆˆˆybx a =+,其中1221ˆˆˆ,ni ii nii x y nx yb ay bx xnx ==-⋅==--∑∑)19. 树立和践行“绿水青山就是金山银山,坚持人与自然和谐共生”的理念越来越深入人心,已形成了全民自觉参与,造福百姓的良性循环.据此,某网站退出了关于生态文明建设进展情况的调查,调查数据表明,环境治理和保护问题仍是百姓最为关心的热点,参与调查者中关注此问题的约占80%.现从参与关注生态文明建设的人群中随机选出200人,并将这200人按年龄分组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65),得到的频率分布直方图如图所示.(1)求出a的值;(2)求出这200人年龄的样本平均数(同一组数据用该区间的中点值作代表)和中位数(精确到小数点后一位);(3)现在要从年龄较小的第1,2组中用分层抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查,求第2组恰好抽到2人的概率.20.“学习强国”学习平台是由中宣部主管,以深入学习宣传习近平新时代中国特色社会主义思想为主要内容,立足全体党员,面向全社会的优质平台,现日益成为老百姓了解国家动态,紧跟时代脉博的热门APP,某市宣传部门为了解全民利用“学习强国”了解国家动态的情况,从全市抽取2000名人员进行调查,统计他们每周利用“学习强国”的时长,如图是根据调查结果绘制的频率分布直方图.(1)根据图,求所有被抽查人员利用“学习强国”的平均时长和中位数;(2)宣传部为了了解大家利用“学习强国”的具体情况,准备采用分层抽样的方法从[]10,12组中抽取50人了解情况,则两组各抽取多少人?再利用分层抽样从8,10和[]抽取的50人中选5人参加一个座谈会.现从参加座谈会的5人中随机抽取两人发言,10,12小组中至少有1人发言的概率?求[]21.已知鲜切花A的质量等级按照花枝长度L进行划分,划分标准如下表所示.某鲜切花加工企业分别从甲、乙两个种植基地购进鲜切花A,现从两个种植基地购进的鲜切花A中分别随机抽取30个样品,测量花枝长度并进行等级评定,所抽取样品数据如图所示.(1)根据茎叶图比较两个种植基地鲜切花A的花枝长度的平均值及分散程度(不要求计算具体值,给出结论即可);(2)若从等级为三级的样品中随机选取2个进行新产品试加工,求选取的2个全部来自乙种植基地的概率;(3)根据该加工企业的加工和销售记录,了解到来自乙种植基地的鲜切花A的加工产品的单件利润为4元;来自乙种植基地的鲜切花A的加工产品的单件成本为10元,销售率(某等级产品的销量与产量的比值)及单价如下表所示.由于鲜切花A加工产品的保鲜特点,未售出的产品均可按原售价的50%处理完毕.用样本估计总体,如果仅从单件产品的利润的角度考虑,该鲜切花加工企业应该从哪个种植基地购进鲜切花A?22.某企业积极响应国家“科技创新”的号召,大力研发人工智能产品,为了对一批新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据(),i i x y (1,2,3,4,5,6)i =,如下表所示:附:参考公式:()()()1122211ˆnniii ii i nniii i x x y y x y nxybx x xnx ====---==--∑∑∑∑,ˆ=-ay bx , 参考数据:611806i i y y ===∑,611606i i i x y ==∑,62191i i x ==∑.(1)求p 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价x (百元)的线性回归方程ˆˆˆy bx a =+(计算结果精确到整数位);(3)用ˆi y表示用正确的线性回归方程得到的与i x 对应的产品销量的估计值.当销售数据(),i i x y 的残差的绝对值ˆ1i i yy -<时,则将销售数据称为一个“有效数据”.现从这6组销售数据中任取2组,求抽取的2组销售数据都是“有效数据”的概率.参考答案一.选择题:本大题共12小题.13.43 14.5.95 15.9 16.-1三.解答题:本大题共6小题. 17.【解析】(1)40.05240.09640.071040.031440.01187.76⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯=该款手机的平均使用时间为7.76年. (2)()222000400200600800333.310.828120080010001000K ⨯-⨯==>⨯⨯⨯可知有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关. 18.【解析】(1)3t =,512.2i i i z t z ==∑,52155ii t==∑,4553 2.2 1.25559b )-⨯⨯==-⨯, 2.23 1.2 1.4a z bt =-=-⨯=-), 1.2 1.4z t ∴=-(2)2010t x =-,5z y =-,代入 1.2 1.4z t =-得到:()5 1.22010 1.4y x -=--,即 1.22408.4y x =-(3) 1.220202408.415.6y ∴=⨯-=,19.【解析】(1)由()100.0100.0150.0300.0101a ⨯++++=,得0.035a =, (2)平均数为200.1300.15400.35500.3600.141.5⨯+⨯+⨯+⨯+⨯=岁;设中位数为x ,则()100.010100.015350.0350.5x ⨯+⨯+-⨯=,Ⅰ42.1x ≈岁. (3)第1,2组抽取的人数分别为20人,30人,从第1,2组中用分层抽样的方法抽取5人,则第1,2组抽取的人数分别为2人,3人,分别记为12123,,,,a a b b b .设从5人中随机抽取3人,为(121,,a a b ),(122,,a a b ),(123,,a a b ),(112,,a b b ),(113,,a b b ),(123,,a b b ),(212,,a b b ),(213,,a b b ),(223,,a b b ),(123,,b b b ), 共10个基本事件,其中第2组恰好抽到2人包含(112,,a b b ),(113,,a b b ),(123,,a b b ),(212,,a b b ),(213,,a b b ),(223,,a b b )共6个基本事件,从而第2组抽到2人的概率63105== 20.【解析】(1)设抽查人员利用“学习强国”的平均时长为x ,中位数为y 0.0510.130.2550.370.1590.1110.0513 6.8x =⨯+⨯+⨯+⨯+⨯+⨯+⨯= 设抽查人员利用“学习强国”的中位数为y ,()0.050.10.250.1560.5y +++⨯-=,解得203y =, 即抽查人员利用“学习强国”的平均时长为6.8,中位数为203. (2)[]8,10组的人数为20000.15300⨯=人,设抽取的人数为a ,[]10,12组的人数为20000.1200⨯=人,设抽取的人数为b 则50300200500a b ==,解得30a =,20b =, 所以在[]8,10和[]10,12两组中分别抽取30人和20人,再抽取5人,两组分别抽取3人和2人,将[]8,10组中被抽取的工作人员标记为1A ,2A ,3A ,将[]10,12中的标记为1B ,2B . 设事件C 表示从[]10,12小组中至少抽取1人,则抽取的情况如下:{}12,A A ,{}13,A A ,{}11,A B ,{}12,A B ,{}23,A A ,{}21,A B ,{}22,A B ,{}31,A B ,{}32,A B ,{}12,B B 共10种情况,其中在[]10,12中至少抽取1人有7种,则()710P C =.21.【解析】(1)由茎叶图可以看出,乙种植基地鲜切花A 的花枝长度的平均值大于甲种植基地鲜切花A 的花枝长度的平均值,甲种植基地鲜切花A 的花枝长度相对于乙种植基地来说更为集中.(2)由题意知,三级的样品共5个,其中,来自甲基地有2个,来自乙基地的有3个,则从5个样品中随机取2个共有2510C = 种可能,2个都来自乙基地共233C =种可能,则选取的2个全部来自乙种植基地的概率为310. (3)根据茎叶图可知,乙基地中,三级花共3个,二级花共16个,一级花共11个, 则三级花的销售额为231263123120.5555⨯⨯+⨯⨯⨯= (元); 二级花的销售额为21640161616160.5333⨯⨯+⨯⨯⨯= (元); 一级花的销售额为811870112011200.5999⨯⨯+⨯⨯⨯= (元); 则乙种植基地单件平均利润为126640187030030 4.88539⎛⎫++-÷≈ ⎪⎝⎭(元). 因为4.884>,所以该鲜切花加工企业应该从乙种植基地购进鲜切花A .22.【解析】(1)由611806i i y y ===∑,得9186787370806p +++++=, 解得82p =.(2)Ⅰ123456 3.56x +++++==, 而611806i i y y ===∑,611606i i i x y ==∑,62191i i x ==∑, Ⅰ216066 3.58074ˆ4916 3.517.5b -⨯⨯-==≈--⨯,ˆ80(4) 3.594a =--⨯= 所求的线性回归方程为:ˆ494yx =-+; 或者74ˆ80() 3.59517.5a =--⨯=,所求的线性回归方程为:ˆ495y x =-+ (3)若回归方程为:ˆ494yx =-+时, 当11x =时,1ˆ90y=;当22x =时,2ˆ86y =;当33x =时,3ˆ82y =;当44x =时,4ˆ78y=;当55x =时,5ˆ74y =;当66x =时,6ˆ70y =.满足ˆ1i i y y -<条件的“有效数据”有:(2,86),(3,82),(4,78),(6,70)共4个,记(1,91)A =,(2,86)B =,(3,82)C =,(4,78)D =,(5,73)E =,(6,70)F =,从6组销售数据中任取2组,基本事件有:AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种,抽取的2组销售数据都是“有效数据”的事件有:BC ,BD ,BF ,CD ,CF ,DF ,共6种,所以抽取的2组销售数据都是“有效数据”的概率为62155=. 若回归方程为:ˆ495yx =-+时, 当11x =时,1ˆ91y=;当22x =时,2ˆ87y =;当33x =时,3ˆ83y =;当44x =时,4ˆ79y=;当55x =时,5ˆ75y =;当66x =时,6ˆ71y =.满足ˆ1i i y y -<条件的“有效数据”有:(1,91),共1个,记(1,91)A =,(2,86)B =,(3,82)C =,(4,78)D =,(5,73)E =,(6,70)F =,从6 抽取的2组销售数据都是“有效数据”的事件不存在,所以抽取的2组销售数据都是“有效数据”的概率为0.。

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

(典型题)高考数学二轮复习知识点总结统计与统计案例.docx

(典型题)高考数学二轮复习知识点总结统计与统计案例.docx

统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等; 有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题, 都属于屮低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成儿层,分层进行抽取,适用范围:总体由差异明显的儿部分组成.2.常用的统计图表(1)频率分布直方图、频率①小长方形的面积=组距X 忒=频率;②各小长方形的面积之和等于1;—频率1③小长方形的高=猛,所有小长方形的高的和为丽.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数一一一(2)方差:『=_[(/]—X )2+(A2—x )2------ (乙一x}2}.n标准崔X\— X 2+ X2— X 2 F X n — X 2]. 4. 变量的相关性与最小二乘法(1) 相关关系的概念、正相关和负相关、相关系数.(2) 最小二乘法:对于给定的一组样本数据(xi, yi ),(丸,乃),…,(尢,%),通过求0=工(yi —a —bx )'最小时,得到线性回归方程尸=加+日的方法叫做最小二乘法. /=15. 独立性检验对于取值分别是3,屈和5, y 』的分类变量尤和『,其样本频数列联表是:71Y2 总计ab a+b X2C d c+d 总计a+cb+dn则心宀 U+c W (•其中心++十为样本容量)•考点一抽样方法.例1. (2012・山东)采用系统抽样方法从960人屮抽取32人做问卷调查,为此将他们随机 编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到 的32人中,编号落入区间[1,450]的人做问卷编号落入区间[451, 750]的人做问卷B, 英余的人做问卷C 则抽到的人中,做问卷〃的人数为()9,39,69, 939.落入区间[451,750]的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有刀项,显然有729 = 459+(/7—1)X30,解得刀=10.所以做 问卷〃的有10人.I 冋=f ■在系统抽样的过程屮,要注意分段间隔,需要抽取儿个个体,样本就需要分 成儿个组,则分段间隔即点N 为样本容量),首先确定在第一组中抽取的个体的号码 n数,再从后面的每组屮按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样 方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的, 都等于样本容量和总体容量的比值.A. 7B. 9 答案CC. 10D. 15解析由系统抽样的特点知:抽取号码的间隔为96032= 30,抽取的号码依次为因(1) (2013 •江西)总体由编号为01,02, 19,20的20个个体组成,利用下而的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A. 08(2)某单位200名职工的年龄分布悄况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1〜200编号,并按编号顺序平均分为40组仃〜5号,6〜10号,196〜200号).若第5组抽出的号码为22,则第8组抽出的号码应是.若用分层抽样方法,则40岁以下年龄段应抽収人.答案(1)D (2)37 20解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08, 02, 14,07,01,所以第5个个体编号为01.(2)由分组可「知,抽号的间隔为5,又因为第5组抽出的号码为22,即第〃组抽取的号码为5/7—3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200X0. 5 = 100,40则应抽取的人数为丽X 100 = 20人.考点二用样本估计总体.例2. (1) (2013・四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为「5将数据分组成[0, 5), [5, 10),…,[30, 35), [35, 40] 时,所作的频率分布直方图是()(2) (2013 •江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:坏),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为_________ .答案(1)A (2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0, 5), [5,10)两组各一人,去掉B,应选A.— 1(2) 一卩==(87 + 91+90 + 89+93)=90,□—— 1x乙==(89 + 90 + 91+88 + 92) =90,b品=占[(87 — 90)?+(91-90)1 2+ (90-90)2+ (89-90)2+ (93-.90)2] =4,5s2=g[(89 —90尸+ (90-90)2+ (91-90)2+ (88-90)2+ (92-90)2] =2.5(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小, 高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(2, 4), (2, 5), (2, 6), (3, 4), (3,5), (3, 6), (4, 5), (4, 6), (5, 6),共15 个,其中至少有一个在1 求参赛总人数和频率分布直方图中[80, 90)之间的矩形的高,并完成直方图;2 若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90, 100]之间的概率.解(1)由茎叶图知,分数在[50, 60)之间的频数为2.由频率分布直方图知,分数在[50, 60)之间的频率为0. 008X10 = 0.0&2所以参赛总人数为両=25 (人).分数在[80, 90)之间的人数为25 — 2 — 7—10 — 2=4(人),4分数在[80,90)Z间的频率为亦=0・16,得频率分布直方图中[80, 90)间矩形的高为晋=0. 016.完成直方图,如图.(2)将[80, 90)之间的4个分数编号为1, 2, 3,4;[90, 100]之间的2个分数编号为5和6.则在[80,100]之间任取两份的基本事件为(1,2), (1,3), (1,4), (1,5), (1,6), (2, 3),[90,100]之间的基本事件为(1,5), (1,6), (2,5), (2, 6), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6),共9 个.9 3故至少有一份分数在[90, 100] Z间的概率考点三统计案例.例3. (2013 •重庆)从某居民区随机抽取10个家庭,获得第,个家庭的月收入农(单位:千10 10 10 10元)与月储蓄匕(单位:千元)的数据资料,算得为上=80,为y,=20,为乂匕=1.84,为¥ /=1 /=12=1 2=1 7=720.(1)求家庭的月储蓄y对月收入/的线性回归方程y=bx+a,(2)判断变量龙与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.n _ _^XiYi—n x yi= I _ _____ _______ ___ 附:线性回归方程y= bx+ a中,b= ----------------- , a= y ~b x ,其中x , y为n __匸2 22^x~n x7=1样本平均值,线性回归方程也可写为y=bx+a.__ | n80解⑴由题意知〃=io, / =-yx=—=8, 刀「10又人=工£一〃^ 2=720-10X82 = 80,2 = 1厶》・=1>必一刀x y =184-10X8X2 = 24, /=i由此得力3,a=~-b T=2-0. 3X8=-0. 4,故所求线性回归方程为y=0. 3^-0. 4.(2)由于变量y的值随x值的增加而增加(方=0. 3>0),故/与F 之间是正相关.(3)将x=l 代入回归方程可以预测该家庭的月储蓄为y=0. 3X7-0. 4 = 1. 7(千元). (1)对具有线性相关关系的两个变量.可以用最小二乘法求线性回归方程,求方是关键,X XL X //— y ^Xiy —n x y■ /=1 J=1 其中b= ----------------------- = ---------------n __ n _ V 1 2 P 2 2 , Xi — x 2^Xi —n x /= i /= i⑵在利用统计•变量航进行独立性检验时,应该注意数值的准确代入和正确汁算, 最后把计算的结杲与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性別有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”⑵已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y=0. 95^+a,则日等于()A. 1.30B. 1.45C. 1.65 0. 1.80EX60X50X60X50〜7.&答案(1)C (2)B解析(1)根据独立性检验的定义,由斤(塔)~7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.—1(2)依题意得,x =^*X (0+1+4 + 5 + 6+8) =4,6—— 1y =-(1. 3 + 1. 8+5. 6 + 6. 1+7. 4 + 9. 3) =5. 25;又直线y=0.95/+自必过样本点中心(匸,~),即点(4, 5. 25),于是有5. 25 = 0. 95X4+日,由此解得曰=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、屮位数及平均数的异同众数、屮位数及平均数都是描述一组数据集屮趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.—1 “①总体期望的估计,计算样本平均值X②总体方差(标准差)的估计:方差=2若](尢一% )2,标准差=7方差,方差(标准差)较小者较稳定.2.线性回归方程y =b x+a过样本点中心(匚,丁),这为求线性回归方程带来很多方便.3.独立性检验⑴作出2X2列联表.(2)计算随机变量#(疋)的值.(3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学屮有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ()A. 6B. 18C. 30D. 54答案C解析 由题意设全班学生为/人,持“喜欢”、“不喜欢”和“一般”态度的学生分别 占全班人数的害、*、所以%(|-|)=12,解得%=54,所以全班持“喜欢”态度的人 数为54X :=30.故选C.2. 某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数) 分成六段[40,50), [50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频 率分布直方图中的信息,估计出本次考试数学成绩的平均分为 _______________ .答案71解析 由频率分布直方图得每一组的频率依次为0. 1, 0. 15, 0. 15, 0. 3, 0. 25, 0. 05,又由 频率分布直方图,得每一组数据的中点值依次为45, 55, 65, 75, 85, 95.所以本次考试数学成绩的平均分为匚=45X0. 1 +55X0. 15 + 65X0. 15 + 75X0.3 +85X0. 25+95X0. 05 = 71.故填71.随机抽取某川学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.(1) 根据茎叶图判断哪个班的平均身高较高; (2) 计算甲班的样本方差;(3) 现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm 的同学被抽屮的概率.解(1)由茎叶图可知:甲班身高集中于160 cm 〜179 cm 之间,而乙班身高集中于170cm 〜180 cm 之间,因此乙班平均身高高于甲班,其中 — 158+162 + 163+168+168+170+171 + 179+179+182 x 甲== 170, —159+162 + 165+168 + 170+173 + 176+178+179+18110= 171. 1.(2)甲班的样本方差为±[(158 — 170)2+(]62_i70)2+ (163- 170)2+ (168~170)2 + (168-170)2+ (170-170)2+(171-170)2+ (179-170)2+ (179-170)2+ (182-170)2]甲班2 18 9 9 10 17 8 83 216 815 3. 10 乙班10 3 6 8 9 2 5 8 9= 57. 2.(3)设身高为176 cm 的同学被抽中的事件为/L从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178, 173)、(178,176)、 (176,173),共10个基本事件,而事件含有4个基本事件,(推荐时间:60分钟)一、选择题1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取L 000根火腿肠进行“瘦 肉精”检测;②从某屮学的15名艺术特长生屮选出3人调查学习负担情况.适合采用 的抽样方法依次为()A. ①用分层抽样,②用简单随机抽样B. ①用系统抽样,②用简单随机抽样C. ①②都用系统抽样D. ①②都用简单随机抽样答案B解析 ①屮总体容量较大,且火腿肠Z 间没有明显差异,故适合采用系统抽样;②屮总 体容量偏小,故适合采用简单随机抽样.2. (2012・四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况, 对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为M 其屮 甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为 12, 21,25, 43,则这四个社区驾驶员的总人数艸为()A. 101B. 808C. 1 212D. 2 012答案B12解析由题意知抽样比为花,而四个社区一共抽取的驾驶员人数为12 + 21+25+43 = 101,故有||=¥,解得/V=808.3. (2013 •福建)某校从高一年级学生中随机抽取部分学生.,将他们的模块测试成绩分成6 组:[40,50), [50, 60), [60,70), [70, 80), [80, 90), [90,100]加以统计,得到如图 所示的频率分布直・・・P(A)=£2方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 588B. 480C. 450D. 120答案B解析少于60分的学生人数600X (0. 05 + 0. 15) = 120(人),・・・不少于60分的学生人数为480人.4.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为匚甲,匚乙,则下列判断正确的是()A.匚甲>7乙;甲比乙成绩稳定甲〉匚乙;乙比甲成绩稳定C. "7甲<7乙;甲比乙成绩稳定乙比甲成绩稳定答案D解析由茎叶图可知—17+16 + 28 + 30 + 34*,1,= 5 斗5,—15 + 28+26 + 28 + 33x乙= z =26,oX甲〈X乙.又昴=g[「(17—25尸+ (16-25)2+ (28-25)2+ (30-25)2+ (34-25)2] =52,s:=£[(15-26)2+ (28-26)2+ (26~26)2+ (28-26)2+ (33-26)2] =35. 6,・・・乙比甲成绩稳定.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{/},若心=8,且越,彷成等比数列,则此样本的平均数和中位数分别是( )A. 13, 12B. 13, 13C. 12, 13D. 13, 14答案B解析设等差数列{/}的公差为〃(件0), $3=8,血戲=£=64, (8 — 2小(8+4小=64, (4 — / (2 +小=& 2〃一扌=0 ,又,故d = 2 ,故样本数据为+ 12 + 14 4,6, & 10, 12, 14, 16, 18,20,22,样本的平均数为------- ----- =13,中位数为一= 13,故选B.6.2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设弘:“这种试剂不能起到检测出塑化剂的作用”,并计算出635)=0. 01.对此,四名同学做出了以下的判断:P:有99%的把握认为“这种试剂能起到检测出塑化的作用”;q:随意抽出一组食品,它有99%的可能性添加了塑化剂;z、:这种试剂能检测出塑化剂的有效率为99%;s:这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是()A. p/\qB.絲pf\qC.(綁门/\繍g)/\ (八/s)D・(pV 1^) A (^J s)答案D解析提出假设拄“这种试剂不能起到检测出塑化剂的作用”,并计算出戶(於26. 635)=0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题刀,厂为真命题,q, s为假命题,依据复合命题的真值表可知D 为真命题.二、填空题7.(2013 •湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1) ________________________ 直方图屮x的值为;(2) ___________________________________________________ 在这些用户中,用电量落在区间[100, 250)内的户数为__________________________________ .答案(1)0.004 4 (2) 70解析(1)(0.002 4+0. 003 6 + 0. 006 0+x+0. 002 4 + 0. 001 2) X50 = l,・・」= 0.004 4.(2)(0. 003 6 + 0. 004 4+0. 006 0)X50X100=70.8.下表提供了某厂节能减排技术改造后在生产/产品过程屮记录的,产量*吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出F 关于x 的线性回归方程为y=0.7%+0.35,那么表中广的 值为 . 答案3解析二•样本点屮心为(4.5,耳勺, ・・・斗二=0. 7X4. 5+0. 35,解得 t='3.9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:9. 0 9. 18.9 9.2 8.8则五位评委给分的方差为 ________ . 答案0.02解析评委给分的平均数为|x (9. 0 + 9. 1 + & 9 + 9. 2 + & 8) =9. 0, □方差为[(9. 0-9. 0)2+ (9. 1 -9. 0)2+ (8. 9-9. 0)2+(9. 2-9. 0)2+ (8. 8-9. 0)2]=50. 1匕~=0. 02. 510. 某校开展“爱我海西、爱我家乡•”摄影比赛,9位评委为参赛作品 A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x)无法看清,若 记分员计算无误,则数字x 应该是 __________ . 答案1"4, •严+ 刖 + 92 + 9吁92 + 9++90 = 9], •I /=1・三、解答题11. (2013 •陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委, 其中从〃组中抽取了 6人.请将其余各组抽取的人数填入下表.解析 当心时,叭叭吗畀92 + 91 + 9、字切,(2)在(1)中,若力,〃两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委屮分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:b\,厶}屮各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的冇Si b\,日厶,,观厶4 9共4种,故所求概率7°=—=^.12.(2012 •辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时I'可的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷” 有10名女性.(1)根据己知条件完成下面的2X2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.0. 050.01 k3. 8416. 635解 ⑴由频率分布直方图可知,在抽収的100人中「体育迷”有25人,从而完成2X2 列联表如下:非体育迷体育迷 合计男 30 15 45 女 45 10 55 合计7525100将2X2列联表中的数据代入公式计算,得100=33 心3. 030.因为3. 030<3. 841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本 事件空间为 Q={@1,戲),仙,3:i) ,(0,辺3),(0,方J , (21, &) , (^2, bl),(臼2, &),(日3, b\),(臼3,Z>2), (bi, &)},其中么表不男性,7 = 1, 2, 3,伤表不女性,j — 1, 2. Q 由10个基本事件组成,而且这些基本事件的出现是等可能的.用ZI 表示“任选2人中,至少有1人是女性”这一事件,则A= {(<<?], Z?l) , (&, bz),(日2, 5),(日2,血),@3, bl) , (t?3, bz) , (Z?l, bl)},事件/7rti 7个基本事件组成,因而P (A )=—附:75X25X45X55。

高三数学二轮复习 专题高效升级卷17 统计与统计案例课件 文 新人教A版

高三数学二轮复习 专题高效升级卷17 统计与统计案例课件 文 新人教A版
专题高效升级卷17 统计与统计案例
一、选择题(本大题共12小题,每小题4分,共48 分)
1.下列抽样试验中,最适宜用系统抽样的是 ( )
A.某市的4个区共有2 000名学生,且4个区的学生 人数之比为3∶2∶8∶2,从中抽取200人入样
B.从某厂生产的2 000个电子元件中随机抽取5个入 样
C.从某厂生产的2 000个电子元件中随机抽取200 个入样
设选中的2人都来自高校C的事件为X,
则Xc3包)含共的3种基.本因事此件P(有X(1)03 c=1,c2). ,10(3 c1,c3),(c2, 故选中的2人都来自高校C的概率为 .
18.某个体服装店经营某种服装,一周内获纯利润y (元)与该周每天销售这种服装的件数x(件) 之间的一组数据如下:
x
答案:C
3.在某项体育比赛中,七位裁判为一选手打出 的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的 平均值和方差分别为( )
A.92,2
B.92,2.8
C.93,2
D.93,2.8
答案:B
4.为了了解高三学生的数学成绩,抽取某班60 名学生的数学成绩,将所得数据整理后,画
回归方程为 yˆ =aˆ +bˆ x=77.37-1.82x.
(2)因为单位成本平均变动 bˆ =-1.82<0, 且产量x的计量单位是千件,所以根据回归系 数b的意义有:
产量每增加一个单位即1 000件时,单位成本平 均减少1.82元.
(3)当产量为6 000件,即x=6时,代入回归 方程:
yˆ =77.37-1.82×6=66.45(元)
会购买力的某项指标,要从中抽取一个容量
为200的样本;(2)从20人中抽取6人参加 座谈会,给出下列抽样方法:a简单随机抽样; b系统抽样;c分层抽样.上述两个问题应采用 的抽样方法分别为( )

2020—2021年最新高考总复习数学二轮复习统计与统计案例专题强化练习题.docx

2020—2021年最新高考总复习数学二轮复习统计与统计案例专题强化练习题.docx

第一部分一19一、选择题1.(2015·北京文,4)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别人数老年教师900中年教师1 800青年教师1 600合计4 300A.90 B.100 C.180 D.300 [答案] C[解析]由题意,总体中青年教师与老年教师比例为1 600 900=169;设样本中老年教师的人数为x,由分层抽样的性质可得总体与样本中青年教师与老年教师的比例相等,即320x=169,解得x=180.[方法点拨] 解决抽样问题,首先要深刻理解各种抽样方法的特点和适用范围,如分层抽样,适用于数目较多且各部分之间具有明显差异的总体.其次要抓住无论哪种抽样方法,每一个个体被抽到的概率都等于样本容量与总体容量的比值.2.(2015·湖南文,2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A.3 B.4C.5 D.6[答案] B[解析]根据茎叶图中的数据得:成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取7×2035=4(人),故选B .[方法点拨] 1.三种抽样方法的比较 类别 共同点 各自特点 相互联系 适用范围简单 随机 抽样抽样过 程中每 个个体 被抽取 的概率相等 从总体中逐个抽取总体中的个体数较少 系统 抽样 将总体均分成几部分,按事先确定的规则在各部分抽取 在起始部分抽样时采用简单随机抽样 总体中的个体数较多分层 抽样将总体分成几层,分层进行抽取分层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成2.当总体数N 不能被样本容量整除,用系统抽样法剔除多余个体时,必须随机抽样.3.(文)已知x 、y 的取值如下表所示:x134y 0.9 1.9 3.2 4.4从散点图分析,y 与x 线性相关,且y ^=0.8x +a ,则a =( )A.0.8 B.1 C.1.2 D.1.5 [答案] B[解析]x=0+1+3+44=2,y=0.9+1.9+3.2+4.44=2.6,又因为回归直线y^=0.8x+a过样本中心点(2,2.6)所以2.6=0.8×2+a,解得a=1.(理)(2015·福建理,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元) 8.2 8.6 10.0 11.3 11.9支出y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y -b^x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元[答案] B[解析]考查线性回归方程.由已知得x=8.2+8.6+10.0+11.3+11.95=10(万元),y=6.2+7.5+8.0+8.5+9.85=8(万元),故a^=8-0.76×10=0.4.所以回归直线方程为y ^=0.76x +0.4,社区一户年收入为15万元家庭年支出为y ^=0.76×15+0.4=11.8(万元),故选B .[方法点拨] 1.要熟记用最小二乘法求回归直线的方程的系数公式.设线性回归方程为y ^=b ^x +a ^,则⎩⎪⎪⎨⎪⎪⎧b ^=∑i =1n(x i-x -)(y i-y -)∑i =1n(x i-x -)2=∑i =1nx i y i-n x -y -∑i =1nx 2i-n x -2a ^=y --b ^x-.2.回归直线一定经过样本的中心点(x -,y -),据此性质可以解决有关的计算问题.4.(文)(2015·安徽理,6)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32[答案] C[解析] 考查样本的方差与标准差的应用.设样本数据x 1,x 2,…,x 10的标准差为D (X ),则D (X )=8,即方差D(X)=64,而数据2x 1-1,2x 2-1,…,2x 10-1的方差D(2X-1)=22D(X)=22×64,所以其标准差为22×64=16.故选C.(理)等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为( )A.203B.103C.60 D.30[答案] A[解析]令等差数列为1,2,3,…,9,则样本的平均值x=5,∴S2=19[(1-5)2+(2-5)2+…+(9-5)2]=609=203.[方法点拨] 平均数与方差样本数据的平均数x-=1n(x1+x2+…+x n).方差s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2].注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散(波动)程度越大,越不稳定.5.(文)(2015·河北邯郸市一模)某班的一次数学考试后,按学号统计前20名同学的考试成绩如茎叶图所示,则该样本数据的中位数为( )A.74.5 B.75 C.75.5 D.76 [答案] C[解析]中位数为75+762=75.5.(理)(2015·河南省高考适应性测试)某中学为了检验1000名在校高三学生对函数模块掌握的情况,进行了一次测试,并把成绩进行统计,得到样本频率分布直方图如下图所示,则考试成绩的众数大约为( )A.55 B.65C.75 D.85[答案] C[解析]最高小矩形中点的横坐标75为众数.[方法点拨] 1.茎叶图当数据有两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.当数据有三位有效数字,前两位相对比较集中时,常以前两位为茎,第三位(个位)为叶(其余类推).2.样本的数字特征(1)众数在样本数据中,频率分布最大值所对应的样本数据(或出现次数最多的那个数据).(2)中位数样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数.3.求中位数、平均数、方差主要依据公式进行计算.4.在频率分布直方图中,平均数的估计值等于每个小矩形的面积乘以小矩形底边中点横坐标之和;在中位数的估计值两侧直方图的面积相等;最高小矩形中点对应数据为这组数据的众数.6.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为( )A .100B .120C .150D . 200[答案] A[解析] 设公差为d ,则a 1+d =2a 1,∴a 1=d ,∴d +2d +3d +4d +5d =1,∴d =115,∴面积最大的一组的频率等于115×5=13.∴小长方形面积最大的一组的频数为300×13=100.(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x 的值为( )A .0.01B .0.02C .0.03D .0.04[答案] A[解析]由题设可知(0.005+x+0.012+0.020+0.025+0.028)×10=1,解得x=0.01,选A.[方法点拨] 1.在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=频率;②各小矩形面积之和等于1;③中位数左右两侧的直方图组距面积相等,因此可以估计其近似值.2.准确理解给出图表及已知条件中数据的含义是解决统计问题的关键.7.(文)(2015·湖北文,4)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关[答案] C[解析]因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关,综上可知,应选C.(理)(2015·新课标Ⅱ理,3)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关[答案] D[解析]考查正、负相关及对柱形图的理解.由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关,故选D.8.(文)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:零件数x(个) 10 20 30 40 50 60 70 80加工时间62 68 75 81 89 95 102 108y(min)设回归方程为y=bx+a,则点(a,b)在直线x+45y-10=0的( )A.左上方B.左下方C.右上方D.右下方[答案] C[解析]∵x-=45,y-=85,∴a+45b=85,∴a+45b-10>0,故点(a,b)在直线x+45y-10=0的右上方,故选C.(理)(2014·沈阳市质检)某高校进行自主招生,先从报名者中筛选出400人参加笔试,再按笔试成绩择优选出100人参加面试.现随机调查了24名笔试者的成绩,如下表所示:分数[60,65) [65,70) [70,75) [75,80) [80,85) [85,90) 段人数 2 3 4 9 5 1据此估计允许参加面试的分数线大约是( )A.75 B.80C.85 D.90[答案] B[解析]由题可知,在24名笔试者中应选出6人参加面试.由表可得面试分数线大约为80.故选B.二、填空题9.10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a ,众数为b ,则a -b =________.[答案] 0.5[解析] 从数据中可以看出,众数b =14,且中位数a =14+152=14.5, ∴a -b =14.5-14=0.5.10.(文)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为123,第二小组频数为12,若全校男、女生比例为32,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5×(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是12÷0.25=48人,抽取的女生人数是48×23=32人,全校共抽取80人. (理)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.[答案] 10[解析] 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5,则x 1+x 2+x 3+x 4+x 55=7, (x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)25=4,即5个整数平方和为20,x 1,x 2,x 3,x 4,x 5这5个数中最大数比7大,但不能超过10,因此最大为10,平方和20=0+1+1+9+9=(7-7)2+(8-7)2+(6-7)2+(10-7)2+(4-7)2.因此参加的人数为4,6,7,8,10,故最大值为10,最小值为4.三、解答题11.(文)(2015·山西太原市模拟)某网络广告A 公司计划从甲、乙两个网站选择一个网站拓展广告业务,为此A 公司随机抽取了甲、乙两个网站某月中10天的日访问量n(单位:万次),整理后得到如下茎叶图,已知A 公司要从网站日访问量的平均值和稳定性两方面进行考量选择.(1)请说明A公司应选择哪个网站;(2)现将抽取的样本分布近似看作总体分布,A公司根据所选网站的日访问量n进行付费,其付费标准如下:选定网站的日访问量n(单位:万次) A公司的付费标准(单位:元/日)n<25 50025≤n≤35 700n>35 1000求A公司每月(按30天计)应付给选定网站的费用S.[解析](1)由茎叶图可知x甲=(15+24+28+25+30+36+30+32+35+45)÷10=30,S2甲=110×[(15-30)2+(24-30)2+(28-30)2+(25-30)2+(30-30)2+(36-30)2+(30-30)2+(32-30)2+(35-30)2+(45-30)2]=58.x乙=(18+25+22+24+32+38+30+36+35+40)÷10=30,S2乙=110×[(18-30)2+(25-30)2+(22-30)2+(24-30)2+(32-30)2+(38-30)2+(30-30)2+(36-30)2+(35-30)2+(40-30)2]=49.8∵x甲=x乙,S2甲>S2乙,∴A公司应选择乙网站;(2)由(1)得A公司应选择乙网站,由题意可知乙网站日访问量n<25的概率为0.3,日访问量25≤n≤35的概率为0.4,日访问量n>35的概率为0.3,∴A公司每月应付给乙网站的费用S=30×(500×0.3+700×0.4+1000×0.3)=21900元.(理)(2015·郑州市质检)最新高考改革方案已在上海和江苏开始实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下:赞成改革不赞成改革无所谓教师120 y 40 学生x z 130在全体师生中随机抽取1名“赞成改革”的人是学生的概率为0.3,且z=2y.(1)现从全部500名师生中用分层抽样的方法抽取50名进行问卷调查,则应抽取“不赞成改革”的教师和学生人数各是多少?(2)在(1)中所抽取的“不赞成改革”的人中,随机选出三人进行座谈,求至少有一名教师被选出的概率.[解析](1) 由题意x500=0.3,∴x=150,所以y+z=60,因为z=2y,所以y=20,z=40,则应抽取教师人数50 500×20=2,应抽取学生人数50500×40=4.(2)解法1:所抽取的“不赞成改革”的2名教师记为a,b,4名学生记为1,2,3,4,随机选出三人的不同选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4),(1,2,3),(1,2,4),(1,3,4),(2,3,4),共20种,至少有一名教师的选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4)共16种,至少有一名教师被选出的概率p=1620=45.解法2:抽取的“不赞成改革”的人中,教师2人,学生4人共6人,从中任取3人,有C36种取法,其中至少有一名教师的取法有C36-C34种,故所求概率P=C36-C34C36=45.12.(文)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析](1)第三组的频率是0.150×2=0.3;第四组的频率是0.100×2=0.2;第五组的频率是0.050×2=0.1(2)设“抽到的两个产品均来自第三组”为事件A,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A1,A2,A3;第四组抽到的是B1,B2;第五组抽到的是C1,所含基本事件总数为:{A1,A2},{A1,A3},{A2,A3},{A1,B1},{A1,B2},{A1,C1},{A2,B1},{A2,B2},{A2,C1},{A3,B1},{A3,B2},{A3,C1},{B1,B2},{B1,C1},{B2,C1}所以P(A)=315=15.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲82 81 79 78 95 88 93 84乙92 95 80 75 83 80 90 85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为ξ,求ξ的分布列及数学期望E(ξ).[解析](1)作出茎叶图如下:甲乙9 8 7 58 4 21 80 0 355 3 9 0 2 5 (2)派甲参赛比较合适,理由如下:x-甲=18(70×2+80×4+90×2+8+9+1+2+4+8+3+5)=85x-乙=18(70×1+80×4+90×3+5+0+0+3+5+0+2+5)=85.S2甲=18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5S2乙=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41∵x-甲=x-乙,S2甲<S2乙,∴甲的成绩较稳定,派甲参赛比较合适.注:本小题的结论及理由均不唯一,如果考生能从统计学的角度分析,给出其他合理回答,同样给分:如:从统计的角度看,甲获得85分以上(含85分)的概率P1=38乙获得85分以上(含85分)的概率为P2=48=12∵P 2>P 1,∴派乙参赛比较合适.(3)记“甲同学在一次数学竞赛中成绩高于80分”为事件A ,则P(A)=68=34,随机变量ξ的分布列为ξ1 2 3 P 16496427642764E(ξ)=0×164+1×964+2×2764+3×2764=94.(或E(ξ)=np =3×34=94)13.(文)(2015·邯郸市一模)某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A 模式,少数学生参与的为B 模式,多数学生参与的为C 模式,A 、B 、C 三类课的节数比例为321.(1)为便于研究分析,教育专家将A 模式称为传统课堂模式,B 、C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)高效 非高效 总计 新课堂模603090式传统课堂模式40 50 90总计100 80 180请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.参考临界值有:P(K2≥k0) 0.10 0.05 0.0250.010.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.[解析](1)由列联表中的统计数据计算随机变量K2的观测值为:∵K2=180(60×50-40×30)2(60+40)(30+50)(60+30)(40+50)=9>6.635 由临界值表P(k2≥6.635)≈0.010,∴有99%的把握认为课堂效率与教学模式有关.(2)样本中的B模式课堂和C模式课堂分别是4节和2节.分别记为B1、B2、B3、B4、C1、C2,从中取出2节课共有15种情况:(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2),(B1,B2),(B1,B3),(B1,B4),(B2,B3),(B2,B4),(B3,B4)至少有一节课为C模式课堂的事件为(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2)共9种∴至少有一节课为C模式课堂的概率为915=3 5.(理)(2015·辽宁葫芦岛市一模)为了调查学生星期天晚上学习时间利用问题,某校从高二年级1 000名学生(其中走读生450名,住宿生550名)中,采用分层抽样的方法抽取n名学生进行问卷调查.根据问卷取得了这n名同学每天晚上学习时间(单位:分钟)的数据,按照以下区间分为八组①[0,30),②[30,60),③[60,90),④[90,120),⑤[120,150),⑥[150,180),⑦[180,210),⑧[210,240],得到频率分布直方图如图.已知抽取的学生中星期天晚上学习时间少于60分钟的人数为5人.(1)求n的值并补全频率分布直方图;(2)如果把“学生晚上学习时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,完成下列2×2列联表:利用时间充分利用时间不充分总计走读生住宿生10总计据此资料,你是否有95%的把握认为学生“利用时间是否充分”与走读、住宿有关?(3)若在第①组、第②组、第⑧组中共抽出3人调查影响有效利用时间的原因,记抽到“学习时间少于60分钟”的学生人数为X,求X的分布列及期望.参考公式:K2=n(n11n22-n12n21)2 n1+n2+n+1n+2[解析] (1)设第i 组的频率为P i (i =1,2,…,8),由图可知:P 1=11500×30=2100, P 2=11000×30=3100∴学习时间少于60分钟的频率为P 1+P 2=120由题意:n ×120=5,∴n =100.又P 3=1375×30=8100, P 5=1100×30=30100,P 6=1120×30=25100,P 7=1200×30=15100, P 8=1600×30=5100, ∴P 4=1-(P 1+P 2+P 3+P 5+P 6+P 7+P 8)=325.∴第④组的高度为:h =325×130=1250频率分布直方图如图:(注:未标明高度1/250扣1分)(2)由频率分布直方图可知,在抽取的100人中,“走读生”有45人,“住宿生”有55人,其中“住宿生”中利用时间不充分的有10人,从而走读生中利用时间不充分的有25-10=15人,利用时间充分的有45-15=30人,由此可得2×2列联表如下:利用时间充分利用时间不充分总计走读生30 15 45住宿生45 10 55总计75 25 100 将2×2列联表中的数据代入公式计算,得K2=n(n11n22-n12n21)2n1+n2+n+1n+2=100×(30×10-45×15)275×25×45×55=10033≈3.030因为3.030<3.841,所以没有95%的把握认为学生“利用时间是否充分”与走读、住宿有关(3)由(1)知:第①组2人,第②组3人,第⑧组5人,总计10人,则X的所有可能取值为0,1,2,3P(X=i)=C i5C3-i5C310(i=0,1,2,3)∴P(X=0)=C05C35C310=10120=112,P(X=1)=C15C25C310=50120=512,P(X=2)=C25C15C310=50120=512,P(X=3)=C35C05C310=10120=112∴X的分布列为:X 0 1 2 3 P 112512512112∴E(X)=0×112+1×512+2×512+3×112=1812=32(或由超几何分布的期望计算公式EX =n ×M N =3×510=32)14.为加强中学生实践、创新能力和团队精神的培养,促进教育教学改革,郑州市教育局举办了全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中选取50名学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表,解答下列问题:分组 频数 频率一60.5~70.5 a0.26二 70.5~80.5 15 c三 80.5~90.5 18 0.36四 90.5~100.5 b d 合50e计(1)若用系统抽样的方法抽取50个样本,现将所有学生随机地编号为000,001,002,…,199,试写出第二组第一位学生的编号;(2)求出a、b、c、d、e的值(直接写出结果),并作出频率分布直方图;(3)若成绩在85.5~95.5分的学生为二等奖,问参赛学生中获得二等奖的学生约为多少人.[解析](1)004(2)a,b,c,d,e的值分别为13,4,0.30,0.08,1.频率分布直方图如下:(3)由样本中成绩在80.5~90.5的频数为18,成绩在90.5~100.5的频数为4,可估计成绩在85.5~95.5的人数为11人,故获得二等奖的学生约为20050×11=44人.。

2020版高考数学大二轮复习课时作业17统计与统计案例文

2020版高考数学大二轮复习课时作业17统计与统计案例文

课时作业 17 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.39 B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是( )A.①③都可能为分层抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A .答案:A3.[2019·广东惠州一调]已知数据x 1,x 2,…,x 10,2的平均值为2,方差为1,则数据x 1,x 2,…,x 10相对于原数据( )A .一样稳定B .变得稳定C .变得不稳定D .稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C .答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A .95B .96C .97D .98解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C .答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为::7,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7x n,解得n =70,故选C .答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A .答案:A7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y ^=b ^x +9,则b ^=( )A .2B .1C .0D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y ^=b ^x +9且回归直线过点(6,3),所以3=6b ^+9,解得b ^=-1,故选D .答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关”解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B .答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D .答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定; ③两个变量的线性相关性越强,则相关系数r 的值越接近于1; ④对A ,B ,C 三种个体按 ::2的比例进行分层抽样调查,若抽取的A 种个体有15个,则样本容量为30.则正确的个数是( )A .3B .2C .1D .0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C .答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为::4,抽取的样本中高一年级的学生有120人,则实数k的值为________.解析:由题意可得,120300=kk +5+4,解得k =6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x(%)与成本y(元/t )的线性回归方程为y ^=105.492+42.569x.当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品.答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有 1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A 1,A 2,A 3;第5组有3人,记这3人分别为B 1,B 2,B 3.从这6人中随机选取2名,所有的基本事件为A 1A 2,A 1A 3,A 1B 1,A 1B 2,A 1B 3,A 2A 3,A 2B 1,A 2B 2,A 2B 3,A 3B 1,A 3B 2,A 3B 3,B 1B 2,B 1B 3,B 2B 3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个, 故所求概率P =615=25.16.[2019·四川德阳一诊]某市工业部门计划对所辖中、小型企业推行节能降耗技术改造,下面是对所辖企业是否支持技术改造进行的问卷调查的结果(不完整):已知从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47.(1)能否在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关?(2)从支持技术改造的中、小型企业中按分层抽样的方法抽出8家企业,再从这8家企业中选出2家进行奖励:中型企业奖励20万元,小型企业奖励10万元.求奖励总金额为20万元的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析:(1)由从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47可知,支持技术改造的企业共有320家,故列联表为所以K 2=n ((a +b )(c +d )(a +c )(b +d )=560×(80×200-40×240)2120×440×320×240≈5.657>5.024.故能在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关.(2)由(1)可知,从支持技术改造的中、小型企业中,按分层抽样的方法抽出8家企业,其中有2家中型企业,分别用x ,y 表示,6家小型企业,分别用1,2,3,4,5,6表示.则从中选取2家企业的所有可能情况为xy ,x1,x2,x3,x4,x5,x6,y1,y2,y3,y4,y5,y6,12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共28种,其中奖励总金额为20万元的有12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共15种.所以奖励总金额为20万元的概率为1528.17.[2019·河南南阳期末联考]某网购平台为了解某市居民在该平台的消费情况,从该市使用该平台且平均每周消费金额超过100元的人员中随机抽取了100名,并绘制如图所示的频率分布直方图,已知中间三组的人数可构成等差数列.(1)求m ,n 的值.(2)分析人员对这100名调查对象的性别进行统计,发现平均每周消费金额不低于300元的男性有20人,低于300元的男性有25人,请根据统计数据完成下列2×2列联表,并判断是否有99%的把握认为平均每周消费金额与性别有关?(3)线性相关,得到的回归方程为y ^=-5x +a ^.已知这100名调查对象的平均年龄为38岁,试估算一名年龄为25岁的年轻人平均每周的消费金额.(同一组数据用该区间的中点值作代表)2×2列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析:(1)=0.006, 由题意可知m +0.001 5=2n , 解得m =0.003 5,n =0.002 5.(2)平均每周消费金额不低于300元的频率为(0.003 5+0.001 5+0.001)×100=0.6,因此这100名调查对象中,平均每周消费金额不低于300元的人数为100×0.6=60(人).所以2×2列联表为K 2=100×(45×55×60×40≈8.249>6.635,所以有99%的把握认为平均每周消费金额与性别有关.(3)调查对象的平均每周消费金额为0.15×150+0.25×250+0.35×350+0.15×450+0.10×550=330(元),由题意得330=-5×38+a ^,解得a ^=520. y ^=-5×25+520=395(元).故一名年龄为25岁的年轻人平均每周的消费金额约为395元.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据:②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a ^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i =1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得≈1.16,a ^=y --b ^x -=104.56,∴线性回归方程为y ^=1.16x +104.56. 当x =18时,y ^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。

2020新高考文科数学二轮培优统计、统计案例考点考向考题点拨(27页)

2020新高考文科数学二轮培优统计、统计案例考点考向考题点拨(27页)

2020新高考文科数学二轮培优统计、统计案例考点考向考题点拨「考情研析」 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等. 2.概率与统计的交汇问题是高考的热点,以解答题形式出现,难度中等.核心知识回顾1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少. 分层抽样:按比例抽样. 系统抽样:等距抽样. 2.必记公式数据x 1,x 2,x 3,…,x n 的数字特征公式 (1)平均数:x -=□01x 1+x 2+x 3+…+x n n. (2)方差:s 2□021[(-x -)2+(x 2-x -)2+…+(x n -x -)2].(3)标准差:s =3.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=□01组距×频率组距=频率;②各小长方形的面积之和等于1;③小长方形的高=□02频率组距,所有小长方形高的和为1组距. (2)回归直线方程:一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )其回归方程y ^=□03b ^x +a ^ ,其过样本点中心□04(x -,y -)⎝ ⎛⎭⎪⎪⎪⎫其中b ^=∑i =1n(x i-x -)(y i-y -)∑i =1nx 2i-n x -2,a ^=y --b ^x -. (3)独立性检验K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点考向探究考向1 抽样方法例1 (1)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483答案 C解析 ∵样本中编号最小的两个编号分别为007,032,∴样本数据组距为32-7=25,则样本容量为50025=20,则对应的号码数x =7+25(n -1),当n =20时,x 取得最大值,此时x =7+25×19=482.故选C .(2)(2019·广州普通高中高三综合测试)某公司生产A ,B ,C 三种不同型号的轿车,产量之比依次为2∶3∶4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为n 的样本,若样本中A 种型号的轿车比B 种型号的轿车少8辆,则n =( )A .96B .72C .48D .36 答案 B解析 由题意,得29n -39n =-8,∴n =72.选B .系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{a n},第k组抽取样本的号码a k=m+(k-1)d.(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.1.(2019·云南省第二次高三统一检测)某中学高一年级有学生1200人,高二年级有学生900人,高三年级有学生1500人,现按年级为标准,用分层抽样的方法从这三个年级学生中抽取一个容量为720的样本进行某项研究,则应从高三年级学生中抽取学生()A.200人B.300人C.320人D.350人答案 B解析由分层抽样可得高三抽取的学生人数为15001200+900+1500×720=300.故选B.2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入[1,450]的人做问卷A,编号落入[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为________.答案10解析由题意得系统抽样的抽样间隔为96032=30,又因为第一组内抽取的号码为9,则由451≤9+30k≤750(k∈N*),得141115≤k≤24710,所以做问卷B的人数为10.考向2 用样本估计总体例2(1)甲、乙两名学生在5次数学考试中的成绩统计如茎叶图所示,若x-甲,x-乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x-甲>x-乙,乙比甲稳定B.x-甲>x-乙,甲比乙稳定C.x-甲<x-乙,乙比甲稳定D.x-甲<x-乙,甲比乙稳定答案 A解析因为x-甲=15×(74+82+88+91+95)=86,x-乙=15×(77+77+78+86+92)=82,所以x-甲>x-乙.因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,s2乙=15×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s2甲>s2乙,故乙比甲稳定.故选A.(2)(2019·皖南八校高三第三次联考)从某地区年龄在25~55岁的人员中,随机抽出100人,了解他们对今年两会的热点问题的看法,绘制出频率分布直方图如图所示,则下列说法正确的是()A.抽出的100人中,年龄在40~45岁的人数大约为20B.抽出的100人中,年龄在35~45岁的人数大约为30C.抽出的100人中,年龄在40~50岁的人数大约为40D.抽出的100人中,年龄在35~50岁的人数大约为50答案 A解析根据频率分布直方图的性质得(0.01+0.05+0.06+a+0.02+0.02)×5=1,解得a=0.04,所以抽出的100人中,年龄在40~45岁的人数大约为0.04×5×100=20,所以A正确;年龄在35~45岁的人数大约为(0.06+0.04)×5×100=50,所以B不正确;年龄在40~50岁的人数大约为(0.04+0.02)×5×100=30,所以C不正确;年龄在35~50岁的人数大约为(0.06+0.04+0.02)×5×100=60,所以D不正确.故选A.(1)频率分布直方图中每个小矩形的面积为对应的频率,不要混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.(2)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断.1.(2019·福建省高三模拟)为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标测验(指标值满分为5分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达图,则下面叙述正确的是()A.乙的数据分析素养优于甲B.乙的数学建模素养优于数学抽象素养C.甲的六大素养整体水平优于乙D.甲的六大素养中数据分析最差答案 C解析根据雷达图得到如下数据所示.由数据可知选C .2.(2019·江西省吉安一中、九江一中、新余一中等八所重点中学高三4月联考)某地区某村的前三年的经济收入分别为100,200,300万元,其统计数据的中位数为x ,平均数为y ;经过今年政府新农村建设后,该村经济收入在上年基础上翻番,则在这4年里收入的统计数据中,下列说法正确的是( )A .中位数为x ,平均数为1.5yB .中位数为1.25x ,平均数为yC .中位数为1.25x ,平均数为1.5yD .中位数为1.5x ,平均数为2y 答案 C解析 依题意,前三年中位数x =200,平均数y =100+200+3003=200,第四年收入为600万元,故中位数为200+3002=250=1.25x ,平均数为 100+200+300+6004=300=1.5y .故选C . 考向3 回归分析与独立性检验 角度1 回归分析在实际中的应用例3 (2019·沧州市普通高等学校招生全国统一模拟考试)近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:天),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图.(1)令z =ln x ,由散点图判断y ^=b ^x +a ^与y ^=b ^z +a ^哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程(b ^结果保留一位小数);(2)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额L =365·入住率·收费标准x )参考数据:b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i-n x - 2,a ^=y --b ^ x -,x -=200,y -=0.45,∑6i =1x 2i =325000,z -≈5.1,∑6i =1y i z i ≈12.7,∑6i =1z 2i ≈158.1,e 5≈148.4. 解 (1)由散点图可知y ^=b ^z +a ^更适合于此模型.其中b ^=∑6i =1z i y i -6z -y -∑6i =1z 2i -6z - 2=-1.072.04≈-0.5,a ^=y --b ^ z -=3,所求的回归方程为y ^=-0.5ln x +3.(2)L =365(-0.5ln x +3)x =-3652x ln x +1095x .L ′=-3652 ln x -3652+365×3,令L ′=0⇒ln x =5⇒x =e 5≈148.4. ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2019·太原市高三模拟)近年来随着互联网的高速发展,旧货交易市场也得以快速发展.某网络旧货交易平台对2018年某种机械设备的线上交易进行了统计,得到如图所示的频率分布直方图和散点图.现把直方图中各组的频率视为概率,用x(单位:年)表示该设备的使用时间,y(单位:万元)表示其相应的平均交易价格.(1)已知2018年在此网络旧货交易平台成交的该种机械设备为100台,现从这100台设备中,按分层抽样抽取使用时间x∈(12,20]的4台设备,再从这4台设备中随机抽取2台,求这2台设备的使用时间都在(12,16]的概率;(2)由散点图分析后,可用y=e bx+a作为此网络旧货交易平台上该种机械设备的平均交易价格y关于其使用时间x的回归方程.表中z =ln y ,z -=110∑i =110z i . ①根据上述相关数据,求y 关于x 的回归方程;②根据上述回归方程,求当使用时间x =15时,该种机械设备的平均交易价格的预报值(精确到0.01).附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu的斜率和截距的最小二乘估计分别为β^=∑i =110u i v i -n u -v -∑i =110u 2i -n u -2,α^=v --β^u -.参考数据:e 0.55=1.733,e -0.95=0.3867,e -1.85=0.1572.解 (1)由图1中频率分布直方图可知,从2018年成交的该种机械设备中使用时间x ∈(12,16]的台数为100×4×0.03=12,使用时间x ∈(16,20]的台数为100×4×0.01=4,∴按分层抽样所抽取4台中,使用时间x ∈(12,16]的设备有3台,分别记为A ,B ,C ;使用时间x ∈(16,20]的设备有1台,记为d ,∴从这4台设备中随机抽取2台的结果为(A ,B ),(A ,C ),(A ,d ),(B ,C ),(B ,d ),(C ,d ),共有6种等可能出现的结果,其中这2台设备的使用时间x 都在(12,16]的结果为(A ,B ),(A ,C ),(B ,C ),共有3种,所求事件的概率为36=12.(2)①由题意得z =ln y =ln e bx +a =bx +a ,∵b ^=∑i =110x i z i -10x -z -∑i =110x 2i -10x -2=79.75-10×5.5×1.9385-10×5.52=-0.3,a ^=z --b ^x -=1.9+0.3×5.5=3.55, ∴z 关于x 的线性回归方程为z =-0.3x +3.55, ∴y 关于x 的回归方程为y =e -0.3x +3.55.②由①知,当使用时间x =15时,y =e -0.3×15+3.55≈0.39,故该种机械设备的平均交易价格的预报值为0.39万元.角度2 独立性检验在实际中的应用例4 (2019·贵州遵义航天高级中学七模)某中学为了解中学生的课外阅读时间,决定在该中学的1200名男生和800名女生中按分层抽样的方法抽取20名学生,对他们的课外阅读时间进行问卷调查.现在按课外阅读时间的情况将学生分成三类:A 类(不参加课外阅读),B 类(参加课外阅读,但平均每周参加课外阅读的时间不超过3小时),C 类(参加课外阅读,且平均每周参加课外阅读的时间超过3小时).调查结果如下表:(1)求出表中x ,y (2)根据表中的统计数据,完成下面的列联表,并判断是否有90%的把握认为“参加课外阅读与否与性别有关”.附:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)设抽取别为n 1,n 2,则⎩⎨⎧n 1=20×12002000=12,n 2=20×8002000=8,所以x =12-5-3=4,y =8-3-3=2. (2)列联表如下:K 2=20×(4×6-2×8)212×8×14×6=1063≈0.159<2.706,所以没有90%的把握认为“参加阅读与否”与性别有关.独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.(2019·西安地区陕师大附中、西安高级中学等八校联考)西安市自2017年5月启动对“车不让人行为”处罚以来,斑马线前机动车抢行不文明行为得以根本改变,斑马线前礼让行人也成为了一张新的西安“名片”.但作为交通重要参与者的行人,闯红灯通行却频有发生,带来了较大的交通安全隐患及机动车通畅率降低,交警部门在某十字路口根据以往的检测数据,得到行人闯红灯的概率约为0.4,并从穿越该路口的行人中随机抽取了200人进行调查,对是否存在闯红灯情况得到2×2列联表如下:十字路口试行了对闯红灯行人进行经济处罚,并从试行经济处罚后穿越该路口行人中随机抽取了200人进行调查,得到下表:(1)将2×2列联表填写完整(不需写出填写过程),并根据表中数据分析,在未试行对闯红灯行人进行经济处罚前,是否有99.9%的把握认为闯红灯与年龄有关;(2)当处罚金额为10元时,行人闯红灯的概率会比不进行处罚降低多少;(3)结合调查结果,谈谈如何治理行人闯红灯现象.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 参考数据:∵K2=200×(100×100×80×120=1003≈33.333>10.828.∴有99.9%的把握认为闯红灯与年龄有关.(2)∵未进行处罚前,行人闯红灯的概率为0.4,进行处罚10元后,行人闯红灯的概率为40200=15=0.2,∴降低了0.2.(3)①根据调查数据显示,行人闯红灯与年龄有明显关系,可以针对30岁以上人群开展“道路安全”宣传教育;②由于处罚可以明显降低行人闯红灯的概率,可以进行适当处罚来降低行人闯红灯的概率.真题押题『真题模拟』1.(2019·益阳市高三模拟)如图所示的三个统计图分别是随机抽查甲、乙、丙三地的若干个家庭教育年投入(万元),记A表示众数,B表示中位数,C表示平均数,则根据图表提供的信息,下面的结论正确的是()A.A甲=A乙=A丙,B甲=B乙=B丙B.B丙>B甲=B乙,C甲=C乙=C丙C.A丙>A甲=A乙,C丙>C甲>C乙D.A丙>A甲=A乙,B丙>B甲>B乙答案 C解析由甲地的条形图可知,家庭教育年投入的中位数为10,众数为10,平均数为10.32;由乙地的折线图可知,家庭教育年投入的中位数为10,众数为10,平均数为9.7;由丙地的扇形图可知,家庭教育年投入的中位数为12,众数为12,平均数为12.4.结合选项可知C正确.故选C.2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是() A.中位数B.平均数C.方差D.极差答案 A解析中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.(2019·郴州市高三第三次质量检测)新闻出版业不断推进供给侧结构性改革,深入推动优化升级和融合发展,持续提高优质出版产品供给,实现了行业的良性发展.下面是2012年至2016年我国新闻出版业和数字出版业营收增长情况:给出下列四个结论:①2012年至2016年我国新闻出版业和数字出版业营收均逐年增加②2016年我国数字出版业营收超过2012年我国数字出版业营收的2倍③2016年我国新闻出版业营收超过2012年我国新闻出版业营收的1.5倍④2016年我国数字出版业营收占新闻出版业营收的比例未超过三分之一其中所有正确结论的编号为()A.①②B.①②③C.①②④D.②③④答案 C解析 根据图示数据可知①正确;对于②:1935.5×2=3871<5720.9,正确;对于③:16635.3×1.5>23595.8,不正确;对于④:23595.8×13≈7865>5720.9,正确.故选C .4.(2019·江苏高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是________. 答案 53解析 这组数据的平均数为8,故方差为s 2=16×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=53.5.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解 (1)由已知得0.70=a +0.20+0.15,故a =0.35.b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.6.(2019·湖北武汉高三第二次质量检测)光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:某位同学分别用两种模型:①y ^=bx 2+a ,②y ^=dx +c 进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差等于y i -y ^i ):经过计算得∑i =18(x i -x -)(y i -y -)=72.8,∑i =18(x i -x -)2=42,∑i =18(t i -t )(y i -y -)=686.8,∑i =18(t i -t )2=3570,其中t i =x 2i ,t =18∑i =18t i.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)的判断结果及表中数据建立y 关于x 的回归方程,并预测该地区2020年新增光伏装机量是多少?(在计算回归系数时精确到0.01)附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =18(x i -x -)(y i -y -)∑i =18(x i -x -)2,a ^=y --b ^x -.解 (1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值比较相近,模型②的残差值相对较大一些,所以模型①的拟合效果相对较好.(2)由(1)可知,y 关于x 的回归方程为y ^=b ^x 2+a ^,令t =x 2,则y ^=b ^t +a ^. 由所给数据可得t =18∑i =18t i =18×(1+4+9+16+25+36+49+64)=25.5.y -=18∑i =18y i =18×(0.4+0.8+1.6+3.1+5.1+7.1+9.7+12.2)=5,∴b ^=∑i =18(t i -t )(y i -y -)∑i =18(t i -t )2=686.83570≈0.19,a ^=y --b ^ t ≈5-0.19×25.5≈0.16,所以y 关于x 的回归方程为y ^=0.19x 2+0.16,预测该地区2020年新增光伏装机量为y ^=0.19×102+0.16=19.16(兆瓦).『金版押题』7.某市环保部门对该市市民进行了一次垃圾分类知识的网络问卷调查,每位市民仅有一次参加机会,通过随机抽样,得到参与问卷调查的100人的得分(满分:100分)数据,统计结果如表所示.2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下,认为是否为“环保关注者”与性别有关?(2)保达人”中利用分层抽样的方法随机抽取5名市民参与环保知识问答,再从这5名市民中抽取2人参与座谈会,求抽取的2名市民中,既有男“环保达人”又有女“环保达人”的概率.附表及公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b+d ),n =a +b +c +d .解 将2×2K 2的观测值k =100×(45×15-30×10)225×75×55×45≈3.03<3.841,所以在犯错误的概率不超过0.05的前提下,不能认为是“环保关注者”与性别有关.(2)由题可知,利用分层抽样的方法可得男“环保达人”3人,女“环保达人”2人.设男“环保达人”3人分别为A ,B ,C ;女“环保达人”2人为D ,E . 从中抽取两人的所有情况为(A ,B ),(A ,C ),(A ,D ),(A ,E ),(B ,C ),(B ,D ),(B ,E ),(C ,D ),(C ,E ),(D ,E ),共10种情况,且这10种情况发生的可能性相等.既有男“环保达人”又有“女环保达人”的情况有(A ,D ),(A ,E ),(B ,D ),(B ,E ),(C ,D ),(C ,E ),共6种情况.所求概率P =610=35.配套作业一、选择题1.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%答案 D解析 ∵y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,∴可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.2.(2019·上海市嘉定(长宁)区高三第二次质量调研)产能利用率是指实际产出与生产能力的比率,工业产能利用率是衡量工业生产经营状况的重要指标,下图为国家统计局发布的2015年至2018年第2季度我国工业产能利用率的折线图.在统计学中,同比是指本期统计数据与上一年同期统计数据相比较,例如2016年第二季度与2015年第二季度相比较;环比是指本期统计数据与上期统计数据相比较,例如2015年第二季度与2015年第一季度相比较.根据上述信息,下列结论中正确的是( )A .2015年第三季度环比有所提高B .2016年第一季度同比有所提高C .2017年第三季度同比有所提高D .2018年第一季度环比有所提高 答案 C解析 2015年第二季度利用率为74.3%,第三季度利用率为74.0%,故2015年第三季度环比有所下降,故A 错误;2015年第一季度利用率为74.2%,2016年第一季度利用率为72.9%,故2016年第一季度同比有所下降,故B 错误;2016年第三季度利用率为73.2%,2017年第三季度利用率为76.8%,故2017年第三季度同比有所提高,故C 正确;2017年第四季度利用率为78%,2018年第一季度利用率为76.5%,故2018年第一季度环比有所下降,故D 错误.故选C .3.(2019·大庆市高三第三次教学质量检测)在某线性回归分析中,已知数据满足线性回归方程y ^=b ^x +a ^,并且由观测数据算得x -=5,y -=56,b ^=10.5,则当x =10时,预测数值y ^=( )A .108.5B .210C .140D .210.5答案 A解析 由题意得样本中心为(5,56),由于回归直线y ^=10.5x +a ^过样本中心,所以56=10.5×5+a ^,解得a ^=3.5,所以回归直线方程为y ^=10.5x +3.5.当x =10时,y ^=10.5×10+3.5=108.5.故选A .4.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()A.相关系数r变大B.残差平方和变大C.R2变大D.解释变量x与预报变量y的相关性变强答案 B解析由散点图知,去掉D(3,10)后,y与x的线性相关性加强,且为正相关,所以r变大,R2变大,残差平方和变小,故选B.5.对某两名高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如图所示的折线图.下面关于这两名同学的数学成绩的分析中,正确的个数为()①甲同学的成绩折线图具有较好的对称性,故而平均成绩为130分;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在[110,120)内;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关;④乙同学在这连续9次测试中的最高分与最低分的差超过40分.A.1 B.2C.3 D.4答案 C解析由折线图可得②③④正确,甲的最高分是130,平均分在[110,120)内,则①不正确,即正确的有3个,故选C.二、填空题6.(2019·焦作市高三第四次模拟)条形图给出的是2017年全年及2018年全年全国居民人均可支配收入的平均数与中位数,饼状图给出的是2018年全年全国居民人均消费及其构成,现有如下说法:①2018年全年全国居民人均可支配收入的平均数的增长率低于2017年;②2018年全年全国居民人均可支配收入的中位数约是平均数的86%;③2018年全年全国居民衣(衣着)食(食品烟酒)住(居住)行(交通通信)的支出超过人均消费的70%.则上述说法中,正确的是________.(写出所有正确说法的序号)答案①②③解析2018年全年全国居民人均可支配收入的平均数的增长率为8.7%,而2017年全年全国居民人均可支配收入的平均数的增长率为9%,故①正确;因为2433628228≈0.862,所以2018年全年全国居民人均可支配收入的中位数约是平均数的86%,故②正确;因为6.5%+28.4%+23.4%+13.5%=71.8%,2018年全年全国居民衣(衣着)食(食品烟酒)住(居住)行(交通通信)的支出超过人均消费的70%,故③正确.故正确的是①②③.7.(2019·武汉市高三4月调研)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A—结伴步行,B—自行乘车,C—家人接送,D—其他方式,并将收集的数据整理绘制成如下两幅不完整的统计图,请根据图中信息,求本次抽查的学生中A 类人数是________.答案 30解析 根据选择D 方式的有18人,所占比例为15%,得总人数为1815%=120,故选择A 方式的人数为120-42-30-18=30.8.甲、乙两人要竞争一次大型体育竞技比赛射击项目的参赛资格,如图是在测试中甲、乙各射靶10次的条形图,则参加比赛的最佳人选为________.答案 乙解析 甲的平均数x -1=4×0.2+5×0.1+7×0.3+8×0.1+9×0.2+10×0.1=7.0,乙的平均数x -2=5×0.1+6×0.2+7×0.4+8×0.2+9×0.1=7.0,所以x -1=x -2;甲的方差s 21=110×[(7-4)2×2+(7-5)2×1+(7-7)2×3+(7-8)2×1+(7-9)2×2+(7-10)2×1]=4,乙的方差s 22=110×[(7-5)2×1+(7-6)2×2+(7-7)2×4+(7-8)2×2+(7-9)2×1]=1.2,所以s 21>s 22,所以参加比赛的最佳人选为乙.三、解答题9.(2019·青岛市高三一模)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225]的产品为合格品,否则为不合格品.如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.(1)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.15的前提下认为“产品的包装合格与否与两条自动包装流水线的选择有关”?附表:⎝ ⎭⎪参考公式:K 2=(a +b )(a +c )(b +d )(c +d ),n =a +b +c +d(2)按照以往经验,在每小时次品数超过180件时,产品的次品率会大幅度增加,为检测公司的生产能力,同时尽可能控制不合格品总量,公司工程师抽取几组一小时生产的产品数据进行次品情况检查分析,在x (单位:百件)件产品中,得到次品数量y (单位:件)的情况汇总如下表所示:按照公司的现有生产技术设备情况,判断可否安排一小时生产2000件的任务?解 (1)由乙流水线样本的频率分布直方图可知,合格品的个数为100×(1-0.04)=96,所以,2×2列联表是:所以K 2=(a +b )(a +c )(b +d )(c +d )=200×(92×4-96×8)2100×100×188×12≈1.418<2.072.所以,在犯错误的概率不超过0.15的前提下,不能认为“产品的包装合格与否与两条自动包装流水线的选择有关”.(2)由已知可得,x -=0.5+2+3.5+4+55=3; y -=2+14+24+35+405=23; ∑5i =1x i y i =0.5×2+2×14+3.5×24+4×35+5×40=453;∑5i =1x 2i =0.52+22+3.52+42+52=57.5. 由回归直线的系数公式,b ^=∑5i =1x i y i-5x -y -∑5i =1x 2i-5x -2=453-5×3×2357.5-5×32=10812.5=8.64. a ^=y --b ^x -=23-8.64×3=-2.92. 所以y ^=b ^x +a ^=8.64x -2.92.当x =20(百件)时,y =8.64×20-2.92=169.88<180,符合有关要求. 所以按照公司的现有生产技术设备情况,可以安排一小时生产2000件的任务.10.(2019·聊城市高三一模)某小学为了了解四年级学生的家庭作业用时情况,从本校四年级随机抽取了一批学生进行调查,并绘制了学生作业用时的频率分布直方图,如图所示.(1)估算这批学生的作业平均用时情况;(2)作业用时不能完全反映学生学业负担情况,这与学生自身的学习习惯有很大关系,如果用时四十分钟之内评价为优异,一个小时以上为一般,其他评价为良好.现从优异和良好的学生里面用分层抽样的方法抽取300人,其中女生有90人(优异20人).请完成列联表,并根据列联表分析能否在犯错误的概率不超过0.05的前提下认为学习习惯与性别有关系?附:K 2=n (ad (a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .。

2020版高三新课标大二轮专题辅导与增分攻略数学(文)高考真题体验:3-5-2 统计与统计案例

2020版高三新课标大二轮专题辅导与增分攻略数学(文)高考真题体验:3-5-2 统计与统计案例

1.(2019·全国卷Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )A .0.5B .0.6C .0.7D .0.8[解析] 在样本中,仅阅读过《西游记》的学生人数为90-80=10,又由既阅读过《西游记》又阅读过《红楼梦》的学生人数为60,得阅读过《西游记》的学生人数为10+60=70,所以在样本中,阅读过《西游记》的学生人数所占的比例为=0.7,即70100为该校阅读过《西游记》的学生人数与该校学生总数比值的估计值.[答案] C2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半[解析] 设建设前经济收入为a ,则建设后经济收入为2a ,由题图可知:种植收入第三产业收入养殖收入其他收入建设前经济收入0.6a 0.06a 0.3a 0.04a 建设后经济收入0.74a 0.56a 0.6a 0.1a 根据上表可知B 、C 、D 结论均正确,结论A 不正确,故选A.[答案] A3.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为=x +,已知i =225,i =1600,=4.该班某学生的y ^ b ^ a ^ 10∑i =1x 10∑i =1y b ^ 脚长为24,据此估计其身高为( )A .160B .163C .166D .170[解析] 由题意可得=22.5,=160,∴=160-4×22.5=70,即=4x +70.当x - y - a ^ y ^ x =24时,=4×24+70=166,故选C.y ^ [答案] C4.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:=-30.4+13.5t ;根y ^ 据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:=99+17.5t .y ^ (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).y ^ 利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).y ^ (2)利用模型②得到的预测值更可靠.理由如下 :(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t 可以较好地描y ^ 述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(答出其中任意一种或其他合理理由均可)1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.2.统计的解答题多在第19或20题的位置,多与概率知识交汇考查,交汇点主要有两种:频率分布直方图、茎叶图择一与古典概型的概率相交汇考查;频率分布直方图、茎叶图择一与线性回归或独立性检验相交汇来考查,难度中等.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x,平均数为 y.今年经过政府新农村建设后,该村经济收入(单位:万元)在上年基础上翻番,则在这 4
年里经济收入的统计数据中,下列说法正确的是( )
A.中位数为 x,平均数为 1.5y
B.中位数为 1.25x,平均数为 y
C.中位数为 1.25x,平均数为 1.5y
D.中位数为 1.5x,平均数为 2y
10.一组数据共有 7 个数,记得其中有 10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、
中位数、众数依次成等差数列,这个数的所有可能值的和为( )
A.9
B.3
C.17
D.-11
25+x 解析:选 A 设这个数为 x,则平均数为 7 ,众数为 2,
若 x≤2,则中位数为 2,此时 x=-11;
完整的统计图.请根据图中信息,求本次抽查的学生中 A 类人数是( )
A.30
B.40
C.42
D.48
解析:选 A 由条形统计图知,B—自行乘车上学的有 42 人,C—家人接送上学的有 30 人,D—其他
方式上学的有 18 人,采用 B,C,D 三种方式上学的共 90 人,设 A—结伴步行上学的有 x 人,由扇形统 x+42 60
成绩优秀;丙学生的 5 个数据中的一个数据为 135,设另外 4 个数据分别是 a,b,c,d,因为 5 个数据
的总体均值为 1281282+d-1282+135-1282 5
生成绩的
中位数是 89,则 n-m 的值为( )
A.5
B.6
C.7
D.8
解析:选 B 由题意得: Error! 解得 m=3,n=9, 所以 n-m=9-3=6.
5.(2019·福州质检)某校学生会为了了解本校高一 1 000 名学生的课余时间参加传统文化活动的
情况,随机抽取 50 名学生进行调查.将数据分组整理后,列表如下:
A.100
B.120
C.160
D.200
解析:选 A 由频率分布直方图可得支出的钱数在[30,40)的同学有 0.038×10n=0.38n 个,支出的
钱数在[10,20)的同学有 0.012×10n=0.12n 个,又支出的钱数在[30,40)的同学比支出的钱数在[10,20)的
同学多 26 人,所以 0.38n-0.12n=0.26n=26,所以 n=100.
答案:36
14.已知一组数据 x1,x2,…,xn 的方差为 2,若数据 ax1+b,ax2+b,…,axn+b(a>0)的方差为 8,则 a 的值为________.
解析:根据方差的性质可知,a2×2=8,故 a=2. 答案:2 15.某地区教育主管部门为了对该地区模拟考试成绩进行分析,随机抽取了 150 分到 450 分之间的 1 000 名学生的成绩,并根据这 1 000 名学生的成绩画出样本的频率分布直方图(如图),则成绩在 [250,400)内的学生共有________人.
参加场数
0
1
2
3
4
5
6
7
参加人数占调查
8% 10% 20% 26% 18% m% 4% 2% 人数的百分比
以下四个结论中正确的是( )
A.表中 m 的数值为 10
B.估计该校高一学生参加传统文化活动次数不高于 2 场的学生约为 180 人
C.估计该校高一学生参加传统文化活动次数不低于 4 场的学生约为 360 人
解析:选 C 由数据 100,200,300 可得,前 3 年统计数据的中位数 x=200,平均数 y=
100+200+300
3
=200.根据题意得第 4 年该村的经济收入的统计数据为 600,则由数据 100,200,300,600
200+300
可得,这 4 年统计数据的中位数为 2 =250=1.25x,平均数为
所以选出来的第 5 个个体的编号为 01,故选 D.
2.(2019·全国卷Ⅱ)演讲比赛共有 9 位评委分别给出某选手的原始评分,评定该选手的成绩时,
从 9 个原始评分中去掉 1 个最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与 9 个原始评分相比,
不变的数字特征是( )
A.中位数
B.平均数
7816__6572__0802__6314__0702__4369__9728__0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08
B.07
C.02
D.01
解析:选 D 第 1 行第 5 列和第 6 列的数字为 65,所以被选中的编号依次为 08,02,14,07,01.
7.某学校对 100 间学生公寓的卫生情况进行综合评比,依考核
分数分
为 A,B,C,D 四个等级,其中分数在[60,70)为 D 等级;分数在
[70,80)为
C 等级;分数在[80,90)为 B 等级;分数在[90,100]为 A 等级,考核
评估后,
得其频率分布折线图如图所示,估计这 100 间学生公寓评估得分的
平均数
是( )
A.80.25
B.80.45
C.80.5
D.80.65
解析:选 C 所求平均分为(65×0.015+75×0.040+85×0.020+95×0.025)×10=80.5.故选 C.
8.某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要
有:A—结伴步行,B—自行乘车,C—家人接送,D—其他方式.并将收集的数据整理绘制成如下两幅不
绩(满分 150 分)均不低于 120 分.现有甲、乙、丙三位学生连续 5 次数学考试成绩的记录数据(记录数
据都是正整数)情况:
①甲学生:5 个数据的中位数为 127,众数为 120;
②乙学生:5 个数据的中位数为 125,总体均值为 127;
③丙学生:5 个数据中有一个数据是 135,总体均值为 128,总体方差为 19.8.
解析:因为(0.001+0.001+0.004+a+0.005+0.003)×50=1,得 a=0.006.
所以 1 000×[(0.004+0.006+0.005)×50]=750.
答案:750
16.为了研究雾霾天气的治理,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分
成甲、乙、丙三组,已知三组城市的个数分别为 4,y,z,依次构成等差数列,且 4,y,z+4 成等比数
18
1
2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]= 5 ,乙队得分的方差 s乙2 =5×[(28-30)
2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s甲2 >s乙2 ,选项 C 正确;甲队得分的极差为
31-26=5,乙队得分的极差为 32-28=4,两者不相等,选项 D 不正确.故选 C.
26+28+29+31+31
解析:选 C 由题中茎叶图得,甲队的平均得分x甲=
5
=29,乙队的平均得分x乙
28+29+30+31+32

5
=30,x甲<x乙,选项 A 不正确;甲队得分的中位数为 29,乙队得分的中位数为
1
30,甲队得分的中位数小于乙队得分的中位数,选项 B 不正确;甲队得分的方差 s甲2 =5×[(26-29)
C.方差
D.极差
解析:选 A 中位数是将 9 个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉 1
个最高分和 1 个最低分,不变的是中位数,平均数、方差、极差均受影响.故选 A.
3.某班 50 名学生中有女生 20 名,按男女比例用分层抽样的方法,从全班学生中抽取部分学生进
行调查,已知抽到的女生有 4 名,则本次调查抽取的人数是( )
A.8
B.10
C.12
D.15
解析:选 B 因为 50 名学生中有女生 20 名,按男女比例用分层抽样的方法,抽到的女生有 4 名,
4 所以本次调查抽取的人数是 50×20=10.
4.某中学奥数培训班共有 14 人,分为两个小组,在一次阶段测试
中两个小
组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是 88,乙组学
A.160
B.163
C.166
D.170
y^
a^
解析:选 C 由题意可知 =4x+ ,
又x=22.5,y=160,
a^
a^
因此 160=22.5×4+ ,解得 =70,
y^ 所以 =4x+70.
y^ 当 x=24 时, =4×24+70=166.
2.(2019·江西八所重点中学联考)下面规定一个学生数学成绩优秀的标志为连续 5 次数学考试成
13.(2019·开封定位考试)某工厂生产 A,B,C 三种不同型号的产品,产品数量之比为 k∶5∶3,
现用分层抽样的方法抽出一个容量为 120 的样本,已知 A 种型号产品共抽取了 24 件,则 C 种型号产品
抽取的件数为________.
24
k
3
解析:依题意得120=k+5+3,解得 k=2,所以 C 种型号产品抽取的件数为2+5+3×120=36.
x01 2 3
y m 3 5.5 7
y^ 已求得 y 关于 x 的线性回归方程为 =2.1x+0.85,则 m 的值为( )
A.1
B.0.85
C.0.7
D.0.5
0+1+2+3
m+3+5.5+7 m+15.5
解析:选 D x= 4 =1.5,y=
4
= 4 ,因为点(x,y)在回归直线上,所
m+15.5 以 4 =2.1×1.5+0.85,解得 m=0.5,故选 D.
D.若采用系统抽样方法进行调查,从该校高一 1 000 名学生中抽取容量为 50 的样本,则分段间隔
相关文档
最新文档