专题五 第1讲 统计与统计案例(解析版)
高考数学一轮复习第九章统计与统计案例第一节统计讲义含解析0513113.doc
第一节统计突破点一随机抽样[基本知识]1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较[基本能力]一、判断题(对的打“√”,错的打“×”)(1)简单随机抽样是一种不放回抽样.( )(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )(3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( ) 答案:(1)√ (2)× (3)√ (4)× (5)× 二、填空题1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.答案:总体2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.答案:163.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:1 8001.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m 为首项、组距d 为公差的等差数列{a n },第k 组抽取的号码为a k =m +(k -1)d .2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比=样本容量总体容量=各层样本数量各层个体数量.[典例感悟]1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为1 00040=25,设第一组随机抽取的号码为x ,则抽取的第18组的号码为x +17×25=443,∴x =18.故选C.2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )A .甲应付5141109钱B .乙应付3224109钱C .丙应付1656109钱D .三者中甲付的钱最多,丙付的钱最少解析:选B 依题意由分层抽样可知,100÷(560+350+180)=10109,则甲应付:10109×560=5141109(钱);乙应付:10109×350=3212109(钱);丙应付:10109×180=1656109(钱).[方法技巧]系统抽样和分层抽样中的计算(1)系统抽样总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组N n个(有零头时要先去掉). 若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n -1)N n.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[针对训练]1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M 被抽到的概率为( )A.1100B.199C.120D.150解析:选C 一个总体含有100个个体,每个个体被抽到的概率为1100,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为1100×5=120.2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )A .7,11,18B .6,12,18C .6,13,17D .7,14,21解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按42162=727的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样突破点二 用样本估计总体[基本知识]1.频率分布直方图和茎叶图 (1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.众数、中位数、平均数(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1nx 1-x-2+x 2-x-2+…+x n -x-2].(2)方差:标准差的平方s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x -是样本平均数.(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.4.平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x -,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ,方差为m 2s 2.[基本能力]一、判断题(对的打“√”,错的打“×”)(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) (2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( ) 答案:(1)√ (2)× (3)√ (4)× (5)√ (6)× 二、填空题1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的25,且样本容量为140,则中间一组的频数为________.答案:402.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.答案:503.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.答案:93,924.已知一组正数x 1,x 2,x 3的方差s 2=13(x 21+x 22+x 23-12),则数据x 1+1,x 2+1,x 3+1的平均数为________.答案:3[全析考法]考法一折线图、饼图的应用[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.根据该统计图判断,下列结论正确的是( )A.这半年来,网民对该关键词相关的信息关注度呈周期性变化B.这半年来,网民对该关键词相关的信息关注度不断减弱C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A ;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B ;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C ;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.[答案] (1)A (2)D [方法技巧]利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.考法二 频率分布直方图的应用[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n 天监测空气质量指数(AQI),数据统计如下表: 直方图;(2)由频率分布直方图,求该组数据的平均数与中位数;(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A “两天空气质量等级都为良”的概率.[解] (1)∵0.004×50=20n,∴n =100,∵20+40+m +10+5=100,∴m =25.40100×50=0.008;25100×50=0.005;10100×50=0.002;5100×50=0.001.由此完成频率分布直方图,如图:(2)由频率分布直方图得该组数据的平均数为25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4, ∴中位数为50+0.5-0.20.4×50=87.5.(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a ,b ,c ,d ; 将空气质量指数为(150,200]的1天记为e ,从中任取2天的基本事件为(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ),(b ,e ),(c ,d ),(c ,e ),(d ,e ),共10个,其中事件A “两天空气质量等级都为良”包含的基本事件为(a ,b ),(a ,c ),(a ,d ),(b ,c ),(b ,d ),(c ,d ),共6个,所以P (A )=610=35.[方法技巧]1.由频率分布直方图进行相关计算时,需掌握的两个关系式 (1)频率组距×组距=频率.(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数. 2.利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标.考法三 茎叶图的应用[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. (2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.[方法技巧]1.茎叶图的绘制需注意(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图的用途(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.考法四样本的数字特征及其应用[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:(1)请填写下表(写出计算过程):(2)①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);③从折线图上两人射击命中环数的走势看(分析谁更有潜力).[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.(1)x甲=110×(5+6×2+7×4+8×2+9)=7(环),x乙=110×(2+4+6+7×2+8×2+9×2+10)=7(环),s2甲=110×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=110×(4+2+0+2+4)=1.2,s2乙=110×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=110×(25+9+1+0+2+8+9)=5.4.填表如下:(2)甲乙∴甲成绩比乙稳定.②∵平均数相同,命中9环及9环以上的次数甲比乙少,∴乙成绩比甲好些.③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.[方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[集训冲关]1.[考法一]某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确;在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D.2.[考法二]近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m 的值为( )A .0.013B .0.13C .0.012D .0.12解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有2 5000.25=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m =1 20010 00010=0.012.3.[考法三]一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( )A .2B .-2C .3D .-3解析:选D 由茎叶图知⎩⎪⎨⎪⎧72+77+86++x +905=81,70+y =73,解得x =0,y =3,所以x -y =-3,故选D.4.[考法三、四]在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩x 甲=68+76+79+86+88+956=82,学生乙的平均成绩x 乙=71+75+82+84+86+946=82,又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673, 则x 甲=x 乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.5.[考法二、四](2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m 3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表使用了节水龙头50天的日用水量频数分布表 (1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m 3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解:(1)频率分布直方图如图所示.(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m 3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m 3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为x 1=150×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为x 2=150×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3).精美句子1、善思则能“从无字句处读书”。
统计与统计案例PPT课件
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
统计案例ppt课件
求17根2c据m一的名女女大大学学生生的的体身重高。预报她的体重的回归方程,( 并x ,预y报) 称一名为身高为
根据最小二乘法估计a 和b 就是未知参数样a和本b点的最的好中估心计, n xi yi n x y 探究P4: 于身是高有为b1=7i2如1cn 果mxi2的不女是n x大,2 学你 0生能.8的4解9 体析重一a一下定原y是因b6吗x0 ?.3 18 65 k.g7吗12? i 1 所以回归方程是 y0.849x85.712
编号 身高/cm 体重/kg
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为61kg。解析 变量(身高)和随机误差共同把这名学生的体重从54.5kg“推”到了61kg,相差6.5kg, 所以6.5kg是解析变量和随机误差的组合效应。
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图 中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归 直线上。这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上 “推”开了。
称
e
因此,数据点和它在回归直线上相应位置的差异( i =yi yi 为残差。
探究P4: 身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是60.316kg, 但一般可以认为她的体重在60.316kg左右。
函数模型与回归模型之间的差别
中考数学专题复习《统计》知识点梳理及典型例题讲解课件
反映一组数据
优数据的信息
中位数
缺点 易受极端值的影响
优点
众数
在生活实际中应用较多,是人们
反映一组数据
特别关心的一个量
的多数水平
当各个数据的重复次数大致相等
缺点
时,众数的意义不大
2.数据的波动
(1)在一组数据x1,x2,…,xn中,各数据与它们的平均数ҧ
3.(2023·聊城)4月15日是全民国家安全教育日.某校为了摸清该
校1500名师生的国家安全知识掌握情况,从中随机抽取了150
名师生进行问卷调查.这项调查中的样本是( C )
A.1500名师生的国家安全知识掌握情况
B.150
C.从中抽取的150名师生的国家安全知识掌握情况
D.从中抽取的150名师生
稍微减小一点;
④列频数分布表;
⑤用横轴表示各分段数据,纵轴反映各分段数据的频数,小长
方形的高表示频数,绘制频数分布直方图.
(5)组中值是上下限之间的中点数值,以代表各组标志值的
一般水平.
上限+下限
一般情况下,组中值=
.
2
2.各统计图的特点
扇形统
计图
统计图 条形统计图
频数分布直方
折线统计图
图
图形
特点
第5题图
B.样本中C等级所占百分比是10%
C.D等级所在扇形的圆心角为15°
D.估计全校学生A等级大约有900人
)
6.如图是某班甲、乙、丙三位同学最近5次数学成绩及其所在班
级相应平均分的折线统计图,则下列判断错误的是( D )
A.甲的数学成绩高于班级平均分,且成绩
比较稳定
B.乙的数学成绩在班级平均分附近波动,
统考版2024高考数学二轮专题复习专题四统计与概率第1讲统计统计案例课件理
考点三 回归分析的实际应用——准确计算,数据分析
线性回归方程
方程ොy=bx+ො
a称为线性回归方程,其中 b=
x;(തx,തy)称为样本中心点.
·四川省成都市石室中学模拟]某企业为了了解年广告费 x(单位:
万元)对年销售额 y(单位:万元)的影响,统计了近 7 年的年广告费 xi 和年
体由差异明显的几部分组成.
例 1 (1)某工厂利用随机数表对生产的700个零件进行抽样测试,先
将700个零件进行编号001、002、…、699、700.从中抽取70个样本,
下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读
取数据,则得到的第5个样本编号是(
)
3321183429 7864560732 5242064438 1223435677 3578905642
支持结论“X与Y有关系”.
对点训练
[2021·全国甲卷]甲、乙两台机床生产同种产品,产品按质量分为一
级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生
产了200件产品,产品的质量情况统计如下表:
甲机床
销售额 yi(i=1,2,3,4,5,6,7)的数据,得到下面的表格:
年广告费 x
2
3
4
5
6
7
8
年销售额 y 25 41 50 58 64 78 89
由表中数据,可判定变量 x,y 的线性相关关系较强.
(1)建立 y 关于 x 的线性回归方程;
(2)已知该企业的年利润 z 与 x,y 的关系为 z=2 y -x,根据(1)的
界人口变化情况的三幅统计图:
下列结论中错误的是(
统计案例分析报告及典型例题
统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。
第2部分 专题4 第1讲 统计与统计案例 课件(共66张PPT)
由题意知
16n 52
-
13n 52
=6,解得n=104,所以选项D正确,故选
D.]
02 考点2 回归分析
高考串讲·找规律
考题变迁·提素养
1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的 发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种 子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点 图:
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原
始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1
个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不
变的数字特征是( )
A.中位数
B.平均数
C.方差
D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小 到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数, 故不变的数字特征是中位数,故选A.]
样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出
一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=
20
∑ xi- x yi- y
i=1 20
20
, 2≈1.414.
∑ xi- x 2 ∑ yi- y 2
i=1
i=1
[解]
(1)由已知得样本平均数
y
=
1 20
20
y
i=1
i=60,从而该地区这种
D [由饼形图知2050年中国将有约32%的人已经退休,所以选 项A错误;
设46~55岁的人数为16x人,16~25岁的人数为13x人,则46~ 55岁的人数比16~25岁的人数多16x1-3x13x=133≈23%,所以选项B错 误;
统计法律案例及分析题(3篇)
第1篇一、案例背景某市统计局在2021年对全市各行业进行了一次全面统计调查。
在调查过程中,该局发现部分企业存在虚报、瞒报、漏报统计数据的现象。
经调查核实,某市统计局对涉嫌违规的企业进行了处罚,并依法向市政府报告了调查结果。
然而,在后续的审计过程中,审计部门发现某市统计局在统计调查过程中存在违规行为,违反了《中华人民共和国统计法》(以下简称《统计法》)的相关规定。
二、案例概述1. 案件基本情况某市统计局在2021年进行的统计调查中,发现部分企业存在虚报、瞒报、漏报统计数据的现象。
经调查核实,某市统计局对涉嫌违规的企业进行了处罚,并依法向市政府报告了调查结果。
然而,在后续的审计过程中,审计部门发现某市统计局在统计调查过程中存在以下违规行为:(1)未按照规定的时间、程序和方法进行统计调查;(2)未对涉嫌违规的企业进行必要的核查;(3)未将调查结果依法向市政府报告。
2. 违规行为及处罚根据《统计法》的相关规定,某市统计局的违规行为构成了违法行为。
审计部门依法对该局进行了处罚,具体如下:(1)责令某市统计局立即改正违规行为;(2)对某市统计局的主要负责人进行约谈,要求其加强统计工作的领导和管理;(3)对某市统计局的违规行为进行通报批评。
三、案例分析1. 违规行为的定性本案中,某市统计局的违规行为主要表现为未按照规定的时间、程序和方法进行统计调查,未对涉嫌违规的企业进行必要的核查,未将调查结果依法向市政府报告。
这些行为均违反了《统计法》的相关规定,构成了违法行为。
2. 违规行为的原因分析(1)统计法规意识淡薄。
某市统计局在统计调查过程中,未能严格按照《统计法》的规定进行操作,说明该局对统计法规的认识不够深入,法规意识淡薄。
(2)统计工作责任心不强。
某市统计局在调查过程中,未能及时发现和纠正涉嫌违规的企业,说明该局工作人员责任心不强,对统计工作的重要性认识不足。
(3)内部管理制度不完善。
某市统计局在统计调查过程中,未建立健全内部管理制度,导致统计调查工作存在漏洞。
统计与统计案例
统计与统计案例第一部分:统计的基本概念和原理统计是一门研究收集、整理、分析和解释数据的学科。
它在各个领域都有广泛的应用,包括科学研究、社会调查、市场分析等等。
统计的基本概念和原理对于理解和应用统计方法非常重要。
1.1 统计的定义统计是通过收集、整理、分析和解释数据来推断总体特征和规律的学科。
它可以帮助我们认识事物的本质和变化规律,从而进行决策和预测。
1.2 数据的类型在统计学中,数据可以分为两大类:定性数据和定量数据。
定性数据是描述事物性质、特征和类别的数据,例如性别、政治取向、产品类型等等。
定性数据常用于描述和推断总体的特征和规律。
定量数据是具有数量意义的数据,可以进行数值计算和比较。
例如身高、体重、销售额等等。
定量数据常用于测量和比较事物的数量差异和变化趋势。
1.3 统计的基本原理统计的基本原理包括随机性、规模效应和抽样误差。
•随机性指的是在统计过程中,数据的选择和变异都是有机会发生的。
通过随机抽取和处理数据,可以将个体特征和规律推广到总体上。
•规模效应指的是样本容量对统计推断的影响。
样本容量越大,假设检验的准确性也越高,结果的可靠性也就越高。
•抽样误差是由于从总体中选取有限的样本而引入的估计误差。
通过使用合适的抽样方法和增加样本容量,可以减小抽样误差。
第二部分:统计案例分析2.1 假设检验假设检验是统计推断的一种方法,用于检验关于总体参数的假设。
主要包括以下几个步骤:1.建立原假设(H0)和备择假设(H1);2.选择适当的统计检验方法;3.根据样本数据计算统计量的值;4.根据显著性水平和自由度确定拒绝域;5.比较统计量的值与拒绝域,得出结论。
假设检验的目的是通过样本数据对总体参数进行推断,判断某种差异是否具有统计学意义。
2.2 方差分析方差分析是一种用于比较多个总体均值差异的统计方法。
它主要包括单因素方差分析和多因素方差分析两种类型。
单因素方差分析用于比较一个因素(如不同治疗方法)对一个响应变量(如疾病治愈率)的影响。
统计教学案例(精选合集)
统计教学案例(精选合集)第一篇:统计教学案例教学目标:1、使学生初步体验数据的收集、整理、描述和分析的过程,会用简单的方法收集、整理数据。
2、使学生初步认识条形统计图和简单的统计表,能根据统计图表中的数据提出并回答简单的问题。
3、培养学生的问题意识和用数学语言表达的能力,以及主动探究知识、小组合作的能力等。
教学重点:学会收集整理数据。
在统计表中填数,在统计图中画条形图来表示数据。
策略选择:结合学生的年龄特点和本节课的内容为学生创设轻松、愉快的学习活动。
充分发挥学生的学习主动性,教师引导学生经历整个统计过程从而获得新知。
三、教学过程:预设的学习材料与教学途径预设的学习活动与备设活动每个环节效果自评(一)创设情景,收集原始数据,引入统计。
(出示红、黄、蓝、绿四种不同颜色的气球。
)1、谈话:六一儿童节快到了,为了庆祝这个愉快的节日,老师打算去买一些气球送给大家,你们喜欢什么颜色的气球?老师该怎么买?每种颜色的气球分别要买多少?你们能给老师想办法吗?2、收集原始数据:让学生在纸上写出自己喜欢的颜色。
3、用什么方法把收集到的数据记录下来?4、汇报得出一些常用的整理记录方法。
5、教师报,学生进行记录。
6、比较:哪种记录方法比较简单?7、小结:用画正字的方法来记录统计数据更加简便、清楚。
今天我们记录学习简单的统计方法。
全班交流,得到一些收集数据的方法。
二名学生上来进行记录,其余学生在纸上进行记录。
通过创设六一儿童节购买气球的情景将学生引入愉快的学习氛围中去,激发了学生的学习兴趣,调动了学生的学习积极性。
引导学生主动地参与原始数据的收集、整理,用自己喜欢的记录方法进行记录、整理,进行富有个性的学习活动,从而获得不同的体验。
(二)1、(出示统计表):我们可以把统计得到的数据填入统计表中以备查找。
(1)引导学生完成统计表中的数据填写。
(2)说一说从这张表中你知道了哪些信息?2、(出示统计图):我们不光可以把结果填入统计表中,还可以把结果画到统计图中去。
第1讲 统计与统计案例(可自主编辑word)
专题四概率与统计第1讲统计与统计案例一、选择题1.(2019湖南师范大学附属中学月考,7)将参加夏令营的400名学生编号为001,002,…,400,采用系统抽样的方法抽取一个容量为40的样本,且随机抽得的第1个号码为003,这400名学生分住在三个营区,从001到180在第一营区,从181到295在第二营区,从296到400在第三营区,则三个营区被抽中的人数分别为()A.18,12,10B.20,12,8C.17,13,10D.18,11,11答案A根据系统抽样的特点,知抽样间隔为400=10,被抽到的号码为l=10k+3,k∈Z.由题意40可知,第一营区可分为18个小组,每组抽取1人,共抽取18人,由第二营区的编号为181到295,可知181≤10k+3≤295,k∈Z,可得18≤k≤29,k∈Z,因此第二营区应抽取12人,则第三营区应抽取10人,所以三个营区被抽中的人数分别为18,12,10.2.(2019湖北武汉调研,4)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A结伴步行,B自行乘车,C家人接送,D其他方式,并将收集的数据整理绘制成如下两幅不完整的统计图.根据图中信息,可知本次抽查的学生中A类人数是()A.30B.40C.42D.48答案A根据选择D方式的有18人,占15%,得总人数为18=120,15%故选择A方式的人数为120-42-30-18=30.3.某位教师2017年的家庭总收入为80000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4750元,则该教师2018年的家庭总收入为()A.100000元B.95000元C.90000元D.85000元答案D由已知得,2017年的就医费用为80000×10%=8000元,故2018年的就医费用为=85000(元).故选D.12750元,所以该教师2018年的家庭总收入为12 75015%4.已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误..的是()x681012y6m32A.变量x,y之间呈负相关关系B.可以预测,当x=20时,y^=-3.7C.m=4D.该回归直线必过点(9,4)答案C由-0.7<0,得变量x,y之间呈负相关关系,故A正确;当x=20时,y^=-0.7×20+10.3=-3.7,故B正确;由题中表格数据可知x=14×(6+8+10+12)=9,y=14×(6+m+3+2)=11+m4,则11+m4=-0.7×9+10.3,解得m=5,故C错误;由m=5,得y=6+5+3+24=4,所以该回归直线必过点(9,4),故D正确.故选C.5.(2018河北石家庄教学质量检测,9)某学校A、B两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过茎叶图比较两个班兴趣小组成绩的平均值及标准差.①A班兴趣小组的平均成绩高于B班兴趣小组的平均成绩;②B班兴趣小组的平均成绩高于A班兴趣小组的平均成绩;③A班兴趣小组成绩的标准差大于B班兴趣小组成绩的标准差;④B班兴趣小组成绩的标准差大于A班兴趣小组成绩的标准差.其中正确结论的编号为()A.①④B.②③C.②④D.①③答案A A班兴趣小组的平均成绩为53+62+64+…+92+9515=78,其方差为115×[(53-78)2+(62-78)2+…+(95-78)2]=121.6,则其标准差为√121.6≈11.03;B班兴趣小组的平均成绩为45+48+51+…+9115=66,其方差为115×[(45-66)2+(48-66)2+…+(91-66)2]=175.2,则其标准差为√175.2≈13.24.故选A.二、填空题6.(2018辽宁沈阳质量检测)已知随机变量ξ~N(1,σ2),若P(ξ>3)=0.2,则P(ξ≥-1)=.答案0.8解析∵ξ~N(1,σ2),∴μ=1,∵P(ξ>3)=0.2,∴P(ξ<-1)=0.2,∴P(ξ≥-1)=1-0.2=0.8.7.某兄弟俩都推销某一小家电,现抽取他们其中8天的销售量(单位:台),得到的茎叶图如图所示,已知弟弟的销售量的平均数为34,哥哥的销售量的中位数比弟弟的销售量的众数大2,则x+y的值为.答案13解析根据茎叶图中的数据知,弟弟的销售量的众数是34,则哥哥的销售量的中位数是34+2=36,∴x+7=36-30,解得x=5,2又(27+20+y+34+34+34+32+42+41)÷8=34,解得y=8,∴x+y=5+8=13.8.(2019广东江门第一次模拟,9)已知a1,a2,a3,a4,a5成等差数列,且公差是5,则这组数据的标准差为.答案5√2解析∵a 1,a2,a3,a4,a5成等差数列,且公差是5,∴设这5个数依次为a,a+5,a+10,a+15,a+20,则这5个数的平均数为[a+(a+5)+(a+10)+(a+15)+(a+20)]÷5=a+10,∴这组数据的标准差为√1×[(-10)2+(-5)2+52+102]=5√2.5三、解答题9.(2019安徽黄山第二次质量检测,19)2019年全国“两会”,即中华人民共和国第十三届全国人大第二次会议和中国人民政治协商会议第十三届全国委员会第二次会议,分别于2019年3月5日和3月3日在北京召开.为了了解哪些人更关注“两会”,某机构随机抽取了年龄在15~75岁之间的200人进行调查,并按年龄绘制的频率分布直方图如图所示,把年龄在区间[15,35)和[35,75]内的人分别称为“青年人”和“中老年人”.经统计,“青年人”和“中老年人”的人数之比为19∶21.其中“青年人”中有40人关注“两会”,“中老年人”中关注“两会”和不关注“两会”的人数之比是2∶1.(1)求图中a,b的值;(2)现采用分层抽样的方法在[25,35)和[45,55)中随机抽取8名代表,从这8人中任选2人,求这2人中至少有1人是“中老年人”的概率;(3)根据已知条件,完成下面的2×2列联表,并根据此统计结果判断:能否有99.9%的把握认为“中老年人”比“青年人”更加关注“两会”.关注不关注合计青年人中老年人合计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001k 3.841 6.63510.828.解析(1)由题意得{(b+0.03)×10=19 40 ,(a+0.02)×10=2140,解得{a=0.032 5,b=0.017 5.(2)由题意得,在[25,35)中抽取6人,记为A,B,C,D,E,F,在[45,55)中抽取2人,记为1,2.则从这8人中任选2人的全部基本事件(共28种)列举如下:AB,AC,AD,AE,AF,A1,A2,BC,BD,BE,BF,B1,B2,CD,CE,CF,C1,C2,DE,DF,D1,D2,EF,E1,E2,F1, F2,12,.记这2人中至少有1人是“中老年人”为事件A,则P(A)=1328(3)2×2列联表如下:关注不关注合计青年人405595中老年人7035105合计11090200≈12.157>10.828,K2=200×(40×35-55×70)295×105×110×90所以有99.9%的把握认为“中老年人”比“青年人”更加关注“两会”.10.(2019湖南百所重点名校大联考,19)近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,所以吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:x1234567y611213466101196根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y=a+bx与y=c·d x(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(说明理由)(2)根据(1)的判断结果及表中的数据,求y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.参考数据:yv∑i=17x i y i∑i=17x i v i100.54 62.141.542 535 50.123.47其中v i =lg y i ,v =17∑i=17v i . 参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=a ^+β^u 的斜率和截距的最小二乘估计公式分别为:β^=∑i=1nu i v i -nu v ∑i=1nu i 2-nu2,a ^=v -β^u .解析 (1)根据散点图判断,y=c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(理由略,合理即可).(2)将y=c ·d x 两边同时取常用对数得lg y=lg(c ·d x )=lg c+lg d x . 设lg y=v,∴v=lg c+lg d x . ∵x =4,v =1.54,∑i=17x i 2=140,∴lg d=∑i=17x i v i -7x v ∑i=17x i 2-7x2=50.12-7×4×1.54140-7×42=728=0.25,把样本点的中心(4,1.54)代入v=lg c+lg d x ,得lg c=0.54, ∴v ^=0.54+0.25x,∴lg y=0.54+0.25x,∴y 关于x 的回归方程为y ^=100.54+0.25x =100.54×(100.25)x =3.47×100.25x ,把x=8代入得,y ^=3.47×102=347,故活动推出第8天使用扫码支付的人次为3 470.。
专题5.1 统计(精讲精析篇)(解析版)
专题5.1统计(精讲精析篇)提纲挈领点点突破热门考点01 随机抽样1.简单随机抽样的特点(1)抽取的个体数较少;(2)是逐个抽取;(3)是不放回抽取;(4)是等可能抽取.只有四个特点都满足的抽样才是简单随机抽样.2.抽签法与随机数法的适用情况(1)抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况. (2)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法. 3.分层抽样问题类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. (3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”.70 29 17 12 13 40 33 12 38 26 13 89 51 03 56 62 18 37 35 96 83 50 87 75 97 12 55 93A.12 B.13 C.03 D.40 【答案】C【解析】故选C.A.1260 B.1230 C.1200 D.1140 【答案】D【解析】设女生总人数为:x人,由分层抽样的方法可得:抽取女生人数为:804238-=人,所以80382400x=,解得:1140x=故选:D【典例3】下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1 C.2 D.3【答案】A【解析】①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A.【总结提升】1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.2.分层抽样的前提和遵循的两条原则(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.(2)遵循的两条原则:①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.3. 两种抽样方法的特点、联系及适用范围类别共同点各自特点联系适用范围简单随机抽样①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体个数较少分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样总体由差异明显的几部分组成热门考点02 茎叶图及其应用1.当数据个数较少时,用茎叶图可精确地记录每个数据.如果数据是两位数,那么茎表示十位数,叶表示个位数,如果数据是三位数,那么茎表示百位数和十位数,叶表示个位数.2.茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.(3)数据分布一般是茎从上到下由小到大,叶从茎侧向外按从小到大排列.3.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.A .3,5B .5,5C .3,7D .5,7【答案】A 【解析】由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y =5. 由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66, 从而有56+62+65+74+70+x 5=66,解得x =3.A .2B .4C .5D .6【答案】A 【解析】由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为108240⨯= (人). 【特别提醒】茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数. ①“叶”位置只有一个数字,而“茎”位置的数字位数一般不需要统一; ②茎叶图上重复出现的数据要重复记录,不能遗漏.热门考点03 频率分布直方图1.频率、频数、样本容量的计算方法 (1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量, 样本容量×频率=频数.(3)各个小方形的面积总和等于1 .2.频率分布表的画法第一步:求极差,决定组数和组距,组距=极差/组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.3.频率分布直方图中数字特征的计算(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.(4)在很多题目中,频率分布直方图中各小长方形的面积之和为1,是解题的关键,常利用频率分布直方图估计总体分布.【典例6】(2017北京,文17)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),┄,[80,90],并整理得到如下频率分布直方图:(Ⅰ)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(Ⅱ)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(Ⅲ)已知样本中有一半男生的分数学.科网不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.【答案】(Ⅰ)0.4;(Ⅱ)5人;(Ⅲ)3 2 .【解析】(Ⅰ)根据频率分布直方图可知,样本中分数不小于70的频率为(0.020.04)100.6+⨯=,所以样本中分数小于70的频率为10.60.4-=.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(Ⅱ)根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9+++⨯=,分数在区间[40,50)内的人数为1001000.955-⨯-=.学科%网所以总体中分数在区间[40,50)内的人数估计为5 40020100⨯=.【典例7】(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.(I)求直方图中的a值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.【答案】(Ⅰ)0.30a=;(Ⅱ)36000;(Ⅲ)2.04.【解析】(Ⅰ)由频率分布直方图,可知:月用水量在[0,0.5]的频率为0.08×0.5=0.04.同理,在[0.5,1),(1.5,2],[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1–(0.04+0.08+0.21+.025+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(Ⅱ)由(Ⅰ),100位居民月均水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.13=36000. (Ⅲ)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5所以2≤x<2.5.由0.50×(x–2)=0.5–0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.【总结提升】1.两个主要考查角度:(1)利用频率分布直方图求频率、频数.(2)利用频率分布直方图估计总体2.熟记结论:(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1;(2) 频率组距×组距=频率;(3)频数/样本容量=频率,此关系式的变形为频数/频率=样本容量,样本容量×频率=频数3.易错防范:频率分布直方图的纵坐标是频率组距,而不是频率热门考点04 样本的数字特征众数:一组数据出现次数最多的数叫众数,众数反应一组数据的多数水平;中位数:一组数据中间的数,(起到分水岭的作用)中位数反应一组数据的中间水平;平均数:反应一组数据的平均水平;方差:方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差.在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定.标准差是方差的算术平方根,意义在于反映一个数据集的离散程度.A .0.01B .0.1C .1D .10【答案】C 【解析】因为数据(1,2,,)i ax b i n +=,的方差是数据(1,2,,)i x i n =,的方差的2a 倍,所以所求数据方差为2100.01=1⨯ 故选:CA .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====【答案】B 【解析】对于A 选项,该组数据的平均数为()()140.1230.4 2.5A x =+⨯++⨯=,方差为()()()()222221 2.50.12 2.50.43 2.50.44 2.50.10.65A s =-⨯+-⨯+-⨯+-⨯=;对于B 选项,该组数据的平均数为()()140.4230.1 2.5B x =+⨯++⨯=,方差为()()()()222221 2.50.42 2.50.13 2.50.14 2.50.4 1.85B s =-⨯+-⨯+-⨯+-⨯=;对于C 选项,该组数据的平均数为()()140.2230.3 2.5C x =+⨯++⨯=,方差为()()()()222221 2.50.22 2.50.33 2.50.34 2.50.2 1.05C s =-⨯+-⨯+-⨯+-⨯=;对于D 选项,该组数据的平均数为()()140.3230.2 2.5D x =+⨯++⨯=,方差为()()()()222221 2.50.32 2.50.23 2.50.24 2.50.3 1.45D s =-⨯+-⨯+-⨯+-⨯=.因此,B 选项这一组的标准差最大. 故选:B.【典例10】(2019年高考全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602≈.【答案】(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=. 产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%. (2)1(0.1020.10240.30530.50140.707)0.30100y =-⨯+⨯+⨯+⨯+⨯=, ()52211100i i i s n y y ==-∑ 222221(0.40)2(0.20)240530.20140.407100⎡⎤=-⨯+-⨯+⨯+⨯+⨯⎣⎦ =0.0296,0.020.17s ==≈,所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【总结提升】1.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s 2=1n [(x 21+x 22+…+x 2n )-n x 2]或写成s 2=1n (x 21+x 22+…+x 2n )-x 2,即方差等于原数据平方的平均数减去平均数的平方. 2.主要命题角度:(1)样本的数字特征与频率分布直方图交汇 (2)样本的数字特征与茎叶图交汇①在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.②茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.(3)样本的数字特征与优化决策问题交汇:利用样本的数字特征解决优化决策问题的依据①平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.②用样本估计总体就是利用样本的数字特征来描述总体的数字特征.巩固提升A.96 B.72 C.48 D.36【答案】B【解析】由题意得23872.99n n n-=-∴=选B.2.(2017课标1,文2)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数【答案】B【解析】刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B3.(河南省洛阳市2019届高三第三次统考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为A .100,10B .100,20C .200,10D .200,20【答案】D【解析】由题得样本容量为(350020004500)2%100002%200++⨯=⨯=, 抽取的高中生人数为20002%40⨯=人,则近视人数为400.520⨯=人,故选D .A .样本容量为240B .若样本中对平台三满意的人数为40,则40%m =C .总体中对平台二满意的消费者人数约为300D .样本中对平台一满意的人数为24人 【答案】B 【解析】选项A ,样本容量为60004%240⨯=,该选项正确; 选项B ,根据题意得平台三的满意率4040%25004%=⨯,40m =,不是40%m =,该选项错误;选项C ,样本可以估计总体,但会有一定的误差,总体中对平台二满意人数约为150020%300⨯=,该选项正确;选项D ,总体中对平台一满意人数约为20004%30%24⨯⨯=,该选项正确. 故选:B . A .52B .3C .72D .4【答案】C【解析】因为7个数据的平均数为5,方差为4,现又加入一个新数据5,此时这8个数的平均数为x ,方差为2s ,由平均数和方差的计算公式可得75558x ⨯+==,()227455782s ⨯+-==. 故选:C.6.(广东省汕头市2019届高三第二次模拟(B 卷))在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是A .成绩在[70,80]分的考生人数最多B .不及格的考生人数为1000人C .考生竞赛成绩的平均分约70.5分D .考生竞赛成绩的中位数为75分【答案】D【解析】由频率分布直方图可得,成绩在[70,80]的频率最高,因此考生人数最多,故A 正确;由频率分布直方图可得,成绩在[40,60)的频率为0.25,因此,不及格的人数为40000.251000⨯=,故B 正确;由频率分布直方图可得:平均分等于450.1550.15650.2750.3850.15⨯+⨯+⨯+⨯+⨯+950.170.5⨯=,故C 正确;因为成绩在[40,70)的频率为0.45,由[70,80]的频率为0.3,所以中位数为0.05701071.670.3+⨯≈,故D 错误.故选D . 7.(福建省泉州市2019届高三第二次(5月)质检)已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为x ,方差为2s ,则 A .270,75x s =< B .270,75x s => C .270,75x s ><D .270,75x s ><【答案】A【解析】由题意,可得7050806070907050x ⨯+-+-==,设收集的48个准确数据分别记为1248,,,x x x ,则222221248175[(70)(70)(70)(6070)(9070)]50x x x =-+-++-+-+-22212481[(70)(70)(70)500]50x x x =-+-++-+, 22222212481[(70)(70)(70)(8070)(7070)]50s x x x =-+-++-+-+-22212481[(70)(70)(70)100]7550x x x =-+-++-+<, 所以275s <.故选A .以下关于四名同学射击成绩的数字特征判断不正确...的是( ) A .平均数相同 B .中位数相同 C .众数不完全相同 D .丁的方差最大【答案】D 【解析】由图的对称性可知,平均数都为5;由图易知,四组数据的众数不完全相同,中位数相同;记甲、乙、丙、丁图所对应的方差分别为22221234,,,s s s s ,则()()2221450.5650.51s =-⨯+-⨯=,()()()22222450.3550.4650.30.6s =-⨯+-⨯+-⨯=,()()()()()2222223350.3450.1550.2650.1750.3 2.6s =-⨯+-⨯+-⨯+-⨯+-⨯=,()()()()()2222224250.1450.3550.2650.3850.1 2.4s =-⨯+-⨯+-⨯+-⨯+-⨯=,所以丙的方差最大. 故选:D .9.(河南省郑州市2019届高三第三次质量检测)某同学10次测评成绩的数据如茎叶图所示,总体的中位数为12,若要使该总体的标准差最小,则42x y +的值是( )A .12B .14C .16D .18【答案】A【解析】因为中位数为12,所以4x y +=,数据的平均数为1(223420191910x y ⨯+++++++++2021)11.4+=,要使该总体的标准差最小,即方差最小,所以22(1011.4)(1011.4)x y +-++-=2222.8( 1.4)( 1.4)2()0.722x y x y +--+-≥=,当且仅当1.4 1.4x y -=-,即2x y ==时取等号,此时总体标准差最小,4212x y +=,故选A .A .从2013年到2016年,该校纸质书人均阅读量逐年增长B .2013年至2018年,该校纸质书人均阅读量的中位数是46.7本C .2013年至2018年,该校纸质书人均阅读量的极差是45.3本D .2013年至2018年,该校后三年纸质书人均阅读量总和是前三年纸质书人均阅读量总和的2倍 【答案】D【解析】对于A ,根据统计图分析可知,从2013年到2016年,该校纸质书人均阅读量分别是:15.5,38.5,43.3,58.4是逐年增长的,故A 是合理的;对于B ,2013年至2018年,该校纸质书人均阅读量按从小到大的顺序排列为:15.5,38.5,43.3,50.1,58.4,60.8,其中位数为43.350.146.72+=本,故B 是合理的;对于C ,因为最大阅读量为60.8本,最小阅读量为15.5本,所以极差为60.815.545.3-=本,故C 是合理的;对于D ,2013年至2018年,该校后三年纸质书人均阅读量总和为58.450.160.8169.3++=本,前三年纸质书人均阅读量总和为15.538.543.397.3++=本,169.397.32194.6≠⨯=, 故D 是不合理的. 故选:D.A .B .C .D .【答案】B 【解析】从题设中提供的频率分布直方图可算得在区间[0,5),[5,10)内各有0.012051⨯⨯=个,答案A 被排除;在区间[10,15)内有0.042054⨯⨯=个;在区间[15,20)内有0.022052⨯⨯=个;在区间[20,25)内有0.042054⨯⨯=个;在区间[25,30),[30,35)内各有0.032053⨯⨯=个,答案C 被排除;在区间[35,40)内有0.022052⨯⨯=个,答案D 被排除;依据这些数据信息可推知,应选答案B .12. 已知一组正数x 1,x 2,x 3的方差s 2=13(x 21+x 22+x 23-12),则数据x 1+1,x 2+1,x 3+1的平均数为 .【答案】3【解析】由方差的计算公式可得s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]=1n (x 21+x 22+…+x 2n -2n x 2+n x 2) =1n (x 21+x 22+…+x 2n )-x 2, ∴由题意x 1,x 2,x 3的方差s 2=13(x 21+x 22+x 23-12),知x 2=4,又x 1,x 2,x 3均为正数,故x =2.所以数据x 1+1,x 2+1,x 3+1的平均数是2+1=3,故答案为3. 【答案】265【解析】 依题意12674,45m m ++++==.所以方差为()()()()()22222114244464745⎡⎤-+-+-+-+-⎣⎦[]126944955=+++=. 故答案为:265.【答案】4 【解析】总球迷是180+60=240人家里的女性球迷是120×25%=30人 球迷广场女性:80×12.5%=10人 所以在酒吧观赛的女球迷是60-30-10=20人 抽样中,选择在酒吧观赛的女球迷人数为2048=4240⨯ 人(1)求m 的值;(2)成绩不低于90分的人就能获得积分奖励,求所有参赛者中获得奖励的人数;(3)根据频率分布直方图,估计这次知识竞赛成绩的平均分(用组中值代替各组数据的平均值). 【答案】(1)0.03m =(2)6000人(3)76分 【解析】(1)由频率分布直方图的性质,可得()100.0050.020.040.0051m ⨯++++=, 解得0.03m =.(2)由频率分布直方图,可得成绩在[]90,100之间的频率为100.0050.05⨯=, 所以可估计所有参赛者中获得奖励的人数约为1200000.056000⨯=人. (3)根据频率分布直方图的平均数的计算公式,可得平均分的估计值为550.05650.2750.4850.3950.0576⨯+⨯+⨯+⨯+⨯=分.(1)求直方图的a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由; (3)估计居民月用水量的中位数.a ;(2)36000;(3)2.04.【答案】(1) 0.3【解析】(Ⅰ)由频率分布直方图,可知:月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1–(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(Ⅱ)由(Ⅰ)100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36000. (Ⅲ)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5所以2≤x<2.5.由0.50×(x–2)=0.5–0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1讲 统计与统计案【典例】【要点提炼】考点一 统计图表1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.【热点突出】【典例】1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )A .这11天复工指数和复产指数均逐日增加B .这11天期间,复产指数增量大于复工指数的增量C .第3天至第11天复工复产指数均增大都超过80%D .第9天至第11天复产指数增量大于复工指数的增量 【答案】 CD(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( ) A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸【答案】 A【解析】根据频率分布直方图可列下表:阅读时间(分钟) [0,10)[10,20) [20,30) [30,40) [40,50) [50,60]抽样人数(名) 10 18 22 25 20 5抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.【拓展训练】1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温不低于20 ℃的月份有5个【答案】 D【解析】由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是( ) A .获得A 等级的人数增加了 B .获得B 等级的人数增加了1.5倍 C .获得D 等级的人数减少了一半 D .获得E 等级的人数相同 【答案】 AB【解析】 设2018年参加“选择考”的总人数为x ,则2020年参加“选择考”的总人数为2x ,根据图表得出2018年和2020年各个等级的人数如表所示.由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x0.32x =1.5倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.【要点提炼】考点二 回归分析在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.【热点突破】【典例】2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(x i-x)2=80,(y i-y)2=9 000,(x i-x)(y i-y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i,y i)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.【解析】解(1)由已知得样本平均数y=120i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i,y i)(i=1,2,…,20)的相关系数r=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.规律方法样本数据的相关系数r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2,反映样本数据的相关程度,|r|越大,则相关性越强.【拓展训练】2 (1)已知某产品的销售额y与广告费用x之间的关系如下表:x(单位:万元) 0 1 2 3 4y(单位:万元)10 15 20 30 35若求得其线性回归方程为y ^=6.5x +a ^,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 【答案】 C【解析】 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),又线性回归方程y ^=6.5x +a ^经过样本点的中心,所以22=6.5×2+a ^,解得a ^=9,所以y ^=6.5x +9,当x =6时,y ^=48.(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y)数据中去掉D(3,10)后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数R 2变小D .解释变量x 与预报变量y 的相关性变弱 【答案】 A【解析】 ∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,解释变量x 与预报变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差平方和变小,故选A.【要点提炼】考点三独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n ad-bc2a+b a+c b+d c+d(其中n=a+b+c+d为样本容量).【热点突破】【典例】3 (2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50] (50,150] (150,475][0,35] 32 18 4(35,75] 6 8 12(75,115] 3 7 10(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150] (150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k0) 0.050 0.010 0.001k0 3.841 6.635 10.828【解析】解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)由所给数据,可得2×2列联表:SO2PM2.5[0,150] (150,475][0,75] 64 16(75,115] 10 10(3)根据2×2列联表中的数据可得K2=n ad-bc2a+b c+d a+c b+d=100×64×10-16×102 80×20×74×26≈7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.规律方法独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表. (2)K 2的观测值k 越大,对应的假设H 0成立的概率越小,H 0不成立的概率越大.【拓展训练】3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100附表:P(K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828由K 2=n ad -bc 2a +bc +d a +cb +d计算得,K 2的观测值k =100×45×22-20×13258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 【答案】 C【解析】 由题意知, K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的16,女生喜欢某视频APP 的人数占女生人数的23,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有( )附:P(K 2≥k 0)0.050 0.010 k 03.8416.635K 2=n ad -bc2a +bc +d a +cb +d.A .12人B .6人C .10人D .18人 【答案】 A【解析】 设被调查的男生人数为x ,则被调查的女生人数为x2,则2×2列联表为喜欢某视频APP不喜欢某视频APP总计男生 x 6 5x 6 x女生x 3 x 6x 2 总计 x 2x3x 2若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2⎝ ⎛⎭⎪⎫x 6×x 6-5x 6×x 32x ×x 2×x 2×x =3x 8≥3.841,则x≥3.841×83≈10.243,又x 2,x 3,x6均为整数,所以男生至少有12人.专题训练一、单项选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y|的值为( ) A .4 B .3 C .2 D .1 【答案】 A【解析】 依题意有x +y +10+11+95=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x =8,y =12或x =12,y =8,故|x -y|=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8 【答案】 C【解析】 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y =a +bx B .y =a +bx 2C .y =a +be xD .y =a +bln x【答案】 D【解析】 由散点图可以看出,点大致分布在对数型函数的图象附近.4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm ,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )A .甲、乙生产的零件尺寸的中位数相等B .甲、乙生产的零件质量相当C .甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好 【答案】 D【解析】 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65 【答案】 D【解析】 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确;得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C 正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D 错误. 二、多项选择题6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D.有99%的把握认为男、女生对该食堂服务的评价有差异【答案】AC【解析】对于选项A,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A正确;对于选项B,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B错误;因为k≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C正确,D错误.7.(2020·河北衡水中学月考)5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G经济产出所做的预测.结合上图,下列说法正确的是( )A.5G的发展带动今后几年的总经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.信息服务商与运营商的经济产出的差距有逐步拉大的趋势D.设备制造商在各年的经济产出中一直处于领先地位【答案】ABC【解析】由图易知A,B,C正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D错误.8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( )注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A .互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B .互联网行业中从事技术岗位的人数超过总人数的20%C .互联网行业中从事运营岗位的人数90后比80前多D .互联网行业中从事技术岗位的人数90后比80后多 【答案】 ABC【解析】 选项A ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确; 选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确;选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题9.某企业的一种商品的产量与成本数据如下表:产量x(万件) 14 16 18 20 22 成本y(元/件)12107a3若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=-1.15x +28.1,则a 的值为________. 【答案】 5【解析】 由题意知x =14+16+18+20+225=905=18,y =12+10+7+a +35=32+a5,又y =-1.15×18+28.1=7.4, 所以32+a5=7.4,解得a =5.10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.【答案】 200 20【解析】 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比【典例】为150,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%=20.11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)【答案】 ①②③【解析】 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号)①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 【答案】 ④【解析】 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加 1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值); (3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x(单位:万元) 1 2 3 4 5 销售收益y(单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.【解析】解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5.由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑5i =1x i y i =1×2+2×3+3×2+4×5+5×7=69,∑5i =1x 2i =12+22+32+42+52=55. 根据公式可求得b ^=69-5×3×3.855-5×32=1210=1.2, a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):4(中度污染)7 2 0(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好 空气质量不好附:K 2=n ad -bc2a +bc +d a +cb +d .P(K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828【解析】解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,等级为2的概率为5+10+12100=0.27,等级为3的概率为6+7+8100=0.21,等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45100=350.(3)2×2列联表如下:人次≤400人次>400 总计 空气质量好 33 37 70 空气质量不好22 8 30 总计5545100K 2=100×33×8-37×22255×45×70×30≈5.820>3.841,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。