统计与统计案例 专题

合集下载

统计与统计案例(文科)教程文件

统计与统计案例(文科)教程文件

统计与统计案例(文科)统计与统计案例第一节随机抽样1.下面的抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验答案:D2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )答案:D3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50 B.40 C.25 D.20答案: C4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14答案:B5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.答案:46.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B.100C.180 D.300答案:C7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.答案:58.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=()A.54 B.90 C.45 D.126答案:B9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.答案:3010.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:180011.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.答案:40第二节用样本估计总体12.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案: D13.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.①直方图中的a=________;②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案:①3 ②6 00014.某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.答案:1515.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案:A16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:①分别估计该市的市民对甲、乙两部门评分的中位数; ②分别估计该市的市民对甲、乙两部门的评分高于90的概率; ③根据茎叶图分析该市的市民对甲、乙两部门的评价.答案:①由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. ②由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.③由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大. 17.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?答案:(1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×1=5(户).518.重庆市2013年各月的平均气温(℃)数据的茎叶图如下图,则这组数据的中位数是( )A.19 B.20 C.21.5 D.23答案:B19.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④答案:B20.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4A.甲 B.乙 C.丙 D.丁答案:C第三节变量间的相关关系、统计案例1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√ 2.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 解析:选C 由散点图知③④具有相关关系.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ,则a =( )x 0 1 3 4 y2.24.34.86.7A.3.25 B .2.6 C .解析:选B 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.4.若回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位,y ( )A .平均增加1.5个单位B .平均增加2个单位C .平均减少1.5个单位D .平均减少2个单位解析:选 C 因为回归直线方程为y ^=2-1.5x ,所以b ^=-1.5,则变量x 增加一个单位,y 平均减少1.5个单位.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.6.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案:D7.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案:B8.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案: C9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2010)+a ^=6.5(x -2010)+3.2, 即y ^=6.5(x -2010)+260.2.(*)(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).10.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.精品资料仅供学习与交流,如有侵权请联系网站删除 谢谢11看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[听前试做](1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。

统计案例分析报告及典型例题

统计案例分析报告及典型例题

统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。

应用统计案例大赛优秀案例

应用统计案例大赛优秀案例

应用统计案例大赛优秀案例今天就给大家分享一个超有趣的应用统计案例大赛的优秀案例。

一、案例背景。

这个案例聚焦在校园里,你也知道,校园可是个充满活力和各种消费潜力的小社会呢。

现在奶茶在校园里那可是相当火爆,所以有个团队就盯上了这个现象,想要通过统计分析来搞清楚校园奶茶消费背后的门道。

二、数据收集。

他们可没少费功夫。

首先是问卷调查,在校园各个角落“逮”同学来填问卷。

问题设计得也很巧妙,像“你一周喝几次奶茶?”“你通常会选择什么价位的奶茶?”“你是因为什么原因选择某一家奶茶店(口味、品牌、距离还是促销活动)?”等等。

除了问卷调查,他们还跑到奶茶店门口去做实地观察,统计不同时间段的进店人数、购买奶茶的种类,甚至还记录了顾客等待的时间。

这就像在奶茶店周围安了好多双小眼睛,把各种数据都抓得死死的。

三、数据分析过程。

1. 描述性统计。

把收集来的数据进行初步整理,发现了一些很有意思的东西。

比如说,通过对问卷中“一周喝奶茶次数”的统计,发现大部分同学一周会喝2 3次奶茶。

这就像找到了校园奶茶消费的一个基本节奏。

而且,在价位选择上,10 15元这个区间的奶茶是最受欢迎的,这可能和同学们的零花钱预算有关呢。

2. 相关性分析。

然后他们就开始玩更高级的了。

做相关性分析的时候,发现离教学楼或者宿舍近的奶茶店,即使品牌不是那么知名,生意也还不错。

这说明距离对同学们选择奶茶店有着不小的影响。

而且,他们还发现,当一家奶茶店推出新口味的时候,如果能配合一些促销活动,销售量就会有明显的上升。

这就像是找到了打开奶茶销售更多的两把小钥匙——新口味和促销。

3. 聚类分析。

这个就更酷了。

他们根据同学们的消费习惯,把同学们分成了不同的类。

比如说,有“奶茶狂热型”,这类同学不管什么情况,每天都要喝奶茶,而且对价格不是特别敏感,只要好喝就行;还有“性价比追求者”,他们会在不同奶茶店之间比较价格和分量,总是选择最划算的那一款;还有“偶尔尝鲜型”,平时不怎么喝奶茶,但是看到新口味或者特别的包装就会忍不住去试试。

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

统计与统计案例PPT课件

统计与统计案例PPT课件
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学

新高考数学复习专题-专题二十 统计与统计案例(原卷版)

新高考数学复习专题-专题二十    统计与统计案例(原卷版)

专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。

江苏2018届高考数学总复习专题11.2统计与统计案例试题含解析

江苏2018届高考数学总复习专题11.2统计与统计案例试题含解析

专题11.2 统计与统计案例【三年高考】1. 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取▲ 件.【答案】18【解析】应从丙种型号的产品中抽取30060181000⨯=件,故答案为18.【考点】分层抽样【名师点睛】在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i∶N i=n∶N.2.【2016江苏】已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 . 【答案】0.1【考点】方差【名师点睛】本题考查的是总体特征数的估计,重点考查了方差的计算,本题有一定的计算量,属于简单题.认真梳理统计学的基础理论,特别是系统抽样和分层抽样、频率分布直方图、方差等,针对训练近几年的江苏高考类似考题,直观了解本考点的考查方式,强化相关计算能力.3.【2015江苏高考,2】已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________. 【答案】6【解析】46587666x+++++==【考点定位】平均数4. 【2017课标3,理3】某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是A .月接待游客量逐月增加B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳【答案】A【解析】【考点】 折线图【名师点睛】将频率分布直方图中相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率折线图,频率分布折线图的的首、尾两端取值区间两端点须分别向外延伸半个组距,即折线图是频率分布直方图的近似,他们比频率分布表更直观、形象地反映了样本的分布规律.5. 【2017山东,理5】为了研究某班学生的脚长(单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为(A )160 (B )163 (C )166 (D )170【答案】C【解析】试题分析:由已知22.5,160,160422.570,42470166x y a y ==∴=-⨯==⨯+= ,选C.【考点】线性相关与线性回归方程的求法与应用.【名师点睛】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程时在严格按照公式求解时,一定要注意计算的准确性.6. 【2017课标1,文2】为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg )分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数【答案】B【解析】 试题分析:刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B【考点】样本特征数【名师点睛】众数:一组数据出现次数最多的数叫众数,众数反应一组数据的多数水平; 中位数:一组数据中间的数,(起到分水岭的作用)中位数反应一组数据的中间水平; 平均数:反应一组数据的平均水平;方差:方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差.在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定.标准差是方差的算术平方根,意义在于反映一个数据集的离散程度.7. 【2017山东,文8】如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为A. 3,5B. 5,5C. 3,7D. 5,7【答案】A【解析】【考点】茎叶图、样本的数字特征【名师点睛】由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较繁琐. 利用茎叶图对样本进行估计是,要注意区分茎与叶,茎是指中间的一列数,叶是从茎的旁边生长出来的数.8.【2016高考新课标3理数改编】某旅游城市为向游客介绍本地的气温情况,绘制了一年中︒,B 月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15C︒.下面叙述不正确的是.点表示四月的平均最低气温约为5C︒以上②七月的平均温差比一月的平均温差大①各月的平均最低气温都在0C︒的月份有5个③三月和十一月的平均最高气温基本相同④平均气温高于20C【答案】④【解析】︒均在虚线框内,所以各月的平均最低气温都在0℃以上,①正确;由试题分析:由图可知0C图可在七月的平均温差大于7.5C ︒,而一月的平均温差小于7.5C ︒,所以七月的平均温差比一月的平均温差大,②正确;由图可知三月和十一月的平均最高气温都大约在5C ︒,基本相同,③正确;由图可知平均最高气温高于20℃的月份有3个或2个,所以④不正确. 考点:1、平均数;2、统计图.【易错警示】解答本题时易错可能有两种:(1)对图形中的线条认识不明确,不知所措,只觉得是两把雨伞重叠在一起,找不到解决问题的方法;(2)估计平均温差时易出现错误,错选②.9.【2016高考上海理数】某次体检,6位同学的身高(单位:米)分别为1.72,1.78,1.75,1.80,1.69,1.77则这组数据的中位数是_________(米).【答案】1.76【解析】试题分析:将这6位同学的身高按照从矮到高排列为:1.69,1.72,1.75,1.77,1.78,1.80,这六个数的中位数是1.75与1.77的平均数,显然为1.76.考点:中位数的概念.【名师点睛】本题主要考查中位数的概念,是一道基础题目.从历年高考题目看,涉及统计的题目,往往不难,主要考查考生的视图、用图能力,以及应用数学解决实际问题的能力. 10.2016高考北京文数】某网店统计了连续三天售出商品的种类情况:第一天售出19种商品,第二天售出13种商品,第三天售出18种商品;前两天都售出的商品有3种,后两天都售出的商品有4种,则该网店①第一天售出但第二天未售出的商品有______种;②这三天售出的商品最少有_______种.【答案】①16;②29C BA139142考点: 统计分析【名师点睛】本题将统计与实际情况结合,创新味十足,是能力立意的好题,关键在于分析商品出售的所有可能的情况,分类讨论做到不重复不遗漏,另外,注意数形结合思想的运用.11.【2015高考重庆,文4改编】重庆市2013年各月的平均气温(°C)数据的茎叶图如下 08 9 12 5 8 20 0 3 3 8 3 1 2则这组数据中的中位数是 .【答案】20【解析】由茎叶图可知总共12个数据,处在正中间的两个数是第六和第七个数,它们都是20,由中位数的定义可知:其中位数就是20.12.【2015高考陕西,文2改编】某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为 .(高中部)(初中部)男男女女60%70%【答案】137 【解析】由图可知该校女教师的人数为11070%150(160%)7760137⨯+⨯-=+=.13.【2015高考湖北,文2改编】我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 石.【答案】169【解析】设这批米内夹谷的个数为x ,则由题意并结合简单随机抽样可知,282541534x =,即281534169254x =⨯≈. 14.【2015高考广东,文12】已知样本数据1x ,2x ,⋅⋅⋅,n x 的均值5x =,则样本数据121x +,221x +,⋅⋅⋅,21n x +的均值为 .【答案】11【解析】因为样本数据1x ,2x ,⋅⋅⋅,n x 的均值5x =,所以样本数据121x +,221x +,⋅⋅⋅,21n x +的均值为2125111x +=⨯+=,所以答案应填:11.15.【2015高考北京,文14】高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .【答案】乙;数学【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.16.【2015高考北京,文17】某超市随机选取1000位顾客,记录了他们购买甲、乙、丙、丁四种商品的情况,整理成如下统计表,其中“√”表示购买,“×”表示未购买.(I )估计顾客同时购买乙和丙的概率;(II )估计顾客在甲、乙、丙、丁中同时购买中商品的概率;(III )如果顾客购买了甲,则该顾客同时购买乙、丙、丁中那种商品的可能性最大? (Ⅲ)与(Ⅰ)同理,可得:顾客同时购买甲和乙的概率可以估计为2000.21000=,顾客同时购买甲和丙的概率可以估计为1002003000.61000++=,顾客同时购买甲和丁的概率可以估计为1000.11000=,所以,如果顾客购买了甲,则该顾客同时购买丙的可能性最大. 16.【2015高考广东,文17】某城市100户居民的月平均用电量(单位:度),以[)160,180,[)180,200,[)200,220,[)220,240,[)240,260,[)260,280,[]280,300分组的频率分布直方图如图2.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[)220,240,[)240,260,[)260,280,[]280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[)220,240的用户中应抽取多少户?【解析】(1)由()0.0020.00950.0110.01250.0050.0025201x ++++++⨯=得:0.0075x =,所以直方图中x 的值是0.0075(2)月平均用电量的众数是2202402302+=,因为()0.0020.00950.011200.450.5++⨯=<,所以月平均用电量的中位数在[)220,240内,设中位数为a ,由()()0.0020.00950.011200.01252200.5a ++⨯+⨯-=得:224a =,所以月平均用电量的中位数是224(3)月平均用电量为[)220,240的用户有0.01252010025⨯⨯=户,月平均用电量为[)240,260的用户有0.00752010015⨯⨯=户,月平均用电量为[)260,280的用户有0.0052010010⨯⨯=户,月平均用电量为[]280,300的用户有0.0025201005⨯⨯=户,抽取比例11125151055==+++,所以月平均用电量在[)220,240的用户中应抽取12555⨯=户【2018年高考命题预测】概率统计试题在试卷中的题型仍是填空题型,纵观近几年高考数学试卷中,概率与统计是必考题,而且是基础题,有时以直方图或茎叶图提供问题的背景信息,预测2018年仍会出现此类题,因此掌握概率与统计的基础知识是学习的关键.【2018年高考考点定位】本知识点主要是:随机抽样常以选择、填空题考查分层抽样,难度较低.在用样本估计总体中,会读图、识图,会从频率分布直方图中分析样本的数字特征(众数、中位数、平均数等);重视茎叶图;要重视线性回归方程,不仅会利用公式求,还要能分析其特点(正相关、负相关、回归方程过样本点中心);重视独立性检验( 2×2列联表).【考点1】抽样方法、总体分布的估计【备考知识梳理】1.简单随机抽样:一般地,设一个总体的个体数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.2.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.3.总体:在数理统计中,通常把被研究的对象的全体叫做总体.4.频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.【规律方法技巧】分层抽样的步骤:(1)分层;(2)按比例确定每层抽取个体的个数;(3)各层抽样(方法可以不同);(4)汇合成样本.解决总体分布估计问题的一般程序如下:(1)先确定分组的组数(最大数据与最小数据之差除以组距得组数);(2)分别计算各组的频数及频率(频率=总数频数);(3)画出频率分布直方图,并作出相应的估计.【考点针对训练】1.某小区共有1000户居民,现对他们的用电情况进行调查,得到频率分布直方图如图所示,则该小区居民用电量的中位数为 ,平均数为 .【答案】155;156.8【解析】根据中位数的定义知中位数由200.005200.0150.0200.5m ⨯+⨯+⨯=,解得5m =,所以中位数为:1505155+=;平均数为:1200.0051400.0151600.0201800.0052000.0032200.002156.8⨯+⨯+⨯+⨯+⨯+⨯=,所以答案为:155;156.8.2.某城市100户居民的月平均用电量(单位:度),以[)160,180,[)180,200,[)200,220,[)220,240,[)240,260,[)260,280,[]280,300分组的频率分布直方图如图.(1)求直方图中的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[)220,240,[)240,260,[)260,280,[]280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[)220,240的用户中应抽取多少户? 【解析】(1)由()0.0020.00950.0110.01250.0050.0025201x ++++++⨯=得:0.0075x =,所以直方图中的值是0.0075.(2)月平均用电量的众数是2202402302+=;因为()0.0020.00950.011200.450.5++⨯=<,所以月平均用电量的中位数在[)220,240内,设中位数为,由()()0.0020.00950.011200.01252200.5a ++⨯+⨯-=得:224a =,所以月平均用电量的中位数是224.【考点2】相关性、最小二乘估计与统计案例 【备考知识梳理】1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关. 如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用表达式[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是我们所要求的直线,这种方法称为最小二乘法. (2)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数.∑∑∑∑=-=--=--=-Λ--=---=ni ni i ni ii ni ixn xy x n yx x xy y x xb 12211121)())((,-Λ-Λ-=x b y a3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y =bx +a 的斜率和截距的最小二乘法估计分别为:∑∑∑∑=-=--=--=-Λ--=---=ni ni i ni ii ni ixn xy x n yx x xy y x xb 12211121)())((,-Λ-Λ-=x b y a ).其中x =1n ∑i =1nx i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的中心.(3)相关系数①1()()nniii x x y y x yn x yr -------==∑∑r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系. 4.独立性检验(1)设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1. 2×2列联表构造一个随机变量2()()()()()n ad bc K a b c d a c b d -=++++其中d c b a n +++=为样本容量.(2)独立性检验:利用随机变量来判断“两个变量有关联”的方法称为独立性检验. (3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断①当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A ,B 有关联; ③当χ2>3.841时,有95%的把握判定变量A ,B 有关联; ④当χ2>6.635时,有99%的把握判定变量A ,B 有关联.【规律方法技巧】1.“相关关系与函数关系”的区别:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.2.三点提醒: 一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.三是独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.3.正确理解计算b ,a 的公式和准确的计算是求线性回归方程的关键.回归直线方程y =bx +a 必过样本点中心(x ,y ).在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.4.利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式22()()()()()n ad bc K a b c d a c b d -=++++,计算2K 值,2K 值越大,说明“两个变量有关系”的可能性越大. 【考点针对训练】1.已知x 、y 的取值如下表所示,若y 与x 线性相关,且yˆ=0.95x +,则=____________.【答案】6.2 【解析】244310=+++=x ,5.447.68.43.42.2=+++=y ,样本中心点,在回归直线上,所以代入aˆ295.05.4+⨯=,所以6.2ˆ=a 2.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:22n(ad bc )K (a b )(c d )(a c )(b d )-=++++参照附表,在如下结论:A .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 中正确的是 . 【答案】C【解析】由表计算得:22100(45153010)==3.0355457525K ⨯-⨯⨯⨯⨯,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,填C .【两年模拟详解析】1. 【苏北三市(连云港、徐州、宿迁)2017届高三年级第三次调研考试】已知一组数据3,6,9,8,4,则该组数据的方差是__________. 【答案】 (或5.2)【解析】2. 【2016-2017学年度苏锡常镇四市高三教学情况调研(二)】下表是一个容量为10的样本数据分组后的频数分布.若利用组中值近似计算本组数据的平均数x ,则x 的值为 .【答案】19.7 【解析】3. 【南京市、盐城市2017届高三年级第一次模拟】已知样本数据12345,,,,x x x x x 的方差23s =,则样本数据123452,2,2,2,2x x x x x 的方差为 ▲ . 【答案】12【解析】由题意得方差为2224312s =⨯=4. 【2017年第三次全国大联考江苏卷】已知样本7,8,9,,x y 的平均数为,且60xy =,则此样本的方差为_____________. 【答案】2 【解析】因为78985x y++++=,所以16x y +=,而60xy =,所以610x y =⎧⎨=⎩或106x y =⎧⎨=⎩,从而样本的方差为22221[(1)01(2)2]25⨯-+++-+=.5. 【2017年高考原创押题预测卷02(江苏卷)】某人次上班途中所花的时间(单位:分钟)分别为9,11,10,8,12,则这组数据的标准差为_______. 【答案】2【解析】因为这组数据的平均数是10591110812=++++=x ,所以其方差25)109()1011()1010()108()1012(222222=-+-+-+-+-=s ,故所求这组数据的标准差2=s .6. 【淮安、宿迁、连云港、徐州苏北四市2016届高三第二次调研】交通部门对某路段公路上行驶的汽车速度实施监控,从速度在h km /9050-的汽车中抽取150辆进行分析,得到数据的频率分布直方图如图所示,则速度在h km /70以下的汽车有 辆.)【答案】75【解析】由频率分布直方图得,速度在h km /70以下的汽车所占频率为(0.020.03)100.5+⨯=,则速度在h km /70以下的汽车有1500.575⨯=辆7.【江苏省清江中学数学模拟试卷】某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]中,其频率分布直方图如图所示,则其抽样的100根中,有 根在棉花纤维的长度大于25mm.【答案】40【解析】(0.0550.0250.015)10040⨯+⨯+⨯⨯=.8.【扬州市2015—2016学年度第一学期期末检测试题】某学校从高三年级共800名男生中随机抽取50名测量身高. 据测量被测学生身高全部介于155cm 和195cm 之间,将测量结果按如下方式分成八组:第一组[)160155,、第二组[)165160,、……、第八组[]195190,. 按上述分组方式得到的频率分布直方图的一部分如图所示,估计这所学校高三年级全体男生身高180cm 以上(含180cm )的人数为 .【答案】144【解析】由图得,身高180cm 以上(含180cm )的频率为()150.0080.0160.0420.060.18-⨯++⨯+=,则人数为8000.18144⨯=9.【南京市、盐城市2016届高三年级第一次模拟考试数学】某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽出55人,其中从高一年级学生中抽出20人,则从高三年级学生中抽取的人数为 . 【答案】17【解析】高一高二人数之比为10:9,因此高二抽出的人数为18人,高三抽出的人数为55-20-18=17人10.【苏州市2016届高三年级第一次模拟考试】若一组样本数据9,8,x ,10,11的平均数为10,则该组样本数据的方差为 . 【答案】2【解析】由题意得12x =,因此方差为221(12201)25++++=11.【江苏省扬州中学2015—2016学年第二学期质量检测】在一段时间内有2000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如下面的频率分布直方图所示.若该处高速公路规定正常行驶速度为90km/h ~120km/h ,试估计2000辆车中,在这段时间内以正常速度通过该处的汽车约有________辆.【答案】1700【解析】2000(0.0350.030.02)101700⨯++⨯=12.【南京市、盐城市2016届高三年级第二次模拟考试】如图所示,一家面包销售店根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图.若一个月以30天计算,估计这家面包店一个月内日销售量不少于150个的天数为 .【答案】【解析】950)002.0004.0(30=⨯+⨯13.【江苏省南京市2016届高三年级第三次学情调研适应性测试】一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则月收入在[2500,3000)范围内的应抽出人.【答案】25⨯⨯=【解析】由题意得:0.00055001002514.【南京市2016届高三年级第三次模拟考试】甲、乙两位选手参加射击选拔赛,其中连续5轮比赛的成绩(单位:环)如下表:则甲、乙两位选手中成绩最稳定的选手的方差是.【答案】0.02【一年原创真预测】1. 以下四个命题中:R的值判断模型的拟合效果, 2R越大,模型的拟合效果越①在回归分析中,可用相关指数2好;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;③若数据123,,n x x x x 的方差为1,则1232,2,22n x x x x 的方差为2;④对分类变量与y 的随机变量2k 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越大.其中真命题的个数为 . 【答案】2【入选理由】本题考查特称命题真假的判断,回归分析,相关系数,独立性检验等基础知识,意在考查考生转化能力,分析问题解决问题的能力,运算求解能力.此类知识属于高考冷门问题,近年高考有所重视,应多注意,故选此题.2.某单位为了了解某办公楼用电量y (度)与气温x (oC)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:得到的回归方程为a bx y+=ˆ,则a 0,b 0. 【答案】>,<【解析】依题意,画散点图知,两个变量负相关,所以0<b ,0>a .【入选理由】本题考查考查散点图、线性回归方程等基础知识,意在考查考生分析问题解决问题的能力,运算求解能力.近年高考加强了对线性回归方程的考查,应多注意,故选此题. 3.2015国际滑联世界花样滑冰锦标赛于3月23日至29日在上海举行,为调查市民喜欢这项赛事是否与年龄有关,随机抽取了55名市民,得到如下数据表:。

高考数学统计与统计案例专题讲解

高考数学统计与统计案例专题讲解

[明考情—备考如何学] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方 程、独立性检验等. 2.在概率与统计的交汇处命题,以解答题中档难度出现.
[研考点考向·破重点难点]
考点 1 抽样方法(基础型)
[知识整合] 1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少. 2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范 围:总体中的个体数较多. 3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几 部分组成. [注意] 无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量 和总体容量的比值.
解析:由题意得,从随机数表第 行第 8 列的数开始向右读,符合条件的前三个编 号依次是 331,455,068,故抽取的第 3 支疫苗的编号是 068. 答案:068
3.200 名职工年龄分布如图所示,从中随机抽取 40 名职工作样本,采用系统抽样 方法,按 1~200 编号分为 40 组,分别为 1~5,6~10,…,196~200,第 5 组抽 取号码为 23,第 9 组抽取号码为________;若采用分层抽样,40~50 岁年龄段应 抽取________人.
答案:0.98
3.(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女 顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
第二部分 高考热点 分层突破

高考数学:专题六 第三讲 统计、统计案例课件

高考数学:专题六 第三讲 统计、统计案例课件

特点和实施步骤,其次要熟练掌握系统抽样中被抽个体号码的确定 方法及分层抽样中各层人数的计算方法.
题型与方法
第三讲
变式训练 1 (2011· 湖北)某市有大型超市 200 家、中型超市 400 家、 小型超市 1 400 家,为掌握各类超市的营业情况,现按分层抽样方法
本 讲 栏 目 开 关
抽取一个容量为 100 的样本,应抽取中型超市________家.
考点与考题
第三讲
5.(2012· 湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm) 具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,„,n),用
本 讲 栏 目 开 关
最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不 . 正确的是 .. A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg ( )
18 3
本 讲 栏 目 开 关
31.5,35.5
1235.5,39.5
39.5,43.5
根据样本的频率分布估计,大于或等于 31.5 的数据约占 2 1 1 2 A. B. C. D. 11 3 2 3
解析
( B )
由条件可知,落在大于或等于 31.5 的数据有 12+7+3= 22 1 22(个),故所求概率约为66=3.
^
^
考点与考题
第三讲
4.(2011· 四川)有一个容量为 66 的样本, 数据的分组及各组的频数如下:

11.5,15.5 27.5,31.5

专题四 统计、统计案例题型及解题技巧汇总

专题四 统计、统计案例题型及解题技巧汇总

专题三统计、统计案例[练真题·考什么]1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半3.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个4.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳5.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[析命题·学什么]●考点一抽样方法【例1】(1)从编号为01,02,…,49,50的50个个体中利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()(2)某班50名学生中有女生20名,按男女比例用分层抽样的方法,从全班学生中抽取部分学生进行调查,已知抽到的女生有4名,则本次调查抽取的人数是()A.8 B.10 C.12 D.15规律方法两种抽样方法的注意点1.系统抽样(1)所分段数等于样本容量,即每段取一个.(2)第一段入样个体编号为a1,当每段含有n0个个体时,第k段入样个体编号为a1+(k-1)·n0.(3)当总体不能分成整数段时,要先在总体中等可能剔除若干个体.2.分层抽样(1)适用于总体由差异明显的几部分组成的情况.(2)当总体容量为N,样本容量为n时,有下列关系式:某层入样个体数该层个体总数=n N.「对点训练」1.某班有学生60人,将这60名学生随机编号为1~60号,用系统抽样的方法从中抽出4名学生,已知3号、33号、48号学生在样本中,则样本中另一个学生的编号为()A.28 B.23 C.18 D.13●考点二用样本估计总体【例2】某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,92.某校有高级教师90人,一级教师120人,二级教师75人,现按职称用分层抽样的方法抽取38人参加一项调查,则抽取的一级教师人数为()A.10 B.12 C.16 D.180],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.规律方法与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据.可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.(3)与概率有关的综合问题,可先求出频率,再利用古典概型等知识求解.「对点训练」1.为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④2.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表(1)在下面坐标系上作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)●考点三回归分析及应用命题角度一:线性回归分析【例3】(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得97.9161161==∑=i i x x ,()212.01616116116121612≈-=-=∑∑==i i i i x x x x s , ()439.185.81612≈-∑=i i ,()()78,25.8161-=--∑=i x x i i ,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在()s x s x 3,3+-之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在()s x s x 3,3+-之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数()()()()∑∑∑===----=ni i ni i ni iiy y x x y y x x r 12121,09.0008.0≈.命题角度二:非线性回归分析 【例4】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费ix 和年销售量i y ()8,7,6,5,4,3,2,1=i 数据作了初步处理,得到下面的散点图及一些统计量的值.表中i i x w =,∑==18i i w w(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据()11,v u ,()22,v u ,…,()n n v u ,,其回归直线u vβαˆˆˆ+=的斜率和截距的最小二乘估计分别为()()()∑∑==---=8181ˆi ii i iu uv v u uβ,u v βαˆˆ-=.规 律 方 法进行回归分析时的注意事项(1)所作回归分析要有实际意义. (2)回归分析前,最好先作出散点图.(3)应用回归方程进行预测时,不要使用超出资料所包括范围的自变量数值. (4)预测的回归方程只能反映一定时期内事物间的相互关系,随着时间的推移,这种关系会起变化.「对 点 训 练」(2018·陕西质量检测)基于移动互联网技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:型拟合市场占有率y 与月份代码x 之间的关系;(2)求y 关于x 的线性回归方程,并预测该公司2018年2月份的市场占有率. 参考数据:()5.17612=-∑=i i x x ,()()3561=--∑=i iiy y x x ,5.361330=. 参考公式:相关系数()()()()∑∑∑===----=ni ni i i ni iiy y x x y y x x r 11221,回归直线方程为a xb yˆˆˆ+=,其中()()()∑∑==---=n i ini iix x y yx x b 121ˆ,x b y aˆˆ-=●考点四统计、统计案例与概率的综合问题【例5】(2018·河北“五个一名校联盟”模拟)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:(1)(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由;(3)如果按性别进行分层抽样,从以上爱好该项运动的大学生中抽取6人组建“运动达人社”,现从“运动达人社”中选派3人参加某项校际挑战赛,记选出3人中的女大学生人数为X,求X的分布列和数学期望.附:.K2=(a+b)(c+d)(a+c)(b+d)规律方法独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.「对点训练」《最强大脑》是江苏卫视借鉴德国节目《Super Brain》推出的大型科学竞技类真人秀节目,是专注于传播脑科学知识和脑力竞技的节目.某机构为了了解大学生喜欢《最强大脑》是否与性别有关,对某校的100名大学生进行了问卷调查,得到如下列联表:0.4.(1)请将上述列联表补充完整;(2)判断在犯错误的概率不超过0.001的前提下能否认为喜欢《最强大脑》与性别有关,并说明你的理由;(3)已知在被调查的大学生中有5名是大一学生,其中3名喜欢《最强大脑》,现从这5名大一学生中随机抽取2人,抽到喜欢《最强大脑》的人数为X,求X 的分布列与数学期望.下面的临界值表仅供参考:参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d专题三统计、统计案例(答案)[练真题·考什么]1.解析:刻画评估这种农作物亩产量稳定程度的指标是标准差.答案:B2.解析:设建设前经济收入为a,则建设后经济收入为2a,由题图可得下表:答案:A3.解析:根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D不正确.答案:D4.解析:观察2014年的折线图,发现从8月至9月,以及10月开始的三个月接待游客量都是减少的,故A选项是错误的.答案:A5.解:(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2=40(15×15-5×5)20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.●考点一 抽样方法【例1】 [解析] (1)由题意知选定的第一个数为65(第1行的第5列和第6列),按由左到右选取两位数(大于50的跳过、重复的不选取),前5个个体编号为08,12,14,07,43.故选出来的第5个个体的编号为43.(2)因为50名学生中有女生20名,按男女比例用分层抽样的方法,抽到的女生有4名,所以本次调查抽取的人数是50×420=10.[答案] (1)D (2)B「对 点 训 练」1.解析:抽样间隔为15,故另一个学生的编号为3+15=18.答案:C2.解析:根据分层抽样性质,设抽取的一级教师人数为m ,则12090+120+75=m 38,解得m =16. 答案:C●考点二 用样本估计总体【例2】 [解] (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5, 所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30,所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 「对 点 训 练」1.解析:由茎叶图中的数据通过计算求得29=甲x ,29=乙x ,6.3=甲s ,2=乙s ,∴乙甲x x <,乙甲s s >,故①④正确.选B.答案:B2.解:(1)如右图所示(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m 3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35 m 3的概率的估计值为0.48. (3)该家庭未使用节水龙头50天日用水量的平均数为1x =150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为2x =150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3). ●考点三 回归分析及应用 命题角度一:线性回归分析【例3】 [解] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为()()()()18.0439.1816212.078.25.85.816121612161-≈⨯⨯-≈----=∑∑∑===i i ii ii x x i x x r由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于97.9=x ,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在()s x s x 3,3+-以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为 115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.134.159197.916212.016221612≈⨯+⨯=∑=i ix,剔除第13个数据,剩下数据的样本方差为 115×(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09. 命题角度二:非线性回归分析【例4】 [解] (1)由题目散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令x w =,先建立y 关于w 的线性回归方程.由于()()()686.18.108ˆ81281==---=∑∑==i ii iiw w y yw w d, 6.1008.668563ˆˆ=⨯-=-=w d y c, 所以y 关于w 的线性回归方程为w y686.100ˆ+=,因此y 关于x 的回归方程为x y686.100ˆ+=. (3)①由(2)知,当x =49时,年销售量y 的预报值6.57649686.100ˆ=+=y, 年利润z 的预报值:32.66492.06.576ˆ=-⨯=z. ②根据(2)的结果知,年利润z 的预报值()12.206.13686.1002.0ˆ++-=-+⨯=x x x x z . 所以当8.626.13==x , 即x =46.24时,zˆ取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 「对 点 训 练」 (2018·陕西质量检测)解:(1)作出散点图如右图所示:166212015161311=+++++=y∴()76612=-∑=i i y y ,∴()()()()96.05.3635133035765.173511221≈≈≈⨯=----=∑∑∑===n i ni iini iiy y x x y y x x r .∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y 与月份代码x 之间的关系.(2)()()()25.1735ˆ121==---=∑∑==ni ini iix x y yx x b,x =1+2+3+4+5+66=3.5,∴95.3216ˆˆ=⨯-=-=x b y a, ∴y 关于x 的线性回归方程为92ˆ+=x y. 2018年2月的月份代码为x =7,∴yˆ=2×7+9=23, ∴估计该公司2018年2月份的市场占有率为23%. ●考点四 统计、统计案例与概率的综合问题 【例5】 [解] (1)题中的2×2列联表补充如下:(2)K 2=10055×45×60×40≈8.25>6.635,所以有99%的把握认为是否爱好该项运动与性别有关.(3)由题意,抽取6人中包括男生4名,女生2名,X 的取值为0,1,2,则P (X =0)=C 34C 36=15,P (X =1)=C 24C12C 36=35,P (X =2)=C 14C 22C 36=15,故X 的分布列为所以数学期望E (X )=0×15+1×35+2×15=1.规 律 方 法「对 点 训 练」解:(1)因为在100人中随机抽取1人抽到不喜欢《最强大脑》的大学生的概率为0.4,所以不喜欢《最强大脑》的大学生人数为100×0.4=40,其中男生有10人,则女生有30人,列联表补充如下:K 2=100×(40×30-20×10)260×40×50×50≈16.667>10.828,所以在犯错误的概率不超过0.001的前提下能认为喜欢《最强大脑》与性别有关.(3)X 的所有可能取值为0,1,2. 依题意知,X 服从超几何分布,所以P (X =0)=C 03C 22C 25=110,P (X =1)=C 13C 12C 25=610=35,P (X =2)=C 23C 02C 25=310.所以X 的分布列为故数学期望E (X )=0×110+1×35+2×310=65.。

高中数学《统计与统计案例》课件

高中数学《统计与统计案例》课件
^
设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用 模型②得到的预测值更可靠.
13
考点整合
1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样, 体现了抽样的公平性,但又各有其特点和适用范围.
位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60
=90,解得 x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计
值为17000=0.7.故选 C.
解 (1)由调查数据,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客对该商场
服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为3500=0.6,因此女顾
客对该商场服务满意的概率的估计值为 0.6.
8
(2)K2 的观测值 k=100×5(0×405×0×207-0×303×010)2≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务 的评价有差异.
^
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿 元).
12
(2)利用模型②得到的预测值更可靠. 理由如下: 从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+ 13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境 基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础

高三数学复习专题三统计与案例

高三数学复习专题三统计与案例

专题三统计与案例学校:___________姓名:___________班级:___________考号:___________一、解答题1.某高校数学系为了控制大一学生上课使用手机,针对上课使用手机情况,进行量化比,若发现上课使用手机则扣除其对应的积分,根据调查发现每次被扣分数与本系一大学生每周上课使用手机人数的关系如下表所示:(1)试根据以上数据,建立y 关于x 的回归直线方程(结果保留一位小数);参考公式:线性回归方程y bx a =+中,1221,ni ii nii x ynxy b a y bx xnx==-==--∑∑.(2)根据上述回归直线方程分析:每次扣分为多少时(精确到整数分)该系大一新生被扣分的总数最大; (3)若学校规定,大一新生每学期(按20周上课计算)因为上课使用手机被扣分总数不超过1000分,则该系大一被定为控制手机合格,那么,每周上课使用手机至少扣多少分时(扣分不低于5分,精确到整数),31.6≈)2.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金,现该企业为了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据.通过对比分析,建立了两个函数模型:①2y x αβ=+;②e x t y λ+=,其中,,,tαβλ均为常数,e 为自然对数的底数.令2i i u x =,ln (1,2,,10)i v y i ==,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好;(2)根据(1)的选择及表中数据,建立y 关于x 的回归方程(回归系数精确到0.01).附:相关系数()()niix x y y r --=∑线性回归直线方程y bx a =+,其中附:()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.3.2021年10月16日,搭载“神州十三号”的火箭发射升空,这是一件让全国人民普遍关注的大事,因此每天有很多民众通过手机、电视等方式观看有关新闻.某机构将每天关注这件大事的时间在2小时以上的人称为“天文爱好者”,否则称为“非天文爱好者”,该机构通过调查,并从参与调查的人群中随机抽取了100人进行分析,得到下表(单位:人)(1)将上表中的数据填写完整,并判断能否在犯错误的概率不超过0.005的前提下认为“天文爱好者”或“非天文爱好者”与性别有关?(2)现从抽取的女性人群中,按“天文爱好者”和“非天文爱好者”这两种类型进行分层抽样抽取5人,然后再从这5人中随机选出3人,求其中至少有1人是“天文爱好者”的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.4.COP15大会原定于2020年10月15-28日在昆明举办,受新冠肺炎疫情影响,延迟到今年10月11-24日在云南昆明举办,同期举行《生物安全议定书》、《遗传资源议定书》缔约方会议.为助力COP15的顺利举行,来自全省各单位各部门的青年志愿者们发扬无私奉献精神,用心用情服务,展示青春风采.会议结束后随机抽取了50名志愿者,统计了会议期间每个人14天的志愿服务总时长,得到如图的频率分布直方图:(1)求x的值,估计抽取的志愿者服务时长的中位数;20,40,80,100这两组样本中随机抽取6名志愿者,记录每个人的服务总时长得(2)用分层抽样的方法从[)[)到如图所示的茎叶图:①已知这6名志愿者服务时长的平均数为67,求m的值;80,100这组的概率.②若从这6名志愿者中随机抽取2人,求所抽取的2人恰好都是[)5.为了了解高二学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3;第二小组频数为12.(1)第二小组的频率是多少,样本容量是多少;(2)若次数在110以上(含110次)为达标,试估计该学校全体高二学生的达标率是多少;(3)在这次测试中,估计学生跳绳次数的众数和中位数、平均数各是多少.(结果均保留整数.)6.2021年10月16日,搭载“神州十三号”的火箭发射升空,这是一件让全国人民普遍关注的大事,因此每天有很多民众通过手机、电视等方式观看有关新闻.某机构将每天关注这件大事的时间在2小时以上的人称为“天文爱好者”,否则称为“非天文爱好者”,该机构通过调查,并从参与调查的人群中随机抽取了100人进行分析,得到下表(单位:人):(1)将上表中的数据填写完整,并判断能否在犯错误的概率不超过0.005的前提下认为“天文爱好者”或“非天文爱好者”与性别有关?(2)现从抽取的女性人群中,按“天文爱好者”和“非天文爱好者”这两种类型进行分层抽样抽取5人,然后再从这5人中随机选出3人,记其中“天文爱好者”的人数为X,求X的分布列和数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.7.某投资公司2012年至2021年每年的投资金额x (单位:万元)与年利润增量y (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了y 关于x 的两个回归模型;模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.5020ˆ.5yx =-;模型②:由图中样本点的分布,可以认为样本点集中在由线:ln y b x a =+的附近,对投资金额x 做换元,令ln t x =,则y b t a =⋅+,且有101010102111122.00,230,569.00,50.92ii i i i i i i i ty t y t ========∑∑∑∑,(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本()()1,1,2,,i t y i n =⋯的最小乘估计公式为()()()121ˆˆˆ,niii ni i t t y y bay bt t t ==--==--∑∑;参考数据:ln20.6931,ln5 1.6094≈≈.8.下图是立德学校高二育才班摸底考试数学成绩不低于90分的人数的频率分布直方图,为激励学生的学习热情,班级决定对数学成绩高于110分的同学进行奖励.(1)若图中成绩在[100,110)分数段的人数为12人,求此次考试应奖励的人数;(2)用统计学知识估计数学成绩在90分及以上学生的数学成绩的中位数和平均数.(结果保留整数)9.某城市在进行新冠疫情防控中,为了解居民对新冠疫情防控的满意程度,组织居民给活动打分(分数为40,100内﹒现将这些分整数,满分为100分),从中随机抽取一个容量为180的样本,发现所有数据均在[]数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示﹒观察图形,回答下列问题:60,70的频数;(1)算出第三组[)(2)请根据频率分布直方图,估计样本的众数、中位数和平均数﹒(每组数据以区间的中点值为代表) 10.某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,实验数据经整理得到如下的折线图:由图可以看出,这种酶的活性指标值y 与温度x 具有较强的线性相关关系,请用相关系数加以说明.附:()()6185i ii x xy y =--=∑5.5= 2.65≈,样本相关系数()()niix x y y r --=∑11.新个体经济是中国经济社会数字化转型条件下出现的新生事物,指微商电商,网络直播、职业创作者等,下表是2021年1至4月份某市新增“微商电商”的统计数据:(1)请利用所给数据求新增微商电商个数y 与月份x 之间的线性回归方程ˆˆˆybx a =+,并预测该市2021年5月新增“微商电商”的个数(结果用四舍五入法保留整数);(2)一般认为当||0.9r ≥时,线性回归方程的拟合效果非常好;当0.75|0.9|r <≤时,线性回归方程的拟合效果良好.试问该线性回归方程的拟合效果是非常好还是良好?说明你的理由.1122211()()ˆ()()n ni iiii i nniii i x y nxy x x y x bxn x x x ====---==--∑∑∑∑,()()nni iiix y nxyx x yy r---=∑∑ˆˆ17.0294ay bx =-≈18.1659≈19.2354≈.。

高考数学考点二十《统计与统计案例》课件

高考数学考点二十《统计与统计案例》课件

100
200
则 K2=2001×00(×6100×0×601-004×0×10400)2=8>6.635,
所以有 99%以上的把握认为是否持乐观态度与国内外差异有关.
四、解答题 13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设 备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10 件产品,得到各件产品该项指标数据如下:
考点二十 统计与统计案例
一、选择题(在每小题给出的四个选项中,只有一项符合题目要求) 1.(2021·河北张家口第三次模拟)某中学春季运动会上,12 位参加跳高 半决赛同学的成绩各不相同,按成绩从高到低取前 6 位进入决赛,如果小明 知道了自己的成绩后,则他可根据其他 11 位同学成绩的哪个数据判断自己 能否进入决赛( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
答案 A 解析 易知题中图(1)和图(3)是正相关,图(2)与图(4)是负相关,且图(1) 与图(2)中的样本点集中分布在一条直线附近,则 r2<r4<0<r3<r1.故选 A.
5.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如
下列联表:


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110

K2

n(ad-bc)2 (a+b)(c+d)(a+c)(b+d)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与统计案例专题[考情考向分析] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体平均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1(1)某学校在高一新生入学后为了解学生的体质情况,决定从该校的1 000名高一新生中采用系统抽样的方法抽取50名学生进行体质分析,已知样本中第一个号为007号,则抽取的第10个学生的编号为()A.107 B.097 C.207 D.187(2)已知某高级中学高一、高二、高三学生人数分别为880,860,820,现用分层抽样的方法从该校抽调128人,则在高二年级中抽调的人数为________.思维升华(1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的.(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1(1) 为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) A .简单随机抽样 B .按性别分层抽样 C .按年龄段分层抽样D .系统抽样(2)(2018·永州模拟)现从已编号(1~50)的50位同学中随机抽取5位了解他们的数学学习状况,用每部分选取的号码间隔一样的系统抽样方法所选取的5位同学的编号可能是( ) A .5,10,15,20,25 B .3,13,23,33,43 C .1,2,3,4,5 D .2,10,18,26,34 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( ) A .-11 B .3 C .9 D .17(2)某高校调查了320名学生每周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图可知,这320名学生中每周的自习时间不足22.5小时的人数约是( )A.68 B.72 C.76 D.80跟踪演练2(1)为了从甲、乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲、乙两人的得分情况如图所示,若甲、乙两人的平均成绩分别是x甲,x乙,则下列说法正确的是()A.x甲>x乙,乙比甲成绩稳定,应选乙参加比赛B.x甲>x乙,甲比乙成绩稳定,应选甲参加比赛C.x甲<x乙,甲比乙成绩稳定,应选甲参加比赛D.x甲<x乙,乙比甲成绩稳定,应选乙参加比赛(2)下面是追踪调查200个某种电子元件寿命(单位:h)的频率分布直方图,其中300~400,400~500的两组数据丢失,下列四个说法中有且只有一个与原数据相符,这个说法是()①寿命在300~400的频数是90;②寿命在400~500的矩形的面积是0.2;③用频率分布直方图估计电子元件的平均寿命为150×0.1+250×0.15+350×0.45+450×0.15+550×0.15;④寿命超过400 h的频率为0.3.A.①B.②C.③D.④热点三统计案例1.线性回归方程方程y^=b^x+a^称为线性回归方程,其中b^=∑ni=1x i y i-n x y∑ni=1x2i-n x2,a^=y-b^x,(x,y)称为样本点的中心.2.随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.例3 某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x与物理成绩y如下表:数据表明y与x之间有较强的线性关系.(1)求y 关于x 的线性回归方程;(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩; (3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人.能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?参考数据:回归直线的系数b ^=∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P ()K 2≥6.635=0.01,P ()K 2≥10.828=0.001.思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(x ,y ),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K 2即可. 跟踪演练3 下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份-2013.(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .真题体验1. 如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为________.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为________.3.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下列叙述不正确的是________.(填序号)①各月的平均最低气温都在0 ℃以上;②七月的平均温差比一月的平均温差大;③三月和十一月的平均最高气温基本相同;④平均最高气温高于20 ℃的月份有5个.答案④解析由题意知,平均最高气温高于20 ℃的有七月,八月,故④不正确.4.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.押题预测1.某公司为了解用户对其产品的满意度,从甲、乙两地分别随机调查了10个用户,将满意度的分数绘成茎叶图,如图所示.设甲、乙两地的满意度分数的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则()A.x甲<x乙,m甲>m乙B.x甲>x乙,m甲>m乙C.x甲>x乙,m甲<m乙D.x甲<x乙,m甲<m乙押题依据从茎叶图中提取数字的特征(如平均数、众数、中位数等)是高考命题的热点题型.2.某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.押题依据 频率分布直方图多以现实生活中的实际问题为背景,对图形的理解应用可以考查学生的基本分析能力,是高考的热点.3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件大约需要多少小时?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x )押题依据 线性回归分析在生活中具有很强的应用价值,是高考的一个重要考点.A 组 专题通关1.我校高三8个学生参加数学竞赛的得分用茎叶图表示,其中茎为十位数,叶为个位数,则这组数据的平均数和方差分别是( )A .91,9.5B .91,9C .92,8.5D .92,8 2.A 地的天气预报显示,A 地在今后的三天中,每一天有强浓雾的概率为30%,现用随机模拟的方法估计这三天中至少有两天有强浓雾的概率:先利用计算器产生0~9之间整数值的随机数,并用0,1,2,3,4,5,6表示没有强浓雾,用7,8,9表示有强浓雾,再以每3个随机数作为一组,代表三天的天气情况,产生了如下20组随机数: 402 978 191 925 273 842 812 479 569 683 231 357 394 027 506 588 730 113 537 779 则这三天中至少有两天有强浓雾的概率近似值为( )A.14B.25C.710D.153.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( ) A .若K 2的观测值k =6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B .由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C .若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D .以上三种说法都不正确4.“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.“搜索指数”越大,表示网民对该关键词的搜索次数越多,对该关键词相关的信息关注度也越高.下图是2017年9月到2018年2月这半年中,某个关键词的搜索指数变化的走势图.根据该走势图,下列结论正确的是( )A .这半年中,网民对该关键词相关的信息关注度呈周期性变化B .这半年中,网民对该关键词相关的信息关注度不断减弱C .从网民对该关键词的搜索指数来看,去年10月份的方差小于11月份的方差D .从网民对该关键词的搜索指数来看,去年12月份的平均值大于今年1月份的平均值 5.下列说法中正确的是( )①相关系数r 用来衡量两个变量之间线性关系的强弱,|r |越接近于1,相关性越弱; ②回归直线y ^=b ^x +a ^一定经过样本点的中心(x ,y );③随机误差e 满足E (e )=0,其方差D (e )的大小用来衡量预报的精度; ④相关指数R 2用来刻画回归的效果,R 2越小,说明模型的拟合效果越好.A .①②B .③④C .①④D .②③ 6.已知某市A 社区35岁至45岁的居民有450人,46岁至55岁的居民有750人,56岁至65岁的居民有900人.为了解该社区35岁至65岁居民的身体健康状况,社区负责人采用分层抽样技术抽取若干人进行体检调查,若从46岁至55岁的居民中随机抽取了50人,试问这次抽样调查抽取的人数是________.7.用系统抽样法(按等距离的规则)从160部智能手机中抽取容量为20的样本,现将这160部智能手机随机地从001~160编号,按编号顺序平均分成20组:001~008号,009~016号,017~024号,…,153~160号,若第9组与第10组抽出的号码之和为140,则第1组中抽取的号码是________.8.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.9.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.10.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.B组能力提高11.某公司有30名男职员和20名女职员,公司进行了一次全员参与的职业能力测试,现随机询问了该公司5名男职员和5名女职员在测试中的成绩(满分为30分),可知这5名男职员的测试成绩分别为16,24,18,22,20,5名女职员的测试成绩分别为18,23,23,18,23,则下列说法一定正确的是()A .这种抽样方法是分层抽样B .这种抽样方法是系统抽样C .这5名男职员的测试成绩的方差大于这5名女职员的测试成绩的方差D .该测试中公司男职员的测试成绩的平均数小于女职员的测试成绩的平均数12.某青少年成长关爱机构为了调查所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l .根据图中数据,下列对该样本描述错误的是( )A .据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线l 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l 上13.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得线性回归方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.14.某工厂有两台不同机器A 和B 生产同一种产品各10万件,现从各自生产的产品中分别随机抽取20件,进行品质鉴定,鉴定成绩的茎叶图如下所示:该产品的质量评定标准规定:鉴定成绩达到[90,100)的产品,质量等级为优秀;鉴定成绩达到[80,90)的产品,质量等级为良好;鉴定成绩达到[60,80)的产品,质量等级为合格.将这组数据的频率视为整批产品的概率.(1)从等级为优秀的样本中随机抽取两件,记X为来自B机器生产的产品数量,写出X的分布列,并求X的期望;(2)完成下列2×2列联表,以产品等级是否达到良好以上(含良好)为判断依据,判断能不能在误差不超过0.05的情况下,认为B机器生产的产品比A机器生产的产品好;(3)已知优秀等级产品的利润为12元/件,良好等级产品的利润为10元/件,合格等级产品的利润为5元/件,A机器每生产10万件的成本为20万元,B机器每生产10万件的成本为30万元.该工厂决定:按样本数据测算,两种机器分别生产10万件产品,若收益之差达到5万元以上,则淘汰收益低的机器,若收益之差不超过5万元,则仍然保留原来的两台机器.你认为该工厂会仍然保留原来的两台机器吗?附:(1)独立性检验计算公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.(2)临界值表:统计与统计案例专题答案[考情考向分析] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体平均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1(1)某学校在高一新生入学后为了解学生的体质情况,决定从该校的1 000名高一新生中采用系统抽样的方法抽取50名学生进行体质分析,已知样本中第一个号为007号,则抽取的第10个学生的编号为( )A .107B .097C .207D .187 答案 D解析 根据题意组距为1 00050=20,则抽取学生的编号组成以7为首项,20为公差的等差数列,其通项公式为a n =7+20(n -1),∴a 10=7+20()10-1=187.(2)已知某高级中学高一、高二、高三学生人数分别为880,860,820,现用分层抽样的方法从该校抽调128人,则在高二年级中抽调的人数为________. 答案 43解析 由题意可知,在高二年级中抽调的人数为128×860880+860+820=43.思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的. (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1 (1) 为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) A .简单随机抽样 B .按性别分层抽样 C .按年龄段分层抽样 D .系统抽样答案 C解析 我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.了解某地区的“微信健步走”活动情况,按年龄段分层抽样,这种方式具有代表性,比较合理.(2)(2018·永州模拟)现从已编号(1~50)的50位同学中随机抽取5位了解他们的数学学习状况,用每部分选取的号码间隔一样的系统抽样方法所选取的5位同学的编号可能是( ) A .5,10,15,20,25 B .3,13,23,33,43 C .1,2,3,4,5 D .2,10,18,26,34 答案 B解析 由系统抽样方法的概念可知,抽取5位,必须每层都有,则每10个里面有1个,所以符合要求的编号可能是3,13,23,33,43.热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( ) A .-11 B .3 C .9 D .17 答案 C解析 设没记清的数为x ,若x ≤2,则这列数为x,2,2,2,4,5,10,平均数为25+x7,中位数为2,众数为2,所以2×2=25+x7+2,得x =-11;若2<x ≤4,则这列数为2,2,2,x,4,5,10,则平均数为25+x7,中位数为x ,众数为2,所以2x =25+x7+2,得x =3;若x ≥5,则这列数为 2,2,2,4,5,x,10或2,2,2,4,5,10,x ,则平均数为25+x 7,中位数为4,众数为2,所以2×4=25+x 7+2,得x =17,所以-11+3+17=9.(2)某高校调查了320名学生每周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图可知,这320名学生中每周的自习时间不足22.5小时的人数约是( )A.68 B.72 C.76 D.80答案 B解析由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数约是320×(0.02+0.07)×2.5=72.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的平均数、众数、中位数和方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.跟踪演练2(1)为了从甲、乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲、乙两人的得分情况如图所示,若甲、乙两人的平均成绩分别是x甲,x 乙,则下列说法正确的是()A .x 甲>x 乙,乙比甲成绩稳定,应选乙参加比赛B .x 甲>x 乙,甲比乙成绩稳定,应选甲参加比赛C .x 甲<x 乙,甲比乙成绩稳定,应选甲参加比赛D .x 甲<x 乙,乙比甲成绩稳定,应选乙参加比赛 答案 D解析 由茎叶图可知,甲的平均数是x 甲=72+78+79+85+86+926=82,乙的平均数是x 乙=78+86+87+87+91+936=87,所以乙的平均数大于甲的平均数,即x 甲<x 乙,从茎叶图可以看出乙的成绩比较稳定,应选乙参加比赛.(2)(2018·大庆质检)下面是追踪调查200个某种电子元件寿命(单位:h)的频率分布直方图,其中300~400,400~500的两组数据丢失,下列四个说法中有且只有一个与原数据相符,这个说法是()①寿命在300~400的频数是90;②寿命在400~500的矩形的面积是0.2;③用频率分布直方图估计电子元件的平均寿命为150×0.1+250×0.15+350×0.45+450×0.15+550×0.15;④寿命超过400 h的频率为0.3.A.①B.②C.③D.④答案 B解析若①正确,则300~400对应的频率为0.45,则400~500对应的频率为0.15,明显与图不一致,故①不符合原数据;若②正确,则300~400对应的频率为0.4,频数为80,则①错误;电子元件的平均寿命为150×0.1+250×0.15+350×0.4+450×0.2+550×0.15,则③错误;寿命超过400 h的频率为0.2+0.15=0.35,则④错误,故符合题意.由[400,500)对应的频率明显大于0.15知③,④不符合原数据.热点三 统计案例 1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x ,(x ,y )称为样本点的中心. 2.随机变量 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .例3 某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x 与物理成绩y 如下表:数据表明y 与x 之间有较强的线性关系. (1)求y 关于x 的线性回归方程;(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩; (3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人.能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?参考数据:回归直线的系数b ^=∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P ()K 2≥6.635=0.01,P ()K 2≥10.828=0.001. 解 (1)由题意可知x =120,y =90,∑i =15(x i -x )(y i -y )=(145-120)(110-90)+(130-120)×(90-90)+(120-120)(102-90)+(105-120)(78-90)+(100-120)(70-90) =500+0+0+180+400=1 080,i =15(x i -x )2=(145-120)2+(130-120)2+(120-120)2+(105-120)2+(100-120)2=625+100+0+225+400=1 350, 故b ^=1 0801 350=45=0.8.a ^=90-120×0.8=-6, 故线性回归方程为y ^=0.8x -6.(2)将x =110代入上述方程,得y ^=0.8×110-6=82.(3)由题意可知,该班数学优秀人数及物理优秀人数分别为30,36. 抽出的5人中,数学优秀但物理不优秀的共1人, 故全班数学优秀但物理不优秀的共6人. 于是可以得到如下2×2列联表:于是K 2=60×()24×18-12×6230×30×36×24=10>6.635,因此在犯错误的概率不超过0.01的前提下,可以认为数学优秀与物理优秀有关.思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(x,y ),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K 2即可. 跟踪演练3 下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份-2013.(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀。

相关文档
最新文档