2020版高考一轮复习理科数学第九篇统计与统计案例(必修3、选修1-2)第3节变量的相关性与统计案例含解析

合集下载

高考数学一轮复习第九篇统计与统计案例必修3选修1_2第2节用样本估计总体习题理含解析

高考数学一轮复习第九篇统计与统计案例必修3选修1_2第2节用样本估计总体习题理含解析

第2节用样本估计总体【选题明细表】1.(2018·贵阳一模)贵阳地铁1号线12月28日开通运营,某机车某时刻从下麦西站驶往贵阳北站的过程中,10个车站上车的人数统计如下:70,60,60,50,60,40,40,30,30,10,则这组数据的众数、中位数、平均数的和为( D )(A)170 (B)165 (C)160 (D)150解析:数据70,60,60,50,60,40,40,30,30,10的众数是60,中位数是45,平均数是45,故众数、中位数、平均数的和为150,故选D.2.如图是某市今年10月份某天6时至20时温度变化折线图,下列说法错误的是( D )(A)这天温度极差为8 ℃(B)这天温度的中位数在9 ℃附近(C)这天温度无明显变化的是早上6时至早上8时(D)这天温度变化率绝对值最大的是上午11时至中午13时解析:由折线图可得,最高气温为14 ℃,最低气温为 6 ℃,所以这天温度极差为8 ℃,故排除A;从6时至20时温度从低到高依次排列,可得这天温度的中位数为9 ℃附近,故排除B;由折线图可得,从6时至8时,温度没有明显变化,故排除C;由折线图可得,从13时至15时,温度变化率绝对值最大,故D是错误的.故选D.3.(2018·开封三模)学校根据某班的期中考试成绩绘制了频率分布直方图(如图所示),根据图中所给的数据可知a+b等于( C )(A)0.024 (B)0.036 (C)0.06 (D)0.6解析:根据频率分布直方图得,(0.01+a+b+0.018+0.012)×10=1,解得a+b=0.06.故选C.4.(2018·江西二模)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则( A )(A)=4,s2<2 (B)=4,s2>2(C)>4,s2<2 (D)>4,s2>2解析:某7个数的平均数为4,方差为2,加入一个新数据4后,这8个数的平均数为=×(7×4+4)=4,方差为s2=×[7×2+(4-4)2]=<2.故选A.5.(2018·南安一中模拟)某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为( C )(A)6万元(B)8万元(C)10万元(D)12万元解析:设11时到12时的销售额为x万元,依题意有=,所以x=10,故选C.6.(2018·龙岩模拟)党的十八大以来,脱贫攻坚取得显著成绩,2013年至2016年4年间,累计脱贫5 564万人,2017年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3 000户家庭的2017年所得年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[80,100],则年收入不超过6万的家庭大约为( A )(A)900户(B)600户(C)300户(D)150户解析:由频率分布直方图得:年收入不超过6万的家庭所占频率为(0.005+0.010)×20=0.3,所以年收入不超过6万的家庭大约为0.3×3 000=900.故选A.7.如图所示的茎叶图是甲、乙两组各5名学生的数学竞赛成绩(70~99分),若甲、乙两组学生的平均成绩一样,则a= ;甲、乙两组学生的成绩相对整齐的是.解析:由题意可知==89,解得a=5.因为=×(142+1+0+92+62)=,=×(132+42+0+92+82)=,所以<,故成绩相对整齐的是甲组.答案:5 甲组能力提升(时间:15分钟)8.(2018·沙市区校级一模)已知四个正数x1,x2,x3,x4的标准差s=0.2,则数据2x1-1,2x2-1,2x3-1,2x4-1的方差为( D )(A)0.2 (B)0.4 (C)0.8 (D)0.16解析:根据题意,设四个正数x1,x2,x3,x4的平均数为,则有=(x1+x2+x3+x4),又由其标准差s=0.2,则有其方差s2=[(x1-)2+(x2-)2+(x3-)2+(x4-)2]=0.04,对于数据2x1-1,2x2-1,2x3-1,2x4-1,其平均数为,则有=(2x1-1+2x2-1+2x3-1+2x4-1)=2-1,则其方差s′2=[(2x1-1-2+1)2+(2x2-1-2+1)2+(2x3-1-2+1)2+(2x4-1-2+1)2]=4s2=0.16,故选D.9.(2018·济宁二模)2017年底,某单位对100名职工进行绩校考核,依考核分数进行评估,考核评估后,得其频率分布直方图如图所示,估计这100名职工评估得分的中位数是.解析:由频率分布直方图得:评估得分在[60,70)的频率为0.015×10=0.15,评估得分在[70,80)的频率为0.040×10=0.4,所以估计这100名职工评估得分的中位数是70+×10=78.75.答案:78.7510.(2018·北京模拟)在一个容量为5的样本中,数据均为整数,已测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未污损,即9,10,11,1,那么这组数据的方差s2可能的最大值是.解析:设这组数据的最后2个分别是10+x,y,则9+10+11+(10+x)+y=50,得x+y=10,故y=10-x,故s2=[1+0+1+x2+(-x)2]=+x2,显然x最大取9时,s2最大是.答案:11.如图茎叶图是甲、乙两人在5次综合测评中的成绩(为整数),其中一个数字被污损,则甲的平均成绩超过乙的平均成绩的概率是.解析:由图可知,甲的平均分为90.设被污损的数为x,乙的成绩分别是83,83,87,90+x,99,其中被污损的成绩为0到9中的某一个.由甲的平均成绩超过乙的平均成绩,得<90.所以x<8.又x 是0到9的十个整数中的其中一个,所以x<8的概率为=.答案:12.(2018·全国Ⅰ卷)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:使用了节水龙头50天的日用水量频数分布表(1)在图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解:(1)如图所示.(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).13.(2018·新乡一模)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机各选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均值;(2)轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎,试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好?解:(1)甲厂这批轮胎宽度的平均值为:=(195+194+196+193+194+197+196+195+193+197)=195(cm),乙厂这批轮胎宽度的平均值为:=(195+196+193+192+195+194+195+192+195+193)=194(cm).(2)甲厂这批轮胎宽度在[194,196]内的数据为195,194,196,194,196,195,平均数为=(195+194+196+194+196+195)=195,方差为=[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=,乙厂这批轮胎宽度在[194,196]内的数据为195,196,195,194,195,195.平均数为=(195+196+195+194+195+195)=195,方差为=[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=.因为两厂标准轮胎宽度的平均数相等,但乙厂的方差更小.所以乙厂的轮胎相对更好.。

2020版高考数学一轮复习第九章统计与统计案例第一节统计讲义含解析

2020版高考数学一轮复习第九章统计与统计案例第一节统计讲义含解析

第一节统计突破点一随机抽样.简单随机抽样逐个不放回地()定义:设一个总体含有个个体,从中抽取个个体作为样本,如果每(≤)相等次抽取时总体内的各个个体被抽到的机会都,就把这种抽样方法叫做简单随机抽样.()最常用的简单随机抽样的方法:和随机数法.抽签法.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样)..分层抽样的层,然后按照在抽样时,将总体分成互不交叉一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样..三种抽样方法的比较一、判断题(对的打“√”,错的打“×”)()简单随机抽样是一种不放回抽样.( ) ()简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )()系统抽样在起始部分抽样时采用简单随机抽样.( ) ()要从个学生中用系统抽样的方法选取一个容量为的样本,需要剔除个学生,这样对被剔除者不公平.( ) ()分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )答案:()√()×()√()×()×二、填空题.在“世界读书日”前夕,为了了解某地名居民某天的阅读时间,从中抽取了名居民的阅读时间进行统计分析.在这个问题中,名居民的阅读时间的全体是.答案:总体.某班共有人,现根据学生的学号,用系统抽样的方法,抽取一个容量为的样本,已知号,号,号学生在样本中,那么样本中还有一个学生的学号是.答案:.甲、乙两套设备生产的同类型产品共件,采用分层抽样的方法从中抽取一个容量为的样本进行质量检测.若样本中有件产品由甲设备生产,则乙设备生产的产品总数为件.答案:.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码为首项、组距为公差的等差数列{},第组抽取的号码为=+(-)..分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比==..(·河北石家庄二中三模)某校为了解名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取名同学进行检查,将学生从~进行编号,现已知第组抽取的号码为,则第一组用简单随机抽样抽取的号码为( )....解析:选∵从名学生中抽取一个容量为的样本,∴系统抽样的分段间隔为)=,设第一组随机抽取的号码为,则抽取的第组的号码为+×=,∴=.故选..(·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持钱,乙持钱,丙持钱,甲、乙、丙三人一起出关,关税共钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( ).甲应付钱.乙应付钱.丙应付钱.三者中甲付的钱最多,丙付的钱最少解析:选依题意由分层抽样可知,÷(++)=,则甲应付:×=(钱);乙应付:×=(钱);丙应付:×=(钱).系统抽样和分层抽样中的计算()系统抽样总体容量为,样本容量为,则要将总体均分成组,每组个(有零头时要先去掉).若第一组抽到编号为的个体,则以后各组中抽取的个体编号依次为+,…,+(-).()分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比..(·唐山模拟)用简单随机抽样的方法从含有个个体的总体中抽取一个容量为的样本,则个体被抽到的概率为( )解析:选一个总体含有个个体,每个个体被抽到的概率为,用简单随机抽样方法从该总体中抽取容量为的样本,则每个个体被抽到的概率为×=..(·江西八校联考)从编号为,…,的个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为,则样本中最大的编号应该为( )....解析:选根据系统抽样的定义可知样本的编号成等差数列,令=,=,则=,所以+(-)≤,所以≤,最大编号为+×=..(·陕西部分学校摸底检测)某单位有老年人人,中年人人,青年人人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为的样本,则应分别抽取老年人、中年人、青年人的人数是( )....解析:选因为该单位共有++=(人),样本容量为,所以应当按=的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是.故选..(·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样突破点二用样本估计总体.频率分布直方图和茎叶图()作频率分布直方图的步骤最小值的差;与①②求极差(即一组数据中最大值)分组;④决定③将数据组距组数与;频率分布表列;画⑤频率分布直方图.()频率分布折线图和总体密度曲线()茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便..众数、中位数、平均数()标准差:样本数据到平均数的一种平均距离,一般用表示,= .()方差:标准差的平方=[(-)+(-)+…+(-)],其中(=,…,)是样本数据,是样本容量,是样本平均数.()方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度..平均数、方差公式的推广若数据,,…,的平均数为,方差为,则数据+,+,…,+的平均数为+,方差为.一、判断题(对的打“√”,错的打“×”)()在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) ()在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ) ()从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( ) ()茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( ) ()平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) ()一组数据的众数可以是一个或几个,中位数也具有相同的结论.( )答案:()√()×()√()×()√()×二、填空题.在样本频率分布直方图中,共有个小长方形.若中间一个小长方形的面积等于其他个小长方形面积之和的,且样本容量为,则中间一组的频数为.答案:.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[),[),[),[],若低于分的人数是,则该班的学生人数是.答案:.如图是某班位学生诗词比赛得分的茎叶图,那么这位学生得分的众数和中位数分别为.答案:.已知一组正数,,的方差=(++-),则数据+,+,+的平均数为.答案:考法一折线图、饼图的应用[例] ()(·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ).新农村建设后,种植收入减少.新农村建设后,其他收入增加了一倍以上.新农村建设后,养殖收入增加了一倍.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半()(·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是年月到年月这半年来,某个关键词的搜索指数变化的统计图.根据该统计图判断,下列结论正确的是( ).这半年来,网民对该关键词相关的信息关注度呈周期性变化.这半年来,网民对该关键词相关的信息关注度不断减弱.从该关键词的搜索指数来看,年月的方差小于月的方差.从该关键词的搜索指数来看,年月的平均值大于年月的平均值[解析] ()设新农村建设前,农村的经济收入为,则新农村建设后,农村经济收入为.新农村建设前后,各项收入的对比如下表:()由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除;由统计图可知,年月该关键词的搜索指数波动较大,月的波动较小,所以年月的方差大于月的方差,排除;由统计图可知,年月该关键词的搜索指数大多高于,该月平均值大于年月该关键词的搜索指数大多低于,该月平均值小于,选.[答案] () ()利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.考法二频率分布直方图的应用[例] (·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于年月某日起连续天监测空气质量指数(),数据统计如下表:()由频率分布直方图,求该组数据的平均数与中位数;()在空气质量指数分别为(]和(]的监测数据中,用分层抽样的方法抽取天,从中任意选取天,求事件“两天空气质量等级都为良”的概率.[解] ()∵×=,∴=,∵++++=,∴=.=;=;=;=.由此完成频率分布直方图,如图:()由频率分布直方图得该组数据的平均数为××+××+××+××+××=,∵[]的频率为×=,(]的频率为×=,∴中位数为+×=.()由题意知在空气质量指数为(]和(]的监测天数中分别抽取天和天,在所抽取的天中,将空气质量指数为(]的天分别记为,,,;将空气质量指数为(]的天记为,从中任取天的基本事件为(,),(,),(,),(,),(,),(,),(,),(,),(,),(,),共个,其中事件“两天空气质量等级都为良”包含的基本事件为(,),(,),(,),(,),(,),(,),共个,所以()==..由频率分布直方图进行相关计算时,需掌握的两个关系式()×组距=频率.()=频率,此关系式的变形为=样本容量,样本容量×频率=频数..利用频率分布直方图估计样本的数字特征的方法()中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.()平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.()众数:最高的矩形的中点的横坐标.考法三茎叶图的应用[例] 某市为了考核甲、乙两部门的工作情况,随机访问了位市民.根据这位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:()分别估计该市的市民对甲、乙两部门评分的中位数;()分别估计该市的市民对甲、乙两部门的评分高于的概率;()根据茎叶图分析该市的市民对甲、乙两部门的评价.[解] ()由所给茎叶图知,位市民对甲部门的评分由小到大排序,排在第位的是,故样本中位数为,所以该市的市民对甲部门评分的中位数的估计值是.位市民对乙部门的评分由小到大排序,排在第位的是,故样本中位数为=,所以该市的市民对乙部门评分的中位数的估计值是. ()由所给茎叶图知,位市民对甲、乙部门的评分高于的比率分别为=,=,故该市的市民对甲、乙部门的评分高于的概率的估计值分别为,. ()由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大..茎叶图的绘制需注意()“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;()重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据..茎叶图的用途()茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.()给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.考法四样本的数字特征及其应用[例] (·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击次,每次中靶环数情况如图所示:()请填写下表(写出计算过程):①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中环及环以上的次数相结合看(分析谁的成绩好些);③从折线图上两人射击命中环数的走势看(分析谁更有潜力).[解] 由题图,知甲射击次中靶环数分别为.将它们由小到大排列为.乙射击次中靶环数分别为.将它们由小到大排列为.()甲=×(+×+×+×+)=(环),乙=×(+++×+×+×+)=(环),=×[(-)+(-)×+(-)×+(-)×+(-)]=×(++++)=,=×[(-)+(-)+(-)+(-)×+(-)×+(-)×+(-)]=×(++++++)=.填表如下:∴甲成绩比乙稳定.②∵平均数相同,命中环及环以上的次数甲比乙少,∴乙成绩比甲好些.③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.利用样本的数字特征解决优化决策问题的依据()平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.()用样本估计总体就是利用样本的数字特征来描述总体的数字特征.某城市收集并整理了该市年月份至月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( ).最低气温与最高气温为正相关.月的最高气温不低于月的最高气温.月温差(最高气温减最低气温)的最大值出现在月.最低气温低于℃的月份有个解析:选在中,最低气温与最高气温为正相关,故正确;在中,月的最高气温不低于月的最高气温,故正确;在中,月温差(最高气温减最低气温)的最大值出现在月,故正确;在中,最低气温低于℃的月份有个,故错误.故选.近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[)内的有人,在区间[)内的有人,则的值为( )....解析:选由题意,得年龄在区间[)内的频率为×=,则赞成高校招生改革的市民有)= (人),因为年龄在区间[)内的有人,所以=))=..一次数学考试后,某老师从甲、乙两个班级中各抽取人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班名同学成绩的平均数为,乙班名同学成绩的中位数为,则-的值为( )..-.-.解析:选由茎叶图知(\\((+++++)=,+=,))解得=,=,所以-=-,故选.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的次模拟测试成绩(百分制)的茎叶图.若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩甲==,学生乙的平均成绩乙==,又=×[(-)+(-)+(-)+(-)+(-)+(-)]=,=×[(-)+(-)+(-)+(-)+(-)+(-)]=,则甲=乙,>,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.(·全国卷Ⅰ)某家庭记录了未使用节水龙头天的日用水量数据(单位:)和使用了节水龙头天的日用水量数据,得到频数分布表如下:未使用节水龙头天的日用水量频数分布表使用了节水龙头天的日用水量频数分布表()在下图中作出使用了节水龙头天的日用水量数据的频率分布直方图;()估计该家庭使用节水龙头后,日用水量小于的概率;()估计该家庭使用节水龙头后,一年能节省多少水?(一年按天计算,同一组中的数据以这组数据所在区间中点的值作代表)解:()频率分布直方图如图所示.()根据频率分布直方图知,该家庭使用节水龙头后天日用水量小于的频率为×+×+×+×=,因此该家庭使用节水龙头后,日用水量小于的概率的估计值为.()该家庭未使用节水龙头天日用水量的平均数为=×(×+×+×+×+×+×+×)=.该家庭使用了节水龙头后天日用水量的平均数为=×(×+×+×+×+×+×)=.估计使用节水龙头后,一年可节省水(-)×=().。

高考数学理科一轮复习第9章 统计与统计案例 第3讲

高考数学理科一轮复习第9章 统计与统计案例  第3讲
答案 2.6
基础知识过关
经典题型冲关
课后作业
答案
解析 ∵回归直线必过样本点的中心( x , y ),又 x =2, y =4.5,代入回 ^ 归方程,得a=2.6.
基础知识过关
经典题型冲关
课后作业
解析
经典题型冲关
课前自主学习
课堂合作研究
随堂基础巩固
课后课时精练
题型 一
相关关系的判断 )
1.下列两变量中不存在相关关系的是(
基础知识过关
经典题型冲关
课后作业
(3)独立性检验 称为独立性检验.
05 K2 06 有关系 □ □ 利用随机变量 ________ 来判断“两个分类变量 ____________ ”的方法
基础知识过关
经典题型冲关
课后作业
1.概念辨析 (1) 利用散点图可以直观判断两个变量的关系是否可以用线性关系表 示.( √ ) ^ ^ ^ (2) 通 过 回 归 方 程 y = b x + a 可 以 估 计 和 观 测 变 量 的 取 值 和 变 化 趋 势.( √ )
课前自主学习
课堂合作研究
随堂基础巩固
课后课时精练
基础知识过关
课前自主学习
课堂合作研究
随堂基础巩固
课后课时精练
1.相关关系与回归方程 (1)相关关系的分类
01 左下角 到__________ 02 右上角 的区域 □ □ ①正相关:从散点图上看,点散布在从__________
内,如图 1; 内,如图 2.
课后作业
解析
题型 二 回归分析 角度 1 线性回归方程及应用
1.(2018· 福州四校联考 )某汽车的使用年数 x 与所支出的维修总费用 y 的统计数据如表:

2020高考数学理科大一轮复习导学案:第九章+算法初步、统计、统计案例9.2+Word版含答案【KS

2020高考数学理科大一轮复习导学案:第九章+算法初步、统计、统计案例9.2+Word版含答案【KS

第二节随机抽样知识点一简单随机抽样1.简单随机抽样的概念设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.2.最常用的简单随机抽样方法有两种——抽签法和随机数法.1.(必修3P100A组第1题改编)2018年2月,为确保食品安全,北京市质检部门检查一箱装有1 000袋方便面的质量,抽查总量的2%.在这个问题中下列说法正确的是(D)A.总体是指这箱1 000袋方便面B.个体是一袋方便面C.样本是按2%抽取的20袋方便面D.样本容量为20解析:总体是指这箱1 000袋方便面的质量;个体是一袋方便面的质量;样本为20袋方便面的质量;样本容量为20.2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( D )A .C .02D .01解析:由题意知前5个个体的编号为08,02,14,07,01. 知识点二 系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. 1.先将总体的N 个个体编号.2.确定分段间隔k ,对编号进行分段,当N n 是整数时,取k =Nn . 3.在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).4.按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号l +k ,再加k 得到第3个个体编号l +2k ,依次进行下去,直到获取整个样本.3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为(C)A.50 B.40C.25 D.20解析:根据系统抽样的特点求解.根据系统抽样的特点可知分段间隔为1 00040=25.故选C.4.(必修3P59练习T2改编)设某校共有112名教师,为了支援西部教育事业,现要从中抽取12名组成暑期西部讲师团.若用系统抽样法,则抽样间隔和随机剔除的个体数分别为(A)A.9,4 B.12,3C.10,2 D.8,2解析:因为112=9×12+4,所以抽样间隔为9,随机剔除的个数为4.知识点三分层抽样1.分层抽样的概念在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.2.当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.3.分层抽样时,每个个体被抽到的机会是均等的.5.(2019·南宁市摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为(B)A.100,20 B.200,20C.200,10 D.100,10解析:由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.6.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为1_800件.解析:分层抽样中各层的抽样比相同.样本中甲设备生产的产品有50件,则乙设备生产的产品有30件.在4 800件产品中,甲、乙设备生产的产品总数比为53,所以乙设备生产的产品的总数为1 800件.1.三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n,总体容量为N,每个个体被抽到的概率是nN.2.系统抽样抽取的个体编号从小到大成等差数列.3.分层抽样是按比例抽取个体.考向一简单随机抽样【例1】(1)某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽取了4名男生、6名女生,则下列命题正确的是()A.这次抽样可能采用的是简单随机抽样B.这次抽样一定没有采用系统抽样C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率(2)假设要考察某企业生产的袋装牛奶质量是否达标,现从500袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将500袋牛奶按000,001,…,499进行编号,如果从随机数表(下面摘取了随机数表第7行至第9行)第8行第4列的数开始按三位数连续向右读取,则依次写出最先检测的5袋牛奶的编号分别为()84 42 17 53 3157 24 55 06 8877 04 74 47 6721 76 33 50 2583 92 12 06 7663 01 63 78 5916 95 55 67 1998 10 50 71 7512 86 73 58 0744 39 52 38 7933 21 12 34 2978 64 56 07 8252 42 07 44 3815 51 00 13 4299 66 02 79 54A.163,198,175,129,395B.163,199,175,128,395C.163,199,175,128,396D.163,199,175,129,395【解析】(1)利用排除法求解.这次抽样可能采用的是简单随机抽样,A正确;这次抽样可能采用系统抽样,男生编号为1~20,女生编号为21~50,间隔为5,依次抽取1号,6号,…,46号便可,B错误;这次抽样中每个女生被抽到的概率等于每个男生被抽到的概率,C和D均错误.故选A.(2)随机数表第8行第4列的数是1,从1开始读取:163 785 916 955 567 199 810 507 175 128 673 580 744 395.标波浪线的5个即是所取编号.【答案】(1)A(2)B(1)简单随机抽样需满足:①抽取的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.(2)简单随机抽样常有抽签法(适用总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).(1)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是(A)A.总体B.个体C.样本的容量D.从总体中抽取的一个样本(2)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为(B)A.134石B.169石C.338石D.1 365石解析:(1)由题意知,5 000名居民的阅读时间是总体,200名居民的阅读时间为一个样本;每个居民的阅读时间为个体;200为样本容量.故选A.(2)28254×1 534≈169(石).故选B. 考向二 系统抽样【例2】 (1)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19(2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6【解析】 (1)∵从1 000名学生中抽取一个容量为40的样本, ∴系统抽样的分段间隔为1 00040=25,设第一组随机抽取的号码为x,则抽取的第18组的号码为x+17×25=443,∴x=18.故选C.(2)由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]内的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.【答案】(1)C(2)B系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.(1)现有60瓶矿泉水,编号从1到60,若用系统抽样方法从中抽取6瓶检验,则所抽到的个体编号可能是(D)A.5,10,15,20,25,30B.2,14,26,28,42,56C.5,8,21,36,48,54D.3,13,23,33,43,53(2)某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为37的学生.解析:(1)若用系统抽样方法从中抽取6瓶检验,则样本间隔为60÷6=10,只有3,13,23,33,43,53满足条件.故选D.(2)组距为5,(8-3)×5+12=37.考向三分层抽样方向1分层抽样的概念与计算【例3】(1)(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.(2)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.【解析】(1)因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.(2)由题意知1245+15=3045+15+30+10+a+20,解得a=30.【答案】(1)分层抽样(2)30方向2分层抽样的实际应用【例4】(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半【解析】 解法1:设建设前经济收入为a ,则建设后经济收入为2a ,则由饼图可得建设前种植收入为0.6a ,第三产业收入为0.06a ,其他收入为0.04a ,养殖收入为0.3a .建设后种植收入为0.74a ,第三产业收入为0.56a ,其他收入为0.1a ,养殖收入为0.6a ,养殖收入与第三产业收入的总和为1.16a ,所以新农村建设后,种植收入减少是错误的.故选A.解法2:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A 是错误的.故选A.【答案】 A分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.1.(方向1)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则(D)A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.(方向1)某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽取55人,其中从高一年级学生中抽取20人,则从高三年级学生中抽取的人数为17.解析:设从高二年级学生中抽取x人,由题意得x360=20400,解得x=18,则从高三年级学生中抽取的人数为55-20-18=17人.3.(方向2)(2019·河南名校联考)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则丙应出17钱(所得结果四舍五入,保留整数).解析:依照钱的多少按比例出钱,所以丙应该出钱为180560+350+180×100=18 0001 090≈17.。

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.

2020高考理科数学一轮复习题第九篇统计与统计案例(必修3、选修1-2)第3节【变量的相关性与统计案例】

2020高考理科数学一轮复习题第九篇统计与统计案例(必修3、选修1-2)第3节【变量的相关性与统计案例】

2020高考理科数学一轮复习题第九篇统计与统计案例(必修3、选修1-2)第3节【变量的相关性与统计案例】【选题明细表】知识点、方法题号变量的相关性1,3回归分析4,6,8,12,13独立性检验2,5,7,11,14综合应用9,10基础巩固(时间:30分钟)1.对变量x,y有观测数据(xi ,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui ,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断(C)(A)变量x与y正相关,u与v正相关(B)变量x与y正相关,u与v负相关(C)变量x与y负相关,u与v正相关(D)变量x与y负相关,u与v负相关解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.故选C.2.(2018·湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为YX y1y2总计x1a10a+10x2c30c+30总计6040100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为(A)(A)a=45,c=15(B)a=40,c=20(C)a=35,c=25(D)a=30,c=30解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c 的值最符合题意,故选A.3.(2018·甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表.月份12345678910最高温59911172427303121最低温-12-31-271719232510已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是(B)(A)最低温与最高温为正相关(B)每月最高温与最低温的平均值在前8个月逐月增加(C)月温差(最高温减最低温)的最大值出现在1月(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大解析:根据题意,依次分析选项,A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3.5,3,5,4.5,12,20.5,23, 26.5,28,15.5,在前8个月不是逐月增加的,因此B错误;C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确.故选B.4.(2018·贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6.5x+17.5,则表格中n的值应为(D)x24568y3040n5070(A)45(B)50(C)55(D)60解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方程可得=6.5×5+17.5⇒n=60,故选D.5.(2018·定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:男女总计喜欢402060不喜欢203050总计6050110由K2=算得K2=≈7.8.附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是(C)(A)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”(B)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”(C)有99%以上的把握认为“喜欢该节目与性别有关”(D)有99%以上的把握认为“喜欢该节目与性别无关”解析:因为7.8<10.828,所以不能在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”;又因为7.8>6.635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C.6.(2018·四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:x651012y6532则变量x与y之间的线性回归直线方程可能为(B)(A)=0.7x-2.3(B)=-0.7x+10.3(C)=-10.3x+0.7(D)=10.3x-0.7解析:根据表中数据,得=(6+5+10+12)=,=(6+5+3+2)=4,且变量y随变量x的增大而减小,是负相关,所以,验证=时,=-0.7×+10.3≈4,即回归直线=-0.7x+10.3过样本点的中心(,).故选B.7.(2018·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:理科文科总计男131023女72027总计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能性约为.解析:由4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案:5%8.已知下列表格所示的数据的回归直线方程为=3.8x+,则的值为.x23456y251254257262266解析:由表格可知,==4,==258.由回归直线经过样本点的中心(,),得258=3.8×4+,所以=242.8.答案:242.8能力提升(时间:15分钟)9.(2018·豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:x4681012y12356由表中数据求得y关于x的回归方程为=0.65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为(A)(A)(B)(C)(D)解析:因为=8,=3.4,所以3.4=0.65×8+,解得=-1.8,则=0.65x-1.8,可知5个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A.10.已知下列命题:①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中正确命题的序号是.解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误.所以正确命题的序号是①②③.答案:①②③11.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:感染未感染总计服用104050未服用203050总计3070100参考公式:K2=P(K2>k)0.150.100.050.0252.072 2.7063.841 5.024k)0.0100.0050.001P(K2>kk6.6357.87910.828参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”.解析:由题意可得,K2的观测值k=≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”.答案:5%12.(2018·青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元.解析:由题意可得:==5,==50,线性回归方程过样本点的中心,则50=7×5+,所以=15,线性回归方程为=7x+15,据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元.答案:8513.(2018·漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值.xi496.1yi168.6(xi -)21.989(yi -)20.244xi yi8364.92(xi -)(yi-)0.674(1)由散点图看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)根据表中数据,建立y关于x的回归方程.参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘估计公式分别是=,=-.解:(1)根据题意,计算相关系数为r==;所以r2=≈0.936且r>0,故y与x具有很强的正相关关系.(2)依题意,=≈0.34,又=xi=49.61.=yi=16.86,解得=16.86-0.34×49.61≈0;故y关于x的回归直线方程为y=0.34x.14.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:阅读时间[0,20)[20,40)[40,60)[60,80)[80,100)[100,120]人数810121172若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生女生总计阅读达人非阅读达人总计附:参考公式:K2=,其中n=a+b+c+d.临界值表:P(K2≥k)0.1000.0500.0100.0012.7063.841 6.63510.828k解:(1)该校学生的每天平均阅读时间为10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+4.4=52(分).(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:男生女生总计阅读达人61420非阅读达人181230总计242650计算K2==≈4.327,由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.。

2020届高三理科数学第一轮复习资料_人教版 第九篇统计与统计案例 第九篇 第3节

2020届高三理科数学第一轮复习资料_人教版  第九篇统计与统计案例 第九篇  第3节

课时作业
1.下列选项中,两个变量具有相关关系的是( ) (A)正方形的面积与周长 (B)匀速行驶车辆的行驶路程与时间 (C)人的身高与体重 (D)人的身高与视力
答案:C
返回导航
第3节 变量的相关性与统计案例
整合基础稳固根基
突破考点提升技能
规范答题精析步骤
课时作业
2.有关线性回归的说法,不正确的是( ) (A)相关关系的两个变量是非确定关系 (B)散点图能直观地反映数据的相关程度 (C)回归直线最能代表线性相关的两个变量之间的关系 (D)散点图中的点越集中,两个变量的相关性越强 答案:D
(A)19.5 万元
(B)19.25 万元
(C)19.15 万元
(D)19.05 万元
返回导航
第3节 变量的相关性与统计案例
整合基础稳固根基
突破考点提升技能
规范答题精析步骤
课时作业
解析:(1)由散点图知呈带状区域时有较强的线性相关关系,故去掉
D.故选 D.
(2)






- x

2+3+4+5+6 5
返回导航
第3节 变量的相关性与统计案例
整合基础稳固根基
突破考点提升技能
规范答题精析步骤
课时作业
【重要结论】 1.线性回归直线方程的斜率为正(负)时,两个变量正(负)相关. 2.线性回归直线一定经过样本点的中心.
返回导航
第3节 变量的相关性与统计案例
整合基础稳固根基
突破考点提升技能
规范答题精析步骤
返回导航
第3节 变量的相关性与统计案例
整合基础稳固根基
突破考点提升技能
规范答题精析步骤

2020年高考数学(理科)一轮复习第9章统计与统计案例第3讲课后作业Word版含解析

2020年高考数学(理科)一轮复习第9章统计与统计案例第3讲课后作业Word版含解析

A组基础关1.观察下列各图形:其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析观察散点图可知,两个变量x,y具有相关关系的图是③④.2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x -85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x-,y-)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D解析D选项中,若该大学某女生身高为170 cm,根据回归方程只能近似认为其体重为58.79 kg,但不是绝对的.故D不正确.故选D.3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 答案 D解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两个变量有更强的线性相关性.故选D.4.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,正确的结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析k≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.故选C.5.(2018·河南天一大联考)已知变量x,y之间满足线性相关关系y^=1.3x-1,且x,y之间的相关数据如下表所示:则m=()A.0.8 B.1.8 C.0.6 D.1.6答案 B解析依题意,x=1+2+3+44=2.5,将x=2.5代入y^=1.3x-1中,解得y=2.25,故m=2.25×4-0.1-3.1-4=1.8.6.已知两个随机变量x,y之间的相关关系如下表所示:根据上述数据得到的回归方程为y ^=b ^x +a ^,则大致可以判断( ) ⎝ ⎛⎭⎪⎫参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i-n x 2,a ^=y -b ^x -A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0D.a^<0,b ^<0 答案 C解析 由已知得,x -=0.2,y -=-1.7, ∴b ^=20+6-1-1+4-5×0.2×(-1.7)16+4+1+4+16-5×(0.2)2=99136>0, ∴a^=-1.7-99136×0.2<0, 或利用散点图,易判断b^>0,a ^<0.故选C.7.为了解疾病A 是否与性别有关,在一医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:则有多大的把握认为患疾病A 与性别有关( ) 下面的临界值表供参考:A .95%B .99%C .99.5%D .99.9% 答案 C解析 根据所给的2×2列联表,得K 2=50×(20×15-10×5)230×20×25×25≈8.333>7.879.故有99.5%的把握认为患疾病A 与性别有关.故选C.8.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.答案 0.05解析 由题意得,K 2=100×(10×30-20×40)250×50×30×70≈4.762>3.841.所以在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.9.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;。

2020年高考数学(理科)一轮复习课件:第9章 统计与统计案例 第3讲

2020年高考数学(理科)一轮复习课件:第9章 统计与统计案例 第3讲

2.小题热身 ^ (1)设回归方程为y =3-5x,则变量 x 增加一个单位时( A.y 平均增加 3 个单位 C.y 平均增加 5 个单位
答案 B
)
B .y 平均减少 5 个单位 D .y 平均减少 3 个单位
答案
解析 因为-5 是斜率的估计值,说明 x 每增加一个单位,y 平均减少 5 个单位.故选 B.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在
05 一条直线 附近, □ ____________ 则称这两个变量之间具有线性相关关系, 这条直线叫做 06 回归直线 □ ______________ .
(3)回归方程
07 距离的平方和 □ ①最小二乘法:使得样本数据的点到回归直线的 __________________
2.独立性检验
01 不同类别 □ (1)分类变量:变量的不同“值”表示个体所属的_____________,像这
类变量称为分类变量.
02 频数表 □ (2)列联表:列出两个分类变量的_____________ ,称为列联表.假设有
两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{ y1,y2},其样本频 数列联表(称为 2×2 列联表)为
解析
(4)已知 x,y 的取值如下表,从散点图可以看出 y 与 x 具有线性相关关 ^ ^ ^ 系,且回归方程为y =0.95x+a,则a=________. x 0 1 3 4 6.7 y 2.2 4.3 4.8
答案 2.6
答案
解析 ∵回归直线必过样本点的中心( x , y ),又 x =2, y =4.5,代入回 ^ 归方程,得a=2.6.
n i=1
^ ^ ^ - - 说明:回归直线y =bx+a必过样本点的中心( x , y ),这个结论既是检 验所求回归直线方程是否准确的依据,也是求参数的一个依据. (4)样本相关系数

(教师用书)2020届高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版

(教师用书)2020届高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版

第九篇 统计与统计案例第1讲 随机抽样[最新考纲]1.理解随机抽样的必要性和重要性.2.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.知 识 梳 理1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)编号:先将总体的N 个个体编号;(2)分段:确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k =N n; (3)确定首个个体:在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)获取样本:按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.辨析感悟1.对简单随机抽样的认识(1)(教材思考问题改编)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次抽到的可能性最大.(×)(2)从100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.(×) 2.对系统抽样的理解(3)系统抽样适用于元素个数较多且分布均衡的总体.(√)(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.(×)3.对分层抽样的理解(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(×)(6)(2014·郑州模拟改编)某校即将召开学生代表大会,现从高一、高二、高三共抽取60名代表,则可用分层抽样方法抽取.(√)(7)(2013·湖南卷改编)某学校有男、女学生各500名.为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是分层抽样.(√)[感悟·提升]两点提醒一是简单随机抽样(抽签法和随机数法)都是从总体中逐个地进行抽取,都是不放回抽样,如(2).二是三种抽样方法在抽样过程中每个个体被抽到的可能性都相等,如(1)、(4)、(5).考点一简单随机抽样【例1】下列抽取样本的方式是否属于简单随机抽样?(1)从无限多个个体中抽取100个个体作为样本.(2)盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.(3)从20件玩具中一次性抽取3件进行质量检验.(4)某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.解 (1)不是简单随机抽样.由于被抽取的样本总体的个体数是无限的,而不是有限的. (2)不是简单随机抽样.由于它是放回抽样.(3)不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.(4)不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.规律方法 (1)简单随机抽样需满足;①抽取的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.(2)简单随机抽样常有抽签法(适用总体中个体数较少的情况)、随机数表法(适用于个体数较多的情况).【训练1】 下列抽样试验中,适合用抽签法的有( ). A .从某厂生产的5 000件产品中抽取600件进行质量检验 B .从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验 C .从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验 D .从某厂生产的5 000件产品中抽取10件进行质量检验 答案 B考点二 系统抽样【例2】 采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ). A .7 B .9 C .10 D .15解析 从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n 组抽到的号码为a n =9+30(n -1)=30n -21,由451≤30n -21≤750,得23615≤n ≤25710,所以n =16,17,…,25,共有25-16+1=10人,选C. 答案 C规律方法 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定. 【训练2】 (1)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ).A .5,10,15,20,25B .3,13,23,33,43C .1,2,3,4,5D .2,4,6,16,32(2)(2014·临沂模拟)某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号同学在样本中,那么样本中还有一个同学的学号是( ).A .10B .11C .12D .16解析 (1)间隔距离为10,故可能编号是3,13,23,33,43.(2)因为29号、42号的号码差为13,所以3+13=16,即另外一个同学的学号是16. 答案 (1)B (2)D考点三 分层抽样【例3】 (2014·兰州模拟)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人)从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________. 解析 因为3045+15+30+10+a +20=1245+15,所以解得a =30.答案 30规律方法 进行分层抽样的相关计算时,常利用以下关系式巧解: (1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.【训练3】 (1)(2012·江苏卷)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.(2)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为________. 解析 (1)高二年级学生人数占总数的33+3+4=310.样本容量为50,则高二年级抽取:50×310=15(名)学生.(2)由题意知,青年职工人数∶中年职工人数∶老年职工人数=350∶250∶150=7∶5∶3.由样本中青年职工为7人得样本容量为15. 答案 (1)15 (2)151.三种抽样方法的联系三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体的个体数为N ,则用这三种方法抽样时,每个个体被抽到的概率都是nN. 2.各种抽样方法的特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽取的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.创新突破8——抽样方法与概率的交汇问题【典例】(2012·天津卷)某地区有小学21所,中学14所,大学7所,现采用分层抽样的方法从这些学校中抽取6所学校对学生进行视力调查.(1)求应从小学、中学、大学中分别抽取的学校数目;(2)若从抽取的6所学校中随机抽取2所学校做进一步数据分析,①列出所有可能的抽取结果;②求抽取的2所学校均为小学的概率.突破1:确定分层抽样中的每层所占的比例.突破2:用列举法列出所有可能抽取的结果.突破3:利用古典概型的计算公式计算.解(1)由分层抽样的定义知,从小学中抽取的学校数目为6×2121+14+7=3;从中学中抽取的学校数目为6×1421+14+7=2;从大学中抽取的学校数目为6×721+14+7=1.则从小学、中学、大学分别抽取的学校数目为3,2,1.(2)①在抽取到的6所学校中,3所小学分别记为A1,A2,A3,2所中学分别记为A4,A5,大学记为A6,则抽取2所学校的所有可能结果为(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,A6),(A2,A3),(A2,A4),(A2,A5),(A2,A6),(A3,A4),(A3,A5),(A3,A6),(A4,A5),(A4,A6),(A5,A6),共15种.②从6所学校中抽取的2所学校均为小学(记为事件B)的所有可能结果为(A1,A2),(A1,A3),(A2,A3),共3种.所以P(B)=315=15.[反思感悟] 分层抽样与概率结合的题目多与实际问题紧密联系,计算量和阅读量都比较大,且一般会有图表,求解时容易造成失误,平时需注意多训练此类型的题目. 【自主体验】(2014·潮州模拟)某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:学历 35岁以下35~50岁50岁以上本科 8030 20研究生x 20y样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;(2)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为539,求x ,y 的值. 解 (1)用分层抽样的方法在35~50岁中抽取一个容量为5的样本,设抽取学历为本科的人数为m ,∴3050=m5,解得m =3.抽取的样本中有研究生2人,本科生3人,分别记作S 1,S 2;B 1,B 2,B 3.从中任取2人的所有等可能基本事件共有10个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1),(S 2,B 2),(S 2,B 3),(S 1,S 2),(B 1,B 2),(B 1,B 3),(B 2,B 3),其中至少有1人的学历为研究生的基本事件有7个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1)(S 2,B 2),(S 2,B 3),(S 1,S 2).∴从中任取2人,至少有1人学历为研究生的概率为710. (2)由题意,得10N =539,解得N =78.∴35~50岁中被抽取的人数为78-48-10=20, ∴4880+x =2050=1020+y, 解得x =40,y =5. 即x ,y 的值分别为40,5.基础巩固题组(建议用时:40分钟)一、选择题1.某中学进行了该学年度期末统一考试,该校为了了解高一年级1 000名学生的考试成绩,从中随机抽取了100名学生的成绩单,就这个问题来说,下面说法正确的是( ).A.1 000名学生是总体B.每个学生是个体C.1 000名学生的成绩是一个个体D.样本的容量是100解析 1 000名学生的成绩是总体,其容量是1 000,100名学生的成绩组成样本,其容量是100.答案 D2.(2013·新课标全国Ⅰ卷)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ).A.简单随机抽样 B.按性别分层抽样C.按学段分层抽样 D.系统抽样解析因为男女生视力情况差异不大,而学段的视力情况有较大差异,所以应按学段分层抽样,故选C.答案 C3.(2014·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=( ).A.54 B.90 C.45 D.126解析依题意有33+5+7×n=18,由此解得n=90,即样本容量为90.答案 B4.(2013·江西卷)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ).A .08B .07C .02D .01解析 由题意知前5个个体的编号为08,02,14,07,01. 答案 D5.(2014·石家庄模拟)某学校高三年级一班共有60名学生,现采用系统抽样的方法从中抽取6名学生做“早餐与健康”的调查,为此将学生编号为1,2,…,60.选取的这6名学生的编号可能是( ).A .1,2,3,4,5,6B .6,16,26,36,46,56C .1,2,4,8,16,32D .3,9,13,27,36,54 解析 系统抽样是等间隔抽样. 答案 B 二、填空题6.(2014·成都模拟)某课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应城市数分别为4,12,8.若用分层抽样抽取6个城市,则甲组中应抽取的城市数为________.解析 甲组中应抽取的城市数为624×4=1.答案 17.某校高级职称教师26人,中级职称教师104人,其他教师若干人.为了了解该校教师的工资收入情况,按分层抽样从该校的所有教师中抽取56人进行调查,已知从其他教师中共抽取了16人,则该校共有教师________人.解析 设其他教师为x 人,则5626+104+x =16x ,解得x =52,∴x +26+104=182(人).答案 1828.(2014·青岛模拟)某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.解析 因为12=5×2+2,即第三组抽出的是第二个同学,所以每一组都相应抽出第二个同学,所以第8组中抽出的号码为5×7+2=37号. 答案 37 三、解答题9.某初级中学共有学生2 000名,各年级男、女生人数如下表:(1)求x 的值;(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名? 解 (1)∵x2 000=0.19.∴x =380.(2)初三年级人数为y +z =2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为:482 000×500=12名.10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人.上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施抽取. 解 用分层抽样方法抽取. 具体实施抽取如下:(1)∵20∶100=1∶5,∴105=2,705=14,205=4,∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人. (2)因副处级以上干部与工人的人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,02,…,69编号,然后用随机数表法抽取14人.(3)将2人,4人,14人的编号汇合在一起就取得了容量为20的样本.能力提升题组 (建议用时:25分钟)一、选择题1.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a ,b ,c ,且a ,b ,c 构成等差数列,则第二车间生产的产品数为( ). A .800 B .1 000 C .1 200 D .1 500解析 因为a ,b ,c 成等差数列,所以2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占总数的三分之一,即为1 200双皮靴. 答案 C2.将参加夏令营的600名学生编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( ).A .26,16,8B .25,17,8C .25,16,9D .24,17,9解析 由题意知间隔为60050=12,故抽到的号码为12k +3(k =0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人. 答案 B 二、填空题3.200名职工年龄分布如图所示,从中随机抽40名职工作样本,采用系统抽样方法,按1~200编号为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为______.若采用分层抽样,40岁以下年龄段应抽取________人.解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中抽取x 人,则40200=x100,解得x =20.答案 37 20 三、解答题4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)名?(2)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率. 解 (1)应抽取大于40岁的观众人数为2745×5=35×5=3(名).(2)用分层抽样方法抽取的5名观众中,20至40岁有2名(记为Y 1,Y 2),大于40岁有3名(记为A 1,A 2,A 3).5名观众中任取2名,共有10种不同取法:Y 1Y 2,Y 1A 1,Y 1A 2,Y 1A 3,Y 2A 1,Y 2A 2,Y2A3,A1A2,A1A3,A2A3.设A表示随机事件“5名观众中任取2名,恰有1名观众年龄为20至40岁”,则A中的基本事件有6种:Y1A1,Y1A2,Y1A3,Y2A1,Y2A2,Y2A3,故所求概率为P(A)=610=35.第2讲 用样本估计总体[最新考纲]1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会他们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释. 4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知 识 梳 理知 识 梳 理1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细的反映出总体在各个范围内取值的百分比.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便. 2.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数①众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.②中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.③平均数:样本数据的算术平均数,即x =1n(x 1+x 2+…+x n ).在频率分布直方图中,中位数左边和右边的直方图的面积相等. (2)样本方差、标准差 标准差s =1n[x 1-x2+x 2-x2+…+x n -x2].其中x n是样本数据的第n项,n是样本容量,x是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.辨析感悟1.对频率分布直方图的认识(1)在频率分布直方图中,小矩形的高表示频率.(×)(2)频率分布直方图中各个长方形的面积之和为1.(√)2.对样本数字特征的认识(3)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(√)(4)一组数据的方差越大,说明这组数据的波动越大.(√)(5)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.(×)(6)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.(√)(7)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.(×)(8)如图是某电视台综艺节目举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为85,1.6.(√) (9)(2014·广州调研改编)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,19,17,16,14,12,则这一天10名工人生产的零件的中位数是15.(√)[感悟·提升]1.作频率分布直方图的步骤(1)求极差;(2)确定组距和组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.两个防范一是在频率分布直方图中,小矩形的高表示频率/组距,而不是频率,如(1);二是利用频率分布直方图求众数、中位数和平均数时,应注意三点:①最高的小长方形底边中点的横坐标即是众数;②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考点一频率分布直方图的应用【例1】某中学高一女生共有450人,为了了解高一女生的身高情况,随机抽取部分高一女生测量身高,所得数据整理后列出频率分布表如下:组别频数频率145.5~149.5 8 0.16 149.5~153.5 6 0.12 153.5~157.5 14 0.28 157.5~161.5 10 0.20 161.5~165.5 80.16165.5~169.5m n 合计MN(1)(2)在给出的直角坐标系中画出频率分布直方图;(3)估计该校高一女生身高在149.5~165.5 cm 范围内有多少人?审题路线 由频率分布表可以计算出m ,n ,M ,N 的值⇒作频率分布直方图⇒利用频率分布直方图求值.解 (1)由题意M =80.16=50,落在区间165.5~169.5内数据频数m =50-(8+6+14+10+8)=4,频率为n =0.08,总频率N =1.00. (2)频率分布直方图如下图:(3)该所学校高一女生身高在149.5~165.5 cm 之间的比例为0.12+0.28+0.20+0.16=0.76,则该校高一女生在此范围内的人数为450×0.76=342(人).规律方法 解决频率分布直方图的问题,关键在于找出图中数据之间的联系.这些数据中,比较明显的有组距、频率组距,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×频率组距=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题.【训练1】 (2013·辽宁卷)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:[20,40),[40,60),[60,80),[80,100]人.若低于60分的人数是15人,则该班的学生人数是( ). A .45 B .50 C .55 D .60解析 第一、第二小组的频率分别是0.1,0.2,所以低于60分的频率是0.3,设班级人数为m ,则15m=0.3,m =50.答案 B考点二 茎叶图的应用【例2】 为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h),试验的观测结果如下: 服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成右面茎叶图,从茎叶图看,哪种药的疗效更好? 解 (1)设A 药观测数据的平均数为x A ,B 药观测数据的平均数为x B ,则x A=120(0.6+1.2+2.7+1.5+2.8+1.8+2.2+2.3+3.2+3.5+2.5+2.6+1.2+2.7+1.5+2.9+3.0+3.1+2.3+2.4)=2.3.x B=120(3.2+1.7+1.9+0.8+0.9+2.4+1.2+2.6+1.3+1.4+1.6+0.5+1.8+0.6+2.1+1.1+2.5+1.2+2.7+0.5)=1.6.则x A>x B,因此A药的疗效更好.(2)由观测结果绘制如下茎叶图:从茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上;B药疗效的试验结果有710的叶集中在茎0,1上.由上述可看出A药的疗效更好.规律方法茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置的数据.【训练2】(2013·重庆卷)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( ).A.2,5 B.5,5 C.5,8 D.8,8解析 由茎叶图及已知得x =5,又乙组数据的平均数为16.8,即9+15+10+y +18+245=16.8,解得y =8. 答案 C考点三 样本的数字特征【例3】 甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价. 解 (1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分.x 甲=10+13+12+14+165=13,x 乙=13+14+12+12+145=13,s 2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s 2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s 2甲>s 2乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.规律方法 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.。

2020版高考数学一轮复习第9章统计与统计案例第3讲课后作业理(含解析)

2020版高考数学一轮复习第9章统计与统计案例第3讲课后作业理(含解析)

第9章 统计与统计案例 第3讲A 组 基础关1.观察下列各图形:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 答案 C解析 观察散点图可知,两个变量x ,y 具有相关关系的图是③④.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.3.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 答案 D解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两个变量有更强的线性相关性.故选D.4.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n ad -bc 2a +bc +d a +cb +d,得K 2=-265×35×58×42≈9.616.参照下表,正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.故选C.5.(2018·河南天一大联考)已知变量x ,y 之间满足线性相关关系y ^=1.3x -1,且x ,y 之间的相关数据如下表所示:则m =( )A .0.8B .1.8C .0.6D .1.6 答案 B解析 依题意,x =1+2+3+44=2.5,将x =2.5代入y ^=1.3x -1中,解得y =2.25,故m =2.25×4-0.1-3.1-4=1.8.6.已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) ⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x 2,a ^=y -b ^x -A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 C解析 由已知得,x -=0.2,y -=-1.7, ∴b ^=20+6-1-1+4--16+4+1+4+16-2=99136>0, ∴a ^=-1.7-99136×0.2<0,或利用散点图,易判断b ^>0,a ^<0.故选C.7.为了解疾病A 是否与性别有关,在一医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:则有多大的把握认为患疾病A与性别有关( ) 下面的临界值表供参考:A.95% B.99% C.99.5% D.99.9%答案 C解析根据所给的2×2列联表,得K2=-230×20×25×25≈8.333>7.879.故有99.5%的把握认为患疾病A与性别有关.故选C.8.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.答案 0.05解析 由题意得,K 2=-250×50×30×70≈4.762>3.841.所以在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.9.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱; ②由变量x 和y 的数据得到其回归直线方程为l :y ^=bx +a ,则l 一定经过点P (x -,y -); ③在匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程y ^=0.1x +10中,当解释变量x 每增加一个单位时,预报变量y ^增加0.1个单位.则所有正确的命题的序号是________. 答案 ②④⑤解析 线性相关系数为r ,当|r |越接近1时,两个变量的线性相关性越强;当|r |越接近0时,两个变量的线性相关性越弱,①错误;由变量x 和y 的数据得到其回归直线方程为l :y ^=bx +a ,则l 一定经过P (x -,y -),②正确;每10分钟从匀速传递的产品流水线上,抽取一件产品进行某项指标检测,这样的抽样是系统抽样,③错误;相关指数R 2用来刻画回归的效果,其计算公式是R 2=1-∑ni =1y i -y ^i 2∑ni =1y i -y2,在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方,显然,R 2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好,④正确;回归直线方程y ^=0.1x +10中,当解释变量x 每增加一个单位时,预报变量y ^增加0.1个单位,⑤正确.10.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. B 组 能力关1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑i =110x i =225,∴x =110∑i =110x i =22.5.∵∑i =110y i =1600,∴y =110∑i =110y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A.成绩 B.视力 C.智商 D.阅读量答案 D解析K21=-2 16×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量.故选D.3.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95%的把握认为是否喜欢韩剧和性别有关,则k >3.841, 即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.4.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可.)C 组 素养关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x (同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.⎝ ⎛⎭⎪⎫参考公式:K 2=n ad -bc 2a +b c +d a +c b +d ,其中n =a +b +c +d解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a +0.020+0.030+0.040)×10=1,故a =0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均分x =55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,故晋级成功的人数为100×0.25=25,故填表如下:K 2=-225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.2.(2018·汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 x i -x y i -y ∑n i =1 x i -x 2=∑n i =1x i y i -n x -y -∑n i =1x 2i -n x 2,a ^=y -b ^x .r =∑n i =1 x i -xy i -y ∑ni =1 x i -x 2∑n i =1 y i -y 2 . 参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1x i -x2≈4.18, ∑6i =1 y i -y 2=13.96, ∑6i =1 z i -z 2=1.53,ln 1.46≈0.38,ln 0.7118≈-0.34.解 (1)由题意,计算x =16×(2+3+4+5+6+7)=4.5, z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64, ∑6i =1 x i -x2≈4.18, ∑6i =1 z i -z 2=1.53,所以r =∑n i =1 x i -xz i -z∑n i =1x i -x 2∑n i =1 z i -z 2 =47.64-6×4.5×24.18×1.53=-6.366.3954≈-0.99;所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高.(2)利用最小二乘估计公式计算b ^=∑n i =1x i z i -n x -z -∑n i =1x 2i -n x 2=47.64-6×4.5×2139-6×4.52=-6.3617.5 ≈-0.36,所以a ^=z -b ^x =2+0.36×4.5=3.62,所以z 与x 的线性回归方程是z ^=-0.36x +3.62,又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62;令x =9,解得y ^=e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ^≥0.7118时,e -0.36x +3.62≥0.7118=e ln 0.7118=e -0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3节变量的相关性与统计案例【选题明细表】知识点、方法题号变量的相关性1,3回归分析4,6,8,12,13独立性检验2,5,7,11,14综合应用9,10基础巩固(时间:30分钟)1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( C )(A)变量x与y正相关,u与v正相关(B)变量x与y正相关,u与v负相关(C)变量x与y负相关,u与v正相关(D)变量x与y负相关,u与v负相关解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.故选C.2.(2018·湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为Yy1y2总计Xx1 a 10 a+10x2 c 30 c+30总计60 40 100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( A )(A)a=45,c=15 (B)a=40,c=20(C)a=35,c=25 (D)a=30,c=30解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A.3.(2018·甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表.月份 1 2 3 4 5 6 7 8 9 10 最高温 5 9 9 11 17 24 27 30 31 21 最低温-12 -3 1 -2 7 17 19 23 25 10 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( B )(A)最低温与最高温为正相关(B)每月最高温与最低温的平均值在前8个月逐月增加(C)月温差(最高温减最低温)的最大值出现在1月(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大解析:根据题意,依次分析选项,A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加的,因此B错误;C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确.故选B.4.(2018·贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6.5x+17.5,则表格中n的值应为( D )x 2 4 5 6 8y 30 40 n 50 70 (A)45 (B)50 (C)55 (D)60解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方程可得=6.5×5+17.5⇒n=60,故选D.5.(2018·定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:男女总计喜欢40 20 60不喜欢20 30 50总计60 50 110由K2=算得K2=≈7.8.附表:P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828参照附表,得到的正确结论是( C )(A)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”(B)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”(C)有99%以上的把握认为“喜欢该节目与性别有关”(D)有99%以上的把握认为“喜欢该节目与性别无关”解析:因为7.8<10.828,所以不能在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”;又因为7.8>6.635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C.6.(2018·四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:x 6 5 10 12y 6 5 3 2则变量x与y之间的线性回归直线方程可能为( B )(A)=0.7x-2.3 (B)=-0.7x+10.3(C)=-10.3x+0.7 (D)=10.3x-0.7解析:根据表中数据,得=(6+5+10+12)=,=(6+5+3+2)=4,且变量y随变量x的增大而减小,是负相关,所以,验证=时,=-0.7×+10.3≈4,即回归直线=-0.7x+10.3过样本点的中心(,).故选B.7.(2018·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:理科文科总计男13 10 23女7 20 27总计20 30 50已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能性约为.解析:由 4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案:5%8.=3.8x+则为.x 2 3 4 5 6y 251 254 257 262 266解析:由表格可知,==4,==258.由回归直线经过样本点的中心(,),得258=3.8×4+,所以=242.8.答案:242.8能力提升(时间:15分钟)9.(2018·豪洋中学模拟)某研究机构在对具有线性相关的两个变量x 和y进行统计分析时,得到如下数据:x 4 6 8 10 12y 1 2 3 5 6由表中数据求得y关于x的回归方程为=0.65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为( A )(A)(B)(C)(D)解析:因为=8,=3.4,所以 3.4=0.65×8+,解得=-1.8,则=0.65x-1.8,可知5个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A.10.已知下列命题:①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X 与Y有关系”的把握程度越大.其中正确命题的序号是.解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误.所以正确命题的序号是①②③.答案:①②③11.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:感染未感染总计服用10 40 50未服用20 30 50总计30 70 100参考公式:K2=P(K2>k0) 0.15 0.10 0.05 0.025 k0 2.072 2.706 3.841 5.024 P(K2>k0) 0.010 0.005 0.001 k0 6.635 7.879 10.828参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”.解析:由题意可得,K2的观测值k=≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”.答案:5%12.(2018·青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x 2 4 5 6 8y 30 40 50 60 70根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元.解析:由题意可得:==5,==50,线性回归方程过样本点的中心,则50=7×5+,所以=15,线性回归方程为=7x+15,据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元. 答案:8513.(2018·漳州二模)合成纤维抽丝工段第一导丝盘速度y 对丝的质量很重要,今发现它与电流的周波x 有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值.x i 496.1 y i 168.6 (xi -)2 1.989 (yi -)2 0.244 x i y i 8 364.92(x i -)(y i -)0.674(1)由散点图看出,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(2)根据表中数据,建立y关于x的回归方程.参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘估计公式分别是=,=-.解:(1)根据题意,计算相关系数为r==;所以r2=≈0.936且r>0,故y与x具有很强的正相关关系.(2)依题意,=≈0.34,又=xi=49.61.=yi=16.86,解得=16.86-0.34×49.61≈0;故y关于x的回归直线方程为y=0.34x.14.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:阅读时间 [0,20)[20, 40) [40, 60) [60, 80) [80, 100) [100,120] 人数810121172若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条 形图.(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生 女生总计阅读达人非阅读达人 总计附:参考公式:K 2=,其中n=a+b+c+d.临界值表:P(K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828解:(1)该校学生的每天平均阅读时间为10×+30×+50××+90×+110×=1.6+6+12+15.4+12. 6+4.4=52(分).(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:男生女生总计阅读达人 6 14 20非阅读达人18 12 30 总计24 26 50计算K2==≈4.327,由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.。

相关文档
最新文档