2020年高考文科数学原创专题卷:《统计与统计案例》
2020高考数学 试题汇编 第三节 统计、统计案例 文(含解析)
第三节统计、统计案例抽样方法考向聚焦高考对抽样方法的考查侧重于考查系统抽样和分层抽样中的数值计算问题,尤其是系统抽样中所抽样本的编号问题,分层抽样中各层所抽样本数量的计算等,多以小题形式出现,难度为中、低档,所占分值为4分左右1.(2012年四川卷,文3,5分)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )(A)101 (B)808 (C)1212 (D)2012解析:根据分层抽样的特点可知×N=96,解得N=808,故选B.答案:B.2.(2011年福建卷,文4)某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本.已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( )(A)6 (B)8 (C)10 (D)12解析:设在高二年级的学生中应抽取的人数为x.由分层抽样的特点有30∶40=6∶x,则x=8,即在高二年级学生中应抽取8人.故选B.答案:B.3.(2010年重庆卷,文5)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( )(A)7 (B)15 (C)25 (D)35解析:设样本容量为n,则由分层抽样的特点知=,得n=15,故选B.答案:B.4.(2012年浙江卷,文11,4分)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为.解析:本题主要考查分层抽样,因为560+420=980,所以560×=160.答案:1605.(2012年福建卷,文14,4分)一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是.解析:女运动员有98-56=42人,男女比例为:56∶42=4∶3,∴应抽取女运动员28×=12(人).答案:12本题考查分层抽样方法,属容易题.6.(2012年湖北卷,文11,5分)一支田径运动队有男运动员56人,女运动员42人.现用分层抽样的方法抽取若干人,若抽取的男运动员有8人,则抽取的女运动员有人.解析:设抽取的女运动员为x人,则=,解得x=6.故抽取的女运动员为6人.答案:67.(2012年江苏数学,2,5分)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取名学生.解析:本题考查随机抽样中分层抽样.关键算出高二学生人数在总数中的比例.因为高二年级学生人数占总数的,样本容量为50,所以50×=15.答案:158.(2011年湖北卷,文11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市家.解析:由分层抽样的特点知应抽取中型超市400×=20(家).答案:209.(2011年上海卷,文10)课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应的城市数分别为4,12,8,若用分层抽样抽取6个城市,则丙组中应抽取的城市数为.解析:∵抽取比例为=,∴丙组应抽取的城市数为×8=2.答案:210.(2011年山东卷,文13)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为.解析:由题意知学生总人数为150+150+400+300=1000, 抽取比例为=,从丙专业抽取人数为400×=16.答案:16统计图表与数字特征的计算考向聚焦统计图表(频率分布直方图、茎叶图)与数字特征(平均数、中位数、方差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布直方图为载体,考查平均数、中位数、方差等的计算,难度为中、低档,主要以选择题、填空题形式出现,有时也可能以解答题的形式进行综合考查,所占分值5~12分备考指津(1)对于统计图表的题目,求解时,最重要的就是认真观察图表,从中发现有用的信息和数据.(2)计算平均数与方差时,要明确所有数据的个数,以防计算错误11.(2012年陕西卷,文3,5分)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )(A)46,45,56 (B)46,45,53(C)47,45,56 (D)45,47,53解析:由概念知中位数是中间两数的平均数,即=46,众数是45,极差为68-12=56.所以选A.答案:A.12.(2012年湖北卷,文2,5分)容量为20的样本数据,分组后的频数如下表:分组[10,20) [20,30) [30,40) [40,50) [50,60) [60,70) 频数 2 3 4 5 4 2则样本数据落在区间[10,40)的频率为( )(A)0.35 (B)0.45 (C)0.55 (D)0.65解析:由表格提供的数据可知,样本数据落在区间[10,40)的频数为2+3+4=9,则频率为=0.45.答案:B.13.(2012年山东卷,文4,5分)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( )(A)众数 (B)平均数(C)中位数(D)标准差解析:本题考查样本的平均数,标准差等的计算方法.根据标准差的性质,易知答案为D.答案:D.14.(2012年江西卷,文6,5分)小波一星期的总开支分布如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为( )(A)30% (B)10% (C)3% (D)不能确定解析:本题考查扇形图与条形图的实际应用.由图2可知,小波一星期的食品开支为30+40+100+80+50=300(元),由图1知,小波一星期的总开支为=1000(元),则小波一星期的鸡蛋开支占总开支的百分比为×100%=3%.故应选C.答案:C.统计图在实际中应用相当广泛,也是高考的必考点,难度一般都比较小,主要是读懂图中各阴影部分表示的意义.15.(2011年重庆卷,文4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):125 120 122 105 130 114 116 95 120 134则样本数据落在[114.5,124.5)内的频率为( )(A)0.2 (B)0.3 (C)0.4 (D)0.5解析:在10个已测出的数值中,有4个数据落在[114.5,124.5)内,它们是120、122、116、120,故频率为=0.4,选C.16.(2011年湖北卷,文5)有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12)内的频数为( )(A)18 (B)36 (C)54 (D)72解析:样本数据在[10,12)内的频率为1-2×(0.02+0.05+0.15+0.19)=0.18.∴样本数据在[10,12)内的频数为200×0.18=36,故选B.答案:B.17.(2011年江西卷,文7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e,众数为m0,平均值为,则( )(A)m e=m0=(B)m e=m0<(C)m e<m0<(D)m0<m e<解析:由图知中位数为5.5,众数为5,平均值约为6.选D.答案:D.18.(2010年山东卷,文6)在某项体育比赛中,七位裁判为一选手打出的分数如下:90 89 90 95 93 94 93去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )(A)92,2 (B)92,2.8(C)93,2 (D)93,2.8解析:去掉一个最高分95,一个最低分89,剩下的5个数据是90,90,93,94,93,其平均值==92,方差s2=×[(90-92)2+(90-92)2+(93-92)2+(94-92)2+(93-92)2]=2.8.故选B.19.(2012年山东卷,文14,4分)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为.解析:本题主要考查频率分布直方图的意义.设样本容量为n,则(0.1+0.12)n=11,解得n=50,故气温不低于25.5 ℃的城市个数为:50×0.18=9.答案:920.(2012年广东卷,文13,5分)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为.(从小到大排列)解析:本小题主要考查平均数、中位数、方差的概念,以及方程组的运算,由题,设x1≤x2≤x3≤x4,则x1+x2+x3+x4=8,x2+x3=4,=1,即(x1-2)2+(x2-2)2+(x3-2)2+(x4-2)2=4,联立解得x1=1,x2=1,x3=3,x4=3.答案:1 1 3 321.(2012年湖南卷,文13,5分)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为.(注:方差s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为x1,x2,…,x n的平均数)解析:由茎叶图知该运动员得分为8,9,10,13,15,所以=×(8+9+10+13+15)=11,所以s2=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=×(9+4+1+4+16)=6.8.22.(2011年江苏卷,6)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .解析:10,6,8,5,6的平均数==7,∴10,6,8,5,6的方差s2==.答案:23.(2010年福建卷,文14)将容量为n的样本中的数据分成6组,绘制频率分布直方图,若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n 等于.解析:∵=,∴n=60.答案:6024.(2010年浙江卷,文11)在如图所示的茎叶图中,甲、乙两组数据的中位数分别是, .解析:甲组数据为:28,31,39,42,45,55,57,58,66,中位数为45.乙组数据为:29,34,35,42,46,48,53,55,67,中位数为46.答案:45 4625.(2012年广东卷,文17,13分)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60) [60,70) [70,80) [80,90) x∶y 1∶1 2∶1 3∶4 4∶5解:(1)由(2a+0.02+0.03+0.04)×10=1知a=0.005.(2)估计这100名学生的平均分为:55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=7.5+26+22.5+17=73(分).(3)由频率分布直方图知,语文成绩在[50,60)之间的人数为100×0.05=5,[60,70)之间的人数为100×0.4=40,[70,80)之间的人数为100×0.3=30,[80,90)之间的人数为100×0.2=20,故数学成绩在这几个分数段内的人数分别为5,20,40,25,总人数为90,故在[50,90)之外的人数为100-90=10.26.(2012年北京卷,文17,13分)近年来,某市为了促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类,并分别设置了相应的垃圾箱.为调查居民生活垃圾分类投放情况,现随机抽取了该市三类垃圾箱中总计1000吨生活垃圾,数据统计如下(单位:“厨余垃圾”箱“可回收物”箱“其他垃圾”箱厨余垃圾400 100 100可回收物30 240 30其他垃圾20 20 60(1)试估计厨余垃圾投放正确的概率;(2)试估计生活垃圾投放错误的概率;(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a,b,c,其中a>0,a+b+c=600.当数据a,b,c的方差s2最大时,写出a,b,c的值(结论不要求证明),并求此时s2的值.(注:s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为数据x1,x2,…,x n的平均数)解:(1)由已知得厨余垃圾共有600吨,其中厨余垃圾投放正确的有400吨,∴厨余垃圾投放正确的概率为=.(2)由已知得厨余垃圾投放正确的有400吨,可回收物投放正确的有240吨,其他垃圾投放正确的有60吨,∴生活垃圾投放正确的有700吨,∴生活垃圾投放错误的有300吨,∴投放错误的概率为=.(3)当a=600,b=c=0时,s2最大.由已知a+b+c=600,∴a,b,c的平均数为200,∴s2==80000,∴方差s2最大值为80000.此题的难度在第三问,其余两问难度不大,第三问对学生有较高的能力要求.虽不要求证明,但要求学生对方差意义的理解非常深刻.27.(2012年安徽卷,文18,13分)若某产品的直径长与标准值的差的绝对值不超过1 mm时,则视为合格品,否则视为不合格品,在近期一次产品抽样检查中,从某厂生产的此种产品中,随机抽取5000件进行检测,结果发现有50件不合格品,计算这50件不合格品的直径长与标分组频数频率[-3,-2) 0.10[-2,-1) 8(1,2] 0.50(2,3] 10(3,4]合计50 1.00(1)将上面表格中缺少的数据填在答题卡的相应位置;(2)估计该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率;(3)现对该厂这种产品的某个批次进行检查,结果发现有20件不合格品,据此估算这批产品中的合格品的件数.解:(1)频率分布表分组频数频率[-3,-2) 5 0.10[-2,-1) 8 0.16(1,2] 25 0.50(2,3] 10 0.20(3,4] 2 0.04合计50 1.00(2)由频率分布表知,该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率约为0.50+0.20=0.70;(3)设这批产品中的合格品数为x,依题意有=,解得x=-20=1980.所以该批产品的合格品件数估计是1980.本题考查频率和频率分布表等统计学的基本知识,用频率估计概率的基本思想,考查运用统计和概率基本知识解决简单实际问题的能力.28.(2012年陕西卷,文19,12分)假设甲乙两种品牌的同类产品在某地区市场上销售量相等,为了解他们的使用寿命,现从这两种品牌的产品中分别随机抽取100个进行测试,结果统计如下:(1)估计甲品牌产品寿命小于200小时的概率;(2)这两种品牌产品中,某个产品已使用了200小时,试估计该产品是甲品牌的概率.解:(1)根据题意知:甲品牌产品寿命小于200小时的频率为=,因为用频率估计概率,所以甲品牌产品寿命小于200小时的概率为.(2)有抽样结果,寿命>200小时的产品有75+70=145个,其中甲品牌产品75个,因而在样本中寿命大于200小时的产品是甲品牌的频率是=,由此估计概率为.29.(2012年新课标全国卷,文18,12分)某花店每天以每枝5元的价格从农场购进若干枝玫瑰花,然后以每枝10元的价格出售.如果当天卖不完,剩下的玫瑰花作垃圾处理.(1)若花店一天购进17枝玫瑰花,求当天的利润y(单位:元)关于当天需求量n(单元:枝,n∈N)的函数解析式;(2)花店记录了100天玫瑰花的日需求量(单位:枝),整理得如表:日需求量n 14 15 16 17 18 19 20 频数10 20 16 16 15 13 10①假设花店在这100天内每天购进17枝玫瑰花,求这100天的日利润(单位:元)的平均数;②若花店一天购进17枝玫瑰花,以100天记录的各需求量的频率作为各需求量发生的概率,求当天的利润不少于75元的概率.解:(1)当日需求量n≥17时,利润y=85,当日需求量n<17时,利润y=10n-85,所以y关于n的函数为y=(n∈N).(2)①这100天中有10天的日利润为55元,20天的日利润为65元,16天的日利润为75元,54天的日利润为85元,所以这100天的日利润的平均数为(55×10+65×20+75×16+85×54)=76.4.②利润不低于75元当且仅当日需求量不少于16枝,故当天的利润不少于75元的概率为p=0.16+0.16+0.15+0.13+0.1=0.7.30.(2011年全国新课标卷,文19)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品.现用两种新配方(分别称为A配方和B配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:指标值[90,94) [94,98) [98,102) [102,106) [106,110] 分组频数8 20 42 22 8指标值[90,94) [94,98) [98,102) [102,106) [106,110] 分组频数 4 12 42 32 10(1)分别估计用A配方,B配方生产的产品的优质品率;(2)已知用B配方生产的一件产品的利润y(单位:元)与其质量指标值t的关系式为y=估计用B配方生产的一件产品的利润大于0的概率,并求用B配方生产的上述100件产品平均一件的利润.解:(1)由试验结果知,用A配方生产的产品中优质品的频率为=0.3,所以用A配方生产的产品的优质品率的估计值为0.3.由试验结果知,用B配方生产的产品中优质品的频率为=0.42,所以用B配方生产的产品的优质品率的估计值为0.42.(2)由条件知,用B配方生产的一件产品的利润大于0,当且仅当其质量指标值t≥94.由试验结果知,质量指标值t≥94的频率为0.96.所以用B配方生产的一件产品的利润大于0的概率估计值为0.96.用B配方生产的产品平均一件的利润为×[4×(-2)+54×2+42×4]=2.68(元).31.(2011年广东卷,文17)在某次测验中,有6位同学的平均成绩为75分,x n表示编号为编号n 1 2 3 4 5成绩x n70 76 72 70 72(1)求第6位同学的成绩x6及这6位同学成绩的标准差s;(2)从前5位同学中,随机地选2位同学,求恰有1位同学成绩在区间(68,75)中的概率. 解:(1)∵==75,∴x6=6×75-(70+76+72+70+72)=90,∴s2=×[(70-75)2+(76-75)2+(72-75)2+(70-75)2+(72-75)2+(90-75)2]=×(25+1+9+25+9+225)=49,∴s==7.即这6位同学成绩的标准差为7.(2)从5位同学中随机选两位有:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10种可能情况,记事件A=“恰有一位同学成绩在(68,75)”,A包含(1,2),(2,3),(2,4),(2,5)共4种可能情况,∴P(A)==.即恰有1位同学成绩在区间(68,75)的概率为.32.(2011年辽宁卷,文19)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取两大块地,每大块地分成n小块地,在总共2n小块地中,随机选n小块地种植品种甲,另外n小块地种植品种乙.(1)假设n=2,求第一大块地都种植品种甲的概率;(2)试验时每大块地分成8小块,即n=8,试验结束后得到品种甲和品种乙在各小块地上的每公顷产量(单位:kg/hm2)如下表:品种甲403 397 390 404 388 400 412 406 品种乙419 403 412 418 408 423 400 413分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果,你认为应该种植哪一品种?附:样本数据x1,x2,…,x n的样本方差s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为样本平均数.解:(1)设第一大块地中的两小块地编号为1、2,第二大块地中的两小块地编号为3、4,令事件A为“第一大块地都种品种甲”.从4小块地中任选2小块地种植品种甲的基本事件共6个:(1,2),(1,3),(1,4),(2,3),(2,4),(3,4).而事件A包含1个基本事件:(1,2).所以P(A)=.即第一大块地都种植品种甲的概率为.(2)品种甲的每公顷产量的样本平均数和样本方差分别为:=×(403+397+390+404+388+400+412+406)=400,=×[32+(-3)2+(-10)2+42+(-12)2+02+122+62]=57.25.品种乙的每公顷产量的样本平均数和样本方差分别为:=×(419+403+412+418+408+423+400+413)=412,=×[72+(-9)2+02+62+(-4)2+112+(-12)2+12]=56.由以上结果可以看出,品种乙的样本平均数大于品种甲的样本平均数,且>,故应该选择种植品种乙.33.(2010年安徽卷,文18)某市2010年4月1日—4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85 ,75,71,49,45.(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.解:(1)频率分布表:分组频数频率[41,51) 2[51,61) 1[61,71) 4[71,81) 6[81,91) 10[91,101) 5[101,111] 2(2)频率分布直方图如图所示:(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的.有26天处于良的水平,占当月天数的,处于优或良的天数为28天,占当月天数的.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数共17天,占当月天数的,超过50%.说明该市空气质量有待进一步改善.本题以新颖的背景考查了用统计知识解决实际问题的能力,考查了对数据的处理能力以及应用意识.34.(2010年陕西卷,文19)为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170~185 cm之间的概率;(3)从样本中身高在180~190 cm之间的男生中任选2人,求至少有1人身高在185~190 cm 之间的概率.解:(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数约为400.(2)由统计图知,样本中身高在170~185 cm之间的学生有14+13+4+3+1=35(人),因为样本容量为70,所以样本中学生身高在170~185 cm之间的频率f==0.5,故由频率f估计该校学生身高在170~185 cm之间的概率P1=0.5.(3)样本中身高在180~185 cm之间的男生有4人,设其编号为①,②,③,④,样本中身高在185~190 cm之间的男生有2人,设其编号为⑤,⑥,从上述6人中任取2人的树状图为:故从样本中身高在180~190 cm之间的男生中任选2人的所有可能结果数为15,至少有1人身高在185~190 cm之间的可能结果数为9,因此,所求概率P2==.变量的相关性考向聚焦高考对变量间的相关性的考查呈逐年上升的趋势,主要考查借助于散点图直观地分析两个变量间的相关关系,知道回归直线经过样本中心,会求线性回归方程,并能利用方程对有关变量作出估计.一般以选择题、填空题的形式出现,属容易题,所占分值4~5分35.(2012年新课标全国卷,文3,5分)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )(A)-1 (B)0 (C)(D)1解析:由所有样本点都在直线y=x+1上,即相关性最强,且为正相关,故相关系数为1,故选D.答案:D.36.(2012年湖南卷,文5,5分)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(,)(C)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:用回归方程预测已知身高同学的体重只能是预测,不能一定是.答案:D.37.(2011年江西卷,文8)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数父亲身高x(cm) 174 176 176 176 178儿子身高y(cm) 175 175 176 177 177则y对x的线性回归方程为( )(A)y=x-1 (B)y=x+1(C)y=88+x (D)y=176解析:由于回归直线经过样本中心点(176,176),经验证知C符合.答案:C.广告费用x(万元) 4 2 3 5销售额y(万元) 49 26 39 54根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元解析:据表可得==,==42,∵回归直线过样本中心点(,42),且=9.4,∴=9.1.即回归方程为=9.4x+9.1,∴当x=6时,=65.5,故选B.答案:B.39.(2011年陕西卷,文9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )(A)直线l过点(,)(B)x和y的相关系数为直线l的斜率(C)x和y的相关系数在0到1之间(D)当n为偶数时,分布在l两侧的样本点的个数一定相同解析:样本点的中心(,)必在回归直线上.故选A.答案:A.40.(2010年湖南卷,文3)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )(A)=-10x+200 (B)=10x+200(C)=-10x-200 (D)=10x-200解析:∵销售量y(件)与销售价格x(元/件)负相关,∴x的系数为负.又∵y不能为负值,∴常数项必须是正值.故选A.答案:A.41.(2011年辽宁卷,文14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元.解析:由回归直线方程为=0.254x+0.321知年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.25442.(2012年福建卷,文18,12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件) 90 84 83 80 75 68(1)求回归直线方程=bx+a,其中b=-20,a=-b;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)∵=(x1+x2+x3+x4+x5+x6)=×(8+8.2+8.4+8.6+8.8+9)=8.5,=(y1+y2+y3+y4+y5+y6)=×(90+84+83+80+75+68)=80.∴a=-b=80+20×8.5=250,回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得:L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20(x-)2+361.25当且仅当x==8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.本题主要考查回归分析,二次函数求最值等基础知识,考查学生的运算求解能力,应用意识和化归与转化思想,属中档题.43.(2011年安徽卷,文20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2002 2004 2006 2008 2010 需求量(万吨) 236 246 257 276 286(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,为求回归直线方程,对数据预处理如下:年份-2006 -4 -2 0 2 4需求量-257 -21 -11 0 19 29 对预处理后的数据得=0,=3.2,===6.5,=-=3.2,由上述计算结果知所求回归直线方程为-257=(x-2006)+=6.5(x-2006)+3.2,即=6.5(x-2006)+260.2.(2)利用(1)的结论,当x=2012时,=6.5×6+260.2=299.2,即预测该地2012年的粮食需求量为299.2万吨.独立性检验考向聚焦对独立性检验的考查是高考的一个方向,有时以一道选择题的形式出现,属容易题,4~5分;也有时以一道解答题的形式出现,属于中档偏下题目,12分左右备考指津通过独立性检验判断两个变量是否相关,列出列联表是关键.利用列联表进行独立性检验,不但能考查两个变量是否相关,而且能较准确地计算出这种判断的可靠程度44.(2011年湖南卷,文5)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如男女总计爱好40 20 60不爱好20 30 50总计60 50 110由K2=算得,K2=≈7.8.附表:P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828参照附表,得到的正确结论是( )(A)有99%以上的把握认为“爱好该项运动与性别有关”(B)有99%以上的把握认为“爱好该项运动与性别无关”(C)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”(D)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:∵K2≈7.8>6.635,∴有99%以上把握认为“爱好该项运动与性别有关”.故选A.答案:A.45.(2012年辽宁卷,文19,12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:。
2020高考数学(文科)二轮专题精讲《统计与统计案例》
(3)该家庭未使用节水龙头50天日用水量的平均数为
x
1=
1 50
×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)
=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为 x 2=510×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35. 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,向一 组中的数据以这组数据所在区间中点的值作代表)
甲离子残留百分比直方图
பைடு நூலகம்
乙离子残留百分比直方图
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C) 的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值; (2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点 值为代表).
解:(1)由已知得0.70=a+0.20+0.15,故a=0.35. b=1-0.05-0.15-0.70=0.10. (2)甲离子残留百分比的平均值的估计值为 2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为 3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.
2020高考数学(文科)二轮专题辅导与训练课件:第二篇专题四第1讲 统计与统计案例
则 m 的值为
时 检
点
测
·
·
精
能
析
力
精
达
研
A.0
B.2
标
C.3
D.5
菜单
高考专题辅导与训练·数学(文科)
第二篇 专题四 概率与统计
解 析 (1) 设 9 位 评 委 评 分 按 从 小 到 大 排 列 为
x1<x2<x3<x4 < …<x8<x9. 则 原 始 中 位 数 为 x5 , 去 掉 最 低 分
乘小矩形底边中点的横坐标之和.
菜单
高考专题辅导与训练·数学(文科)
第二篇 专题四 概率与统计
[跟踪训练]
重
3.(1)(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给 限
难 考
出某选手的原始评分,评定该选手的成绩时,从9个原始
时 检
点 ·
评分中去掉1个最高分、1个最低分,得到7个有效评分.7
测 ·
精 个有效评分与9个原始评分相比,不变的数字特征是
第二篇 专题四 概率与统计
考向2 统计图表
[例2-2] (1)(2019·广东百校联考)如图1为某省2019
重 年1~4月快递业务量统计图,图2是该省2019年1~4月快 限
难 递业务收入统计图,下列对统计图理解错误的是
考
时 检
点
测
·
·
精
能
析
力
精
达
研
标
菜单
高考专题辅导与训练·数学(文科)
第二篇 专题四 概率与统计
达 标
菜单
高考专题辅导与训练·数学(文科)
第二篇 专题四 概率与统计
2020版高考文科数学大一轮复习人教A版文档:第十章 统计与统计案例10.3 Word版含答案.docx
§10.3 变量间的相关关系、统计案例1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y ∑n i =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )题组二 教材改编2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:则表中a ,b 的值分别为( )A .94,72B .52,50C .52,74D .74,52 答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题组三 易错自纠5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2统计量研究患肺病是否与吸烟有关.计算得K 2=4.453,经查阅临界值表知P (K 2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A .在100个吸烟的人中约有95个人患肺病B .若某人吸烟,那么他有95%的可能性患肺病C .有95%的把握认为“患肺病与吸烟有关”D .只有5%的把握认为“患肺病与吸烟有关” 答案 C解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.题型一 相关关系的判断1.观察下列各图形,其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③答案 C解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A 选项正确;2007年二氧化硫排放量较2006年降低了很多,B 选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C 选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D. 3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用21ec xy c =拟合时的相关指数为R 21,用y ^=b ^ x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用21ec xy c =拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.题型二 线性回归分析典例 (2017·全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尽寸:经计算得x -=116∑i =116x i =9.97,s =116∑i =116 (x i -x -)2=116(∑i =116x 2i -16x -2)≈0.212, ∑i =116(i -8.5)2≈18.439,∑i =116(x i -x -)(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x --3s ,x -+3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x --3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,0.008≈0.09.解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数r =∑i =116(x i -x -)(i -8.5)∑i =116(x i -x -)2∑i =116(i -8.5)2≈-2.784×0.212×18.439≈-0.18,由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x -=9.97,s ≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外,因此需对当天的生产过程进行检查. ②剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 因此这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i ≈16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 因此这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中画出回归直线; (3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格. 解 (1)数据对应的散点图如图所示:(2)x =15∑5i =1x i =109,∑5i =1(x i-x )2=1 570, y =23.2,∑5i =1(x i -x )(y i -y )=308. 设所求线性回归方程为y ^=b ^x +a ^,则b ^=∑5i =1(x i -x )(y i -y )∑5i =1 (x i -x )2=3081 570≈0.196 2, a ^=y -b ^x =23.2-109×0.196 2=1.814 2.故所求线性回归方程为y ^=0.196 2x +1.814 2. (3)根据(2),当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2≈31.2(万元).题型三 独立性检验典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表如下:K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:(2)将列联表中数据代入公式可得: K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案 A解析 相关指数R 2越大,拟合效果越好,因此模型1拟合效果最好.2.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ) A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系 答案 D解析 只有K 2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K 2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D 正确.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ^ ,解得a ^=18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^ =∑6i =1x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^ =y-b ^x =136-57×72=-13, 所以b ^<b ′,a ^>a ′.6.(2018·河南开封模拟)下列说法错误的是( ) A .回归直线过样本点的中心(x ,y )B .线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 答案 B解析 回归直线必过样本点的中心,A 正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;在回归分析中,R 2越接近于1,模拟效果越好,D正确;线性回归方程对应的直线y ^=b ^x +a ^一定经过样本点的中心(x ,y ),但不一定经过样本的数据点,所以B 错误,故选B.7.某市居民2010~2014年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”) 答案 13 正解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系. 8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的统计量K 2来说,K 2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量K 2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度. 答案 68解析 根据题意知x =18+13+10+(-1)4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y=∑6i =1y i 6=136,代入y =bt -13,得136=b×72-13,解得b =57.14.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)调查的500位老年人中有70位需要志愿者提供帮助,所以该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男,女的比例,再把老年人分成男,女两层并采用分层抽样方法,比采用简单随机抽样方法更好.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95%的把握认为是否喜欢韩剧和性别有关, 则k >3.841,即k =3x 2⎝⎛⎭⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74, ∑7i =1(y i -y ^i)2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑n i =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑n i =1 (y i -y ^i )2∑ni =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好.解 (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18, 所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1 (t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51, 所以y 关于t 的线性回归方程为y ^=b ^ t +a ^ =34t +51. 将2017年对应的t =8代入得y ^ =34×8+51=57, 所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑7i =1 (y i -y ^i )2∑7i =1 (y i -y )2=1-94×118 =1-18=78=0.875, 所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
2020届高三文科数学总复习习题102 统计及统计案例 Word版含答案
§10.2统计及统计案例【考点集训】考点一抽样方法1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()D.6C.5A.2B.4答案B按编号顺序平编号,1~300,将300名学生从2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本)232,则第一组中抽出的号码是(均分组.若第16组应抽出的号码为 D.8B.6C.7A.5答案C统计图表考点二)(,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是1.(2018四川达州模拟90和92D.85和B.87A.85和92和92C.84答案B克内的频率为700,3000]统计新生婴儿的体重河南新乡第一次调研,3),其频率分布直方图如图所示,则新生婴儿体重在(22.(2017)(C.0.2B.0.1D.0.3A.0.001答案D考点三样本的数字特征将调查得到的小区空置房的套数绘成了如图所示的个小区调查空置房情况湖北华师一附中月考1.(2018,3)某人到甲、乙两市各7,(,茎叶图则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为)A.4B.3C.2D.1答案B2,则(,方差为s)7已知某个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为2.(2018山东济南一模,3)22>2=4,s=4,sB.<2A.22>2C.>4,s<2>4,sD.答案A考点四变量间的相关性1.(2018河南焦作四模,3)已知变量x和y的统计数据如下表:3642.54.53y根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=()A.6.4B.6.25C.6.55D.6.45C答案2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是()..128x10623my6A.变量x,y之间成负相关关系=-3.7时,B.可以预测,当x=20C.m=4(9,4)D.该回归直线必过点C答案考点五独立性检验1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.总计一线城市非一线城市6545愿生203513不愿生2210058总计42:附表k≥20.0010.010)0.050P(K010.8283.8416.635k0 --算得,K≈9.616,参照附表,得到的正确结论是(K由)22==A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C2.(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示:95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?根据表中数据(1),问是否有人喜欢甜品,求至多有1,现在从这5名学生中随机抽取3人(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品的概率.k≥20.0100.10)P(K0.050 6.6352.7063.841k0-:K附2.=-K,得(1)将2×2列联表中的数据代入公式计算≈4.762.解析2==的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.由于4.762>3.841,所以有95%人的所有可能结果所组成的基本事件空间名中文系学生中任取3(2)从5Ω={(a)},,b),(b,b,b),(a,b,b),(a,b,b),(a,b,b),(a,a,b),(a,a,b,a,b),(a,b,b),(a,b),(a,b,b323121121222212233121122113311,j=1,2,3.表示喜欢甜品的学生,i=1,2,b表示不喜欢甜品的学生其中a ji.个基本事件组成,且这些基本事件的出现是等可能的Ω由10A={(a则1人喜欢甜品”这一事件,用A表示“3人中至多有,b)}.,b,b),(a,b),(b,b),(a,b,b),(a,b,b),(a,b,b,b,b),(a,b313211123212123122132P(A)=因而A由7个基本事件组成,事件.炼技法【方法集训】解与频率分布直方图有关问题的方法方法1其中自习时间的范围,:小时),制成了如图所示的频率分布直方图,3,5分)某高校调查了200名学生每周的自习时间(单位1.(2016山东22.5名学生中每周的自习时间不少于,这200是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图)小时的人数是(D.140C.120B.60 A.56D答案所得数据均在,200辆汽车的时速江苏南京调研2.(2017,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的辆. [40,60)200则在抽测的辆汽车中,时速在区间内的汽车有,,[40,80]区间内其频率分布直方图如图所示答案80方法2样本的数字特征的求解及其应用制成如℃)(单位:天,将这5天中14时的气温数据1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5考虑以下结论:图所示的茎叶图.;时的平均气温低于乙地该月14时的平均气温①甲地该月14;时的平均气温高于乙地该月14时的平均气温②甲地该月14;时的气温的标准差小于乙地该月14时的气温的标准差③甲地该月14.时的气温的标准差大于乙地该月14时的气温的标准差④甲地该月14)其中根据茎叶图能得到的统计结论的编号为( D.②④B.①④C.②③A.①③B答案的频数分布(10分制),某大学随机抽取30名学生参加环保知识测试,得分2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识中的最大者是b、c. 直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、答案c方法3回归直线方程的求解与运用1.(2017安徽合肥一中等四校联考,6)某品牌牛奶的广告费用x(万元)与销售额y(万元)的统计数据如下表:5432广告费用x(万元)54493926销售额y(万元))为9.4,据此估计,广告费用为7万元时销售额为(根据上表可得回归方程中的x+=万元B.65.5A.74.9万元C.67.7万元D.72.0万元答案A2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日610日月5月月10日103月10日4日月日期日1月10210昼夜温6111381210)℃差x(就诊人122916222625y数该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月数据的概率;;x的线性回归方程=x+月份的数据求出月与(2)若选取的是16月的两组数据,请根据2至5y关于试问该小组,,(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人则认为得到的线性回归方程是理想的?所得线性回归方程是否理想∑∑---:参考公式;-=,==∑∑--参考数据:11×25+13×29+12×26+8×16=1092,112222=498.+13+12+8解析(1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽P(A)=所以到相邻两个月的数据的情况有5种,.=(2)由数据求得=11,=24,由公式求得=,则=-,=-y所以关于x的线性回归方程为=x-.-<2,=,x=10时,(3)由(2)知,当时,当x=6-<2,,=所以,该小组所得线性回归方程是理想的.方法4独立性检验的思想方法1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.?的前提条件下认为网购迷与年龄不超过40岁有关2列联表,能否在犯错的概率不超过0.10(1)根据已知条件完成下面的2×若从超级网购,40岁,且已知超级网购迷中有2名年龄超过现将所抽取样本中周平均网购次数不少于(2)5次的市民称为超级网购迷.40岁的概率,求至少有1名市民年龄超过迷中任意挑选2名-:K附2.=列联表如下:(1)根据已知条件完成2×2解析-认为网购迷与年龄不超,的前提下3.297,≈因为,在犯错误的概率不超过0.103.297>2.706,所以据此列联表判断2=K.过40岁有关、hg、fd、e、、岁的2名市民为A、B,其余8名市民记为c、40(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过、Bn、、Bmcd、、Be、Bf、Bg、BhAnAf、Ac、Ad、Ae、、Ag、Ah、Am、、Bc、BdAB2n,m、现从10人中任取人,基本事件有ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,P=故所求的概率.2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”.高一年级的学生日均使用手机时间的频数分布表[100,120]时间分组[40,60)[0,20)[80,100)[60,80)[20,40)424频数22181220高二年级的学生日均使用手机时间的频率分布直方图请说明理由;,(1)将频率视为概率估计哪个年级的学生是“手机迷”的概率大,并据列联表,.根据已知条件完成下面的2×2,已知随机抽到的女生有55名,其中10名为“手机迷”(2)在对高二年级学生的抽查中你有多大的把握认为“手机迷”与性别有关?此资料,合计手机迷非手机迷男女合计-:K附2其中n=a+b+c+d.=,k≥20.0250.150.05P(K)0.100参考数据 5.0242.7062.0723.841k0高一年级的学生是“手机迷”的概率为,:由频数分布表可知(1)估计高一年级的学生是“手机迷”的概率大.理由解析=0.26,20=0.25,5+0.010)×由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.002.0.26>0.25,所以高一年级的学生是“手机迷”的概率大因为人中,100(2)由频率分布直方图可知,在抽取的人,5)×20×100=25“手机迷”有(0.010+0.002人.“非手机迷”有100-25=75列联表如下:2×2合计非手机迷手机迷4530男1541107合2将2×2列联表中的数据代入公式计算,得-≈3.030.2=K=因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关.过专题【五年高考】A组统一命题课标卷题组·考点一抽样方法(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.答案分层抽样考点二统计图表1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:)则下面结论中不正确的是(,种植收入减少A.新农村建设后,其他收入增加了一倍以上B.新农村建设后,养殖收入增加了一倍C.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半D.新农村建设后A答案月期间年121月至2016某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年2.(2017课标全国Ⅲ,3,5分).的数据),绘制了下面的折线图月接待游客量(单位:万人)根据该折线图,下列结论错误的是(A.月接待游客量逐月增加B.年接待游客量逐年增加7,8月C.各年的月接待游客量高峰期大致在变化比较平稳12月至月,波动性更小,D.各年1月至6月的月接待游客量相对于7A答案)(,以下结论中不正确的是年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,3,53.(2015课标Ⅱ分)根据下面给出的2004A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关D答案3天的日用水量数和使用了节水龙头天的日用水量数据(单位:m50)504.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头得到频数分布表如下:据,天的日用水量频数分布表未使用节水龙头50[0.6,0.7)[0.2,0.3)[0.4,0.5)日用水量[0.3,0.4)[0,0.1)[0.1,0.2)[0.5,0.6) 59226频数413使用了节水龙头50天的日用水量频数分布表[0.5,0.6)[0.3,0.4)日用水量[0.2,0.3)[0,0.1)[0.1,0.2)[0.4,0.5)5101316频数15(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;;的概率3m日用水量小于0.35(2)估计该家庭使用节水龙头后,同一组中的数据以这组数据所在区间中点的值作代表)一年按365天计算,估计该家庭使用节水龙头后(3),一年能节省多少水.((1)解析0.05=0.48,0.2×0.1+1×0.1+2.6×0.1+2×的频率为3m50天日用水量小于0.35(2)根据以上数据,该家庭使用节水龙头后0.48. m的概率的估计值为因此该家庭使用节水龙头后日用水量小于0.353天日用水量的平均数为(3)该家庭未使用节水龙头50 9+0.55×26+0.65×5)=0.48.×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×=天日用水量的平均数为该家庭使用了节水龙头后5016+0.55×5)=0.35.5+0.25×13+0.35×10+0.45×=×(0.05×1+0.15×365=47.45(m,一年可节省水(0.48-0.35)×估计使用节水龙头后3).考点三样本的数字特征下面,x,x,x,…单位n块地作试验田.这n块地的亩产量(:kg)分别为选了1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,n12)给出的指标中可以用来评估这种农作物亩产量稳定程度的是(B.x的标准差的平均数,x,x…,A.x,x,…,x n112n2的最大值的中位数D.x,x,x,xC.x,…,…,x nn1212B答案,测量这些产品的一项质量指标值,由测量结果得如下频数分布表件:从某企业生产的某种产品中抽取,18,122.(2014课标Ⅰ分)100[115,125)质量指标值分组[75,85)[105,115)[85,95)[95,105) 8频数6263822(1)作出这些数据的频率分布直方图;);(同一组中的数据用该组区间的中点值作代表(2)估计这种产品质量指标值的平均数及方差”的规定?能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%(3)根据以上抽样调查数据,频率分布直方图如图.解析(1)质量指标值的样本平均数为(2)0.08=100.0.06+90×0.26+100×0.38+110×0.22+120×=80×质量指标值的样本方差为222220.22+200.06+(-10)0.08=104.×0.26+0×0.38+10×s=(-20)××104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为的产品所占比例的估计值为(3)质量指标值不低于950.38+0.22+0.08=0.68.80%”的规定.的产品至少要占全部产品的由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95考点四变量间的相关性并从该生产线上随机抽取一个零件,,检验员每隔30min为了监控某种零件的一条生产线的生产过程1.(2017课标全国Ⅰ,19,12分)个零件的尺寸:下面是检验员在一天内依次抽取的测量其尺寸(单位:cm).16=∑∑经计算得-=9.97,s=x i-∑∑-≈0.212,=≈18.439,∑为抽取的第i个零件的尺寸,i=1,2,…,16.x(x其中)(i-8.5)=-2.78,-ii(1)求(x,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若i|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x,y)(i=1,2,…,n)的相关系数ii∑--.r=∑-∑-≈0.09.∑--(x解析(1)由样本数据得r=的相关系数为…,16),i)(i=1,2,i∑-∑--≈-0.18.=由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.9.97-9.22)=10.02,剩下数据的平均数为×(16×,(ii)剔除离群值,即第13个数据这条生产线当天生产的零件尺寸的均值的估计值为10.02.≈1591.134,∑229.97=16×0.212+16×剔除第13个数据,剩下数据的样本方差为22)≈0.008,591.134-9.22-15×10.02×(1这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.请用相关系数加以说明;t的关系,可用线性回归模型拟合(1)由折线图看出,y与.预测2016年我国生活垃圾无害化处理量(y关于t的回归方程系数精确到0.01),(2)建立:附注∑:参考数据-=9.32,∑ty∑2.646.=40.17,≈=0.55,y iii∑--r=相关系数参考公式:,∑-∑-回归方程=+t中斜率和截距最小二乘估计公式分别为:∑--.=,=-∑-解析(1)由折线图中数据和附注中参考数据得2=4,∑-(t-∑)=0.55,=28,i∑∑y=40.17-4×ty-9.32=2.89,(t-)(y-)=∑iiiii≈0.99.(4分)≈r因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分)∑--0.10,(1)得≈≈1.331及=由==(2)∑-0.93.=1.331-0.10×4≈-=t的回归方程为所以y关于分)=0.93+0.10t.(102016将年对应的t=9代入回归方程得:=0.93+0.10×9=1.83.年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)所以预测2016考点五独立性检验1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:并说明理由;(1)根据茎叶图判断哪种生产方式的效率更高,的工人数填入下面的列联表;并将完成生产任务所需时间超过m和不超过m(2)求40名工人完成生产任务所需时间的中位数m,m超过m不超过第一种生产方式?能否有99%的把握认为两种生产方式的效率有差异(3)根据(2)中的列联表,-:K附2,=0.0010.010k)0.050≥2P(K10.828k3.8416.635.解析(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.=80.m=(2)由茎叶图知:列联表如下m不超过超过m5第一种生产方式15155第二种生产方式-2=99%的把握认为两种生产方式的效率有差异.=10>6.635,所以有(3)由于K2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:的概率;”,估计A表示事件“旧养殖法的箱产量低于(1)记A50kg;99%填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关(2)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.(3)附:0.001≥k)0.0100.0502P(K6.635k10.8283.841,-2.K=的频率为旧养殖法的箱产量低于50kg解析(1)5=0.62.(0.012+0.014+0.024+0.034+0.040)×A的概率估计值为0.62.事件-15.705.≈2=K由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.B组自主命题省(区、市)卷题组·考点一抽样方法1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.)[139,151]上的运动员人数是(号若将运动员按成绩由好到差编为1~35,再用系统抽样方法从中抽取7人,则其中成绩在区间D.6B.4C.5A.3B答案现用分层,件.为检验产品的质量分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,1002.(2017江苏,3,5. 件60件进行检验,则应从丙种型号的产品中抽取抽样的方法从以上所有的产品中抽取18答案统计图表考点二都在区间):万元,发现消费金额(单位年度的消费情况进行统计湖北,14,5分)某电子商务公司对10000名网络购物者20141.(2015.,其频率分布直方图如图所示[0.3,0.9]内; a=直方图中的(1). 内的购物者的人数为(2)在这些购物者中,消费金额在区间[0.5,0.9]000(2)6答案(1)3100根据男女学生人数比例,使用分层抽样的方法从中随机抽取了分)某大学艺术专业400名学生参加某次测评,2.(2017北京,17,13并整理得到如下频率分布直方图:7组:[20,30),[30,40),…,[80,90],,名学生,记录他们的分数将数据分成估计其分数小于,70的概率;(1)从总体的400名学生中随机抽取一人[40,50)内的人数;的学生有(2)已知样本中分数小于405人,试估计总体中分数在区间.试估计总体中男生和女生人数的比例已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.(3)70的频率为(0.02+0.04)×10=0.6,样本中分数不小于解析(1)根据频率分布直方图可知,70的频率为1-0.6=0.4.所以样本中分数小于70名学生中随机抽取一人,其分数小于的概率估计为0.4.400所以从总体的50,(2)根据题意样本中分数不小于的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.400×[40,50)内的人数估计为所以总体中分数在区间=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,60×的男生人数为所以样本中分数不小于70=30.∶2.女生人数为100-60=40,男生和女生人数的比例为60∶40=3所以样本中的男生人数为30×2=60,∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3考点三样本的数字特征1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()D.5,7C.3,7A.3,5B.5,5答案A. 那么这5位裁判打出的分数的平均数为 2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,989101990答案. 4.7,4.8,5.1,5.4,5.5,则该组数据的方差是分3.(2016江苏,4,5)已知一组数据0.1答案变量间的相关性考点四).下列结论中正确的是(满足关系y=-0.1x+1,变量y与z正相关,4,51.(2015湖北分)已知变量x和y负相关,x与zA.x与y正相关z正相关正相关,x与B.x与y负相关,x与zC.x与y负相关与z 正相关D.x与y负相关,x C答案)如下表:居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额重庆2.(2015,17,13分)随着我国经济的发展,20142011年份20132010201254时间代号t31210储蓄存款y(千亿元576)8;t的回归方程=t+y(1)求关于的人民币储蓄存款(2)用所求回归方程预测该地区2015年(t=6).∑-中,:附回归方程-===t+∑-:列表计算如下解析(1)ty yit iiii51115217339324416850102555∑120361555∑这里n=5,=∑y==7.2.==3,=t iil又2=7.2-1.2×3=3.6,-=120-5×t=∑-n=55-5×3=10,l=∑y-n3×7.2=12,从而===1.2,=iittty故所求回归方程为=1.2t+3.6.6+3.6=10.8(千亿元).t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×(2)将独立性检验考点五得到统计数,52名中学生某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了)1.(2014江1表2表3表4表A.成绩B.视力C.智商D.阅读量。
(新课标)2020版高考数学二轮复习专题四概率与统计第1讲统计与统计案例学案文新人教A版(最新整理)
归方程;
(2)小李在该市开了一家洗车店,洗车店每天的平均收入与 AQI 指数存在相关关系如表
3:
表3
[0,
[400, [600,800 [800,1
M
[200,400)
200)
600)
)
000]
日均收入 (元)
- 2 000
- 1 000
2 000
6 000
8 000
根据表 3 估计小李的洗车店 2017 年 11 月份每天的平均收入.
(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=错误!。
P(K2≥k0) 0.050 0.010 0.001
10。
k0
3.841 6.635
828
解:(1)由调查数据知,男顾客中对该商场服务满意的比率为错误!=0.8,因此男顾客对该 商场服务满意的概率的估计值为 0.8.
s错误!=错误!×[(-7)2+(-4)2+42+22+52]=22, s2,2=错误!×[(-6)2+42+(-1)2+12+22]=11。6, 因为 88>85,11。6<22,所以获数学二等奖考生较获语文二等奖考生综合素质测试的平均 分高,但是成绩差距较大.
回归分析(综合型)
[典型例题]
某省的一个气象站观测点在连续 4 天里记录的 AQI 指数 M 与当天的空气水平可见度
专题05 统计——2020年高考数学(文)母题题源全揭秘(全国Ⅰ专版)(原卷版)
专题05 统计【母题来源一】【2020年高考全国Ⅰ卷文数】某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是 A .y a bx =+ B .2y a bx =+ C .e x y a b =+D .ln y a b x =+【答案】D【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+. 故选D.【名师点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题. 根据散点图的分布可选择合适的函数模型.【母题来源二】【2019年高考全国Ⅰ卷文数】某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是A .8号学生B .200号学生C .616号学生D .815号学生【答案】C【解析】由已知将1000名学生分成100个组,每组10名学生,用系统抽样,46号学生被抽到,所以第一组抽到6号,且每组抽到的学生号构成等差数列{}n a ,公差10d =,所以610n a n =+()n *∈N ,若8610n =+,解得15n =,不合题意;若200610n =+,解得19.4n =,不合题意;若616610n =+,则61n =,符合题意;若815610n =+,则80.9n =,不合题意.故选C .【母题来源三】【2018年高考全国Ⅰ卷文数】某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:建设前经济收入构成比例建设后经济收入构成比例则下面结论中不正确的是 A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 【答案】A【解析】设新农村建设前的收入为M ,而新农村建设后的收入为2M ,则新农村建设前种植收入为0.6M ,而新农村建设后的种植收入为0.74M ,所以种植收入增加了,所以A 项不正确;新农村建设前其他收入为0.04M ,新农村建设后其他收入为0.1M ,故增加了一倍以上,所以B 项正确;新农村建设前,养殖收入为0.3M ,新农村建设后为0.6M ,所以增加了一倍,所以C 项正确;新农村建设后,养殖收入与第三产业收入的综合占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选A.【命题意图】2020年高考试题对统计的考查主要是会利用散点图认识变量间的相关关系,了解回归分析的基本思想、方法及其简单应用.【命题规律】高考常考查知识点:(1)会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(3)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.(4)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.【答题模板】对某些特殊的非线性关系,可以通过变量转换,把非线性回归问题转化成线性回归问题,然后用线性回归的方法进行研究.在大量的实际问题中,所研究的两个变量不一定都呈线性相关关系,当两变量y与x不具有线性相关关系时,要借助散点图,与已学过的函数(如指数函数、对数函数、幂函数等)的图象相比较,找到合适的函数模型,利用变量代换转化为线性函数关系,从而使问题得以解决.【方法总结】1.相关关系的判断判定两个变量正、负相关性的方法:(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关;(2)相关系数:r>0时,正相关;r<0时,负相关;(3)线性回归方程中:ˆ0b>时,正相关;ˆ0b<时,负相关.2.求回归直线方程的一般步骤:(1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系.(2)当两变量具有线性相关关系时,求回归系数ˆˆa b、,写出回归直线方程.(3)根据方程进行估计.3.求非线性回归方程的步骤:(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.4.频率分布直方图(1)画频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图(以横轴表示样本分组,纵轴表示频率与组距的比值).(2)频率分布直方图的性质①落在各小组内的频率用各小长方形的面积表示,且各小长方形的面积的和等于1.②频率分布直方图与众数、中位数与平均数的关系a.最高的小长方形底边中点的横坐标即是众数;b.中位数左边和右边的小长方形的面积和是相等的;c.平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标的和.5.在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.6.用系统抽样法抽取样本,当N n 不为整数时,取[]Nk n=,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性. 系统抽样的操作步骤:第一步编号:先将总体的N 个个体编号; 第二步分段:确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k =Nn; 第三步确定首个个体:在第1段用简单随机抽样确定第一个个体编号l (l ≤k );第四步获取样本:按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号l k +,再加k 得到第3个个体编号2l k +,依次进行下去,直到获取整个样本. 7.与分层抽样有关问题的常见类型及解题策略:(1)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(2)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数. 8.三种抽样方法的比较1.【2020届全国100所名校高考模拟金典卷高三数学(十一)试题】已知某产品的销售额y 与广告费用x 之间的关系如下表:若求得其线性回归方程为 6.5ˆy x a =+,则预计当广告费用为6万元时的销售额为( )A .42万元B .45万元C .48万元D .51万元2.【云南省昆明市2019届高三1月复习诊断测试数学试题】某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:根据表中数据,下列说法正确的是( ) A .利润率与人均销售额成正比例函数关系 B .利润率与人均销售额成反比例函数关系 C .利润率与人均销售额成正相关关系 D .利润率与人均销售额成负相关关系3.【湖北省恩施州2019届高三2月教学质量检测数学试题】下列说法中正确的个数是( ) ①相关系数r 用来衡量两个变量之间线性关系的强弱,||r 越接近于1,相关性越弱; ②回归直线^^^y b x a =+过样本点中心(,)x y ;③相关指数2R 用来刻画回归的效果,2R 越小,说明模型的拟合效果越不好. A .0 B .1 C .2D .34.【山东省泰安市2019届高三第二轮复习质量检测数学试题】根据如下样本数据:得到的回归方程为为7.9y bx a a =+=,若,则x 每增加一个单位,y 就( ) A .增加1.4个单位 B .减少1.4个单位 C .增加1.2个单位D .减少1.2个单位5.【2020届四川省成都市金堂中学高三一诊模拟数学试题】已知变量x 与y 线性相关,由观测数据算得样本的平均数3x =,4y =,线性回归方程y bx a =+中的系数b ,a 满足2b a -=,则线性回归方程为( ) A .7y x =-+B .1322y x =-- C .1y x =+D .3122y x =- 6.【黑龙江省哈尔滨市第三中学校2020届高三第三次模拟数学试题】有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱7.【2019届陕西省渭南市高三第二次教学质量检测数学试题】设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg8.【2020届内蒙古呼和浩特市高三第一次质量普查调研考试数学】如图是某学校研究性课题《什么样的活动最能促进同学们进行垃圾分类》向题的统计图(每个受访者都只能在问卷的5个活动中选择一个),以下结论错误的是()A.回答该问卷的总人数不可能是100个B.回答该问卷的受访者中,选择“设置分类明确的垃圾桶”的人数最多C.回答该问卷的受访者中,选择“学校团委会宣传”的人数最少D.回答该问卷的受访者中,选择“公益广告”的人数比选择“学校要求”的少8个9.【安徽省滁州市定远县重点中学2020届高三下学期5月模拟数学试题】已知某高中的一次测验中,甲、乙两个班级的九科平均分的雷达图如图所示,下列判断错误的是()A.乙班的理科综合成绩强于甲班B.甲班的文科综合成绩强于乙班C.两班的英语平均分分差最大D.两班的语文平均分分差最小10.【四川省遂宁市2020届高三三诊考试数学试题】某市举行“中学生诗词大赛”,分初赛和复赛两个阶段进行,规定:初赛成绩大于90分的具有复赛资格,某校有1000名学生参加了初赛,所有学生的成绩均在区间(30,150]内,其频率分布直方图如图所示,则获得复赛资格的人数为()A.650B.660C.680D.70011.【2020届山西省晋中市高三下学期一模(普通招生考试模拟)数学试题】某同学10次测评成绩的数据如茎叶图所示,总体的中位数为12,若要使该总体的标准差最小,则x y的值是()42A.12B.14C.16D.1812.【河北省唐山市2019-2020学年高三下学期4月联考数学试题】如图1为某省2019年1~4月快递义务量统计图,图2是该省2019年1~4月快递业务收入统计图,下列对统计图理解错误的是()A.2019年1~4月的业务量,3月最高,2月最低,差值接近2000万件B .2019年1~4月的业务量同比增长率超过50%,在3月最高C .从两图来看2019年1~4月中的同一个月快递业务量与收入的同比增长率并不完全一致D .从1~4月来看,该省在2019年快递业务收入同比增长率逐月增长13.【广东省深圳市宝安中学2020届高三下学期4月模拟数学试题】已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为x ,方差为2s ,则( ) A .270,75x s =< B .270,75x s => C .270,75x s ><D .270,75x s <>14.【山东省济宁市2019届高三第一次模拟考试数学试题】如图为某市国庆节7天假期的楼房认购量与成交量的折线图,小明同学根据折线图对这7天的认购量(单位:套)与成交量(单位:套)作出如下判断:①日成交量的中位数是16;②日成交量超过日平均成交量的有2天;③认购量与日期正相关;④10月7日认购量的增幅大于10月7日成交量的增幅.则上述判断正确的个数为( )A .0B .1C .2D .315.【辽宁省实验中学2020届高三5月内测模考数学试题】某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业者岗位分布条形图,则下列结论中不正确的是( )注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A .互联网行业从业人员中90后占一半以上B .互联网行业中从事技术岗位的人数超过总人数的20%C .互联网行业中从事产品岗位的90后人数超过总人数的5%D .互联网行业中从事运营岗位的90后人数比80前人数多16.【黄金30题系列 高三年级数学小题易丢分】2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[]10,14,[]15,19,[]20,24,[]25,29,[]30,34的爱看比例分别为10%,18%,20%,30%,%t .现用这5个年龄段的中间值x 代表年龄段,如12代表[]10,14,17代表[]15,19,根据前四个数据求得x 关于爱看比例y 的线性回归方程为()ˆ 4.68%ykx =-,由此可推测t 的值为( ) A .33 B .35 C .37D .3917.【辽宁省协作校2020届高三下学期第二次模拟考试数学试题】某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的办法抽取一个容量为6的样本.已知学号为3,11,19,35,43的同学在样本中,那么还有一个同学的学号应为( ) A .27 B .26 C .25D .2418.【2020届闽粤赣高三下学期三省十二校联考数学试题】某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600从中抽取60个样本,如下提供随机数表的第4行到第6行: 32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42 84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04 32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个样本编号为( )A.522 B.324C.535 D.57819.【四川省宜宾市第四中学2020届高三下学期第二次高考适应性考试数学试题】某公司生产A,B,C三种不同型号的轿车,产量之比依次为2:3:4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为n的样本,若样本中A种型号的轿车比B种型号的轿车少8辆,则n ()A.96 B.72C.48 D.3620.【2020届海南省海南中学高三年级摸底数学试题】某地区的高一新生中,来自东部平原地区的学生有2400人,中部丘陵地区的学生有1600人,西部山区的学生有1000人.计划从中选取100人调查学生的视力情况,现已了解到来自东部、中部、西部三个地区学生的视力情况有较大差异,而这三个地区男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.系统抽样D.按地区分层抽样21.【2020年普通高等学校招生全国统一考试(全国Ⅰ卷)文科白卷1试题】某校高二年级共有2000名学生,其中男女比例为2:3,在某次数学测验中,按分层抽样抽取40人的成绩,若规定85分以上为优秀,且分数为优秀的学生中女生有2人,据此估计高二年级分数为优秀的女生人数为()A.60 B.100C.150 D.200。
2020年高考文科数学二轮专题复习十:概率统计与统计案例(附解析)
2020年高考文科数学二轮专题复习十:概率统计与统计案例(附解析)1.以实际问题为背景,考查抽样方法的选择或根据抽样方法求值; 2.根据折线图或其它统计图,分析实际问题的走势及变化;3.考察均值、标准差、中位数等特征数的意义及对样本数据的特征分析; 4.列举法求解古典概型概率,或分析一些规则对称图形考察几何概型; 5.以实际问题为背景,考察独立性检验相关运算和相关性百分比分析;6.以实际问题为背景,分析两变量间的线性相关性,并通过线性回归方程进行预估;7.以频率分布表或频率分布图为依据,求解参数值,并通过均值与标准差的计算对实际问题进行对比或优化.1.简单随机抽样定义:一般地,设一个总体含有N 个个体,从中逐个不放回的抽取n 个个体作为样本(n N ), 如果每次抽取时总体内的各个个体被抽到的机会相等,就把这种抽样方法叫做简单随机抽样. 最常用的简单随机抽样方法有两种---抽签法和随机数法. 适用范围:总体含个体数较少.2.系统抽样一般地,假设要从容量为N 的总体中抽取容量为n 的样本,我们可以按下列步骤进行系统抽样: (1)先将总体的N 个个体编号.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;(2)确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取N k n=; (3)在第1段用简单随机抽样确定第一个个体编号()l l k ≤;(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号()l k +,再加k 得到第3个个体编号(2)l k +,依次进行下去,直到获取整个样本.注意:如果遇到Nn不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除. 适用范围:总体含个体数较多.3.分层抽样定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样. 适用范围:总体由差异明显的几部分构成.4.频率分布直方图极差:一组数据中最大值与最小值的差; 频数:即个数;频率:频数与样本容量的比值,频率分布直方图中各小长方形的面积表示相应各组的频率; 众数:出现次数最多的数,可以有多个.若无具体样本数据,则频率分布直方图中最高矩形的中点值可视为众数估计值;中位数:按大小顺序排列的一组数据中居于中间位置的数,若中间位置有两个数,则取它们的平均数,中位数只有一个.若无具体样本数据,则频率分布直方图中将所有矩形面积平分的直线对应的横坐标可视为中位数的估计值;平均数:所有样本数值之和除以样本个数的值.若无具体样本数据,则频率分布直方图中将每个矩形对应的区间中点值与该矩形面积相乘,然后全部相加得到的数值可视为该样本的平均值的估计值; 标准差:考察样本数据的分散程度的大小,一般用s 表示.标准差越大,则数据离散程度越大;标准差越小,则数据离散程度越小.s =方差:标准差的平方,用2s 表示,也是刻画样本数据的分散程度,与标准差一致.2222121[()()...()]n s x x x x x x n=-+-++-.5.最小二乘法回归直线$$y bx a =+$,其中1122211()()ˆ()ˆˆn ni i i i i i n ni ii i x x y y x y nx y b x x x nx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑.6.相关系数()()niix x y y r --=∑,当r 为正时,表明变量x 与y 正相关;当r 为负时,表明变量x 与y 负相关.[1,1]r ∈-,r 的绝对值越大,说明相关性越强;r 的绝对值越小,说明相关性越弱.7.事件一般用大写字母A,B,C,...表示.必然事件:一般地,我们把在条件S下,一定会发生的事件,叫做相对于条件S的必然事件.不可能事件:在条件S下,一定不会发生的事件,叫做相对于条件S的不可能事件.确定事件:必然事件与不可能事件统称为相对于条件S的确定事件.随机事件:在条件S下可能发生也可能不发生的事件,叫做相对于条件S的随机事件.互斥事件:在一次试验中不可能同时发生的两个事件.对立事件:在一次试验中有且仅有一个会发生的两个事件.8.概率概率是一个确定的数,与每次的试验无关,用来度量事件发生的可能性大小.9.古典概型(1)实验中所有可能出现的基本事件只有有限个;(2)每个基本事件出现的可能性相等;(3)()AP A=包含的基本事件的个数基本事件的总数.10.几何概型每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例.()AP A=构成事件的区域长度(面积或体积)试验的全部结果所构成的区域长度(面积或体积).11.回归分析(1)样本点的中心(,)x y一定满足回归方程;(2)点(,)i i x y 的残差$i ii e y y =-$; (3)$22121()1()niii nii y y R y y ==-=--∑∑,2R 越大,则模型的拟合效果越好;2R 越小,则模型的拟合效果越差.12.独立性检验2K 的观测值2()()()()()n ad bc k a b c d a c b d -=++++.1.(2019·全国Ⅰ卷文)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,3,L,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生2.(2019·全国Ⅰ卷文)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++经典常规题(45分钟)3.(2019·全国Ⅱ卷文)生物实验室有5只兔子,其中只有3只测量过某项指标.若从这5只兔子中随机取出3只,则恰有2只测量过该指标的概率为()A.23B.35C.25D.154.(2019·全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.(1(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602≈.5.(2019·全国Ⅲ卷文)两位男同学和两位女同学随机排成一列,则两位女同学相邻的概率是()A.16B.14C.13D.126.(2019·全国Ⅲ卷文)为了解甲,乙两种离子在小鼠体内的残留程度,进行如下实验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同,摩尔浓度相同。
【高考复习】2020年高考数学(文数) 统计、统计案例 小题练(含答案解析)
【高考复习】2020年高考数学(文数)统计、统计案例 小题练一、选择题1.某公司一种型号的产品近期销售情况如下表:根据上表可得到回归直线方程y ^=0.75x +a ^,据此估计,该公司7月份这种型号产品的销售额约为( )A .19.5万元B .19.25万元C .19.15万元D .19.05万元2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =0.5x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .0.5D .14.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x ,方差为s 2,则( )A .x =4,s 2<2 B .x =4,s 2>2 C .x >4,s 2<2 D .x >4,s 2>25.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .120D .1406.某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品长度的中位数为( )A.20B.25C.22.5D.22.757.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )A.甲B.乙C.丙D.丁8.研究人员随机调查统计了某地1000名“上班族”每天在工作之余使用手机上网的时间,并将其绘制为如图所示的频率分布直方图,若同一组数据用该区间的中点值作代表,则可估计该地“上班族”每天在工作之余使用手机上网的平均时间是( )A.1.78小时B.2.24小时C.3.56小时D.4.32小时9.生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件检测,其尺寸用茎叶图表示如图(单位:mm),则估计( )A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D.乙生产的零件质量比甲生产的零件质量好10.如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为()A.3,5 B .5,5 C .3,7 D .5,711.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()12.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170二、填空题13.已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________.14.采用系统抽样方法从600人中抽取50人做问卷调查,为此将他们随机编号为001,002,…,600,分组后在第一组采用简单随机抽样的方法抽得的号码为003,抽到的50人中,编号落入区间[001,300]的人做问卷A ,编号落入区间[301,495]的人做问卷B ,编号落入区间[496,600]的人做问卷C ,则抽到的人中,做问卷C 的人数为________.15.高三(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.16.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.17.某学校三个社团的人员分布如下表(每名同学只参加一个社团):学校要对这三个社团的活动效果进行抽样调查,按分层抽样的方法从社团成员中抽取30人,结果合唱社被抽出12人,则这三个社团人数共有________.18.某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山比赛活动.每人都参与而且只参与其中一项比赛,各年级参与比赛的人数情况如下表:其中a∶b∶c=2∶3∶5,全校参与登山的人数占总人数的25,为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取________人.答案解析1.答案为:D解析:由表可知x =15×(2+3+4+5+6)=4,y =15×(15.1+16.3+17+17.2+18.4)=16.8,则样本中心点(4,16.8)在线性回归直线上,故16.8=0.75×4+a ^,得a ^=13.8.故当x =7时,y ^=0.75×7+13.8=19.05.故选D .2.答案为:D ;解析:由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点的中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时, 其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.3.答案为:D解析:由题设知,这组样本数据完全正相关,故其相关系数为1.故选D .4.答案为:A解析:∵某7个数的平均数为4,∴这7个数的和为4×7=28,∵加入一个新数据4,∴x =28+48=4;又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2.故选A .5.答案为:D ;解析:由频率分布直方图,知这200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D .6.答案为:C解析:自左至右各小矩形的面积依次为0.1,0.2,0.4,0.15,0.15,设中位数是x ,则由0.1+0.2+0.08·(x-20)=0.5,得x =22.5.选C .7.答案为:C解析:由表格中数据,可知丙平均环数最高,且方差最小,说明丙技术稳定,且成绩好.选C .8.答案为:C解析:(1×0.12+3×0.2+5×0.1+7×0.08)×2=3.56.9.答案为:D.解析:甲的零件尺寸是:93,89,88,85,84,82,79,78; 乙的零件尺寸是:90,88,86,85,85,84,84,78;故甲的中位数是:85+842=84.5,乙的中位数是:85+852=85;故A 错误;根据数据分析,乙的数据稳定,故乙生产的零件质量比甲生产的零件质量好, 故B ,C 错误.10.答案为:A.解析:由题意,甲组数据为56,62,65,70+x,74,乙组数据为59,61,67,60+y,78, 要使两组数据中位数相等,有65=60+y ,所以y=5,又平均数相同,则56+62+65+70+x +745=59+61+67+65+785,解得x=3.11.答案为:A.解析:由分组可知C ,D 一定不对;由茎叶图可知[0,5)有1人,[5,10)有1人, 所以第一、二小组频率相同,频率分布直方图中矩形的高应相等,可排除B.12.答案为:C ;解析:∵∑i =110x i =225,∴x =110∑i =110x i =22.5.∵∑i =110y i =1600,∴y =110∑i =110y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴回归直线方程为y ^=4x +70. 将x =24代入上式得y ^=4×24+70=166.故选C .13.答案为:90;解析:由茎叶图可知,5位裁判打出的分数分别为89,89,90,91,91,故平均数为89+89+90+91+915=90.14.答案为:8;解析:由于60050=12,抽到的号码构成以3为首项,以12为公差的等差数列,因此得等差数列的通项公式为a n =3+(n -1)×12=12n-9,由496≤12n-9≤600,解得42112≤n≤50912,又由于n 是正整数,因此43≤n≤50,所以抽到的人中,做问卷C 的人数为8,所以答案为8.15.答案为:45;解析:64名学生,平均分成8组,则每组的人数为8.依据系统抽样方法,所抽取的学生号码必成等差数列,则在第1组中随机抽取的号码为5,那么在第6组中抽取的号码为5+(6-1)×8=45.16.答案为:18;解析:∵样本容量总体个数=60200+400+300+100=350,∴应从丙种型号的产品中抽取350×300=18(件).17.答案为:150;解析:据题意,得这三个社团共有30÷1245+15=150(人).18.答案为:36;解析:根据题意可知样本中参与跑步的人数为200×35=120,所以从高二年级参与跑步的学生中应抽取的人数为120×32+3+5=36(人).。
2020年高考课标版高考文科数学 §10.2 统计及统计案例
§10.2统计及统计案例挖命题【考情探究】分析解读从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.破考点【考点集训】考点一抽样方法1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )A.2B.4C.5D.6答案B2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是( )A.5B.6C.7D.8答案C考点二统计图表1.(2018四川达州模拟,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是( )A.85和92B.87和92C.84和92D.85和90答案B2.(2017河南新乡第一次调研,3)统计新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在(2 700,3 000]克内的频率为( )A.0.001B.0.1C.0.2D.0.3答案D考点三样本的数字特征1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为( )A.4B.3C.2D.1答案B2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则( )A.=4,s2<2B.=4,s2>2C.>4,s2<2D.>4,s2>2答案A考点四变量间的相关性1.(2018河南焦作四模,3)已知变量x和根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=( )A.6.4B.6.25C.6.55D.6.45答案C2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x,y之间成负相关关系B.可以预测,当x=20时,=-3.7C.m=4D.该回归直线必过点(9,4)答案C考点五独立性检验1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,附表:由K2=-算得,K2=-≈9.616,参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜附:K2=-.解析(1)将2×2列联表中的数据代入公式计算,得K2=-=≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},其中a i表示喜欢甜品的学生,i=1,2,b j表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.事件A由7个基本事件组成,因而P(A)=.炼技法【方法集训】方法1 解与频率分布直方图有关问题的方法1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56B.60C.120D.140答案D2.(2017江苏南京调研,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]内,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有辆.答案80方法2 样本的数字特征的求解及其应用1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③B.①④C.②③D.②④答案B2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是.答案 c方法3 回归直线方程的求解与运用1.(2017安徽合肥一中等四校联考,6):根据上表可得回归方程=x+中的为9.4,据此估计,广告费用为7万元时销售额为( )A.74.9万元B.65.5万元C.67.7万元D.72.0万元答案A2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月数据的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程=x+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:=--=---,=-;参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.解析(1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)==.(2)由数据求得=11,=24,由公式求得=,则=-=-,所以y关于x的线性回归方程为=x-.(3)由(2)知,当x=10时,=,-<2,当x=6时,=,-<2,所以,该小组所得线性回归方程是理想的.方法4 独立性检验的思想方法1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率.附:K2=-.K2=-≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,故所求的概率P=.2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”.高二年级的学生日均使用手机时间的频率分布直方图(1)将频率视为概率,估计哪个年级的学生是“手机迷”的概率大,请说明理由;(2)在对高二年级学生的抽查中,已知随机抽到的女生有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料,附:K2=-,其中n=a+b+c+d.解析(1)估计高一年级的学生是“手机迷”的概率大.理由:由频数分布表可知,高一年级的学生是“手机迷”的概率为=0.26,由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.002 5+0.010)×20=0.25,因为0.26>0.25,所以高一年级的学生是“手机迷”的概率大.(2)由频率分布直方图可知,在抽取的100人中,“手机迷”有(0.010+0.002 5)×20×100=25人,“非手机迷”有100-25=75人.2×2列联表如下:将2×2列联表中的数据代入公式计算,得K2=-=≈3.030.因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关.过专题【五年高考】A组统一命题·课标卷题组考点一抽样方法(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.答案分层抽样考点二统计图表1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案A2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案D4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解析(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).考点三样本的数字特征1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案B2.(2014课标Ⅰ,18,12分),由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定? 解析(1)频率分布直方图如图.(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.考点四变量间的相关性1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并经计算得=x i=9.97,s=-=-≈0.212,-≈18.439,(x i-)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数--r=.--≈0.09.--解析(1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数为r=--=-≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.=16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为×(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:y i=9.32,t i y i=40.17,-=0.55,≈2.646. 参考公式:相关系数r=----,回归方程=+t中斜率和截距最小二乘估计公式分别为:=---,=-.解析(1)由折线图中数据和附注中参考数据得=4,(t i-)2=28,-=0.55,(t i-)(y i-)=t i y i-y i=40.17-4×9.32=2.89,r≈≈0.99.(4分)因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分)(2)由=≈1.331及(1)得=---=≈0.10,=-=1.331-0.10×4≈0.93.所以y关于t的回归方程为=0.93+0.10t.(10分)将2016年对应的t=9代入回归方程得:=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)考点五独立性检验1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40m的工人数填入下面的列联表;(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=-,.解析(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m==80.列联表如下:(3)由于 K2=-=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:,K2=-.解析(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.K2=-≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.B组自主命题·省(区、市)卷题组考点一抽样方法1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A.3B.4C.5D.6答案B2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.答案18考点二统计图表1.(2015湖北,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a= ;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为.答案(1)3 (2)6 0002.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例. 解析(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.考点三样本的数字特征1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )A.3,5B.5,5C.3,7D.5,7答案A2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为.8 9 99 0 1 1答案903.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是.答案0.1考点四变量间的相关性1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C2.(2015重庆,17,13分)(年底余额)如下表:(1)求y关于t的回归方程=t+;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=--=-.解析(1)列表计算如下:这里n=5,=t i==3,=y i==7.2.又l tt=-n=55-5×32=10,l ty=t i y i-n=120-5×3×7.2=12,从而===1.2,=-=7.2-1.2×3=3.6,故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).考点五独立性检验1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A.成绩B.视力C.智商D.阅读量答案D2.(2014安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=-解析(1)300×=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:结合列联表可算得K2=-=≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.C组教师专用题组考点一抽样方法1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )A.134石B.169石C.338石D.1 365石答案B。
高考数学专题 统计与统计案例【学生试卷】
2020最新统计与统计案例A 卷一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3 2.在某次测量中得到的A样本数据如下:480,481,482,483,584,585,586,587,588,589.若B样本数据恰好是A样本数据都加10后所得数据,则A,B两样本的下列数字特征对应相同的有()A.众数B.平均数C.中位数D.标准差3.(2018·辽宁五校协作体模拟)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是()4.(2018·成都一模)空气质量指数AQI是检测空气质量的重要参数,其数值越大说明空气污染状况越严重,空气质量越差.某地环保部门统计了该地区12月1日至12月24日连续24天的空气质量指数AQI,根据得到的数据绘制出如图所示的折线图.则下列说法错误的是()A.该地区在12月2日空气质量最好B.该地区在12月24日空气质量最差C.该地区从12月7日到12月12日AQI持续增大D.该地区的空气质量指数AQI与这段日期成负相关5.某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则分别应抽取老年人、中年人、青年人的人数是()A.7,11,18 B.6,12,18 C.6,13,17 D.7,14,216.通过随机询问110由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”7.某市为了调查学生在学科教辅书方面的支出情况,特地在20000名高中生中抽样调查了500名学生在学科教辅书方面的支出情况,其频率分布直方图如图所示,据此估计,该市20000名高中生中,支出的钱数在[30,40]元的同学比支出的钱数在[10,20]元的同学多()A.2600人B.5200人C.260人D.520人8.^=7.19x+根据以上样本数据,她建立的身高y(cm)与年龄x(周岁)的线性回归方程为y73.96,给出下列结论:①y与x具有正的线性相关关系;②回归直线过样本点的中心(42,117.1);③儿子10岁时的身高是145.86 cm;④儿子年龄增加1周岁,身高约增加7.19 cm.其中,正确结论的个数是()A.1 B.2 C.3 D.49.某同学一个学期内各次数学测验成绩的茎叶图如图所示,则该组数据的中位数是____.10.总体由编号为01,02,…,19,20的个体组成,利用下面的随机数表选取7个个体,选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数,则选出的第7个个体的编号为____.11.已知某学校有1680名学生,现在采用系统抽样的方法抽取84人,调查他们对学校食堂的满意程度,将1680人,按1,2,3,…,1680随机编号,则在抽取的84人中,编号落在[61,160]内的人数为____.12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表)^=0.67x+a^,则a^的值为____.由最小二乘法求得回归方程y13.(2018·日照一模)共享单车是指由企业在校园、公交站点、商业区、公共服务区等场所提供的自行车单车共享服务,由于其依托“互联网+”,符合“低碳出行”的理念,已越来越多地引起了人们的关注.某部门为了对该城市共享单车加强监管,随机选取了50人就该城市共享单车的推行情况进行问卷调查,并将问卷中的这50人根据其满意度评分值(百分制)按照[50,60),[60,70),…,[90,100]分成5组,请根据下面尚未完成并有局部污损的频率分布表和频率分布直方图(如图所示)解决下列问题:频率分布表频率分布直方图(1)求出a,b,x的值;(2)若在满意度评分值为[80,100]的人中随机抽取2人进行座谈,设所抽取的2人中来自第5组的人数记为ξ,求ξ的分布列和数学期望.14.在一次数学测试中,数学老师对班上7名同学在20题(12分),21题(12分)的得分情况进行统计,得到的得分率如图所示,其中20题的得分率为图中虚线部分、21题的得分率为图中实线部分,记第20题、21题的平均得分分别为x1,x2,第20题、21题得分的标准差分别为s1,s2,则()A.x1>x2,s1>s2B.x1<x2,s1>s2C.x1>x2,s1<s2D.x1<x2,s1<s215.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入[1,450]的人做问卷A,编号落入[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.8 B.10 C.12 D.1416.一个频率分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,50),[50,60)内的数据个数共为()A.19 B.17 C.16 D.1517.为了解学生在课外活动方面的支出情况,抽取了n个同学进行调查,结果显示这些学生的支出金额(单位:元)都在[10,50],其中支出金额在[30,50]的学生有117人,频率分布直方图如图所示,则n=()A.180 B.160 C.150 D.20018.已知x与y假设根据上表数据所得线性回归方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b^>b′,a^>a′B.b^>b′,a^<a′C.b^<b′,a^>a′D.b^<b′,a^<a′19.(2017·郑州预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的由表中数据,求得线性回归方程为y^=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为()A.16B.13C.12D.2320.(2018·东北三省四市一联)“吸烟有害健康,吸烟会对身体造成伤害”,哈尔滨市于2012年5月31日规定室内场所禁止吸烟.美国癌症协会研究表明,开始吸烟年龄(X)分别为16岁,18岁,20岁和22岁,其得肺癌的相对危险度(Y)依次为15.10,12.81,9.72和3.21;每天吸烟数量(U)分别为10支、20支和30支者,其得肺癌的相对危险度(V)依次为7.5,9.5和16.6.用r1表示变量X与Y之间的线性相关系数,用r2表示变量U与V之间的线性相关系数,则下列说法正确的是()A.r1=r2B.r1>r2>0C.0<r1<r2D.r1<0<r221.为保障2017年元宵节期间的食品安全,某市食品监督局对超市中与元宵节相关的食品进行检查,如图所示是所抽查的某品牌元宵节食品中某元素含量的茎叶图,其中m,n∈{1,2,3,4,5,6,7,8,9},已知该组数据的平均数为25.4,则9m+1n的最小值为()A.4 B.5 C.6 D.1622.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某埃博拉病毒感染的效果”.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)23.空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士从当地某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数为____.(该年为365天)24.甲、乙两人要竞争一次大型体育竞技比赛射击项目的参赛资格,如图是在测试中甲、乙各射靶10次的条形图,则参加比赛的最佳人选为____.25.某企业从生产的某种产品中抽取5000件,测量这些产品的某项指标,测量结果得到如图的频率分布直方图.由频率分布直方图可以认为,这种产品的指标X 服从正态分布N (μ,σ2),其中μ可以看作是样本的平均数,σ2近似是样本方差,则P (127.8<X <152.2)≈____.(同一组中的数据用该组区间的中点值代表,且P (μ-σ<X <μ+σ)=0.6826,P (μ-2σ<X <μ+2σ)=0.9544,150≈12.2)26.(2018·三明模拟)近年来,随着我国汽车消费水平的提高,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图1所示的频率分布直方图.在图1对使用时间的分组中,将使用时间落入各组的频率视为概率.(1)若在该交易市场随机选取3辆2017年成交的二手车,求恰有2辆使用年限在(8,16]的概率;(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中x (单位:年)表示二手车的使用时间,y (单位:万元)表示相应的二手车的平均交易价格.①由散点图判断,可采用y =e a +bx 作为该交易市场二手车平均交易价格y 关于其使用年限x的回归方程,相关数据如下表⎛⎪⎪⎫表中Y i =ln y i ,Y =110∑i =110Y i : 试选用表中数据,求出y②该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.附注:①对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i v i -n u -v -∑i =1n u 2i -n u -2,α^=v -β^u -;②参考数据:e 2.95≈19.1,e 1.75≈5.75,e 0.55≈1.73,e -0.65≈0.52,e -1.85≈0.16.27.在直角坐标系xOy 中,直线l :y =x ,圆C :⎩⎨⎧ x =-1+cos φ,y =-2+sin φ(φ为参数),以坐标原点为极点,x 轴的正半轴为极轴建立极坐标系.(1)求直线l 与圆C 的极坐标方程;(2)设直线l 与圆C 的交点为M ,N ,求△CMN 的面积.28.已知在平面直角坐标系xOy 中,曲线C 1的参数方程为⎩⎨⎧ x =2t +1,y =t -1(t 是参数).以坐标原点O 为极点,x 轴的正半轴为极轴,建立极坐标系,曲线C 2的极坐标方程为 ρ=4cos θ.(1)求曲线C 1的普通方程及曲线C 2的直角坐标方程并说明各曲线名称;(2)判断曲线C 1与曲线C 2的位置关系?若相交,求出弦长.29.在平面直角坐标系中,以坐标原点O 为极点,x 轴的正半轴为极轴,建立极坐标系.曲线C 1:ρ⎣⎢⎡⎦⎥⎤2sin ⎝ ⎛⎭⎪⎫2θ-3π4+sin2θ+cos2θ+1=2sin θ-2cos θ,曲线C 2:⎩⎨⎧ x =2+t ,y =1-2t(t 为参数).(1)求曲线C 1的直角坐标方程;(2)求曲线C 2上的点到曲线C 1的距离的最大值和最小值.30.在平面直角坐标系xOy 中,曲线C 的参数方程是⎩⎨⎧x =2cos θ,y =3sin θ(θ为参数),以射线Ox 为极轴建立极坐标系,直线l 的极坐标方程为ρcos θ-ρsin θ-3=0.(1)求曲线C 的普通方程,及直线l 的参数方程;(2)求直线l 与曲线C 相交所得的弦AB 的长.31.(2018·长安一中模拟)在平面直角坐标系xOy 中,曲线C 的参数方程为⎩⎨⎧ x =3+5cos α,y =4+5sin α(α为参数),A ,B 在曲线C 上,以坐标原点O 为极点,x 轴的正半轴为极轴的极坐标系中,A ,B 两点的极坐标为A ⎝ ⎛⎭⎪⎫ρ1,π6,B ⎝ ⎛⎭⎪⎫ρ2,π2. (1)求曲线C 的极坐标方程;(2)设曲线C 的中心为M ,求△MAB 的面积.32.(2018·安徽A10联盟模拟)在平面直角坐标系xOy 中,曲线C 1:⎩⎨⎧x =2cos α,y =2+2sin α(α为参数).以坐标原点为极点,x 轴非负半轴为极轴建立极坐标系,且两个坐标系取相同的长度单位.若M 为曲线C 1上异于极点的动点,点N 在射线OM 上,且满足|ON |·|OM |=20,记点N 的轨迹为C 2.(1)求曲线C 1,C 2的极坐标方程;(2)已知A ,B 两点的直角坐标分别为(0,3)和(2,5),直线AB 与曲线C 1交于R ,S 两点,求||AR |-|AS ||的值.33.在直角坐标系xOy 中,已知曲线C 的参数方程为⎩⎨⎧ x =33cos θ,y =sin θ(θ为参数).(1)以原点O 为极点,x 轴正半轴为极轴建立极坐标系,求曲线C 的极坐标方程;(2)设A ,B 为曲线C 上两动点,且OA ⊥OB ,求|AB |的取值范围.34.(2018·合肥三模)在平面直角坐标系xOy 中,直线l 的参数方程为⎩⎪⎨⎪⎧ x =-1+22t ,y =1+22t (t为参数),圆C 的方程为(x -2)2+(y -1)2=5.以原点O 为极点,x 轴正半轴为极轴建立极坐标系.(1)求直线l 及圆C 的极坐标方程;(2)若直线l 与圆C 交于A ,B 两点,求cos ∠AOB 的值.35.(2018·大连模拟)在平面直角坐标系xOy 中,曲线C 1的参数方程为⎩⎨⎧x =t cos α,y =t sin α⎝ ⎛⎭⎪⎫参数t ≠0,常数α∈⎝ ⎛⎭⎪⎫0,π2.以O 为极点,x 轴的正半轴为极轴建立极坐标系,曲线C 2的极坐标方程为ρ=4sin θ⎝ ⎛⎭⎪⎫θ∈⎝ ⎛⎭⎪⎫0,π2,曲线C 3的极坐标方程为ρcos θ+ρsin θ-6=0. (1)写出C 2在平面直角坐标系xOy 中的参数方程;(2)设C 1与C 2交于P 点,C 1与C 3交于Q 点,求|OP ||OQ |的最大值.36.(2018·衡水十模)已知直线l 的参数方程为⎩⎨⎧ x =t cos φ,y =-2+t sin φ(t 为参数,0≤φ<π),以坐标原点O 为极点,x 轴正半轴为极轴建立极坐标系,曲线C 的极坐标方程为ρ=1,l 与C 交于不同的两点P 1,P 2.(1)求φ的取值范围;(2)以φ为参数,求线段P 1P 2中点M 的轨迹的参数方程.37.(2018·信阳二模)已知直线l 的参数方程为⎩⎪⎨⎪⎧ x =-1+22t ,y =22t (其中t 为参数),曲线C :ρ2cos 2θ+3ρ2sin 2θ-3=0,以坐标原点为极点,x 轴正半轴为极轴,建立极坐标系,两种坐标系中取相同长度单位.(1)求直线l 的普通方程及曲线C 的直角坐标方程;(2)在曲线C 上是否存在一点P ,使点P 到直线l 的距离最大?若存在,求出距离的最大值及点P 的直角坐标;若不存在,请说明理由.38.(2018·潍坊一模)在平面直角坐标系xOy 中,直线l 的参数方程为⎩⎨⎧x =1+t cos α,y =t sin α(t 为参数,0≤α<π),在以坐标原点为极点,x 轴正半轴为极轴的极坐标系中,曲线C 的极坐标方程为ρ2=21+sin 2θ. (1)求曲线C 的直角坐标方程;(2)设点M 的坐标为(1,0),直线l 与曲线C 相交于A ,B 两点,求1|MA |+1|MB |的值.。
2020年高考数学文科二轮复习考情分析与核心整合学案:7.2统计与统计案例 Word版含解析
第2讲统计与统计案例考点1抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[例1](1)[2019·全国卷Ⅰ]某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生(2)[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0.5 B.0.6C.0.7 D.0.8【解析】(1)本题考查系统抽样;考查了数据处理能力;考查的核心素养为数据分析.将1 000名学生分成100组,每组10人,则每组抽取的号码构成公差为10的等差数列{a n},由题意知a5=46,则a n=a5+(n-5)×10=10n-4,n∈N*,易知只有C选项满足题意.故选C.(2)本题主要考查用样本估计总体;考查学生对实际问题的处理能力和数据分析能力;考查了数据分析的核心素养.在样本中,仅阅读过《西游记》的学生人数为90-80=10,又由既阅读过《西游记》又阅读过《红楼梦》的学生人数为60,得阅读过《西游记》的学生人数为10+60=70,所以在样本中阅读过《西游记》的学生人数所占的比例为70=0.7,即为该校阅读过《西游记》的学生100人数与该校学生总数比值的估计值.【答案】(1)C(2)C(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.『对接训练』1.[2019·河北枣强中学期末]总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为()21 16 65 0890 34 20 7643 81 26 3491 64 17 5071 59 45 0691 27 35 3680 72 74 6721 33 50 2583 12 02 7611 87 05 26A.12 B.07C.15 D.16解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.答案:C2.[2019·惠州市高三第二次调研]某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点2 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. 2.频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[例2] (1)[2018·江苏卷]已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________;(2)[2017·全国卷Ⅰ]为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数【解析】 (1)这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为89+89+90+91+915=90. (2)因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.【答案】 (1)90 (2)B众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.『对接训练』3.[2019·河北石家庄模拟]已知甲、乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25 解析:由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确.故选D.答案:D4.[2019·河北衡水中学五调]某“跑团”为了解团队每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是( )A.月跑步平均里程的中位数为6月份对应的平均里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8月和9月D.1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳解析:由折线图知,月跑步平均里程的中位数为5月份对应的平均里程数,A错;月跑步平均里程不是逐月增加的,B错;月跑步平均里程高峰期大致在9月和10月,C错.故选D.答案:D考点3变量的相关性与统计案例1.线性回归方程方程y^=b^x+a^称为线性回归方程,其中b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2,a^=y--b^x-;(x-,y-)称为样本中心点.2.随机变量K2(χ2)=(a+b+c+d)(ad-bc)2(a+b)(c+d)(a+c)(b+d),若K2(χ2)>3.841,则有95%的把握说两个事件有关;若K2(χ2)>6.635,则有99%的把握说两个事件有关.[例3][2019·全国卷Ⅰ]某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k ) 0.050 0.010 0.001k 3.841 6.635 10.828【解析】 本题通过对概率与频率的关系、统计案例中两变量相关性检验考查学生的抽象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键①根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.②K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.『对接训练』5.[2019·湖南长沙长郡中学调研]长沙某公司对其主推产品在过去5个月的月广告投入x i(万元)和相应的销售额y i(万元)进行了统计,其中i=1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些数据如下:∑i=15x i=6.8,∑i=15w i=10.3,∑i=15y i=15.8,∑i=15x i y i=22.76,∑i=15w i y i=34.15,∑i=15(x i-x)2=0.46,∑i=15(w i-w)2=3.56,其中w i=x2i,i=1,2,3,4,5.(1)根据散点图判断y=bx+a与y=cx2+d哪一个适宜作为月销售额y关于月广告投入x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及题中所给数据,建立y关于x的回归方程,并据此估计月广告投入220万元时的月销售额.附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v =α+βu的斜率和截距的最小二乘估计分别为β^=解析:(1)根据散点图可知,y=cx2+d适宜作为月销售额y关于月广告投入x的回归方程类型.(2)由题意知,=34.15-5×10.35×15.853.56=0.45, d ^=y --0.45×w -=15.85-0.45×10.35=2.233,故回归方程为y^=0.45x 2+2.233, 当月广告投入为220万元时,月销售额y^=0.45×2202+2.233=21 782.233(万元).故选择y =cx 2+d 作为回归方程模型,当月广告投入为220万元时,月销售额约为21 782.233万元.课时作业 17 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11 解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D .答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是()A.①③都可能为分层抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据()A.一样稳定B.变得稳定C.变得不稳定D.稳定性不可以判断解析:数据x1,x2,…,x10,2的平均值为2,方差为1,故111[(x1-2)2+(x2-2)2+…+(x10-2)2+(2-2)2]=1,数据x1,x2,…x10的方差s2=110[(x1-2)2+(x2-2)2+…+(x10-2)2]>1,故相对于原数据变得不稳定,故选C.答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A .95B .96C .97D .98 解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C . 答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为::7,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7x n,解得n =70,故选C . 答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份1 2 3 4 5 6 人均销售额 65 8 3 4 7 利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3根据表中数据,下列说法正确的是( )A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A .答案:A 7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y^=b ^x +9,则b^=( ) x4 5 6 7 8 y5 4 3 2 1A .2B .1C .0D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y^=b ^x +9且回归直线过点(6,3),所以3=6b^+9,解得b ^=-1,故选D . 答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001k 0 2.706 3.841 5.024 6.635 7.879 10.828参照临界值表,得到的正确结论是( )A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关”解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B .答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为()A.100 000元B.95 000元C.90 000元D.85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D.答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定;③两个变量的线性相关性越强,则相关系数r的值越接近于1;④对A,B,C三种个体按::2的比例进行分层抽样调查,若抽取的A种个体有15个,则样本容量为30.则正确的个数是()A.3 B.2C.1 D.0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C .答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为::4,抽取的样本中高一年级的学生有120人,则实数k 的值为________.解析:由题意可得,120300=k k +5+4,解得k =6. 答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x(%)与成本y(元/t )的线性回归方程为y^=105.492+42.569x.当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A 1,A 2,A 3;第5组有3人,记这3人分别为B 1,B 2,B 3.从这6人中随机选取2名,所有的基本事件为A 1A 2,A 1A 3,A 1B 1,A 1B 2,A 1B 3,A 2A 3,A 2B 1,A 2B 2,A 2B 3,A 3B 1,A 3B 2,A 3B 3,B 1B 2,B 1B 3,B 2B 3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个,故所求概率P =615=25.16.[2019·四川德阳一诊]某市工业部门计划对所辖中、小型企业推行节能降耗技术改造,下面是对所辖企业是否支持技术改造进行的问卷调查的结果(不完整):支持 不支持合计 中型企业40 小型企业240 合计560 已知从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47.(1)能否在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关?(2)从支持技术改造的中、小型企业中按分层抽样的方法抽出8家企业,再从这8家企业中选出2家进行奖励:中型企业奖励20万元,小型企业奖励10万元.求奖励总金额为20万元的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d. P(K 2≥k 0) 0.05 0.025 0.01k 0 3.841 5.024 6.635解析:(1)由从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47可知,支持技术改造的企业共有320家,故列联表为支持 不支合计持中型企业80 40 120 小型企业240 200 440 合计 320 240 560所以K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=560×(80×200-40×240)2120×440×320×240≈5.657>5.024. 故能在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关.(2)由(1)可知,从支持技术改造的中、小型企业中,按分层抽样的方法抽出8家企业,其中有2家中型企业,分别用x ,y 表示,6家小型企业,分别用1,2,3,4,5,6表示.则从中选取2家企业的所有可能情况为xy ,x1,x2,x3,x4,x5,x6,y1,y2,y3,y4,y5,y6,12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共28种,其中奖励总金额为20万元的有12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共15种.所以奖励总金额为20万元的概率为1528.17.[2019·河南南阳期末联考]某网购平台为了解某市居民在该平台的消费情况,从该市使用该平台且平均每周消费金额超过100元的人员中随机抽取了100名,并绘制如图所示的频率分布直方图,已知中间三组的人数可构成等差数列.(1)求m ,n 的值.(2)分析人员对这100名调查对象的性别进行统计,发现平均每周消费金额不低于300元的男性有20人,低于300元的男性有25人,请根据统计数据完成下列2×2列联表,并判断是否有99%的把握认为平均每周消费金额与性别有关?男性 女性 合计平均每周消费金额≥300平均每周消费金额<300合计(3)分析人员对抽取对象平均每周的消费金额y(元)与年龄x(岁)进一步分析,发现它们线性相关,得到的回归方程为y ^=-5x +a ^.已知这100名调查对象的平均年龄为38岁,试估算一名年龄为25岁的年轻人平均每周的消费金额.(同一组数据用该区间的中点值作代表)2×2列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d. P(K 2≥k 0) 0.050 0.010 0.001k 0 3.841 6.635 10.828解析:(1)由频率分布直方图可知,m +n =0.01-0.001 5×2-0.001=0.006,由题意可知m +0.001 5=2n ,解得m =0.003 5,n =0.002 5.(2)平均每周消费金额不低于300元的频率为(0.003 5+0.001 5+0.001)×100=0.6,因此这100名调查对象中,平均每周消费金额不低于300元的人数为100×0.6=60(人).所以2×2列联表为男性 女性 合计 平均每周消费金额≥30020 40 60 平均每周消费金额<30025 15 40 合计 45 55 100K 2=100×(20×15-25×40)245×55×60×40≈8.249>6.635,所以有99%的把握认为平均每周消费金额与性别有关.(3)调查对象的平均每周消费金额为0.15×150+0.25×250+0.35×350+0.15×450+0.10×550=330(元),由题意得330=-5×38+a ^,解得a ^=520.y^=-5×25+520=395(元). 故一名年龄为25岁的年轻人平均每周的消费金额约为395元.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%, 同比增长率=本期数-同期数同期数×100%. 下表是某地区近17个月来的消费者信心指数的统计数据:序号x1 2 3 4 5 6 7 8 时间2017年 1月 2017年 2月 2017年 3月 2017年 4月 2017年 5月 2017年 6月 2017年 7月 2017年 8月 消费者信心指数y107.2 108.6 108.4 109.2 112.6 111 113.4 112 9 10 11 12 13 14 15 16 17 2017年 9月 2017年 10月 2017年 11月 2017年 12月 2018年 1月 2018年 2月 2018年 3月 2018年 4月 2018年 5月 113.3 114.6 114.7 118.6 123.9 121.3 122.6 122.3 124(1)①求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数);②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月?(2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i =1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得≈1.16,a ^=y --b ^x -=104.56,∴线性回归方程为y^=1.16x +104.56. 当x =18时,y^=125.4, 故该地区2018年6月的消费者信心指数约为125.4.。
2020年高考数学精选专题(含答案详解)14 统计与统计案例
2020年高考数学精选专题(含答案详解)一、单选题(共12题;共24分)1.某学校运动会的立定跳远和30秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为10名学生的预赛成绩,其中有三个数据模糊.在这10名学生中,进入立定跳远决赛的有8人,同时进入立定跳远决赛和30秒跳绳决赛的有6人,则()A. 2号学生进入30秒跳绳决赛B. 5号学生进入30秒跳绳决赛C. 8号学生进入30秒跳绳决赛D. 9号学生进入30秒跳绳决赛2.某企业一种商品的产量与单位成本数据如表:现根据表中所提供的数据,求得y关于x的线性回归方程为ŷ=2x−1,则a值等于( )A. 4.5B. 5C. 5.5D. 63.某公司决定利用随机数表对今年新招聘的800名员工进行抽样调查他们对目前工作的满意程度,先将这800名员工进行编号,编号分别为001,002,…,799,800,从中抽取80名进行调查,下图提供随机数表的第4行到第6行32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 43 77 89 23 45若从表中第5行第6列开始向右依次读取3个数据,则抽到的第5名员工的编号是()A. 007B. 253C. 328D. 7364.国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是()A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐5.用系统抽样法从130件产品中抽取容量为10的样本,将130件产品从1~130编号,按编号顺序平均分成10组(1~13号,14~26号,…,118~130号),若第9组抽出的号码是114,则第3组抽出的号码是()A. 36B. 37C. 38D. 396.小张刚参加工作时月工资为5000元,各种用途占比统计如下面的条形图.后来他加强了体育锻炼,目前月工资的各种用途占比统计如下面的拆线图.已知目前的月就医费比刚参加工作时少200元,则目前小张的月工资为()A. 5500B. 6000C. 6500D. 70007.近几年,我国农村电子商务发展迅速,使得农副产品能够有效地减少流通环节,降低流通成本,直接提高了农民的收益.某农村电商对一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A. 46.5,48,60B. 47,48,60C. 46.5,48,55D. 46.5,51,608.2010-2018年之间,受益于基础设施建设对光纤产品的需求,以及个人计算机及智能手机的下一代规格升级,电动汽车及物联网等新机遇,连接器行业增长呈现加速状态.根据该折线图,下列结论正确的个数为()①每年市场规模量逐年增加;②增长最快的一年为2013~2014;③这8年的增长率约为40%;④2014年至2018年每年的市场规模相对于2010年至2014年每年的市场规模,数据方差更小,变化比较平稳A. 1B. 2C. 3D. 49.中学生在家务劳动中能更密切地与家人接触交流,也可缓解压力、休息大脑.经调查,某校学生有70%的学生认为自己参与家务劳动能使家庭关系更融洽,30%的学生认为自己是否参与家务劳动对家庭关系无影响.现为了调查学生参加家务劳动时长情况,决定在两类同学中利用分层抽样的方法抽取100名同学参与调查,那么需要抽取认为自己参与家务劳动能使家庭关系更融洽的同学的个数是()A. 30B. 70C. 80D. 10010.如图是国家统计局今年4月11日发布的2018年3月到2019年3月全国居民消费价格的涨跌幅情况折线图.(注:2019年2月与2018年2月相比较称同比,2019年2月与2019年1月相比较称环比),根据该折线图,下列结论错误的是()A. 2018年3月至2019年3月全国居民消费价格同比均上涨B. 2018年3月至2019年3月全国居民消费价格环比有涨有跌C. 2019年3月全国居民消费价格同比涨幅最大D. 2019年3月全国居民消费价格环比变化最快11.一个袋子中有红、黄、蓝、绿四个小球,有放回地从中任取一个小球,将“三次抽取后,红色小球,黄色小球都取到”记为事件M,用随机模拟的方法估计事件M发生的概率.利用电脑随机产生整数0,1,2,3四个随机数,分别代表红、黄、蓝、绿四个小球,以每三个随机数为一组,表示取小球三次的结果,经随机模拟产生了以下18组随机数:由此可以估计事件M 发生的概率为( )A. 29 B. 13 C. 518 D. 2312.一个频率分布表(样本容量为 50 )不小心被损坏了一部分,只记得样本中数据在 [20,60) 上的频率为 0.6 ,则估计样本在 [40,60) 内的数据个数为( )A. 10B. 13C. 14D. 15二、填空题(共5题;共5分)13.如图所示的茎叶图记录了甲乙两位射箭运动员的5次比赛成绩(单位:环),若两位运动员平均成绩相同,则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.14.一个总体容量为60,其中的个体编号为00,01,02,…,59.现需从中抽取一个容量为7的样本,请从随机数表的倒数第5行(下表为随机数表的最后5行)第11~12列的18开始,依次向下,到最后一行后向右,直到取足样本,则抽取样本的号码是________. 95 33 95 22 00 18 74 72 00 18 46 40 62 98 80 54 97 20 56 95 38 79 58 69 32 81 76 80 26 92 15 74 80 08 32 16 46 70 50 80 82 80 84 25 39 90 84 60 79 80 67 72 16 42 79 71 59 73 05 50 24 36 59 87 38 82 07 53 89 35 08 22 23 71 77 91 01 93 20 49 96 35 23 79 18 05 98 90 07 35 82 96 59 26 94 66 39 67 98 6015.某地甲乙丙三所学校举行高三联考,三所学校参加联考的人数分别为200、300、400。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
原创文科数学专题卷专题统计与统计案例考点47:随机抽样与用样本估计总体(1-6题,13-16题,17-20题)考点48:变量的相关性与统计案例(7-12题,21,22题)考试时间:120分钟满分:150分说明:请将选择题正确答案填写在答题卡上,主观题写在答题纸上第I卷(选择题)一、选择题(本题共12小题,每小题5分,共60分。
在每小题给出的四个选项中,只有一项是符合题目要求的。
)1.【来源】2016-2017学年辽宁省六校协作体高二下学期期初考点47易某校高三年级有1000名学生,随机编号为0001,0002,...,1000,现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是()A. 0927B. 0834C. 0726D. 01162.【来源】2017届重庆市高三上学期第一次诊断模拟考点47易我国古代数学算经十书之一的《九章算术》有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣()A. 104人B. 108人C. 112人D. 120人3.【来源】湖南省衡阳市2017届高三下学期第二次联考考点47中难一组数据共有7个数,记得其中有10、2、5、2、4、2,还有一个数没记清,但知道这组数的平均值、中位数、众数依次成等差数列,这个数的所有可能值的和为()B. 3C. 9D. 17A. 114.【来源】江西省鹰潭市2017届高三第一次模拟考试考点47中难为保障春节期间的食品安全,某市质量监督局对超市进行食品检查,如图所示是某品牌食品中微量元素含量数据的茎叶图,已知该组数据的平均数为11.75,则的最小值为()A. B. C. D.5.【来源】四川省宜宾市2017届高三二诊考点47中难某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85mm,现分别从他们生产的零件中各随机抽取8件检测,其尺寸用茎叶图表示如图(单位:mm),则估计A. 甲、乙生产的零件尺寸的中位数相等B. 甲、乙生产的零件质量相当C. 甲生产的零件质量比乙生产的零件质量好D. 乙生产的零件质量比甲生产的零件质量好 6.【来源】吉林省长春市普通高中2017届高三下学期第二次模拟考试 考点47 中难 右图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是(左起依次是:广州’, 深圳, 北京, 杭州, 上海, 天津, 重庆, 西安, 南京, 厦门, 成都, 武汉)第二行 价格 涨幅A. 深圳的变化幅度最小,北京的平均价格最高B. 深圳和厦门的春运期间往返机票价格同去年相比有所下降C. 平均价格从高到低居于前三位的城市为北京、深圳、广州D. 平均价格变化量从高到低居于前三位的城市为天津、西安、厦门 7.【来源】河北省石家庄市高三数学一模考试 考点48 易 下列说法错误的是( )A. 回归直线过样本点的中心(),x yB. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 对分类变量X 与Y ,随机变量2K 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D. 在回归直线方程0.2.8ˆ0yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy 平均增加0.2个单位8.【2017山东】考点48 易为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225ii x==∑,1011600i i y ==∑,ˆ4b=.该班某学生的脚长为24,据此估计其身高为( )A 160B 163C 166D 170 9.【来源】贵州省贵阳市2017届高三2月适应性考试 考点48 易某公司某件产品的定价与销量之间的数据统计表如下,根据数据,用最小二乘法得出与的线性回归直线方程为: ,则表格中的值应为( )2 4 5 6 830405070A. 45B. 50C. 55D. 6010.【来源】2017届湖南省邵阳市高三下学期第二次联考 考点48 中难 假设有两个分类变量X 和Y 的22⨯列联表为:1y 2y总计1xa 10 10a + 2xc30 30c + 总计6040100对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( )A. 45,15a c ==B. 40,20a c ==C. 35,25a c ==D. 30,30a c == 11.【来源】河南省安阳市2017届高三第二次模拟考试 考点48 中难 已知变量与的取值如表所示,且,则由该数据算得的线性回归方程可能是( ) 2 3 4 5 6.5A.B.C.D.12.【来源】2017届广西省高三上学期教育质量诊断性联合考试考点48中难2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[]25,29,[]30,34的爱看比例分别为10%,18%,15,19,[]20,24,[]10,14,[]t.现用这5个年龄段的中间值x代表年龄段,如12代表[] 20%,30%,%10,14,17 15,19,根据前四个数据求得x关于爱看比例y的线性回归方程为代表[]()ˆ 4.68%=-,由此可推测t的值为()y kxA. 33B. 35C. 37D. 39第II卷(非选择题)二、填空题(本题共4小题,每小题5分,共20分。
)13.【2017江苏,3】考点47易某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取▲件.14.【来源】河北省石家庄市2017届高三第二次质量检测考点47易设样本数据的方差是4,若,则的方差为__________.15.【来源】宁夏石嘴山市第三中学2016-2017学年高一下学期第一次月考考点47易假设要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋牛奶进行检验,利用随机数表抽样时,先将800袋牛奶按000,001,…,799进行编号,如果从随机数表第8行第7列开始向右读,请你写出抽取检测的第5袋牛奶的编号_________.(下面摘取了随机数表第7行至第9行)8442 1753 3157 2455 0688 7704 7447 6721 7633 5025 8392 1206 76 6301 6378 5916 9556 6719 9810 5071 7512 8673 5807 4439 5238 79 3321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54 16.【来源】北京市海淀区2017届高三下学期期中考试考点47中难阅读下列材料,回答后面问题:CCTV播出的“新闻直播间”节目中,主持人说:“……加入在2014年12月30日13QZ被证实失事的话,2014年航空事故死亡人数将达到1320人.尽此次亚航失联航班8501管如此,航空安全专家还是提醒:飞机仍是相对安全的交通工具.①世界卫生组织去年公布的数据显示,每年大约有124万人死于车祸,而即使在航空事故死亡人数最多的一年,也就是1972年,其死亡数字也仅为3346人;②截至2014年9月,每百万架次中有2.1次(指飞机失事),乘坐汽车的百万人中其死亡人数在100人左右.”对上述航空专家给出的①、②两段表述(划线部分),你认为不能够支持“飞机仍是相对安全的交通工具”的所有表述序号为__________,你的理由是__________.三、解答题(本题共6小题,共70分。
)17.(本题满分10分)【来源】山西省三区八校2017届高三第二次模拟考试 考点47 易 山西某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(本科学历)的调查,其结果(人数分布)如表: 学历 35岁以下 35~50岁 50岁以上 本科 8030 20研究生x 20y(Ⅰ)用分层抽样的方法在岁年龄段的专业技术人员中抽取一个容量为10的样本,将该样本看成一个总体,从中任取3人,求至少有1人的学历为研究生的概率;(Ⅱ)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为539,求x 、y 的值. 18.(本题满分12分)【来源】安徽省淮南市2017届高三下学期第二次模拟考试 考点47 中难 随着社会发展,淮北市在一天的上下班时段也出现了堵车严重的现象。
交通指数是交通拥堵指数的简称,是综合反映道路网畅通或拥堵的概念.记交通指数为T ,其范围为[0,10],分别有5个级别:T ∈[0,2)畅通;T ∈[2,4)基本畅通;T ∈[4,6)轻度拥堵;T ∈[6,8)中度拥堵;T ∈[8,10]严重拥堵.早高峰时段(T ≥3 ),从淮北市交通指挥中心随机选取了一至四马路之间50个交通路段,依据交通指数数据绘制的直方图如图所示:(I)据此直方图估算交通指数T ∈[4,8)时的中位数和平均数;(II)据此直方图求出早高峰一至四马路之间的3个路段至少有2个严重拥堵的概率是多少? (III)某人上班路上所用时间若畅通时为20分钟,基本畅通为30分钟,轻度拥堵为35分钟,中度拥堵为45分钟,严重拥堵为60分钟,求此人用时间的数学期望. 19.(本题满分12分)【来源】四川省宜宾市2017届高三第二次诊断检测 考点47 中难在某单位的职工食堂中,食堂每天以3元/个的价格从面包店购进面包,然后以5元/个的价格出售.如果当天卖不完,剩下的面包以1元/个的价格卖给饲料加工厂.根据以往统计资料,得到食堂每天面包需求量的频率分布直方图如下图所示.食堂某天购进了90个面包,以x (单位:个, 60110x ≤≤)表示面包的需求量, T (单位:元)表示利润.(Ⅰ)求T 关于x 的函数解析式;(Ⅱ)根据直方图估计利润T 不少于100元的概率;(III )在直方图的需求量分组中,以各组的区间中点值代表该组的各个值,并以需求量落入该区间的频率作为需求量取该区间中间值的概率(例如:若需求量[)60,70x ∈,则取65x =,且65x =的概率等于需求量落入[)60,70的频率),求T 的分布列和数学期望.20.(本题满分12分)【来源】河北省石家庄市高三数学一模考试 考点47 中难人耳的听力情况可以用电子测听器检测,正常人听力的等级为0-25db (分贝),并规定测试值在区间(]0,5为非常优秀,测试值在区间(]5,10为优秀.某班50名同学都进行了听力测试,所得测试值制成频率分布直方图:(Ⅰ)现从听力等级为(]0,10的同学中任意抽取出4人,记听力非常优秀的同学人数为X ,求X 的分布列与数学期望;(Ⅱ)在(Ⅰ)中抽出的4人中任选一人参加一个更高级别的听力测试,测试规则如下:四个音叉的发生情况不同,由强到弱的次序分别为1,2,3,4.测试前将音叉随机排列,被测试的同学依次听完后给四个音叉按发音的强弱标出一组序号1a , 2a , 3a , 4a (其中1a ,2a , 3a , 4a 为1,2,3,4的一个排列).若Y 为两次排序偏离程度的一种描述,12341234Y a a a a =-+-+-+-,求2Y ≤的概率.21.(本题满分12分)【来源】安徽省六安市第一中学2016-2017学年高一下学期第一次阶段检测考点48中难某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费i x和年销售量()1,2,,8iy i=L数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y a bx=+与y c x=+哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说出理由);(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与,x y的关系为0.2z y x=-,根据(2)的结果求:年宣传费x为何值时,年利润最大?附:对于一组数据()11,u v,()22,u v,…(),n nu v,其回归直线v uαβ=+的斜率和截距的最小二乘估计分别为()()121()ˆni iiniiu u v vu uβ==--=-∑∑,ˆˆˆv uαβ=-.22.(本题满分12分)【2017课标II】考点48 中难海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg)某频率分布直方图如下:(1) 设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg ”,估计A 的概率;(2) 填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg 箱产量≥50kg 旧养殖法 新养殖法(3) 根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n ad bc K a b c d a c b d -=++++参考答案1.【答案】A【解析】因系统抽样是等距抽样,故组距是10002005÷=,由于09270122805-=是5的倍数,所以应选答案A 。