高考数学(理)二轮练习【专题7】(第3讲)统计与统计案例(含答案)

合集下载

高三数学二轮复习第一部分基础送分题题型专题七统计与统计案例课件理

高三数学二轮复习第一部分基础送分题题型专题七统计与统计案例课件理
第八页,共20页。
解析:选 D 由直方图可知每周自习时间不少于 22.5 小 时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不 少于 22.5 小时的人数为 0.7×200=140.故选 D.
第九页,共20页。
2.(2016·湖南东部六校联考)如图是某学校一名篮球运动 员在 10 场比赛中所得分数的茎叶图,则该运动员在这 10 场比 赛中得分的中位数为________.
(1)直方图中的 a=________; (2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的 人数为________.
第十二页,共20页。
解析:(1)由 0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8 +0.1×0.2=1,解得 a=3.
(2)区间[0.3,0.5)内的频率为 0.1×1.5+0.1×2.5=0.4,故[0.5, 0.9]内的频率为 1-0.4=0.6.
解析:把 10 场比赛的所得分数按顺序排列:5,8,9,12, 14,16,16,19,21,24,中间两个为 14 与 16,故中位数为 14+2 16=15.
答案:15
第十页,共20页。
3.(2016·江苏高考)已知一组数据 4.7,4.8,5.1,5.4,5.5, 则该组数据的方差是________.
(2)中位数左边和右边的小长方形的面积和是相等的; (3)平均数是频率分布直方图的“重心”,等于频率分布 直方图中每个小长方形的面积乘以小长方形底边中点的横 坐标之和.
第七页,共20页。
[题组练透] 1.(2016·山东高考)某高校调查了
200 名学生每周的自习时间(单 位:小时),制成了如图所示的 频率分布直方图,其中自习时 间的范围是[17.5,30],样本数 据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5), [27.5,30].根据直方图,这 200 名学生中每周的自习时间 不少于 22.5 小时的人数是( ) A.56 B.60 C.120 D.140

名师导学2015届高考数学二轮复习专题三专题3 第7讲 统计与统计案例

名师导学2015届高考数学二轮复习专题三专题3 第7讲 统计与统计案例

第7讲
统计与统计案例
1.考题展望 高考对这部分内容注重基础知识和基本方法的考 查,要求考生理解数据处理的几种基本思想、方法和 作用,并能运用所学知识、方法去解决实际问题,对 独立检验、回归分析的理论推导不作要求;命题时常 以一道客观题考查抽样方法、频率分布直方图、茎叶 图、用样本估计总体、变量间的相关关系、线性回归 方程、回归分析和独立检验等考点中的一个或二个, 试题难度中档偏易,同时将数据收集和处理渗透到解 答题中,以其为载体,考查概率和离散型随机变量的 分布列和数学期望.
【命题立意】本题主要考查频率分布直方图和频 率公式,考查读图,用图能力和运算能力.
【解析】选 D. 根据独立性检验计算可知,阅读量与性别有关联 的可能性较大.
【命题立意】本题主要考查利用独立性检验的思 想判断两变量的相关性,考查运算求解能力,数据处 理能力和应用意识.
【命题立意】 本题主要考查线性回归的相关知识, 考查数据处理能力和运算求解能力.
【解析】选 D. 不管是简单随机抽样、系统抽样还是分层抽样, n 它们都是等概率抽样,每个个体被抽中的概率均为 . N
【命题立意】本题主要考查三种抽样方法及其特 征.
考题2(2014 山东)为了研某药品的疗效, 选取若 干名志愿者进行临床试验,所有志愿者的舒张压数据 (单位:kPa)的分组区间为[12,13),[13,14),[14, 15),[15,16),[16,17],将其按从左到右的顺序分 别编号为第一组,第二组,„,第五组,如图是根据 试验数据制成的频率分布直方图.已知第一组与第二 组共有 20 人, 第三组中没有疗效的有 6 人, 则第三组 中有疗效的人数为( ) A.6 B.8 C.12 D.18
【解析】选 C. 因为第一组与第二组一共有 20 人, 并且根据图像 知第一组与第二组的人数比是 0.24∶0.16=3∶2,所 3 以第一组有 20× =12 人.又因为第一组与第三组的 5 2 人数比是 0.24∶0.36=2∶3,所以第三组一共有 12÷ 3 =18 人.因为第三组中没有疗效的有 6 人,所以第三 组中有疗效的人数是 18-6=12.

《导学教程》高三数学二轮复习教案专题六第3讲统计与统计案例

《导学教程》高三数学二轮复习教案专题六第3讲统计与统计案例

第 3 讲统计、统计事例自主学习导引真题感悟1.(2012·福建 )一支田径队有男女运动员98 人,此中男运动员有56 人,按男女比率用分层抽样的方法,从全体运动员中抽出一个容量为取的女运动员人数是 ________.28 的样本,那么应抽分析利用分层抽样的特色,按比率抽样去剖析.依题意,女运动员有98-56= 42(人 ).设应抽取女运动员x 人,依据分层抽样特x 28点,得42=98,解得 x=12.答案122.(2012·湖北 )容量为 20 的样本数据,分组后的频数以下表:分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70]频数234542则样本数据落在区间A. 0.35C. 0.55[10,40)的频次为B.0.45D.0.65分析依据频次的定义求解.由表知[10,40)的频数为2+3+4=9,9所以样本数据落在区间 [10.40)的频次为20= 0.45.答案B考题剖析统计与统计事例部分的高考试题难度一般不大,考察的内容多为抽样方法,用样本预计整体、线性回归剖析、独立性查验等,这种题目作为解答题出现时,常常与概率联合命题.网络建立高频考点打破考点一:抽样方法【例 1】(2012·中山模拟 )某校共有学生 2 000 名,各年级男、女学生人数如图表示,已知在全校学生中随机抽取 1 名,抽到高二级女生的概率是 0.19,现用分层抽样的方法 (按年级分层 )在全校学生中抽取 100 人,则应在高三级中抽取的学生人数为 ________.高一级高二级高三级女生385x y男生375360z[ 审题导引 ]据题意求出字母的值,依照分层抽样的规则计算.[规范解答 ]据题意得x=2 000×0.19=380,∴高三级的学生人数为 y+z= 2 000-385-375-380- 360=500,100∴在高三级中抽取的学生人数为500×2 000= 25.[答案]25【规律总结】抽样方法的选用注意分层抽样与系统抽样的计算方法,分层抽样是按比率抽样,比率的性质、方程的方法起主要作用;系统抽样第一是对整体分段的计算,注意分段时可能要排除一些个体,各段的间隔距离是同样的,但各段中抽取的个体便可有不一样的规则,要依据这些规则经过计算确定抽取的个体.【变式训练】1.某班级有 50 名学生,现要采纳系统抽样的方法在这 50 名学生中抽出 10 名学生,将这 50 名学生随机编号 1~50 号,并分组,第一组 1~ 5 号,第二组 6~10号,,第十组 46~50 号.若在第三组中抽得号码为 12 的学生,则在第八组中抽得号码为________的学生.分析因为组距为 5,所以所抽号码为 (8- 3)×5+12=37.答案37考点二:用样本预计整体【例 2】 (1)(2012·西城二模 )以下图是 1、2 两组各 7 名同学体重 (单位: kg)数据的茎叶图.设 1、2 两组数据的均匀数挨次为1和2,标准差挨次为 s1和 s2,那么(注:标准差= 1 1-2+ x2--2++ xn--2],s n[ x - x x x-, 2,, n 的均匀数此中 x 为 x1)x x----A. x1>x 2,s1>s2B. x1>x 2,s1<s2----C. x1<x 2,s1<s2D. x1<x 2,s1>s2(2)(2012·徐州模拟 )某年级 120 名学生在一次百米测试中,成绩所有介于 13 秒与18 秒之间.将测试结果分红 5 组: [13,14),[14,15), [15,16), [16,17), [17,18] ,获得以下图的频次散布直方图.假如从左到右的 5 个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩在 [16,18]的学生人数是 ________.[审题导引 ](1)依据茎叶图中的数据分别计算 - -22 ,而后比较大x1, x2,s,s1 2小;(2)依据直方图中各小矩形的面积和为1 计算出成绩在 [16,18]的频次,而后计算成绩在 [16,18]的学生人数.[规范解答 ] (1)由茎叶图知- 58+ 57+ 56+53+61+72+ 70 x 1= 7=61.21 2- 2 2 + - 2 -2 +-2 s 1=[(58 -61) +(5761)+ -61)61)+61)61)+7(56 (53(61(722299(70-61) ]= 7 ,-2 390 -- , s < s .122212(2)由频次散布直方图可知成绩在[16,18] 的学生的频次为6+ 3=1+3+7+6+3920,9所以成绩在 [16,18]的学生人数为 20× 120=54.[ 答案 ] (1)C (2)54 【规律总结】用样本预计整体时应注意的问题(1)理解在抽样拥有代表性的前提下,能够用样本的频次散布预计整体的频次分布,用样本的特色数预计整体的特色数,这是统计的基本思想;(2)反应样本数据散布的主要方式,一个是频次散布表,一个是频次散布直方图,要学会依据频次散布直方图预计整体的概率散布以及整体的特色数,特别是均值、众数和中位数;(3)要掌握好样本均值和方差的实质意义,并在详细的应用问题中会依据计算样本数据的均值和方差对实质问题做出解说;(4)茎叶图是表示样本数据散布的一种方法,其特色是保存了所有的原始数据,这是茎叶图的优势.【变式训练】2.(2012·义乌模拟 )在以下图的茎叶图中,乙组数据的中位数是________;若从甲、乙两组数据中分别去掉一个最大数和一个最小数后,两组数据的均匀数中较大的一组是 ________组.分析把乙组数据从小到大排,得 79,84,84,84,86,87,93,--故中位数是 84, x甲=84, x 乙=85,--∴x 乙> x 甲.答案 84乙3.(2012·杭州二模 )将容量为 n 的样本中的数据分红 6 组,若第一组至第六组数据的频次之比为 2∶3∶ 4∶ 6∶ 4∶ 1,且前三组数据的频数之和等于27,则 n 的值为A.70B.60C.50D.40分析据题意知2+3+4=27n,2+3+4+6+4+1∴n= 60.答案B考点三:线性回归剖析【例 3】某种设施的使用年限x 和维修花费 y( 万元 )有以下的统计数据, 如表所示x3 4 5 6y2.5344.5(1)画出上表数据的散点图;∧(2)请依据上表供给的数据,求出 y 对于 x 的线性回归方程 y = bx +a ; (3)预计使用年限为 10 年,维修花费是多少?[ 审题导引 ] (1)依据对应值构成点的坐标,画出各点即可;(2)直接套用求回归直线系数的公式,求出b ,a ;(3)依据求出的回归直线方程, 求当 x =10 时对应的 y 值,即便用年限为 10 年时,维修花费的预计值.[ 规范解答 ] (1)作出散点图以下图.442 2 22 2 =86,i =1 i ii = 1 i- - x = 4.5, y =3.5,66.5-4×4.5×3.5 66.5-63 b = 86-4× 4.52== 0.7,86-81-- = - × = ,a = y-b x3.5 0.74.5 0.35∧所以所求的回归方程为 y =0.7x + 0.35.∧(3)当 x =10 时, y =0.7×10+ 0.35=7.35,所以使用年限为 10 年,维修花费的预计值是7.35 万元.【规律总结】求线性回归剖析问题的方法(1)画出两个变量的散点图;(2)求回归直线方程;(3)用回归直线方程进行预告.此中求回归直线方程是重点.而求回归直线方程的最好方法是“ 最小二乘∧a 和b 的最法”,即对于线性回归模型 y=a+bx 来说,预计模型中的未知参数n--∑xi- x y i- yi =1好方法就是用最小二乘法,其计算公式为 b =n =- 2∑x i- xi =1n--∑ i i-n x y--i =1x yn, a= y -b x .∑2--2i=1x i n x[ 易错提示 ]固然由任何一组不完整同样的数据都能够求出回归直线方程,但只有拥有线性有关关系的一组数据才能获得存心义的回归直线方程,求出的方程才拥有实质价值.线性有关系数能够是正、负或零,线性有关系数为正时是正有关,为负时是负有关,反之也建立.【变式训练】4.(2012 ·深圳模拟 )某车间为了规定工时定额,需要确定加工部件所花销的时间,为此进行了 5 次试验.依据采集到的数据 (以下表 ),由最小二乘法求得回∧归方程 y=0.67x+54.9.现发现表中有一个数据模糊看不清,请你推测出该数据的值为________.-分析由表知 x =30,设模糊不清的数据为y,-1307+y则 y=5(62+ y+75+81+ 89)=5,--+54.9,∵y =0.67x307+ y即5=0.67×30+ 54.9,解得 y= 68.答案68考点四:独立性查验【例 4】有甲、乙两个班级进行数学考试,依照大于等于下为非优异统计成绩后,获得以以下联表.85 分为优异,85 分以优异非优异总计甲班乙班共计 1051030已知在所有105 人中随机抽取 1 人为优异的概率为2 7.(1)请达成上边的列联表.(2)依据列联表中的数据,若按95%的靠谱性要求,可否定为“成绩与班级有关系”?(3)若按下边的方法从甲班优异的学生中抽取一人:把甲班优异的10 名学生从 2 到 11 进行编号,先后两次投掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到 6 号或 10 号的概率.2[审题导引 ] 第 (1)问由题易知成绩优异的概率是7,则成绩优异的学生数是30,成绩非优异的学生数是 75,据此即能够达成列联表;第 (2)问依照独立性检验的原理进行判断;第 (3)问列举基本领件个数和随机事件含有的基本领件个数,依照古典概型的概率公式进行计算.[ 规范解答 ](1)列联表如表所示优异非优异总计甲班104555乙班203050共计3075105依据列联表中的数据,获得105× 10× 30-20×452k=≈6.109> 3.841,(2)55×50×30× 75所以有 95%的掌握以为“成绩与班级有关系”.(3)设 “抽到 6 号或 10 号”为事件 A ,先后两次投掷一枚均匀的骰子,出现的点数为 (x ,y).所有的基本领件有 (1,1),(1,2), (6,6),共 36 个.事件 A 包括的基本领件有 (1,5),(2,4),(3,3), (4,2),(5,1),(4,6),(5,5),(6,4),共 8 个,故8 2P(A)=36=9.【规律总结】独立性查验的一般步骤(1)依据样本数据列出 2×2 列联表,假定两个变量没关系;(2)依据公式 K 2=n ad -bc2计算 K 2的值;a +bc +d a +c b +d(3)比较 K 2 与临界值的大小关系作统计推测.【变式训练】5.(2012·南京模拟 )某研究小组为了研究中学生的身体发育状况,在某学校随机抽出 20 名 15 至 16 周岁的男生,将他们的身高和体重制成 2× 2 列联表,依据列 联表的数据,能够有 ________%的掌握以为该学校 15 至 16 周岁的男生的身高和 体重之间有关系 .超重不超重共计 偏高 4 1 5 不偏高 3 12 15 共计71320独立性查验临界值表:P(K 2≥k 0)0.025 0.010 0.005 0.001k 05.0246.6357.879 10.828独立性查验随机变量 K 2 值的计算公式:2K 2=n ad -bc.a +bc +d a +c b +d20 4×12-3×1 2分析 k =5× 15×7×13=5.934,依据临界值表可知有97.5%的掌握以为该学校 15 至 16 周岁的男生的身高和体重之间有关系.答案97.5名师押题高考【押题 1】依据下边频次散布直方图 (以下图 )预计样本数据的中位数、众数分别为A. 12.5,12.5B. 13,12.5C. 12.5,13D.14,12.5分析中位数是位于中间的数,故中位数是13,众数是12.5,中位数把图形的面积一分为二.答案B[ 押题依照 ]高考要求考生能经过样本的散布预计整体的散布;依据样本的特色数预计整体的特色数,考察考生的读图能力、归纳能力,故押本题.【押题 2】某高校从参加今年自主招生考试的学生中随机抽取50 名学生的成绩作为样本,得频次散布表以下:组号分组频数频次第一组[230,235)0.16第二组[235,240)①0.24第三组[240,245)15②第四组[245,250)100.20第五组[250,255]50.10共计50 1.00(1)写出表中地点①②处的数据;(2)为了选拔更优异的学生,高校决定在第三、四、五组顶用分层抽样法抽取6名学生进行第二轮查核,分别求出第三、四、五组参加查核的人数;(3)在(2)的前提下,高校决定在这 6 名学生中录取 2 名学生,求 2 人中起码有1人在第四组中的概率.分析(1)由题知地点①的数据是50×0.24=12,15地点②的数据是50= 0.30.15(2)第三组参加查核的人数为30×6=3;10第四组参加查核的人数为30×6=2;5第五组参加查核的人数为30×6=1.(3)设第三组的 3 名学生为 A、B、C,第四组的 2 名学生为 D、E,第五组的 1 名学生为 F,则从这 6 名学生中录取 2 名学生的方法有 AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共 15 种,而起码有 1 人是第四组的有 AD,AE,BD,BE,CD,CE,DE,DF ,EF,共 9 种.故所求的概9 3率 P=15=5.[ 押题依照 ]概率与统计相联合的解答题是高考的一个热门题型.本题考察了频率散布表、抽样方法、古典概型,突出了知识和能力的考察,故押本题.。

高考数学二轮复习学案统计与统计案例 含解析

高考数学二轮复习学案统计与统计案例 含解析

统计与统计案例2讲第年份A.12卷别考查内容及考题位置命题分析抽样方法(基础型)]系统抽样N总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).nN 若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n nN-1).n分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[考法全练]1.福利彩票“双色球”中红色球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49D.C.0616解析:选C.被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为()A.73 B.78D.77.76C80解析:选B.样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-163)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢1 6004 8007 2006 400电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为()A.25,25,25,25 B.48,72,64,16D.30,1024,36,32,820C.,40,1100,解析:选D.法一:因为抽样比为=20020 000所以每类人中应抽选出的人数分别为11118.×=故选D.,×7 200=36,6 400×=321 600=4 800×24,200200200200∶82,∶∶7 200一般、法二:最喜爱、喜爱、不喜欢的比例为4 800∶∶6 4001 600=69∶96,所以每类人中应抽选出的人数分别为,×100=24×10036=29+8++28+69++682×100=32,×100=8,故选D.6+9+8+26+9+8+2“双图”“五数”估计总体(基础型)统计中的5个数据特征众数:在样本数据中,出现次数最多的那个数据.(1).中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为(2) 偶数,就取中间两个数据的平均数作为中位数.1-).+x+…+x(3)平均数:样本数据的算术平均数,即x=(x n12n (4)方差与标准差:1---2222;x)]+…+(x-sx=[(x-x)(+x-x)n21n1---222]. )x--x)x-[(xx)+…+(+(sx=n12n 从频率分布直方图中得出有关数据的技巧频率频率,频率=组距×频率:频率分布直方图中横轴表示组数,纵轴表示. (1)组距组距(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.(3)众数:最高小长方形底边中点的横坐标.(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[考法全练]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度120 140 160 180 200户数25823则这20户家庭该月用电量的众数和中位数分别是()A.180,170B.160,180D.180,C.160170,160解析:选A.用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2018·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、) (分的学生人数是100~80,则成绩在40第四、第五小组,已知第二小组的频数是A.15 B.18D.20.25C解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,40所以样本容量是100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成0.4绩在80~100分的学生人数是100×0.15=15.故选A.3.(2018·武汉调研)某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为()36116B. A.79D6.30C.1解析:选C.由茎叶图知,最低分为87分,最高分为99分.依题意得,×(87+93+9051222+(9091)+(93=×[(87-91)-=x×10++91)=91,解得x4.则剩余5个得分的方差s9+51222]=×(16+4+1+91)(91+-91)9)=6.故选C.91)--+(9454.“中国人均读书4.3本(包括网络文学和教科书),比韩国的11本、法国的20本、日本的40本、犹太人的64本少得多,是世界上人均读书最少的国家.”这个论断被各种媒体反复引用.出现这样的统计结果无疑是令人尴尬的.某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:[20,30),[30,40),[40,50),[50,60),[60,后得到如图所示的频率分布直方图.80],[70,70).(1)求在这40名读书者中年龄分布在[40,70)的人数;(2)求这40名读书者的年龄的平均数和中位数.解:(1)由频率分布直方图知年龄在[40,70)的频率为(0.020+0.030+0.025)×10=0.75,故这40名读书者中年龄分布在[40,70)的人数为40×0.75=30.(2)这40名读书者年龄的平均数为25×0.05+35×0.10+45×0.20+55×0.30+65×0.25+75×0.10=54.设中位数为x,则0.005×10+0.010×10+0.020×10+0.030×(x-50)=0.5,解得x=55,故这40名读书者年龄的中位数为55.回归分析(综合型)[典型例题]命题角度一线性回归分析(2018·广州模拟)某地1~10岁男童年龄x(单位:岁)与身高的中位数y(单位:cm)(i ii=1,2,…,10)如下表:对上表的数据作初步处理,得到下面的散点图及一些统计量的值.(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);2的回归方程类型,他求得的回归方程x关于y更适宜作为r+qx+px=y某同学认为(2).^2+10.17x+68.07.经调查,该地11岁男童身高的中位数为y=-0.30x145.3 cm.与(1)中的线是性回归方程比较,哪个回归方程的拟合效果更好?^^^^附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为:b=n--)-y-x)(y ∑(x ii^-^-1i=,a=y-bx.n-2)∑-x (x i1i=10--∑(x-x)(y-y)566.85ii^i1=【解】(1)b==≈6.871≈6.87,1082.50-2)xx-(∑ii1=^-^-a=y-bx=112.45-6.871×5.5≈74.66,^所以y关于x的线性回归方程为y=6.87x+74.66.^^(2)若回归方程为y=6.87x+74.66,当x=11时,y=150.23.^2+10.17x+68.07,当x=11时,yy若回归方程为=-0.30x=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,^2+10.17x+68.07对该地11y所以回归方程=-0.30x岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用^^(1)关键:正确理解计算b,a的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析(2018·潍坊模拟)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.811-表中u=,u=∑u.ii8x1i=i d(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费xy(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)^^^附:对于一组数据(w,v),(w,v),…,(w,v),其回归直线v=α+βw的斜率和n2121nn--∑)-vw)(v (w-ii^^-^1i=,α==v-βw.截距的最小二乘估计分别为βn-2∑)w-w(i1i=d【解】(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷x数量x(单位:千册)的回归方程.1(2)令u=,先建立y关于u的线性回归方程,x8--)-y-u)(y∑(u7.049ii^1i=8.96,≈8.957≈由于d==80.787-2)u(u-∑i1i=^-^-所以c =y-d·u=3.63-8.957×0.269≈1.22,^所以y关于u的线性回归方程为y=1.22+8.96u,8.96^所以y关于x的回归方程为y=1.22+.x8.96??+1.22x≥78.840,10(3)假设印刷x 千册,依题意得x-??x所以x≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤确定变量,作出散点图.(1) (2)根据散点图,选择恰当的拟合函数.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归(3)方程.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(4) 根据相应的变换,写出非线性回归方程.(5)命题角度三回归分析与正态分布的综合问题单位:天当中某商品的销售量y(兰州模拟)某地一商场记录了12月份某5 (2018·单位:℃)的相关数据,如下表:kg)与该地当日最高气温x(2 9 8 5 x 11128710y 8^^^ +a;的回归方程y=bx(1)试求y与x试用所6 ℃,x之间是正相关还是负相关;若该地12月某日的最高气温是y(2)判断与求回归方程预测这天该商品的销售量;-22近σ,其中μ近似取样本平均数xX~N(μ,σ,)12(3)假定该地月份的日最高气温2 <13.4).,试求P(3.8<似取样本方差sX 附:参考公式和有关数据nn----?∑∑)yx)(ynxy-(x-xy-iiii?^1ii1===b=?222∑∑)-x (x-nxx ,ii11ii==??-^^nn---x=yb-a2),则P(μ-σ<X<μ+σ)=0.682 7,且P((3.210≈3.2,≈1.8,若X~Nμ,σμ-2σ<X<μ+2σ)=0.954 5.n----【解】(1)由题意,x=7,y=9,∑xy-nxy=287-5×7×9=-28,iii1=n28-^^^--222=12.92.0.56)×7-y-bx=9(-a=-=-n∑x-x=2955×750,b=-0.56,=i501i=^ 12.92.x+y所以所求回归直线方程为=-0.56^代入回归方程可得,x=6x0.56<0(2)由b=-知,y与负相关.将^9.56=,12.9260.56y=-×+.kg9.56 即可预测当日该商品的销售量为1-2σ≈3.2,所以P(3.8<X<13.4)=P(μ-σ<7,X≈s<μ+2σ)=P(μ-知(3)由(1)μ≈x=21σ<X<μ+σ)+P(μ-2σ<X<μ+2σ)=0.818 6.22σ的意义情况下,记清正态分布的密度曲线,解决与正态分布有关的问题,在理解μ是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:^y=-30.4+13.5 t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立^模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.^解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为^y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(以下2种理由,任选其一)(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资^额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t得到的预②年以后的环境基础设施投资额的变化趋势,因此利用模型2010可以较好地描述.测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.统计案例(综合型)[典型例题](2018·福州模拟)某学校八年级共有学生400人,现对该校八年级学生随机抽取50名进行实践操作能力测试,实践操作能力测试结果分为四个等级水平,一、二等级水平的学生实践操作能力较弱,三、四等级水平的学生实践操作能力较强,测试结果统计如下表:等级水平一水平二水平三水平四/名男生6 8 4 12女生/名2864(1)根据表中统计的数据填写下面2×2列联表,并判断是否有95%的把握认为学生实践操作能力强弱与性别有关?实践操作能力较弱实践操作能力较强总计男生/名名女生/总计(2)现从测试结果为水平一的学生中随机抽取4名进行学习力测试,记抽到水平一的男生的人数为ξ,求ξ的分布列和数学期望.下面的临界值表供参考:2)bcad-n(2参考公式:K=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)【解】(1)2×2列联表如下:实践操作能力较弱实践操作能力较强总计30 12 /男生名18/女生名20614 总计26 24 502)1814×(6×12-502252所以K==≈4.327>3.841.5230×20×26×24所以有95%的把握认为学生实践操作能力强弱与性别有关.(2)ξ的取值为0,1,2,3,4.32141234CC3CCC1C8C6664464P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ4444C14C21C7C351010101041C4=4)==.4C21010所以ξ的分布列为183418所以E(ξ)=0×+1×+2×+3×+4×==1.6.14217352105独立性检验的关键2,若2×2列联表没有列出来,要先列出此表.×2列联表准确计算K根据(1)22的观测值k越大,对应假设事件H成立的概率越小,H不成立的概率越大.(2)K 00[对点训练] (2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式的把握认为两种生产方式的效率有差异?99%中的列联表,能否有(2)根据(3).2)-bcn(ad2=,附:K)b+dd)(a+c)(b(a+)(c+2≥kK) P(0.050 0.010 0.00110.8286.6353.841 k解:(1)第二种生产方式的效率更高.理由如下:(以下4种理由,任选其一)(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.79+81(2)由茎叶图知m==80.2列联表如下:超过m 不超过m第一种生产方式515第二种生产方式1552)5-5×1540×(×152(3)由于K==10>6.635,所以有99%的把握认为两种生产方20×20×20×20式的效率有差异.一、选择题1.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,6列的数开始向右读,则选出的第5行第9进行编号,然后从随机数表第60,…,03,02.个个体是()(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A.07B.25D.52C.42解析:选D.依题意得,依次选出的个体分别是12,34,29,56,07,52,…因此选出的第6个个体是52.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2018·昆明模拟)AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,从一级优(0~50);二级良(51~100);三级轻度污染(101~150);四级中度污染(151~200);直至五级重度污染(201~300);六级严重污染(大于300).如图是昆明市2017年4月份随机抽取10天的AQI茎叶图,利用该样本估计)(月份空气质量优的天数为4年2018昆明市.A.3 B.4D.C.12214解析:选C.从茎叶图知10天中有4天空气质量为优,所以空气质量为优的频率为=1022,所以估计昆明市2018年4月份空气质量为优的天数为30×=12,故选C. 554.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为()A.5 B.7D.50C.10解析:选D.根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.5.(2018·桂林、白色、梧州、崇左、北海五市联考)如图是2017年第一季度五省GDP情况图,则下列陈述正确的是()①2017年第一季度GDP总量和增速均居同一位的省只有1个;②与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长;③去年同期的GDP总量前三位是D省、B省、A省;④2016年同期A省的GDP总量也是第三位..②③④B .①②A.C.②④D.①③④解析:选B.①2017年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2016年同期五省的GDP 总量,可知前三位为D省、B省、A省,故③正确;由③知2016年同期A省的GDP总量是第三位,故④正确.故选B.6.(一题多解)(2018·石家庄质量检测(二))某学校A、B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.①A班数学兴趣小组的平均成绩高于B班的平均成绩;②B班数学兴趣小组的平均成绩高于A班的平均成绩;③A班数学兴趣小组成绩的标准差大于B班成绩的标准差;④B班数学兴趣小组成绩的标准差大于A班成绩的标准差.其中正确结论的编号为()A.①③B.①④D.②④C.②③-:由于x=解析:选B.法一A11-=x92+82++95)=78,78+76+74++78+76+81+85+86+8862(53++64B1515--所66,所以x>x,++73+7374+70+83+82+91)=++(45+4851+53+56+6264+65BA以①正确.12222222278)++(74-78)(78+(78-s78)=-[(5378)-+(62-78)+(64-78)78)+(76-A152222222+(95-+(92-(88-78)+(82-+(76-78)78)+(81-78)+(85-78)(86+-78)78)+2]=121.678),12222222266)-++(62-66)-66)+(53-66)-+(5666)(64s=-[(4566)(48+-66)+(51B152222222+(9166)66)-+(82-66)+(73-66)+(74--+(7066)(83+-66)(73-+(6566)+-2]=175.2.66)22故s>s,B班的方差大,则B班的标准差也大,④正确,故选B.AB班的数学成绩较A班;B 班数学兴趣小组的平均成绩明显高于A由茎叶图可知,法二:B.班的方差、标准差较大,故选B班的数学成绩较分散,显然B稳定,大多在70~90分,二、填空题.给出下列四个命题:7名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量52①某班级一共有;46号同学在样本中,那么样本中另一位同学的编号为234的样本,已知7号、33号、为的平均数、众数、中位数都相同;4,5,3,3,②一组数据1,2 ;1,则其标准差为2,2,3的平均数为③若一组数据a,0,1^^^其中,bx④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y=a+^-^-1.=,则b1,y=3a=2,x=.填序号)其中真命题有________(,故抽取的样本的编号分别134=在①中,由系统抽样知抽样的分段间隔为52÷解析:的平均数,5,3,4,①是假命题;在②中,数据1,23为7号、20号、33号、46号,故1中,因是真命题;在③,众数为3,都相同,故②4+5)=3,中位数为33为(1+2++3+6121)-[(-15,解得a=-1,故样本的方差为3为样本的平均数为1,所以a+0+1+2+=52222,标准差为2,故③是假命题;在]=2-1)④+(2-1)-+(31)(0+-1)中,回归直+(1^^--^^-^线方程为y=bx+2,又回归直线过点(x,y),把(1,3)代入回归直线方程y=bx+2,得b=1,故④是真命题.答案:②④8.(2018·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:购买食品的年 2.09 2.15 2.50 2.84 2.92x/万元支出费用购买水果和牛奶的1.25 1.30 1.50 1.70 1.75/万元年支出费用y^^^^^-^-根据上表可得回归直线方程y=bx+a,其中b=0.59,a=y-bx,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为________万元.2.09+2.15+2.50+2.84+2.92-解析:x==2.50(万元),51.25+1.30+1.50+1.70+1.75-y==1.50(万元),5.^^-^-^其中b=0.59,a=y-bx=0.025,y=0.59x+0.025,故年支出费用为3.00万元的家庭^购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795万元.答案:1.7959.某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公1222222]=30.8.-8)+(9-8)=[(0-8)-+(48)++(11-8)(16式可得s5答案:30.8三、解答题10.某校为了解高一学生周末的“阅读时间”,从高一年级中随机抽取了100名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示:(1)求图中a的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率.现从全校高一年级随机抽取20名学生,其中有k名学生“阅读时间”在[1,2.5)内的概率为P(X=k),其中k=0,1,2,…,20.当P(X=k)最大时,求k的值.解:(1)由频率分布直方图可知,周末“阅读时间”在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,所以1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设该校高一学生周末“阅读时间”的中位数为m小时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,,0.47<0.5=0.20+0.15+0.08+0.04组的频率之和为4而前所以2≤m<2.5.由0.5×(m-2)=0.5-0.47,解得m=2.06.故可估计该校高一学生周末“阅读时间”的中位数为2.06小时.(3)设在取出的20名学生中,周末“阅读时间”在[1,2.5)内的有X人,则X服从二项分布,即X~B(20,0.6),所以恰好有k名学生周末“阅读时间”在[1,2.5)内的概率为P(X k20kk-(0.4)C(0.6),=k)=20其中k=0,1,2, (20)k20kk-)(0.4(0.6)3(21-kXP(=k)C)20=…,20.,,k=1,2设t==kk1k121---k2)0.40.6)-1()C(P(X=k20若t>1,则k<12.6,P(X=k-1)<P(X=k);若t<1,则k>12.6,P(X=k-1)>P(X=k).P(X=13)3×(21-13)12=又=<1,1313×)X=122P(所以当k=12时,P(X=k)最大.所以k的值为12.11.(2018·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用(单位:万元)和产品销量(单位:万件)的具体数据.月份 1 2 3 4 5 6 7 8x 促销费用18 2 133 61521104.541 3.5 1 3 5y产品销量2^^^(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y=bx+a(系数精确到0.01);(2)已知6月份该购物网站为庆祝成立1周年,特制定奖励制度:以z(单位:件)表示日销量,z ∈[1 800,2 000),则每位员工每日奖励100元;z∈[2 000,2 100),则每位员工每日奖励150元;z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(0.2,0.000 1),请你计算某位员工当月奖励金额总数大约多少元.(当月奖励金额总数精确到百分位).参考数据:882,=1y分别为第i个月的促销费用和产品销量,ix,∑∑xy=338.5x=1 308,其中,iiiii1ii1==2),则P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ,(服从正态分布若随机变量…,32,,8.zNμσ<z<μ+2σ)=0.954 5.--,3=y,11=x由题可知(1)解:n--yx-n∑xy338.5-8×11×374.5ii^^1i=得b==≈将数据代入b=0.219≈0.22.n3401218-×1 308-22∑x-ny i1i=^-^-a=y-bx=3-0.219×11≈0.59,^所以y关于x的回归方程为y=0.22x+0.59.(2)由6月份日销量z服从正态分布N(0.2,0.000 1),得0.954 5日销量在[1 800,2 000)的概率为=0.477 25,20.682 7日销量在[2 000,2 100)的概率为=0.341 35,21-0.682 7日销量在[2 100,+∞)的概率为=0.158 65,2所以每位员工当月的奖励金额大约为(100×0.477 25+150×0.341 35+200×0.158 65)×30=3 919.725≈3 919.73(元).12.(2018·南京模拟)某校为了推动数学教学方法的改革,学校将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革.经过一年的教学实验,将甲、乙两个班学生一年来的数学成绩取平均数,两个班学生的平均成绩均在[50,100],按照区间[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,绘制成如下频率分布直方图,规定不低于80分(百分制)为优秀.(1)完成表格,并判断是否有90%以上的把握认为“数学成绩优秀与教学改革有关”;甲班乙班总计大于等于80分的人数分的人数小于80总计(2)从乙班[70,80),[80,90),[90,100]分数段中,按分层抽样随机抽取7名学生座谈,从中选3名学生发言,记来自[80,90)发言的人数为随机变量X,求X的分布列和数学期望.参数数据和公式:2≥k0.0250.05(PK 0.10 )0.k 2.706 3.841 5.024 02)bcad-n(2K=(a+b)(c+d)(a+c)(b+d)解:(1)补全表格如下:甲班乙班总计分的人数大于等于8032 2012 分的人数小于8048 28 2080 40 40总计2)×2020-2880×(12×2依题意得K=≈3.333>2.706,40×40×32×48故有90%以上的把握认为“数学成绩优秀与教学改革有关”.(2)从乙班[70,80),[80,90),[90,100]分数段中抽取的人数分别为2,3,2,依题意随机变量X的所有可能取值为0,1,2,3,1232131CCCCC124C18343344P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,3333C35C35C35C357777其分布列如下表:418121459所以E(X)=0×+1×+2×+3×==.35353535357。

模块二讲重点 概率与统计(3)统计及统计案例小题-2021届高考数学二轮复习课件(新高考版)

模块二讲重点 概率与统计(3)统计及统计案例小题-2021届高考数学二轮复习课件(新高考版)

提取频率分布直方图中的数据
(1)组距、频率:频率分布直方图中每个矩形的宽表示
组距,高表示
频率 组距
,面积表示该组数据的频率,各个矩形
的面积之和为1;
(2)众数:最高小长方形底边中点的横坐标;
(3)中位数:平分频率分布直方图面积且垂直于横轴的
直线与横轴交点的横坐标;
(4)平均数:频率分布直方图中每个小长方形的面积乘
【分析】 由茎叶图,可得甲的中位数是65,从而可知乙 的中位数也是65,可得到y=5,再利用二者平均数也相等,可 求出x的值,即可得到答案.
【解析】 由茎叶图,可知甲的中位数为65,则乙的中位 数也是65,故y=5,
因为甲、乙的平均数相等, 所以56+62+65+5 74+70+x=59+61+657+65+78, 解得x=3.故选D.
小长方形底边中点的横坐标,再求和;
(5)参数:若纵轴上存在参数,则根据所有小长方形的
面积之和为1,列方程即可求得参数值.
用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数; (2)方差和标准差反映了数据波动程度的大小. ①方差:s2=1n[(x1--x )2+(x2--x )2+…+(xn--x )2]; ②标准差: s= n1[(x1--x )2+(x2--x )2+…+(xn--x )2]. 性质:标准差(或方差)越小,说明数据波动越小,越稳 定;标准差越大,说明数据越分散,越不稳定.
模 块 二 讲 重 点 第 1 0讲 概 率 与统 计(3) 统计及 统计案 例小题 -2021 届高考 数学二 轮复习 课件( 新高考 版)
模 块 二 讲 重 点 第 1 0讲 概 率 与统 计(3) 统计及 统计案 例小题 -2021 届高考 数学二 轮复习 课件( 新高考 版)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

2020版高考数学大二轮复习7.3统计与统计案例学案理

2020版高考数学大二轮复习7.3统计与统计案例学案理

第3讲统计与统计案例考点1 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[例1] (1)[2019·福州市高中毕业班质量检测]为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样 B.按性别分层抽样C.按年龄段分层抽样 D.系统抽样(2)[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )A.0.5 B.0.6C.0.7 D.0.8【解析】(1)根据分层抽样的特点,应选C.(2)本题主要考查韦恩图的应用与概率问题,考查考生的阅读理解能力,考查的核心素养是数学抽象、逻辑推理、数据分析.根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7. 【答案】(1)C (2)C(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的; (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.『对接训练』1.[2019·河北枣强中学期末]总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为( )21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06 91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26 A .12 B .07 C .15 D .16解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.答案:C2.[2019·惠州市高三第二次调研]某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点2 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[例2] (1)[2018·江苏卷]已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________;(2)[2017·全国卷Ⅰ]为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,xn ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,xn 的平均数B .x 1,x 2,…,xn 的标准差C .x 1,x 2,…,xn 的最大值D .x 1,x 2,…,xn 的中位数【解析】 (1)这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为89+89+90+91+915=90.(2)因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.【答案】 (1)90 (2)B众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.『对接训练』3.[2019·河北石家庄模拟]已知甲、乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25解析:由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确.故选D.答案:D4.[2019·河北衡水中学五调]某“跑团”为了解团队每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是( )A .月跑步平均里程的中位数为6月份对应的平均里程数B .月跑步平均里程逐月增加C .月跑步平均里程高峰期大致在8月和9月D .1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳 解析:由折线图知,月跑步平均里程的中位数为5月份对应的平均里程数,A 错;月跑步平均里程不是逐月增加的,B 错;月跑步平均里程高峰期大致在9月和10月,C 错.故选D.答案:D考点3 变量的相关性与统计案例1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x-2,a ^=y --b ^x -;(x -,y -)称为样本中心点.2.随机变量K 2(χ2)=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ),若K 2(χ2)>3.841,则有95%的把握说两个事件有关; 若K 2(χ2)>6.635,则有99%的把握说两个事件有关.[例3] [2019·全国卷Ⅰ]某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解析】 象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键①根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.②K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.『对接训练』5.[2019·福建福州二检]中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两个小区的租户的“幸福指数”的高低,随机抽取甲、乙两个小区租户各100户进行调查.甲小区租户的月收入(单位:千元)以[0,3),[3,6),[6,9),[9,12),[12,15]分组的频率分布直方图如图.乙小区租户的月收入(单位:千元)的频数分布表如下.(2)若甲、乙两个小区每户的月租费分别为2千元、1千元.请根据条件,完成下面的2×2列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.附:K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:(1)设甲小区所抽取的100户租户的月收入的中位数为t , 则0.060×3+(t -3)×0.160=0.5,解得t =5. (2)完成2×2列联表如下.根据2×2可得K 2的观测值k =200×(66×62-38×34)2104×96×100×100≈15.705>10.828,所以能在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.课时作业19 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.39 B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是( )A.①③都可能为分层抽样 B.②④都不能为分层抽样C.①④都可能为系统抽样 D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据( )A.一样稳定 B.变得稳定C.变得不稳定 D.稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C.答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A.95 B .96 C .97 D .98解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C.答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7xn ,解得n =70,故选C.答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A.答案:A7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y ^=b ^x +9,则b ^=( )A.2 B .1 C .0 D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y ^=b ^x +9且回归直线过点(6,3),所以3=6b ^+9,解得b ^=-1,故选D.答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关” 解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B.答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D.答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定; ③两个变量的线性相关性越强,则相关系数r 的值越接近于1; ④对A ,B ,C 三种个体按 ::2的比例进行分层抽样调查,若抽取的A 种个体有15个,则样本容量为30.则正确的个数是( ) A .3 B .2 C .1 D .0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C.答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为k ::4,抽取的样本中高一年级的学生有120人,则实数k的值为________.解析:由题意可得,120300=kk +5+4,解得k =6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有 1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3.从这6人中随机选取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个, 故所求概率P =615=25.16.[2019·河南封一调]近年来我国电子商务行业迎来蓬勃发展的新机遇,2018年双十一期间,某购物平台的成交额为两千亿元人民币之多.与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,商品的好评率为60%,服务的好评率为75%,其中对商品和服务都做出好评的交易为80次.(1)完成下面的2×2列联表,并回答是否有99%的把握认为商品好评与服务好评有关.(2)的次数为随机变量X ,求X 的数学期望和方差.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .K 2=200×(150×50×120×80≈11.111>6.635,故有99%的把握认为商品好评与服务好评有关.(2)∵X ~B ⎝ ⎛⎭⎪⎫3,25, ∴E (X )=3×25=65,D (X )=3×25×35=1825.17.[2019·重庆九校联盟一模]某社区为了解该社区退休老人每天的平均户外活动时间,从该社区退休老人中随机抽取了100位老人进行调查,获得了每人每天的平均户外活动时间(单位:时),活动时间按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示.(1)求图中a 的值;(2)估计该社区退休老人每人每天的平均户外活动时间的中位数;(3)在[1,1.5),[1.5,2)这两组中采用分层抽样的方法抽取7人,再从这7人中随机抽取2人,求抽取的2人恰好在同一个组的概率.解析:(1)由频率分布直方图,可知平均户外活动时间在[0,0.5)内的频率为0.08×0.5=0.04.同理,平均户外活动时间在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,由1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a +0.5a , 解得a =0.30. (2)设中位数为m 时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5, 而前4组的频率之和为0.04+0.08+0.15+0.20=0.47<0.5,所以2≤m <2.5. 所以0.50×(m -2)=0.5-0.47,解得m =2.06.故可估计该社区退休老人每人每天的平均户外活动时间的中位数为2.06时. (3)由题意得平均户外活动时间在[1,1.5),[1.5,2)内的人数分别为15,20,按分层抽样的方法在[1,1.5),[1.5,2)内分别抽取3人、4人,从7人中随机抽取2人,共有C 27=21种方法,抽取的两人恰好都在同一个组有C 24+C 23=9种方法,故抽取的2人恰好在同一个组的概率P =921=37.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据:②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a ^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i=1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得,a ^=y --b ^x -=104.56,∴线性回归方程为y ^=1.16x +104.56.当x =18时,y ^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。

2019高考数学二轮复习专题七概率与统计2.7.3正态分布、统计与统计案例课件理

2019高考数学二轮复习专题七概率与统计2.7.3正态分布、统计与统计案例课件理

2.正态分布 X~N(μ,σ2)的三个常用数据 (1)P(μ-σ<X≤μ+σ)=0.6826; (2)P(μ-2σ<X≤μ+2σ)=0.9544; (3)P(μ-3σ<X≤μ+3σ)=0.9974.
[解题指导]
[解]
(1)抽取的一个零件的尺寸在(μ-3σ, μ+3σ)之内的概率
为 0.9974, 从而零件的尺寸在(μ-3σ, μ+3σ)之外的概率为 0.0026, 故 X~B(16,0.0026). 因此 P(X≥1)=1-P(X=0)=1-0.997416≈0.0408. X 的数学期望为 E(X)=16×0.0026=0.0416.
[对点训练]
2 1.(2018· 兰州检测)设 X~N(μ1,σ2 1),Y~N(μ2,σ2),这两个
正态分布密度曲线如图所示,下列结论中正确的是(
)
A. P(Y≥μ2)≥P(Y≥μ1) B.P(X≤σ2)≤P(X≤σ1) C.对任意正数 t,P(X≥t)≥P(Y≥t) D.对任意正数 t,P(X≤t)≥P(Y≤t)
3.方差公式 1 - - - s = [(x1- x )2+(x2- x )2+…+(xn- x )2] n
2
[对点训练] 1.(2018· 安徽皖南八校联考)某校为了解 1000 名高一新生的 健康状况, 用系统抽样法(按等距的规则)抽取 40 名同学进行检查, 将学生从 1~1000 进行编号,现已知第 18 组抽取的号码为 443, 则第一组用简单随机抽样抽取的号码为( A.16 B.17 C.18 D.19 )
[答案]
C
2. 某校组织了“2017 年第 15 届希望杯数学竞赛(第一试)”, 已知此次选拔赛的数学成绩 X 服从正态分布 N(72,121)(单位: 分), 此次考生共有 500 人,估计数学成绩在 72 分到 83 分之间的人数 约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)= 0.9544.)( A.238 ) B.170 C.340 D.477

高三二轮复习(理数) 第三讲 统计与统计案例(教案)(Word版,含答案)

高三二轮复习(理数) 第三讲 统计与统计案例(教案)(Word版,含答案)

第三讲统计与统计案例[考情分析]统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低.回归分析常在解答题中考查1.(2016·高考全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:由图形可得各月的平均最低气温都在0℃以上,A正确;七月的平均温差约为10℃,而一月的平均温差约为5℃,故B正确;三月和十一月的平均最高气温都在10℃左右,基本相同,C正确,故D错误.答案:D2.(2015.高考全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2, (8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . 解析:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1(w i -w )(y i -y )∑8i =1(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.抽样方法[方法结论]三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体的个体数为N ,则用这三种方法抽样时,每个个体被抽到的概率都是nN.[题组突破]1.(2017·荆门调研)将参加数学竞赛决赛的500名学生编号为001,002,…,500,采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003,这500名学生分别在三个考点考试,从001到200在第一考点,从201到355在第二考点,从356到500在第三考点,则第三考点被抽中的人数为( ) A .14 B .15 C .16D .21解析:系统抽样的样本间隔为50050=10,第一个号码为003,按照系统抽样的规则,抽到的号码依次为003,013,023,033,043,053,…,493,第三考点抽到的第一个号码为363,最后一个号码为493,由等差数列的通项公式得493=363+(n -1)×10,解得n =14,故选A. 答案:A2.工厂生产的A 、B 、C 三种不同型号的产品数量之比依次为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A 、B 、C 三种产品中抽出样本容量为n 的样本,若样本中A 型产品有16件,则n 的值为________. 解析:由已知得n ×22+3+5=16,解得n =80.答案:80 [误区警示]利用系统抽样分段时,若分段间隔不为整数,应先随机剔除部分元素,再分组,但每个个体被抽到的概率仍为样本容量总体个数.此问题易忽视.用样本估计总体[方法结论]1.在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小矩形的面积表示,各小矩形的面积总和为1,因为在频率分布直方图中组距是一个固定值,所以各小矩形高的比也就是频率比. 2.当样本数据较少时,用茎叶图表示数据效果较好,要分清何为茎,何为叶,并明确其特征数字的含义. 3.特征数字(1)众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.在频率分布直方图中,众数的估计值是最高的矩形的中点的横坐标.(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.在频率分布直方图中,把使左边和右边的直方图的面积相等的直线所对应的横坐标的估计值作为中位数的值.(3)平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ).在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(4)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差.方差与标准差都反映了样本数据的稳定与波动、集中与离散的程度.s 2越小,样本数据的稳定性越高,波动越小.[典例] (1)如图所示,茎叶图记录了甲、乙两组各4名学生完成某道数学题的得分情况,该题满分为12分.已知甲、乙两组学生的平均成绩相同,乙组某个数据的个位数字模糊,记为x .则下列命题正确的是( )A .甲组学生的成绩比乙组稳定B .乙组学生的成绩比甲组稳定C .两组学生的成绩有相同的稳定性D .无法判断甲、乙两组学生的成绩的稳定性解析:x 甲=14×(9+9+11+11)=10,x 乙=14×(8+9+10+x +12)=10,解得x =1.又s 2甲=14×[(9-10)2+(9-10)2+(11-10)2+(11-10)2]=1,s 2乙=14×[(8-10)2+(9-10)2+(11-10)2+(12-10)2]=52,∴s 2甲<s 2乙,∴甲组学生的成绩比乙组稳定.选A. 答案:A(2)海尔公司的n 名员工参加“我是销售家”活动,他们的年龄在25岁至50岁之间.按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],由统计的数据得到的频率分布直方图如图所示.。

概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】

概率与统计  第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】

专题八 概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】1.在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18).现将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示.若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.11B.15C.35D.392.某学校组织学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[)20,40,[)40,60,[)60,80,[]80,100.若低于60分的人数是15人,则参加英语测试的学生人数是( )A.45B.50C.55D.603.我国是一个农业大国,从事农业工作的人员有5.4亿,如图为某县农村从业人员年龄结构图,为了解该县从业人员在从事农业工作中的实际困难,以推进县乡村振兴工作,某调查机构计划从某县的所有从业人员中随机抽取20人展开某项调研,则所抽取的20人中恰有2人的年龄在20岁以下的概率约为( ) (170.90.167≈,180.90.15≈,190.90.135≈,200.90.122≈)A.0.25B.0.29C.0.32D.0.354.某校高一年级在某次数学测验中成绩不低于80分的所有考生的成绩统计表如下:A.在[90,100]内B.在(100,110]内C.在(110,120]内D.在(120,130]内5.若某同学连续3次考试的名次(3次考试均没有出现并列名次的情况)不低于第3名,则称该同学为班级的尖子生.根据甲、乙、丙、丁四位同学过去连续3次考试名次的数据,推断一定是尖子生的是( )A.甲同学:平均数为2,众数为1B.乙同学:平均数为2,方差小于1C.丙同学:中位数为2,众数为2D.丁同学:众数为2,方差大于16.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组[12,13),第二组[13,14),…,第六组[17,18],得到如下的频率分布直方图.则该100考生的成绩的平均数和中位数(保留一位小数)分别是( )A.15.2 15.3B.15.1 15.4C.15.1 15.3D.15.2 15.37.设样本数据1x ,2x ,…,10x 的平均数和方差分别为1和4,若i i y x a =+(a 为非零常数,1,2,,10i =),则1y ,2y ,…,10y 的平均数和方差分别为( ) A.1a +,4B.1a +,4a +C.1,4D.1,4a +8.已知变量x ,y 之间的一组数据如下表:若y 关于x 的线性回归方程为0.7y x a =+,则a =( ) A.0.1B.0.2C.0.35D.0.459.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归直线方程0.6754.9y x =+,表中有一个数据模糊不清,请你推断出该数据的值为( )C.68 10.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下22⨯列联表.参考公式:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.附表:A.该市女性居民中大约有5%的人关注冰雪运动B.该市男性届民中大约有95%的人关注冰雪运动C.有95%的把握认为该市居民是否关注冰雪运动与性别有关D.有99%的把握认为该市居民是否关注冰雪运动与性别有关11.一个项目由15个专家评委投票表决,剔除一个最高分96,一个最低分58后所得到的平均分为92,方差为16,那么原始得分的方差为_______.12.经市场调查,某款热销品的销售量y(万件)与广告费用x(万元)之间满足回归直线方程 3.5=+.若样本点中心为(45,35),则当销售量为52.5万件时,可估计投入y bx的广告费用为_________________万元.13.某学校为了制订治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:14.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602.15.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):1(优) (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22⨯列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.附:2()()()()K a b c d a c b d =++++,)2kk答案以及解析1.答案:A解析:由题意可得,成绩在[13,15)内的频率为10.080.320.380.22---=.又本次赛车中,共50名参赛选手,所以这50名选手中获奖的人数为500.2211⨯=.故选A. 2.答案:B解析:根据频率分布直方图的特点可知,低于60分的频率是(0.0050.01)200.3+⨯=,则所求学生人数是15500.3=. 3.答案:B解析:由频率分布直方图可得20岁以下的农村从业人员的概率为0.1,所以从所有从业人员中抽取20人,其中恰有2人的年龄在20岁以下的概率为221820C (0.1)(0.9)0.2850.29≈≈,故选B. 4.答案:B解析:由表可知,及格的考生共有401512105284+++++=人,在[90,100]内有40人,在(100,110]内有15人,故及格的所有考生成绩的中位数在(100,110]内.5.答案:B解析:甲同学:若平均数为2,众数为1,则有一次名次应为4,故排除A ;乙同学:平均数为2,设乙同学3次考试的名次分别为1x ,2x ,3x ,则方差()()()2222123122213s x x x ⎡⎤=-+-+-<⎣⎦,则()()()2221232223x x x -+-+-<,所以1x ,2x ,3x 均不大于3,符合题意;丙同学:中位数为2,众数为2,有可能是2,2,4,不符合题意;丁同学:众数为2,方差大于1,有可能是2,2,6,不符合题意.故选B. 6.答案:C解析:100名考生成绩的平均数12.50.1013.50.1514.50.15x =⨯+⨯+⨯+15.50.3016.50.2517.50.0515.1⨯+⨯+⨯=.因为前三组频率直方图面积和为0.100.150.150.4++=,前四组频率直方图面积和为0.100.150.150.300.7+++=,所以中位数位于第四组内,设中位数为a ,则(15)0.300.1a -⨯=,解得15.3a ≈,故选C.7.答案:A解析:由题意知i i y x a =+,即()1210110110y x x x a x a a =⨯++++=+=+,方差{}222212101()()()10x a x a x s a x a x a x a ⎡⎤⎡⎤⎡⎤=⨯+-+++-++++-+⎣⎦⎣⎦⎣⎦()()()22212101410x x x x x x ⎡⎤=⨯-+-++-=⎢⎥⎣⎦. 故选A. 8.答案:C解析:本题考查线性回归方程截距的求解.因为11(3456) 4.5,(2.534 4.5) 3.544x y =+++==+++=,所以0.7 3.50.7 4.50.35a y x =-=-⨯=,故选C. 9.答案:C解析:设表中模糊看不清的数据为m .由表中数据得30x =, 3075m y +=,将30730,5m x y +==代入经验回归方程0.6754.9y x =+,得68m =.故选C. 10.答案:C解析:由22⨯列联表中的数据可得()22352515251004.167 3.84160405050K ⨯-⨯⨯=≈>⨯⨯⨯,因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选:C.11.答案:88解析:根据题意,设剔除最高分、最低分之后的13个数据为1a ,2a ,3a ,…,13a ,由这13个数据的平均分为92,方差为16, 知()1231319213a a a a ++++=,()()()222121319292921613a a a ⎡⎤-+-++-=⎣⎦, 解得123131196a a a a ++++=,2221213110240a a a +++=,对于原始得分96,58,1a ,2a ,3a ,…,13a , 其平均数()12313196589015a a a a a =++++++=,其方差为()(()22222212131(9690)(5890)9090)908815s a a a ⎤⎡=-+-+-+-++-=⎣⎦. 12.答案:70解析:本题考查线性回归方程.依题意,将(45,35)代入回归直线方程 3.5y bx =+(提示:回归直线必过样本点中心),得3545 3.5b =⨯+,解得0.7b =,所以回归直线方程为0.7 3.5y x =+.令0.7 3.552.5y x =+=,得70x =. 13.答案:99.5%解析:因为2250(2015510)8.33325253020χ⨯⨯-⨯=≈⨯⨯⨯,又()27.8790.0050.5%P χ==≥,所以我们有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.14.答案:(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%(2)平均数与标准差的估计值分别为30%,17%解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=.产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%. (2)1(0.1020.10240.30530.50140.707)0.30100y =⨯-⨯+⨯+⨯+⨯+⨯=, ()52222111(0.40)2(0.20)100100i i i s n y y=⎡=-=⨯-⨯+-⨯⎣∑222240530.20140.4070.0296⎤+⨯+⨯+⨯=⎦,0.020.17s .所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.15.答案:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:1(100203003550045)350100⨯+⨯+⨯=. (3)根据所给数据,可得22⨯列联表:根据列联表得25.82055457030K =≈⨯⨯⨯. 由于5.820 3.841>,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。

2021年高考数学三轮复习试题汇编 专题7 概率与统计第3讲 统计与统计案例(B卷)理(含解析)

2021年高考数学三轮复习试题汇编 专题7 概率与统计第3讲 统计与统计案例(B卷)理(含解析)

2021年高考数学三轮复习试题汇编专题7 概率与统计第3讲统计与统计案例(B卷)理(含解析)一、选择题(每题5分,共30分)1.(xx·德州市高三二模(4月)数学(理)试题·4)若某市8所中学参加中学生合唱比赛的得分用茎叶图表示如图,其中茎为十位数,叶为个位数,则这组数据的平均数和方差分别是()A.91 5.5 B.91 5C.92 5.5 D.92 52.(xx·聊城市高考模拟试题·6)利用简单随机抽样从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图所示.在这些用户中,用电量落在区间[150,250]内的户数为()A.46 B.48C.50 D.523. (xx·山东省潍坊市第一中学高三过程性检测·4)某产品的广告费用x与销售额y的统计数据如下表:根据下表可得回归方程中的b=10.6,据此模型预报广告费用为10万元时销售额为()A.112.1万元B.113.1万元C.113.9万元D.111.9万元4.(xx·山东省潍坊市高三第二次模拟考试·6)5.(xx·济宁市5月高考模拟考试·5)6.(xx·山东省枣庄市高三下学期模拟考试·4)8.(xx·陕西省安康市高三教学质量调研考试·3)五位同学在某次考试的数学成绩如茎叶图:则这五位同学这次考试的数学平均分为()A.88 B.89 C.90 D.91二、非选择题(60分)9.(xx·武清区高三年级第三次模拟高考·9)书架上有语文、数学、英语书若干本,它们的数量比依次是2:4:5,现用分层抽样的方法从书架上抽取一个样本,若抽出的语文书为10本,则应抽出的英语书本.10.(xx·德州市高三二模(4月)数学(理)试题·11)某校在一次测试中约有600人参加考试,数学考试的成绩(,试卷满分150分),统计结果显示数学考试成绩在80分到120分之间的人数约为总人数的,则此次测试中数学考试成绩不低于120的学生约有___________人.11.(xx.绵阳市高中第三次诊断性考试·13)右图是绵阳市某小区100户居民xx年月平均用水量(单位:t)的频率分布直方方图的一部分,则该小区xx年的月平均用水量的中位数的估计值为12.(xx.南通市高三第三次调研测试·4)为了解学生课外阅读的情况,随机统计了n名学生的课外阅读时间,所得数据都在[50,150]中,其频率分布直方图如图所示.已知在中的频数为100,则n的值为.13.(xx.菏泽市高三第二次模拟考试数学(理)试题·13)采用系统抽样方法从600人中抽取50人做问卷调查,为此将他们随机编号为,分组后在第一组采用简单随机抽样的方法抽得的号码为003,抽到的50人中,编号落入区间[001,300]的人做问卷A ,编号落入区间[301,495]的人做问卷B ,编号落入区间[496,60]的人做问卷C ,则抽到的人中,做问卷C 的人数为 .14.(xx ·南京市届高三年级第三次模拟考试·5)如图是甲、乙两位射击运动员的5次训练成绩(单位:环)的茎叶图,则成绩较为稳定(方差较小)的运动员是 .15. ( 徐州、连云港、宿迁三市xx 届高三第三次模拟·3)如图是某市xx 年11月份30天的空气污染指数的频率分布直方图. 根据国家标准,污染指数在区间内,空气质量为优;在区间内,空气质量为良;在区间内,空气质量为轻微污染;由此可知该市11月份空气质量为优或良的天数有 ▲ 天.16.(xx ·盐城市高三年级第三次模拟考试·5)某单位有840名职工, 现采用系统抽样抽取42人做问卷调查, 将840人按1, 2, …, 840随机编号, 则抽取的42人中, 编号落入区间[61, 120]的人数为 .17.(xx ·漳州市普通高中毕业班适应性考试·13)某校高三(1)班的一次数学测试成绩甲 乙 8 9 7 8 9 3 1 0 6 9 7 8 9 (第5题图)的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如下,据此解答如下问题:(1)频率分布直方图中[80,90)间的矩形的高为.(2)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,至少有一份分数在[90,100]之间的概率为.18. (xx·海南省高考模拟测试题·19)(本小题满分12分)某校对参加高校自主招生测试的学生进行模拟训练,从中抽出N名学生,其数学成绩的频率分布直方图如图所示.已知成绩在区间[90,100]内的学生人数为2人.(1)求N的值并估计这次测试数学成绩的平均分和众数;(2)学校从成绩在[70,100]的三组学生中用分层抽样的方法抽取12名学生进行复试,若成绩在[80,90)这一小组中被抽中的学生实力相当,且能通过复试的概率均为,设成绩在[80,90)这一小组中被抽中的学生中能通过复试的人数为,求的分布列和数学期望. 19.(江西省九江市xx届高三第三次模拟考试·18)(本小题满分12分)如图所示的茎叶图为甲、乙两家连锁店七天内销售额的某项指标统计:(1)求甲家连锁店这项指标的平均数、中位数和众数,并比较甲、乙两该项指标的方差大小;(2)每次都从甲、乙两店统计数据中随机各选一个进行对比分析,共选了7次(有放回选取),设选取的两个数据中甲的数据大于乙的数据的次数为,求的数学期望.专题7 概率与统计第3讲 统计与统计案例(B 卷)参考答案与解析1.【答案】A【命题立意】本题旨在考查茎叶图.【解析】由茎叶图可知这8所中学学生得分的成绩分别为:,从而平均数为:,方差为:()()()()()()()()2222222287918891909191919291939193919491 5.58-+-+-+-+-+-+-+-=故选:A2.【答案】D【命题立意】本题主要考查频率分布直方图中频数,频率的有关知识。

高考数学(理)二轮试题:第13章《统计与统计案例》(含答案)

高考数学(理)二轮试题:第13章《统计与统计案例》(含答案)

精选题库试题理数1. (2014 重庆 ,3,5 分 )已知变量x 与 y 正有关 ,且由观察数据算得样本均匀数=3, =3.5,则由该观察数据算得的线性回归方程可能是()A. =0.4x+2.3B.=2x-2.4C. =-2x+9.5D. =-0.3x+4.41.A1.由变量 x 与 y 正有关知C、D 均错 ,又回归直线经过样本中心(3,3.5),代入考证得 A 正确 ,B 错误 .应选 A.2. (2014 广东 ,6,5 分) 已知某地域中小学生人数和近视状况分别如图 1 和图 2 所示 .为认识该地域中小学生的近视形成原由,用分层抽样的方法抽取2%的学生进行检查,则样本容量和抽取的高中生近视人数分别为()图1图2A.200,20B.100,20C.200,10D.100,102.A2.由题图可知 ,样本容量等于 (3 500+4 500+2 000) 2%=200;×抽取的高中生近视人数为2000 ×2%×50%=20,应选 A.3. (2014 江西 ,6,5 分 )某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系 ,随机抽查52 名中学生 ,获取统计数据如表 1 至表 4,则与性别有关系的可能性最大的变量是()表 1成绩不及格及格总计性别男61420女102232总计163652表 2视力好差总计性别男41620女1220 32总计16 36 52表 3智商偏高正常总计性别男81220女82432总计163652表 4阅读量丰富不丰富总计性别男14620女23032总计163652A. 成绩B. 视力C.智商D. 阅读量3.D3.计算=,令=m, 则2222222 =8 m,=m×(4 ×20-12 ×16) =112 m,=m×(8 ×24-8 ×12) =96 m,=m×(14 ×30-6 ×2) =408m,∴>>>,与性有关的可能性最大的量是量,故 D.4.(2014 湖北 ,4,5 分 )依据以下本数据x 3 4 5 6 78y 4.0 2.5 -0.5 0.5 -2.0 -3.0获取的回方程=bx+a,()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<04.B4.把本数据中的知 b<0,a>0.故 B.x,y分看作点的横、坐,在平面直角坐系xOy中作出散点,由可5. (2014 湖南 ,2,5 分 )一个容量N 的体抽取容量n 的本 ,当取随机抽、系抽和分抽三种不一样方法抽取本,体中每个个体被抽中的概率分p1,p2,p3, ()A.p 1=p2<p3B.p2=p3<p 1C.p1=p3<p 2D.p 1=p2=p35.D5.因采纳随机抽、系抽和分抽抽取本,体中每个个体被抽中的概率相等 ,故 D.6.(2014 山 ,7,5 分 )了研究某品的效,取若干名志愿者行床数据 ( 位 :kPa)的分区,将其按从左到右的序分号第一.如是依据数据制成的率散布直方.已知第一与第二共有效的有 6 人 ,第三中有效的人数().全部志愿者的舒,第二 , ⋯⋯,第五20 人 ,第三中没有6.C6.由题图可知 ,第一组和第二组的频次之和为(0.24+0.16)1=0×.40, 故该试验共选用的志愿者有=50 人 .因此第三组共有50×0.36=18 人 ,此中有疗效的人数为18-6=12.7.( 2014 重庆一中高三放学期第一次月考,3)以下茎叶图记录了甲、乙两组各 6 名学生在一次数学测试中的成绩(单位:分)。

高考理科数学二轮周测卷(10)统计、统计案例、直线与圆(含答案)

高考理科数学二轮周测卷(10)统计、统计案例、直线与圆(含答案)

衡水万卷周测(十)理科数学统计、统计事例、直线与圆考试时间: 45 分钟姓名: __________班级: __________考号: __________题号一二三总分得分一、选择题(本大题共12 小题,每题 5 分,共60 分。

在每题给出的四个选项中,只有一个选项是切合题目要求的)1.工人月薪资(元)依劳动生产率(千元)变化的回归方程为^60 90x ,以下判断正确的选项是()yA .劳动生产率为1000 元时,薪资为150 元B .劳动生产率提升1000 元时,薪资提升150 元C.劳动生产率提升1000 元时,薪资提升90 元D.劳动生产率为1000 元时,薪资为90 元2.以下说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y 3 5x ,变量x增添一个单位时,y均匀增添 5 个单位;③线性回归方程y bx a 必过 (x, y) ;④在一个 2×2 列联中,由计算得K 213.079则有 99%的掌握确认这两个变量间有关系;此中错误的个数是()..A.0B.1C.2D.3此题能够参照独立性查验临界值表:P(K 2≥ k )0.50.400.250.150.100.050.250.0100.0050.001k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.5357.87910.8283.在回归剖析中,代表了数据点和它在回归直线上相应地点的差别的是()A. 总偏差平方和B.残差平方和C.回归平方和D.有关指数 R24.某班级有50 名学生,此中有 30 名男生和 20 名女生,随机咨询了该班五名男生和五名女生在某次数学测试中的成绩,五名男生的成绩分别为 86,94,88,92,90,五名女生的成绩分别为 88,93,93,88,93. 以下说法必定正确的选项是(A)这类抽样方法是一种分层抽样(B)这类抽样方法是一种系统抽样(C)这五名男生成绩的方差大于这五名女生成绩的方差(D)该班级男生成绩的均匀数小于该班女生成绩的均匀数5.为了观察两个变量x 和y之间的线性有关性,甲.乙两位同学各自独立地做10 次和 15 次试验,而且利用线性回归方法,求得回归直线分别为l1和 l2,已知两个人在试验中发现对变量x 的观察数据的均匀值都是s ,对变量y 的观察数据的均匀值都是t ,那么以下说法正确的选项是()A. l1和 l 2必然平行B. l 1与 l 2必然重合C. l1和 l2有交点( s,t )D. l1与 l 2订交,但交点不必定是(s, t )6.若圆心在x 轴上.半径为 5 的圆 O 位于 y 轴左边,且与直线x 2 y 0 相切,则圆O 的方程是 ()A. ( x5) 2y25B. (x5) 2y25C. (x5) 2y 257.以下说法错误的选项是()A在统计里,把所需观察对象的全体叫作整体B一组数据的均匀数必定大于这组数据中的每个数据C均匀数 .众数与中位数从不一样的角度描绘了一组数据的集中趋向D一组数据的方差越大,说明这组数据的颠簸越大8.已知一组正数x1 , x2 , x3 , x4的方差为 S21(x12x22x32x4216) ,则数据 x1 24x32, x4 2 的均匀数为()A.2B.3C.4D.69.以下结论正确的选项是()① 函数关系是一种确立性关系;② 有关关系是一种非确立性关系;③ 回归剖析是对详细函数关系的两个变量进行统计分析的一种方法;④ 回归剖析是对有有关关系的两个变量进行统计剖析的一种常用方法 .A. ①②B.①②③C.①②④D.①②③④10.已知直线l1: ax3y10, l 2 : 2 x a 1 y1 0 相互平行,则 a 的值是()A . 3B . 2C. 3或2D.3或211.过点(1, 0)且与直线x 2 y20 平行的直线方程是 ()A. x2y10B. x2y 1 0C. 2x y 20D. x12.若圆C : x2y2ax 2 y10 和圆 x2y 2 1 对于直线y x 1 对称,动圆P与圆 C动圆心 P 的轨迹方程是()A. y26x 2 y 2 0B. y22x 2 y 0C. y26x 2 y 2 0二、填空题(本大题共 4 小题,每题 5 分,共20 分)13.已知x是1,2,3, x,5,6,7这7 个数据的中位数,且1,2, x2,y 这四个数据的为.14.将某班的 60名学生编号为:01, 02,, 60采纳系统抽样方法抽取一个容量为为 04,则剩下的四个号码挨次是15.设有一组圆C k: (x k 1)2( y 3k )22k 4 (k N *) .以下四个命题:①存在一条定直线与定直线与全部的圆均订交;③存在一条定直线与全部的圆均不订交;④全部圆均可是原点是.(写出全部真命题的代号 )16.在平面直角坐标系 xOy 中,O为坐标原点.定义P(x1, y1).Q(x2, y2)d (P, Q) = x1 - x2 + y1 -y2.若点 A(- 1,3),则d ( A, O)=kx - y + k + 3 = 0 (k > 0)上的动点, d( B, M ) 的最小值为.1 / 6三、解答题(本大题共 6 小题,第 1 题 10 分,后 5 题每题 12 分,共 70 分)17.已知动点 C 到点 A(- 1,0)的距离是它到点B(1,0)的距离的2倍.(1)试求点 C 的轨迹方程;(2) 已知直线l 经过点 P(0,1)且与点 C 的轨迹相切,试求直线l 的方程.18.一次考试中, 5 名同学的语文、英语成绩以下表所示:学生S1S2S3S4S5语文( x 分)8790919295英语( y 分)8689899294( 1)依据表中数据,求英语分y 对语文分x的线性回归方程;( 2)要从 4 名语文成绩在 90 分以上的同学中选出 2 名参加一项活动,以表示选中的同学的英语成绩高于90 分的人数,求随机变量的散布列及数学希望 E .n( x i x )( y i y )(附 :线性回归方程中,i 1此中x , y为样本均匀值,??的值的结果保y bx ab n, a y bx,b, a( x i x) 2i 1留二位小数 .)19. (2015 广东高考真题)某工厂 36 名工人的年纪数据以下表。

高考数学(理)二轮专题练习【专题7】(3)统计与统计案例(含答案)

高考数学(理)二轮专题练习【专题7】(3)统计与统计案例(含答案)

第3讲 统计与统计案例考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.1.随机抽样(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.2.常用的统计图表 (1)频率分布直方图①小长方形的面积=组距×频率组距=频率;②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数(2)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差: s =1nx 1-x2+x 2-x2+…+x n -x2].4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q = i =1n(y i-a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法. 5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是则K 2(χ2)=n ad -bc a +bc +d a +cb +d(其中n =a +b +c +d 为样本容量).热点一 抽样方法例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200解析 (1)由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150x,所以x =200.思维升华(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为()A.15 B.16 C.17 D.18(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20 B.100,20C.200,10 D.100,10答案(1)C(2)A解析(1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A. 热点二用样本估计总体例2(1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是()A.甲B.乙C.甲乙相等D.无法确定甲乙20.04123 6930.0596210.06293310.079640.08770.09246思维启迪(1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.答案(1)C(2)A解析(1)志愿者的总人数为20+×1=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,s2=112[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.s2=112[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.所以甲、乙两地浓度的方差较小的是甲地.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.(2)(2014·陕西)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a,4 B .1+a,4+a C .1,4D .1,4+a答案 (1)10 (2)A解析 (1)由频率分布直方图可知: 0.100.40=2.5x,所以x =10. (2)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4. 故选A.热点三 统计案例例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y 和房屋的面积x 的数据.根据上表可得线性回归方程y =b x +a 中的b =0.196 2,则面积为150 m 2的房屋的销售价格约为________万元.(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表4A.成绩 B .视力 C 思维启迪 (1)回归直线过样本点中心(x ,y ); (2)根据列联表,计算K 2的值 答案 (1)31.244 2 (2)D解析 (1)由表格可知x =15(115+110+80+135+105)=109,y =15(24.8+21.6+18.4+29.2+22)=23.2.所以a ^=y -b ^x =23.2-0.196 2×109=1.814 2.所以所求线性回归方程为y ^=0.196 2x +1.814 2.故当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2(万元).(2)A 中,a =6,b =14,c =10,d =22,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=-220×32×16×36=131 440. B 中,a =4,b =16,c =12,d =20,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=-220×32×16×36=637360.C 中,a =8,b =12,c =8,d =24,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=-220×32×16×36=1310. D 中,a =14,b =6,c =2,d =30,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=-220×32×16×36=3 757160. ∵131 440<1310<637360<3 757160, ∴与性别有关联的可能性最大的变量是阅读量.思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K 2(χ2)计算公式求其值,根据K 2(χ2)取值范围求解即可.(1)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于( ) A .1.30 B .1.45 C .1.65 D .1.80(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:则在犯错误的概率不超过 (附:P (K 2>k ) 0.05 0.01 0.001 k3.8416.63510.828)答案 (1)B (2)0.01解析 (1)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45. (2)由题意得 K 2=-26×14×7×13≈8.802>6.635.而K 2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”. 2.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.①总体期望的估计,计算样本平均值x =1n ∑n i =1x i .②总体方差(标准差)的估计:方差=1n ∑ni =1 (x i -x )2,标准差=方差,方差(标准差)较小者较稳定.3.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 4.独立性检验(1)作出2×2列联表.(2)计算随机变量K 2(χ2)的值.(3)查临界值,检验作答.真题感悟1.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24.2.(2014·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的线性回归方程进行检验,可以排除B ,故选A. 押题精练1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h 以下的汽车有________辆.答案 20解析 时速在70 km/h 以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆). 2.某教育出版社在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:的学生应抽取的人数为________. 答案 24解析 只买试题类的学生应抽取的人数为60×240600=24.3.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝⎛⎭⎫4.5,11+t 4,∴11+t 4=0.7×4.5+0.35,解得t =3.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n ad -bc a +bc +d a +cb +d参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 答案 C解析 由公式可计算K 2的观测值k =n ad -bc 2a +bc +d a +cb +d=100××15-30×255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.(推荐时间:40分钟)一、选择题1.(2014·湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则() A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D解析由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为()A.28 B.32C.40 D.64答案 D解析由已知,得样本容量为400+320+280=1 000,所以,高中二年级被抽取的人数为2001 000×320=64,选D.3.(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01答案 D解析从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.4.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是()A .240B .280C .320D .480答案 D解析 由频率分布直方图知:学生的体重在65~75 kg 的频率为(0.012 5+0.037 5)×5=0.25, 则学生的体重在50~65 kg 的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×26=0.25.所以抽取的学生人数是120÷0.25=480.5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( ) A .48个 B .49个 C .50个 D .51个答案 B解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选B. 6.某校为了研究学生的性别和对待某一活动的态度(支持和不支持的两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系.”( ) 附:A.0.1% C .99% D .99.9%答案 C解析 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”,选C.7.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x 甲,x 乙和中位数y 甲,y 乙进行比较,下面结论正确的是( ) A.x 甲>x 乙,y 甲>y 乙 B.x 甲<x 乙,y 甲<y 乙 C.x 甲<x 乙,y 甲>y 乙 D.x 甲>x 乙,y 甲<y 乙 答案 B 二、填空题8.从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图).则这100名学生成绩的平均数、中位数分别为________.答案 125,124解析 由图可知(a +a -0.005)×10=1-(0.010+0.015+0.030)×10,解得a =0.025,则x =105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x -120)=0.5,解得x =124.9.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1.10.(2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________. 答案 10解析 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5, 则由题意知x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20, 五个整数的平方和为20,则必为0+1+1+9+9=20, 由|x -7|=3可得x =10或x =4. 由|x -7|=1可得x =8或x =6.由上可知参加的人数分别为4,6,7,8,10, 故最大值为10. 三、解答题11.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17=(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的线性回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12.某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:式为:S =⎩⎪⎨⎪⎧0, 0≤w ≤1004w -400,100<w ≤3002 000, w >300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附:K 2=n ad -bc a +bc +d a +cb +d.解(1)设“在本年内随机抽取一天,该天经济损失S大于200元且不超过600元”为事件A,由200<S≤600,得150<w≤250,频数为39,所以P(A)=39100.(2)根据以上数据得到如下列联表:K2的观测值k=85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3讲 统计与统计案例考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.1.随机抽样(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数(2)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q =∑i =1n(y i-a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法. 5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是则K 2(χ2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200解析 (1)由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150x,所以x =200.思维升华(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为()A.15 B.16 C.17 D.18(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20 B.100,20C.200,10 D.100,10答案(1)C(2)A解析(1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.热点二用样本估计总体例2(1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是()A.甲B.乙C.甲乙相等D.无法确定甲乙20.04123 6930.0596210.06293310.079640.08770.09246思维启迪(1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.答案(1)C(2)A解析(1)志愿者的总人数为20(0.16+0.24)×1=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,s2=112[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.s2=112[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.所以甲、乙两地浓度的方差较小的是甲地.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等. (2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.(2)(2014·陕西)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a,4 B .1+a,4+a C .1,4D .1,4+a答案 (1)10 (2)A解析 (1)由频率分布直方图可知: 0.100.40=2.5x,所以x =10. (2)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4. 故选A.热点三 统计案例例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y 和房屋的面积x 的数据.房屋面积x /m 2 115 110 80 135 105 根据上表可得线性回归方程y =b x +a 中的b =0.196 2,则面积为150 m 2的房屋的销售价格约为________万元.(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表4A.成绩 B .视力 C 思维启迪 (1)回归直线过样本点中心(x ,y ); (2)根据列联表,计算K 2的值 答案 (1)31.244 2 (2)D解析 (1)由表格可知x =15(115+110+80+135+105)=109,y =15(24.8+21.6+18.4+29.2+22)=23.2.所以a ^=y -b ^x =23.2-0.196 2×109=1.814 2.所以所求线性回归方程为y ^=0.196 2x +1.814 2.故当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2(万元).(2)A 中,a =6,b =14,c =10,d =22,a +b =20,c +d =32,a +c =16,b +d =36,n =52,K 2=52×(6×22-14×10)220×32×16×36=131 440.B 中,a =4,b =16,c =12,d =20,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(4×20-16×12)220×32×16×36=637360.C 中,a =8,b =12,c =8,d =24,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(8×24-12×8)220×32×16×36=1310.D 中,a =14,b =6,c =2,d =30,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(14×30-6×2)220×32×16×36=3 757160.∵131 440<1310<637360<3 757160, ∴与性别有关联的可能性最大的变量是阅读量.思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K 2(χ2)计算公式求其值,根据K 2(χ2)取值范围求解即可.(1)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于( ) A .1.30 B .1.45 C .1.65 D .1.80(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:则在犯错误的概率不超过 (附:)答案 (1)B (2)0.01解析 (1)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45. (2)由题意得K 2=20×(5×12-1×2)26×14×7×13≈8.802>6.635.而K 2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”. 2.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.①总体期望的估计,计算样本平均值x =1n ∑n i =1x i .②总体方差(标准差)的估计:方差=1n ∑ni =1 (x i -x )2,标准差=方差,方差(标准差)较小者较稳定.3.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 4.独立性检验(1)作出2×2列联表.(2)计算随机变量K 2(χ2)的值.(3)查临界值,检验作答.真题感悟1.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24.2.(2014·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的线性回归方程进行检验,可以排除B ,故选A. 押题精练1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h 以下的汽车有________辆.答案 20解析 时速在70 km/h 以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆).2.某教育出版社在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:的学生应抽取的人数为________. 答案 24解析 只买试题类的学生应抽取的人数为60×240600=24.3.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝⎛⎭⎫4.5,11+t 4,∴11+t 4=0.7×4.5+0.35,解得t =3.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 答案 C解析 由公式可计算K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(45×15-30×10)255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.(推荐时间:40分钟)一、选择题1.(2014·湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则() A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D解析由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为()A.28 B.32C.40 D.64答案 D解析由已知,得样本容量为400+320+280=1 000,所以,高中二年级被抽取的人数为2001 000×320=64,选D.3.(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01答案 D解析从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.4.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是()A .240B .280C .320D .480答案 D解析 由频率分布直方图知:学生的体重在65~75 kg 的频率为(0.012 5+0.037 5)×5=0.25, 则学生的体重在50~65 kg 的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×26=0.25.所以抽取的学生人数是120÷0.25=480.5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( ) A .48个 B .49个 C .50个 D .51个答案 B解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选B. 6.某校为了研究学生的性别和对待某一活动的态度(支持和不支持的两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系.”( ) 附:A.0.1% C .99% D .99.9%答案 C解析 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”,选C.7.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x 甲,x 乙和中位数y 甲,y 乙进行比较,下面结论正确的是( ) A.x 甲>x 乙,y 甲>y 乙 B.x 甲<x 乙,y 甲<y 乙 C.x 甲<x 乙,y 甲>y 乙 D.x 甲>x 乙,y 甲<y 乙 答案 B 二、填空题8.从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图).则这100名学生成绩的平均数、中位数分别为________.答案 125,124解析 由图可知(a +a -0.005)×10=1-(0.010+0.015+0.030)×10,解得a =0.025,则x =105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x -120)=0.5,解得x =124.9.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1.10.(2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________. 答案 10解析 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5, 则由题意知x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20, 五个整数的平方和为20,则必为0+1+1+9+9=20, 由|x -7|=3可得x =10或x =4. 由|x -7|=1可得x =8或x =6.由上可知参加的人数分别为4,6,7,8,10, 故最大值为10. 三、解答题11.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17=(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的线性回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12.某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:式为:S =⎩⎪⎨⎪⎧0, 0≤w ≤1004w -400,100<w ≤3002 000, w >300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附: K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解 (1)设“在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元”为事件A , 由200<S ≤600,得150<w ≤250,频数为39, 所以P (A )=39100.(2)根据以上数据得到如下列联表:K 2的观测值k =100×(63×8-22×7)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。

相关文档
最新文档