高考数学培优专题:第18讲统计与统计案例
高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件
解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.
到
的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从
到
的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.
则
认
为
2016届高考数学理命题猜想专题18统计与统计案例(解析版)
【命题热点突破一】抽样方法某工厂生产的甲、乙、丙、丁四种不同型号的产品分别有150件、120件、180件、150件.为了调查产品的情况,需从这600件产品中抽取一个容量为100的样本,若采用分层抽样法,设甲产品中应抽取的产品件数为x ,某件产品A 被抽到的概率为y ,则x ,y 的值分别为( )A .25,14B .20,16 C .25,1600 D .25,16 【【答案】】D【特别提醒】 三种抽样方法均是等概率抽样,当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.【变式探究】从编号分别为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量为10的样本,若编号为58的产品在样本中,则该样本中产品的最大编号为________.【【答案】】74【【解析】】每8件产品抽取一件,编号为58的产品在样本中,则样本中产品的最大编号为58+16=74.【命题热点突破二】用样本估计总体(1)将某市8所中学参加中学生合唱比赛的得分用茎叶图表示(如图18-3所示),其中茎为十位数,叶为个位数,则这组数据的中位数和平均数分别是( )图18-3A .91,91.5B .91,92C .91.5,91.5D .91.5,92(2)2014年6月,一篇关于“键盘侠”(“键盘侠”一词描述了部分网民在现实生活中胆小怕事自私自利,却习惯在网络上大放厥词的一种现象)的时评引发了大家对“键盘侠”的热议.某地区新闻栏目对该地区群众对“键盘侠”的认可度做出调查:在随机抽取的50人中,有14人持认可态度,其余持反对态度.若该地区有9600人,则估计该地区对“键盘侠”持反对态度的有________人.【【答案】】(1)C(2)6912【特别提醒】统计的基本思想之一就是以样本估计总体.以样本的频率估计总体的概率、以样本的特征数估计总体的特征数.【变式探究】(1)某学校随机抽查了本校20个同学,调查他们平均每天在课外进行体育锻炼的时间(分钟),根据所得数据的茎叶图,以5为组距将数据分为八组,分别是[0,5),[5,10),…,[35,40],作出的频率分布直方图如图18-4所示,则原始的茎叶图可能是()图18-5(2)高三年级上学期期末考试中,某班级数学成绩的频率分布直方图如图18-6所示,数据分组依次如下:[70,90),[90,110),[110,130),[130,150].估计该班数学成绩的平均分数为()图18-6A.112B.114C.116D.120【【答案】】(1)B(2)B【命题热点突破三】统计案例例3、某高校共有15 000人,其中男生10 500人,女生4500人,为调查该校学生每周平均参加体育运动时间情况,采用分层抽样的方法,收集了300名学生每周平均参加体育运动时间的样本数据(单位:小时).(1)应收集多少名女生的样本数据?(2)根据这300个样本数据,得到学生每周平均参加体育运动时间的频率分布直方图(如图18-7所示),其中样本数据分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均参加体育运动时间超过4个小时的概率.(3)在样本数据中,有60名女生每周平均参加体育运动的时间超过4个小时,请画出每周平均参加体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生每周平均参加体育运动的时间与性别有关”.附:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)结合列联表可得K 2的观测值k =300×(165×30-45×60)75×225×210×90=10021≈4.762>3.841. 所以有95%的把握认为“该校学生每周平均参加体育运动的时间与性别有关”.【特别提醒】 在计算K 2时要注意公式中各个字母的含义,分子上是总量乘2×2列联表中对角线数字乘积之差的平方,分母上是四个分和量的乘积.【变式探究】为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球的时间x(单位:小时)与当天投篮命中率y 之间的关系.(1)求小李这5天的平均投篮命中率;(2)用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率. 解:(1)小李这5天的平均投篮命中率y -= 0.4+0.5+0.6+0.6+0.45=0.5.(2)易知x -=1+2+3+4+55=3, 设线性回归方程为y ^=b ^x +a ^,则由公式可得b ^==(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)(-2)2+(-1)2+02+12+22=0.01,所以a ^=y --b ^x -=0.5-0.01×3=0.47, 所以y ^=b ^x +a ^=0.01x +0.47.当x =6时,y ^=0.53,故小李该月6号打6小时篮球的投篮命中率约为0.53.【特别提醒】 回归直线一定过样本点的中心(x ,y),当已知回归直线方程两个系数中的一个时,可以直接代入样本点中心的坐标求得另一个系数.正相关和负相关是根据回归直线方程的斜率判断的:正相关时回归直线方程的斜率为正值;负相关时回归直线方程的斜率为负值.回归直线方程斜率的符号与相关系数的符号是一致的.【高考真题解读】1.(2015·陕西,2)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A .167B .137C .123D .93【答案】 B2.(2015·安徽,6)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32 【答案】 C【解析】 法一 由题意知,x 1+x 2+…+x 10=10x ,s 1则y =1n [(2x 1-1)+(2x 2-1)+…+(2x 10-1)] =1n[2(x 1+x 2+…+x 10)-n]=2x -1,所以S 2==2s 1,故选C.3.(2015·重庆,3)重庆市2013年各月的平均气温(℃)数据的茎叶图如下: 则这组数据的中位数是( )01228 9 2 5 80 0 03 3 8 1 2A .19B .20C .21.5D .23【答案】 B4.(2015·新课标全国Ⅱ,31)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 【答案】 D【解析】从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.5.(2015·福建,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y∧=b∧x+a∧,其中b∧=0.76,a∧=y-b∧x.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元【答案】B6.(2014·山东,7)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A .6B .8C .12D .18 【答案】 C【解析】 由题图可知,第一组和第二组的频率之和为(0.24+0.16)×1=0.40,故该试验共选取的志愿者有200.40=50人.所以第三组共有50×0.36=18人,其中有疗效的人数为18-6=12.7.(2014·陕西,9)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a(a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( )A .1+a ,4B .1+a ,4+aC .1,4D .1,4+a【答案】 A8.(2014·湖南,2)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【答案】 D【解析】 因为采取简单随机抽样、系统抽样和分层抽取样本时,总体中每个个体被抽中的概率相等,故选D.9.(2014·广东,6)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A .200,20B .100,20C .200,10D .100,10【答案】A10.(2014·天津,9)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.【答案】 60【解析】 420×300=60(名).11.(2015·江苏,2)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________. 【答案】 6【解析】 这组数据的平均数为16(4+6+5+8+7+6)=6.12.(2015·湖南,12)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:1314150 0 3 4 5 6 6 8 8 91 1 12 2 23 34 45 5 56 678 0 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.【答案】 41 3.(2015·新课标全国Ⅱ,18)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:6273819295857464537678869566977888827689B地区:7383625191465373648293486581745654766579(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.解(1)两地区用户满意度评分的茎叶图如下通过茎叶图可以看出,A 地区用户满意度评分的平均值高于B 地区用户满意度评分的平均值;A 地区用户满意度评分比较集中,B 地区用户满意度评分比较分散.由所给数据得C A1,C A2,C B1,C B2发生的频率分别为1620,420,1020,820,故P(C A1)=1620,P(C A2)=420,P(C B1)=1020,P(C B2)=820,P(C)=1020×1620+820×420=0.48.。
【高考数学培优专题】第18讲统计与统计案例
15, 25,25,35,35, 45,55,65,65,75.把年龄落在区间15,35 和35,75 内的人分
别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为 9: 11.
(1)求图中 a、b 的值; (2)若“青少年人”中有 15 人在关注两会,根据已知条件完成下面的 2 2 列联表,根据
所以预测记忆力为 9 的同学的判断力约为 4. 10.2016 年全国两会,即中华人民共和国第十二届全国人民代表大会第四次会议和中国人
民政治协商会议第十二届全国委员会第四次会议,分别于 2016 年 3 月 5 日和 3 月 3 日在北
京开幕.为了解哪些人更关注两会,某机构随机抽取了年龄在15 75 岁之间的 100 人进行
方法从 35 人中抽取 7 人,成绩在区间[139,151]上的运动员应抽取 7 20 4 (人),故选 35
B. 2.从实验小学随机抽取 100 名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方 图由图中数据可知身高在[120,130]内的学生人数为( )
A.3 B.25 C.30 D.35
【答案】C
【解析】由图知,(0.035+a+0.020+0.010+0.005)×10=1,解得 a=0.03
∴身高在[120,130]内的学生人数在样本的频率为 0.03×10=0.3
故身高在[120,130]内的学生人数为 0.3×100=30
3.已知 x 与 y 之间的一组数据:
x0 1 2
3
分)。已知甲组数据的中位数为15 ,乙组数据的平均数为16.8 ,则 x, y 的值分别为( )
高考数学统计与统计案例.doc
高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为()A.1%B.2%C.3%D.5%C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食品开支的30 = 1 ,30+40+100+80+ 50 101∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.]2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为()A.4B. 3C.2D.1B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.]3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频率分布直方,据此估批品的中位数()A.20B. 25C.22.5D.22.75C[ 品的中位数出在概率是 0.5 的地方 . 自左至右各小矩形面依次0.1,0.2,0.4,⋯⋯,中位数是 x,由 0.1+0.2+0.08 ·(x-20)=0.5,得 x= 22.5,故 C.]4.(2019 ·三明模 )在某次高中数学中,随机抽取 90 名考生,其分数如所示,若所得分数的平均数,众数,中位数分 a, b, c, a,b,c 的大小关系 ()A.b<a<c B.c<b<aC.c<a<b D.b<c<a2 50+ 60D [算得平均a=593,众数b=50,中位数c= 2 =55,故b<c<a, A.]5.(2019 南·充模 )如表是我国某城市在2017 年 1 月份至 10 月份各月最低温与最高温 (℃ )的数据一表.月份 1 2 3 4 5 6 7 8 9 10最高温 5 9 9 11 17 24 27 30 31 21最低温-12 - 3 1 - 2 7 17 19 23 25 10 已知城市的各月最低温与最高温具有相关关系,根据一表,下列的是 ()A.最低温与最高温正相关B.每月最高温与最低温的平均在前8 个月逐月增加C.月温差 (最高温减最低温 )的最大出在 1 月D.1 月至 4 月的月温差 (最高温减最低温 )相于 7 月至 10 月,波性更大B[ 根据意,依次分析:于 A ,知城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温正相关, A 正确;于B,由表中数据,每月最高温与最低温的平均依次:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前 8 个月不是逐月增加, B ;于 C,由表中数据,月温差依次: 17,12,8,13,10,7,8,7,6,11;月温差的最大出在 1 月,C 正确;于 D,有 C 的,分析可得 1 月至 4 月的月温差相于 7 月至 10 月,波性更大, D 正确;故B.]6.某中学的高中女生体重y(位: kg)与身高 x(位: cm)具有性相关关系,根据本数据 (x i, y i )(i =1,2,3,⋯, n),用最小二乘法近似得到回直^方程 y=0.85x-85.71,下列中不正确的是()A.y 与 x 具有正性相关关系––B.回直本点的中心( x , y )C.若中学某高中女生身高增加 1 cm,其体重增加0.85 kgD.若中学某高中女生身高160 cm,可断定其体重必50.29 kg^D[ 因回直方程 y=0.85x-85.71 中 x 的系数 0.85>0,因此 y 与 x 具有正性相关关系,所以 A 正确;由最小二乘法及回直方程的求解––可知回直本点的中心( x , y ),所以 B 正确;由于用最小二乘法得到的回直方程是估,而不是具体,若中学某高中女生身高增加 1 cm,其体重增加0.85 kg,所以 C 正确, D 不正确. ]7.(2018 ·永州三模 )党的十九大告明确提出:在共享等域培育增点、形成新能.共享是公众将置源通社会化平台与他人共享,而得收入的象.考察共享企活度的影响,在四个不同的企各取两个部行共享比,根据四个企得到的数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是()D[ 根据四个列联表中的等高条形图可知,图中 D 中共享与不共享的企业经济活跃度的差异最大,它最能体现共享经济对该部门的发展有显著效果,故选D.]8.(2019 ·州模拟惠)已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得的线性回归方程为^ ^ ^y= b +若某同学根据上表中的x a.前两组数据 (1,0)和 (2,2)求得的直线方程为y= b′ x+a′,则以下结论正确的是()^ ^ ^ ^A.b>b′, a>a′B.b>b′, a<a′^ ^ ^ ^C.b<b′, a>a′D.b<b′, a<a′C[ 由两组数据 (1,0)和(2,2)可求得直线方程为 y=2x-2,b′=2,a′=-^ 2.而利用线性回归方程的公式与已知表格中的数据,可求得 b =5 ^ – ^– 13 5==7,a= y -b x =6-771^^×2=-3,所以 b<b′,a>a′.]9.(2019 天·津模 )某校高中共有 720 人,其中理科生 480 人,文科生 240 人,采用分抽的方法从中抽取 90 名学生参加研,抽取理科生的人数________.48060[由分抽的定得抽取理科生的人数720×90=60.]–10.已知本数据x1,x2,⋯, x n的平均数 x = 5,本数据2x1+1,2x2 +1,⋯, 2x n+1 的平均数 ________.11[ 由 x1,x2,⋯,x n的平均数 x= 5,得 2x1+1,2x2+1,⋯,2x n+1 的平–均数 2 x +1= 2× 5+ 1= 11.]11.某学校随机抽取部分新生其上学所需(位:分 ),并将所得数据制成率分布直方(如 ),其中,上学所需的范是[0,100] ,本数据分 [0,20),[20,40),[40,60), [60,80), [80,100],(1)中的 x= ________;(2)若上学所需不少于 1 小的学生可申在学校住宿,校600 名新生中估有 ________名学生可以申住宿.0.0125 72[(1) 由率分布直方知20x= 1-20×(0.025+ 0.0065+ 0.003 +0.003),解得 x=0.0125.(2)上学不少于 1 小的学生的率0.12,因此估有0.12×600=72(人)可以申住宿. ]12.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20 分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;^③在线性回归方程 y=0.2x+12 中,当解释变量x 每增加一个单位时,预报^变量 y平均增加 0.2 个单位;④对分类变量 X 与 Y 的统计量 K2来说, K2越小,“ X 与 Y 有关系”的把握程度越大.②③[①是系统抽样;对于④,统计量 K2越小,说明两个相关变量有关系的把握程度越小. ]。
高考数学深化复习+命题热点提分专题18统计与统计案例理
高考数学深化复习+命题热点提分专题18统计与统计案例理1.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人.现采取分层抽样抽取容量为45的样本,那么高一、高二、高三各年级抽取的人数分别为( )A.15,5,25 B.15,15,15C.10,5,30 D.15,10,20解析:先确定抽样比为=,则依次抽取的人数分别为×300=15,×200=10和×400=20.故选D.答案:D2.某同学进入高三后,4次月考的数学成绩的茎叶图如图.则该同学数学成绩的方差是 ( )A.125 B.5 5C.45 D.3 5解析:由茎叶图知平均值为=125,∴s2=[(125-114)2+(125-126)2+(125-128)2+(125-132)2]=45.答案:C3.为了判定两个分类变量X和Y是否有关系,应用K2独立性检验法算得K2的观测值为5,又已知P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X和Y有关系”B.有95%的把握认为“X和Y没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析:依题意,K2=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”,选A.答案:A4.为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:0.67x+54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )A.67 B.68C.68.3 D.71解析:设表中模糊看不清的数据为m.因为x==30,又样本中心(,)在回归直线=0.67x+54.9上,所以==0.67×30+54.9,得m=68,故选B.答案:B5.采用系统抽样方法从1 000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1 000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为( )A.12 B.13。
统计与统计案例PPT课件
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
2019高考复习理数通用版:第十八单元 统计与统计案例
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为()A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN .2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图[过双基]1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn =________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:381.众数、中位数、平均数2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( ) A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P 根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h的汽车的辆数为()A.56 B.61C.70 D.77解析:选D由图知,时速超过50 km/h的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),得K2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙; 又m 甲=22+252=23.5,m 乙=23, 即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ),∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m 名学生进行体育测试.根据体育测试得到了这m 名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m 的值及中位数n ;(2)若该校学生测试平均成绩小于n ,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为p i和x i,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由x i=200×p i,可得x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课(一)随机抽样[全国卷5年命题分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择系统抽样[典例]将参加夏令营的600名学生编号为:001,002,…,采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为()A.26,16,8B.25,17,8C.25,16,9 D.24,17,9[解析]依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤103 4,因此A营区被抽中的人数是25;令300<3+12(k-1)≤495,得1034<k≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.[答案] B[方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个. 故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)在所有参与调查的人中,用分层抽样的方法抽取n 个人,已知从持“支持”态度的人中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2. 即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样 B.按性别分层抽样 C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90C.180 D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3 B.4C.5 D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C 设第一组抽取的号码为x ,根据题意可得抽样间隔为1 00040=25,则x +25×(18-1)=443,解得x =18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )A .2B .4C .5D .6解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为1040×16=4.4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为( )。
2019版高考数学二轮复习 专题六 统计 专题突破练18 统计与统计案例 文
专题突破练18 统计与统计案例1.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.2.(2018全国卷2,文18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2018河北唐山一模,文18)某水产品经销商销售某种鲜鱼,售价为每千克20元,成本为每千克15元.销售宗旨是当天进货当天销售.如果当天卖不出去,未售出的全部降价处理完,平均每千克损失3元.根据以往的销售情况,按[0,100),[100,200),[200,300),[300,400),[400,500]进行分组,得到如图所示的频率分布直方图.(1)根据频率分布直方图计算该种鲜鱼日需求量的平均数(同一组中的数据用该组区间中点值代表);(2)该经销商某天购进了300千克这种鲜鱼,假设当天的需求量为x千克(0≤x≤500),利润为Y元.求Y关于x的函数关系式,并结合频率分布直方图估计利润Y不小于700元的概率.4.某单位N名员工参加“我爱阅读”活动,他们的年龄在25岁至50岁之间,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.(1)求正整数a,b,N的值;(2)现要从年龄低于40岁的员工中用分层抽样的方法抽取42人,则年龄在第1,2,3组的员工人数分别抽取多少?(3)为了估计该单位员工的阅读倾向,现对该单位所有员工中按性别比例抽查的40人是否喜欢阅读国学类书籍进行了调查,调查结果如下所示:(单位:人)下面是年龄的分布表:根据表中数据,我们能否有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系?附:K2=,其中n=a+b+c+d.5.(2018百校联盟四月联考,文18)每年的寒冷天气都会带热“御寒经济”,以餐饮业为例,当外面太冷时,不少人都会选择叫外卖上门,外卖商家的订单就会增加,下表是某餐饮店从外卖数据中抽取的5天的日平均气温与外卖订单数(1)经过数据分析,一天内平均气温x(℃)与该店外卖订单数y(份)成线性相关关系,试建立y 关于x的回归方程,并预测气温为-12 ℃时该店的外卖订单数(结果四舍五入保留整数); (2)天气预报预测未来一周内(七天),有3天日平均气温不高于-10 ℃,若把这7天的预测数据当成真实数据,则从这7天任意选取2天,求恰有1天外卖订单数不低于160份的概率.附注:回归方程x+中斜率和截距的最小二乘估计公式分别为:.6.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:,K2=.7.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的成绩平均分(同一组数据用该组区间中点值作代表),从计算结果看,判断数学成绩与性别是否有关;(2)K2=,其中8.(2018全国百强校最后一卷,文19)下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份-2 013.(1)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2018年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:,K2=,n=a+b+c+d.参考答案专题突破练18统计与统计案例1.解 (1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.=13,=13,×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由,可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.2.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)3.解(1)=50×0.001 0×100+150×0.002 0×100+250×0.003 0×100+350×0.0025×100+450×0.001 5×100=265.(2)当日需求量不低于300千克时,利润Y=(20-15)×300=1 500(元);当日需求量不足300千克时,利润Y=(20-15)x-(300-x)×3=8x-900(元);故Y=由Y≥700得,200≤x≤500,所以P(Y≥700)=P(200≤x≤500)=0.003 0×100+0.002 5×100+0.001 5×100=0.7.4.解(1)总人数N==280,a=28,第3组的频率是1-5×(0.02+0.02+0.06+0.02)=0.4,所以b=280×0.4=112.(2)因为年龄低于40岁的员工在第1,2,3组,共有28+28+112=168(人),利用分层抽样在168人中抽取42人,每组抽取的人数分别为:第1组抽取的人数为28×=7(人),第2组抽取的人数为28×=7(人),第3组抽取的人数为112×=28(人),所以第1,2,3组分别抽7人、7人、28人.(3)假设H0:“是否喜欢阅读国学类书籍和性别无关”,根据表中数据,求得K2的观测值k=≈6.860 5>6.635,查表得P(K2≥6.635)=0.01,从而能有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系.5.解 (1)由题意可知=-6,=110,(x i-)2=42+22+02+(-2)2+(-4)2=40,(x i-)(y i-)=4×(-60)+2×(-25)+0×5+(-2)×30+(-4)×50=-550, 所以=-13.75,=110+13.75×(-6)=27.5,所以y关于x的回归方程为=-13.75x+27.5,当x=-12时,=-13.75x+27.5=-13.75×(-12)+27.5=192.5≈193.所以可预测当平均气温为-12 ℃时,该店的外卖订单数为193份.(2)外卖订单数不低于160份的概率就是日平均气温不高于-10 ℃的概率,由题意,设日平均气温不高于-10 ℃的3天分别记作A,B,C,另外4天记作a,b,c,d, 从这7天中任取2天结果有:(A,B),(A,C),(A,a),(A,b),(A,c),(A,d),(B,C),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b ),(C,c),(C,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d)共21种,恰有1天平均气温不高于-10 ℃的结果有:(A,a),(A,b),(A,c),(A,d),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b),(C,c),(C,d)共12种,所以所求概率P=.6.解 (1)旧养殖法的箱产量低于50 kg的频率为=≈15由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值到55 7.解 (1)=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5.=45×0.15+55×0.10+65×0.125+75×0.25+85×0.325+95×0.05=71.5.从男、女生各自的成绩平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K2=≈1.79.∵1.79<2.706,∴在犯错误的概率不超过0.1的前提下不能认为“数学成绩与性别有关”.8.解(1)由题意得=2.5,=200,=30,x i y i=2 355,所以=71,所以=200-71×2.5=22.5,所以y关于x的线性回归方程为=71x+22.5.由于2 018-2 013=5,所以当x=5时,=71×5+22.5=377.5,所以预测2018年该百货零售企业的线下销售额为377.5万元.故K2的观测值K2=≈6.109,由于6.109>5.024,所以可以在犯错误的概率不超过0.025 的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.11。
2021【暑假作业】新高三数学 考点18 统计与统计案例(学生版)
5
三、解答题 15. BIM 指数是用体重公斤数除以身高米数的平方得出的数字,是国际上常用的衡量人体胖瘦程度以及是 否健康的一个标准.对于高中男体育特长生而言,当 BIM 数值大于或等于 20.5 时,我们说体重较重,当 BIM
数值小于 20.5 时,我们说体重较轻,身高大于或等于170cm 我们说身高较高,身高小于 170cm 我们说身高 较矮.
yi)(i=1,2,…,n),用最小二乘法建立的回归方程为 y =0.85x-85.71,则下列结论中不正确的是( )
A.y 与 x 具有正的线性相关关系
B.回归直线过样本点的中心( x , y )
C.若该大学某女生身高增加 1cm,则其体重约增加 0.85kg D.若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg 3.如图是调查某学校高三年级男女学生是否喜欢数学的等高条形图,阴影部分的高表示喜欢数学的频率.已 知该年级男生女生各 500 名(所有学生都参加了调查),现从所有喜欢数学的同学中按分层抽样的方式抽 取 32 人,则抽取的男生人数为( )
(1)根据茎叶图找出 40 岁以上网友中满意度得分的众数和中位数;
(2)根据茎叶图完成下面列联表,并根据以上数据,判断是否有 99% 的把握认为满意度与年龄有关;
满意
不满意
合计
40 岁以下
40 岁以上
合计
(3)先采用分层抽样的方法从 40 岁及以下的网友中选取 7 人,再从这 7 人中随机选出 2 人,将频率
1
A.16
B.32
C.24
D.8
4.某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校 2400 名学生中抽取 30 人
2018年高考数学总复习统计与统计案例(K12教育文档)
2018年高考数学总复习统计与统计案例(word版可编辑修改)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018年高考数学总复习统计与统计案例(word版可编辑修改))的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018年高考数学总复习统计与统计案例(word版可编辑修改)的全部内容。
第三节统计与统计案例考纲解读1。
理解随机抽样的必要性和重要性。
2。
会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法。
3。
了解分布的意义和作用,会列频率分布表,会画出频率分布直方图、频率折线图、茎叶图,理解它们各自的特点。
4. 理解样本数据标准差的意义和作用,会计算数据标准差.5。
能从样本的频率分布估计总体分布,会用样本的基本数字牲估计总体的基本数字特征,理解用样本估计总体的思想。
6. 会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.7. 会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系。
8。
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
9。
了解常见的统计方法,并能应用这些方法解决一些实际问题。
(1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用。
(2)回归分析了解回归分析的基本思想、方法及其简单应用。
命题趋势探究1. 本节内容是高考必考内容,以选择题、填空题为主。
2. 命题内容为:(1)三种抽样(以分层抽样为主);(2)频率分布表和频率分布直方图的制作、识图及运用。
(1)(2)有结合趋势,考题难度中下。
3. 统计案例为新课标教材新增内容,考查考生解决实际问题的能力。
2018年高考数学一轮复习 小题精练系列 专题18 统计与统计案例(含解析)理
专题18 统计与统计案例1.如图是2014年在某电视节目中七位评委为某民族舞蹈打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为A . 84,4.84B . 84,1.6C . 85,1.6D . 85,4 【答案】C2.某中学高一年级从甲、乙两个班各选出7名学生参加国防知识竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生的平均分是85,乙班学生成绩的中位数是83,则x y +的值为( )A . 8B . 168C . 9D . 169 【答案】C【解析】∵甲班学生成绩的平均分是85,∴79+78+80+80+x +85+92+95=85×7,即x =6. ∵乙班学生成绩的中位数是83,甲班学生成绩的中位数是80+x =83,得x =3; ∴若1≤y ,则中位数为81,不成立.若y >1,则中位数为80+y =83,解得y =3. ∴x +y =6+3=9,本题选择C 选项.点睛:茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置的数据. 3.某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为( )A. 6万元 B. 8万元 C. 10万元 D. 12万元【答案】C点睛:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4.如果个数的平均数为,则的平均数为( ) A.3 B.4 C.5 D.6【答案】A【解析】的平均数为1,,,的平均数为,故选A.【思路点睛】本题主要考查平均数的求法,属于中档题.要解答本题首先根据个数的平均数为得到,从而可得的平均数为.5.某中学初中部共有120名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A . 128B . 144C . 174D . 167 【答案】B【解析】女教师人数为: 120*0.7150*0.4144+=. 6.下列说法中正确的是( )①相关系数r 用来衡量两个变量之间线性关系的强弱, r 越接近于1,相关性越弱; ②回归直线y bx a =+一定经过样本点的中心(),x y ;③随机误差e 满足()0E e =,其方差()D e 的大小用来衡量预报的精确度; ④相关指数2R 用来刻画回归的效果, 2R 越小,说明模型的拟合效果越好. A . ①② B. ③④ C. ①④ D. ②③ 【答案】D7.下面是22⨯列联表:则表中a b ,的值分别为( )A . 84,60B . 42,64C . 42, 74D . 74, 42 【答案】B【解析】因2163a +=,故42a =,又22a b +=,则64b =,应选答案B .8.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( ) A .频率分布直方图 B .回归分析 C . 独立性检验 D . 用样本估计总体 【答案】C【解析】根据题意,结合题目中的数据,列出2×2列联表,求出观测值K 2,对照数表可得出概率结论,这种分析数据的方法是独立性检验.本题选择C 选项. 9.下列说法错误的是( )A . 10xy ≠是5x ≠或2y ≠的充分不必要条件B . 若命题2:,10p x R x x ∀∈++≠,则2:,10p x R x x ⌝∃∈++= C . 线性相关系数r 的绝对值越接近1,表示两变量的相关性越强D . 用频率分布直方图估计平均数,可以用每个小矩形的高乘以底边中点横坐标之和 【答案】D10.某公司为确定明年投入某产品的广告支出,对近5年的广告支出m 与销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程 6.517.5t m =+,则p 的值为( )A .45B .50C .55D .60 【答案】D考点:回归分析.11.当今人口政策受到人们的广泛关注,下表是某大学人口预测课题组通过研究预测的1564岁人口所占比例的结果:已知所占比例y 关于年份代号t 的线性回归方程为 1.7y t m =-+,则m =( )A .67.8B .68C .68.5D .68.7 【答案】D 【解析】试题分析:因6.6356162626568,3554321=++++==++++=y t ,故m +⨯-=37.16.63,即7.68=m ,应选D .考点:线性回归方程及运用. 12.下列命题中正确的有( )①设有一个回归方程ˆ23yx =-,变量x 增加一个单位时,y 平均增加3个单位; ②命题:p “0x R ∃∈,20010x x -->”的否定p ⌝“x R ∀∈,210x x --≤”;③“命题p 或q 为真”是“命题p 且q 为真”必要不充分条件;④在一个22⨯列联表中,由计算得26.679k =,则有99.9%的把握确认这两个变量间有关系.A .1个B .2个C .3个D.4个本题可以参考独立性检验临界值表【答案】B【解析】考点:命题的真假.。
(四川专版)2016高考数学二轮复习 专题十八 统计与统计案例练习 理
专题限时集训(十八) [统计与统计案例](时间:5分钟+40分钟)基础演练夯知识1. 在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,x 3,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-12x +1上,则这组样本数据的相关系数为( )A .-12 B.12C .-1D .12. 图181是甲、乙两名同学参加“汉字听写大赛”选拔测试(在相同的测试条件下)的5次测试成绩(分)的茎叶图.设甲、乙两名同学的平均分数依次为x -1和x -2,标准差依次为s 1和s 2,那么( )图181A.x -1>x -2,s 1>s 2 B.x -1<x -2,s 1<s 2 C.x -1>x -2,s 1<s 2 D.x -1<x -2,s 1>s 23. 高三(1)班有学生52人,现将所有学生随机编号,用系统抽样方法,抽取一个容量为4的样本,已知5号,31号,44号学生在样本中,则样本中还有一个学生的编号是( )A .8B .13C .15D .184. 某小卖部销售一品牌饮料的零售价x (元/瓶)与销量y (瓶)的关系统计如下:已知x ,y 的关系符合线性回归方程y =b x +a ,其中b =-20,a =y -b x .当单价为4.2元时,估计该小卖部销售这种品牌饮料的销量为( )A .20B .22C .24D .265. 一个容量为20的样本数据分组后,分组与频数分别如下(10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2.则样本在(10,50]上的频率是________.提升训练强能力6.某车间为了规定工时定额,需要确定加工一个零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法得回归方程y ^=0.67x +54.9.A .67B .68C .69D .70图1827. 已知甲、乙两组数据的茎叶图如图182所示,若它们的中位数相同,平均数也相同,则m n等于( )A .8B .9 C.18D .1 8. 在某次测量中得到A 样本的数据如下:42,43,46,52,42,50.若A 样本的数据分别减去5后得到B 样本的数据,则下列数字特征中A ,B 两样本对应相同的是( )A .平均数 B. 标准差 C. 众数 D. 中位数图1839. 在“魅力咸阳中学生歌手大赛”比赛现场上,七位评委为某位选手打出的分数的茎叶图如图183所示,则去掉一个最高分和一个最低分后,所剩分数的平均数和方差分别为( )A .5和1.6B .85和1.6 C. 85和0.4 D. 5和0.410. 观察下面频率等高条形图,其中两个分类变量x ,y 之间关系最强的是( )A BC D图18411. 图185是收集某市2013年9月各气象采集点处的平均气温(单位:℃)的数据制成的频率分布直方图,图中有一处因污迹看不清,已知各采集点的平均气温的范围是[20.5,26.5],且平均气温低于22.5 ℃的采集点个数为11,则平均气温不低于25.5 ℃的采集点个数为( )A .6B .7C .8D .979 38 4 4 x 4 7 89 3 5图185图18612. 某样本数据的茎叶图如图186所示,若该组数据的中位数为85,则该组数据的平均数为________.13. 某市环保总站发布2014年1月11日到1月20日的空气质量指数(AQI),数据如下:153,203,268,166,157,164,268,407,335,119.则这组数据的中位数是________.14.合肥市环保总站对2013年11月合肥市空气质量指数发布如下趋势图:图187AQI指数天数(60,120](120,180](180,240](240,300](1)(2)试根据频率分布直方图估计合肥市11月份AQI指数的平均值.15.由某种设备的使用年限x i(年)与所支出的维修费y i(万元)的数据资料,算得.(1)求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)估计使用年限为8年时,支出的维修费约是多少.16. 受大气污染的影响,某工程机械的使用年限x 与所支出的维修费用y (万元)之间,有如下统计数据:假设y 与x (1)求维修费用y (万元)与设备使用年限x 之间的线性回归方程(精确到0.01). (2)当某设备的使用年限为8年时,维修费用大概是多少?专题限时集训(十八)【基础演练】1.C [解析] 由于样本点均在一条直线上,且负相关,故其相关系数为-1.2.D [解析] 由图可知,乙的成绩集中在80分数段,因此乙的平均分数高、方差小,故选D.3.D [解析] 52人分4组,每组13人,采用系统抽样的间隔为13,另一个学生的编号为5+13=18.4.D [解析] x -=16(3+3.2+3.4+3.6+3.8+4)=3.5,y -=16(50+44+43+40+35+28)=40,由点(x -,y -)在回归直线上得a ^=40-(-20)×3.5=110,因此回归直线方程为y ^=-20x +110,所以当x =4.2时,y ^=26.5.710 [解析] 样本在(10,50]上的频数为2+3+4+5=14,所以其频率为1420=710. 【提升训练】6. B [解析] 由表易知x =10+20+30+40+505=30,而回归直线必过点(x ,y ),则y =0.67×30+54.9=75.设模糊的数据为a ,则a +62+75+81+895=75,解得a =68.7.A [解析] 根据题意可知,甲组数据的中位数为21,则20+n =21,即n =1,所以乙组数据的平均数为22,则20+22+28+10+m 4=22,解得m =8,所以mn=8.8.B [解析] 由题意可知,只有标准差不变.9.B [解析] x -=80+4+4+4+6+75=85,s 2=15(1+1+1+1+4)=1.6.10.D [解析] 易知选项D 符合题意.11.D [解析] 设看不清楚的数为a ,则0.10+2a +0.18+0.22+0.26=1,解得a =0.12.设样本容量为n ,由题意可知,n ×0.22=11,解得n =50,所以平均气温不低于25.5 ℃的采集点个数为50×0.18=9.12.85.3 [解析] ∵ 中位数为85,∴4+x =2×5,解得x =6, ∴该组数据的平均数为85.3.13.184.5 [解析] 从小到大排序,即119,153,157,164,166,203,268,268,335,407,其中位数为166+2032=184.5.14.解:(2)合肥市11月份AQI 指数的平均值x -=1130×90+1130×150+530×210+330×270=150.15.解:(1)∴x -=15∑i =15x i =4,y -=15∑i =15y i =5.∴b ^==1.2,a ^=y --b ^x -=5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2.(2)由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关.(3)由(1)知,当x =8时,y ^=1.2×8+0.2=9.8,即估计使用年限为8年时,支出的维修费约是9.8万元.16.解: (1) x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5,所以x -y -=20,所以b ^==1.23,a ^=y --b ^x -=5-1.23×4=0.08.故所求的线性回归方程为y ^=1.23x +0.08. (2)将x =8代入线性回归方程得 y ^=1.23×8+0.08=9.92(万元).。
高中数学《统计与统计案例》课件
设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用 模型②得到的预测值更可靠.
13
考点整合
1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样, 体现了抽样的公平性,但又各有其特点和适用范围.
位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60
=90,解得 x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计
值为17000=0.7.故选 C.
解 (1)由调查数据,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客对该商场
服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为3500=0.6,因此女顾
客对该商场服务满意的概率的估计值为 0.6.
8
(2)K2 的观测值 k=100×5(0×405×0×207-0×303×010)2≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务 的评价有差异.
^
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿 元).
12
(2)利用模型②得到的预测值更可靠. 理由如下: 从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+ 13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境 基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础
最新-2018届高三数学一轮复习 18-1统计、统计案例课件 北师大版 精品
(2)随机数表中共随机出现0,1,2,…,9十个数字,也 就是说,在表中的每个位置上出现各个数字的机会都是相 等的.在使用随机数表时,如遇到三位数或四位数时,可 从选择的随机数表中的某行某列的数字计起,每三个或每 四个作为一个单位,自左向右选取,有超过总体号码或出 现重复号码的数字舍去.
[例2] 某工厂有1 003名工人,从中抽取10人参加体 检,试用系统抽样进行具体实施.
[分析] 总体中的每个个体,都必须等可能地入样, 为了实现“等距”入样,且又等概率,因此,应先剔除, 再“分段”,后定起始位.
[解析] 第一步,将在岗的工人624人,用随机方式 编号(如按出生年月日顺序),000,001,002,…,623.第二 步,由题意知,应抽取62人的样本,因为 不是整数, 所以应从总体中剔除4人(剔除方法用随机数表法,随机定 一起始数,向右取三位数.如起始数为课本附表1中第8行, 第19列数,则为1.向右取三位数为199,即编号199被剔除, 若三位数恰大于623或是已被剔除之数,则重新定起始数, 反复下去,直到剔除4人为止),将余下的620人,按编号 顺序补齐000,001,002,…619分成62个段,每段10人,在 第一段000,001,002,…,009这十个编号中,随机定一起 始号i0,则编号i0,i0+10,i0+20,…,i0+61×10为所抽 取的样本.
[分析] 简单随机抽样方法有抽签法和随机数表法, 因为样本的容量为10,因此,两种方法均可以.
[解析] 方法一 首先,把机器都编上号码 001,002,003,…,112,如用抽签法,则把112个形状、大 小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时, 每次从中抽出1个号签,连续抽取10次,就得到一个容量 为10的样本.
074,100,094,052,080,003,105,107,083,092. 第四步,对应原来编号
2023年高考数学复习:统计与统计案例
该5G产品上市时间x和市场占有率y(单位:%)的几组相关对应数据.如图
所示的折线图中,横轴1代表2021年8月,2代表2021年9月,……,5代
^
^
表2021年12月,根据数据得出y关于x的线性回归方程为 y=0.042x+a .若
用此方程分析并预测该产品市场占有率的
变化趋势,则该产品市场占有率最早何时
例3 (2020·新高考全国Ⅰ改编)为加强环境保护,治理空气污染,环境 监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和 SO2浓度(单位:μg/m3),得下表:
SO2 PM2.5
[0,35]
[0,50] 32
(50,150] 18
(150,475] 4
(35,75]
6
8
12
√C.新农村建设后,养殖收入不变
D.新农村建设后,种植收入在经济收入中所 占比重大幅下降
解析 因为该地区经过一年的新农村建设, 农村的经济收入增加了一倍,不妨设建设前 的经济收入为m,则建设后的经济收入为2m, A选项,从扇形统计图中可以看到,新农村建 设 后 , 种 植 收 入 比 建 设 前 增 加 2m×37% - m×60%=m×14%,故A正确; B选项,新农村建设后,其他收入比建设前增 加 2m×5% - m×4% = m×6%>m×4% , 即 增 加了一倍以上,故B正确;
(1)样本点不一定在回归直线上,但点( x , y )一定在回归直线上.
^
(2)求b时,灵活选择公式,注意公式的推导和记忆. (3)利用相关系数判断相关性强弱,看|r|的大小,而不是r的大小. (4)区分相关系数r与相关指数R2. (5)通过线性回归方程求的都是估计值,而不是真实值.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十八讲 统计与统计案例A 组一、选择题1.某书法社团有男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生①该抽样一定不是系统抽样;②该抽样可能是随机抽样;③该抽样不可能是分层抽样;④男生被抽到的概率大于女生被抽到的概率,其中说法正确的为( ) A .①②③ B .②③ C . ③④ D .①④ 【答案】B【解析】由题意得,从男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生,该抽样应该是简单的随机抽样,其中男生被抽到的概率为135P =,女生被抽到的概率为225P =,所以只有②③是正确的,故选B. 2.如下图所示的茎叶图记录了甲、乙两组各5名学生在一次英语听力测试中的成绩(单位:分)。
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y 的值分别为( )A .2,5B .5,5C .5,8D .8,8 【答案】C【解析】由中位数的定义可知5=x ,因8.16524930)85(⨯=+++++y ,故8=y ,应选C 。
3.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设0H :“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为0H 成立的可能性不足1%,那么2K 的一个可能取值为( )A .7.897 B.6.635 C. 5.024 D. 3.841 【答案】A【解析】由题这种血清能起到预防感冒的作用为99%的有效率,显然0 6.635,k >所以选A. 4.下列说法正确的是 ( )A .在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B .线性回归方程对应的直线a x b yˆˆˆ+=至少经过其样本数据点),,(11y x ),,(22y x ),(,33y x ),(n n y x 中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,相关指数2R 为98.0的模型比相关指数2R 为80.0的模型拟合的效果差 【答案】C【解析】A .回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况。
错误;B .线性回归方程对应的直线a x b yˆˆˆ+=,过其样本数据平均数点,错误;D .相关指数2R 越大,则相关性越强,模型的拟合效果越好。
错误;C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确。
二、填空题5.甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表123,,x x x 分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则123,,x x x 的大小关系为 ;123,,s s s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则123,,s s s 的大小关系为 . 【答案】123x x x ==;213s s s >>6.某班有55人,现根据学生的学号,用系统抽样的方法,抽取一个容量为5的样本,已知3号、25号、47号同学在样本中,那么样本中还有两个同学的学号分别为 和 。
【答案】14和36 三、解答题7. 某生产企业对其所生产的甲、乙两种产品进行质量检测,分别各抽查10件产品,检测其重量的误差,测得数据如下(单位:mg ): 甲:13 15 14 14 9 14 21 9 10 11 乙:10 14 9 1 15 21 23 19 22 16(Ⅰ)画出样本数据的茎叶图,并指出甲,乙两种商品重量误差的中位数; (Ⅱ)计算甲种商品重量误差的样本方差; (Ⅲ)根据茎叶图分析甲、乙两种产品的质量.甲的成绩 环数 7 8 9 10 频数5555乙的成绩 环数 7 8 9 10 频数6446丙的成绩 环数 7 8 9 10 频数4664【解析】茎叶图如图.甲,乙两种商品重量误差的中位数分别为13.5,15.5.(Ⅱ)1315141491421111091310x+++++++++==.∴甲种商品重量误差的样本方差为()()()()222221[(1313)15131413141391310-+-+-+-+-()()()()()222221413211311131013913]+-+-+-+-+-=11.6(Ⅲ)由茎叶图知,乙产品的重量误差的中位数高于甲产品的重量误差的中位数,而且由茎叶图可以大致看出乙产品的重量误差的的标准差要大于甲产品的重量误差的的标准差,说明甲产品的质量较好,而且较稳定.8.某工厂36名工人的年龄数据如下表:(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的平均值x和方差2s;(3)求这36名工人中年龄在(),x s x s-+内的人数所占的百分比.【解析】(1)根据系统抽样的方法,抽取容量为9的样本,应分为9组,每组4人.由题意可知,抽取的样本编号依次为:2,6,10,14,18,22,26,30,34,对应样本的年龄数据依次为:44,40,36,43,36,37,44,43,37.(2)由(1),得444036433637444337409x++++++++==,()()()()()()()()()222222 2222444040403640434036403740 1100 99 444043403740s⎡⎤-+-+-+-+-+-+⎢⎥==⎢⎥-+-+-⎣⎦.工人编号年龄工人编号年龄工人编号年龄工人编号年龄1 402 443 404 415 336 407 458 429 4310 3611 3112 3813 3914 4315 4516 3917 3818 3619 2720 4321 4122 3723 3424 4225 3726 4427 4228 3429 3930 4331 3832 4233 5334 3735 4936 39(3)由(2),得1040,3x s ==,∴2136,4333x s x s -=+=,由表可知,这36名工人中年龄在(),x s x s -+内共有23人,所占的百分比为23100%63.89%36⨯≈.x 和判断力y 进行统计分析,得下表数据:(1)请在图中画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力。
【解析】(1)如图所示.(2)1ni ii x y=∑=6×2+8×3+10×5+12×6=158,9,4x y ==21nii x=∑=62+82+102+122=344,0.7b =,a bx y =-=4-0.7×9=-2.3,故线性回归方程为ˆy=0.7x -2.3. (3)由回归直线方程,当x =9时,ˆy=6.3-2.3=4, 所以预测记忆力为9的同学的判断力约为4.10.2016年全国两会,即中华人民共和国第十二届全国人民代表大会第四次会议和中国人民政治协商会议第十二届全国委员会第四次会议,分别于2016年3月5日和3月3日在北京开幕.为了解哪些人更关注两会,某机构随机抽取了年龄在1575岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:[)[)[)[)[]15,25,25,35,35,45,55,65,65,75.把年龄落在区间[)15,35和[]35,75内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.(1)求图中a b、的值;(2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的22⨯列联表,根据此统计结果能否有99%的把握认为“中老年人”比“青少年人”更加关注两会?关注不关注合计青少年人15中老年人合计5050100附参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.临界值表:()2P K k≥0.050.0100.001k 3.841 6.63510.828【解析】(1)依频率分布直方图可知:()()45100.0310055100.0100.0050.005100ba⎧⨯+=⎪⎪⎨⎪⨯+++=⎪⎩,解之,得0.0350.015ab=⎧⎨=⎩,(2)依题意可知:“青少年人”共有()1000.0150.03045⨯+=人, “中老年人”共有100-45=55人,完成的22⨯列联表如下: 关注 不关注 合计 青少年人 15 30 45 中老年人 35 20 55 合计5050100结合列联表的数据得:()()()()()()222100303520159.0915*******n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯因为()2 6.6350.01,9.091 6.635P K >=>,所以有超过99%的把握认为“中老年人”比“青少年人”更加关注两会B 组一、选择题1.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)如图所示;若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数为( )A 、3B 、4C 、5D 、6 【答案】B【解析】根据茎叶图中的数据得,成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取207435⨯= (人),故选B.2.从实验小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图由图中数据可知身高在[120,130]内的学生人数为( )A .3B .25C .30D .35 【答案】C【解析】由图知,(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03 ∴身高在[120,130]内的学生人数在样本的频率为0.03×10=0.3 故身高在[120,130]内的学生人数为0.3×100=30 3.已知x 与y 之间的一组数据: x 0 1 2 3 y m 3 5.5 7 已求得关于y 与x 的线性回归方程为 2.10.85y x =+,则m 的值为( )A .1B .0.85C .0.7D .0.5 【答案】D 【解析】因45.15,5.143210+==+++=m y x ,故将其代入 2.10.85y x =+,可得5.0=m .应选D.4.在一次独立性检验中,得出2×2列联表如下: y 1 y 2 合计 x 1 200 800 1000 x 2 180 m 180+m 合计 380800+m1180+m最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( )A .200B .720C .100D .180 【答案】B【解析】由独立性检验,已知使两个分类变量无关,则可得;720,800380180=+=m mm二、填空题5.为了了解我校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数是 . 【答案】48.【解析】设图中从左到右的第1小组的频率为x ,则第2小组的频率为2x ,第3小组的频率为3x ,由频率分布直方图的性质,得: 230.03750.01351x x x +++⨯+⨯=,解得:0.125x =,∴第2小组的频率为20.25x =,又已知第2小组的频数为12, ∴报考飞行员的学生人数是:120.2548÷=. 故答案应填:48.6.某村有2500人,其中青少年1000人,中年人900人,老年人600人,为了调查本村居民的血压情况,采用分层抽样的方法抽取一个样本,若从中年人中抽取36人,从青年人和老年人中抽取的个体数分别为,a b ,则直线80ax by ++=上的点到原点的最短距离为___________. 【答案】3434 【解析】2436900600,40369001000=⨯==⨯=b a ,因此直线80ax by ++=上的点到原点的最短距离为34342440822=+ 三、解答题7.今年的NBA 西部决赛勇士和雷霆共进行了七场比赛,经历了残酷的“抢七”比赛,两队的当家球星库里和杜兰特七场比赛的每场比赛的得分如下表: 第一场 第二场 第三场 第四场 第五场 第六场 第七场 库里2628 24 22 31 29 36 杜兰特 26293326402927(1)绘制两人得分的茎叶图;(2)分析并比较两位球星的七场比赛的平均得分及得分的稳定程度. 【解析】 (1)如图(2)库里的平均得分28)36293122242826(711=++++++=x 分 方差7130]813)6()4(0)2[(71222222221=+++-+-++-=s .杜兰特的平均得分30)27294026332926(712=++++++=x 分方差7152])3()1(10)4(3)1()4[(71222222222=-+-++-++-+-=s . ∴222121,s s x x <<,则这七场比赛库里的平均得分低于杜兰特,但库里的得分更稳定一些.8.100名学生某次数学考试成绩(单位:分)的频率分布直方图如图所示.(1)估计这100名学生的数学成绩落在[50,60)中的人数; (2)求频率分布直方图中a 的值;(3)估计这次考试的中位数n (结果保留一位小数). 【解析】(1)由图可知落在[50,60)的频率为0.01×10=0.1由频数=总数×频率,从而得到该范围内的人数为100×0.1=10.(2)由频率分布直方图知组距为10,频率总和为1,可列如下等式:(0.01+0.015+0.03++0.01+a )×10=1 解得a =0.035.(3)前两个小矩形面积为0.01×10+0.015×10=0.25. 第三个小矩形的面积为0.035×10=0.35∵中位数要平分直方图的面积. 1.771.770035.025.05.070=+≈+=∴—n9.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布 统计表如下: 甲 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 34 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x3 2乙 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10y3甲校 乙校 总计 优秀非优秀 总计(1)计算x ,y 的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异. 【解析】(1)甲校抽取110×12002200=60人, 乙校抽取110×10002200=50人, 故x =10, y =7, (2)估计甲校优秀率为1525%60=, 乙校优秀率为2050=40%.k 2=2110(15302045)60503575⨯-⨯⨯⨯⨯≈2.83>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异. 10.下表提供了甲产品的产量x (吨)与利润y (万元)的几组对照数据.(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆybx a =+; (2)计算相关指数2R 的值,并判断线性模型拟合的效果.参考公式:1122211()()ˆˆˆ,()n niii ii i nniii i x x y y x y nx ybay bx x x xnx====---===---∑∑∑∑,22121ˆ()1()niii nii y yR y y ==-=--∑∑【解析】(1) 4.5, 3.5x y ==∴224 4.5 3.563,4 4.581nx y nx ⋅=⨯⨯==⨯=,17.512202766.5ni ii x y==+++=∑,21916253686ni i x ==+++=∑∴122166.563ˆ0.78681ni ii ni i x y nx ybx nx==--===--∑∑,∴ˆˆ 3.50.7 4.50.35a y bx =-=-⨯= ∴y 关于x 的线性回归方程ˆ0.70.35yx =+ (2)222221()(2.5 3.5)(3 3.5)(4 3.5)(4.5 3.5) 2.5nii y y =-=-+-+--=∑222221ˆ()(2.5 2.45)(3 3.15)(4 3.85)(4.5 4.55)0.05niii y y=-=-+-+--=∑∴22121ˆ()0.05110.982.5()niii nii y yR y y ==-=-=-=-∑∑∴线性模型拟合的效果较好C 组一、选择题1.某学校高一、高二、高三年级分别有720、720、800人,现从全校随机抽取56人参加防火防灾问卷调查.先采用分层抽样确定各年级参加调查的人数,再在各年级内采用系统抽样确定参加调查的同学,若将高三年级的同学依次编号为001,002,…,800,则高三年级抽取的同学的编号不可能为( ) A .001,041,……761 B .031,071,……791 C .027,067,……787 D .055,095,……795 【答案】D 【解析】由根据分层抽样可得高三年级抽取出20人,利用系统抽样可分成40组得到的数据特征应成等差数列,经计算答案中的数据740055795=-不是40的整数倍,因此这组数据不合系统抽样得到的,故应选D.2.已知一组数据54321,,,,x x x x x 的平均数是2,方差是31,那么另一组数据23,23,23,23,2354321-----x x x x x 的平均数,方差是( )A .31,2B .1,2C .32,4 D .3,4 【答案】D【解析】因为数据54321,,,,x x x x x 的平均数是2,方差是31,所以31)2(51,2512=-=∑=i i x x ,因此数据23,23,23,23,2354321-----x x x x x 的平均数为:42513)23(515151=-⨯=-∑∑==i i i i x x , 方差为:3319)2(519)63(51)23(51512512251=⨯=-⨯=-=--∑∑∑===i i i i i i x x x x .3.已知关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)有如下的统计资料,由上表可得线性回归方程0.08y bx =+,若规定当维修费用12y >时该设备必须报废,据此模型预报该设备使用年限的最大值为( )A .7B .8C .9D .10 【答案】C 【解析】由已知表格得:1(23456)45x =++++=,1(2.2 3.8 5.5 6.57.0)55y =++++= ,由于线性回归直线恒过样本中心点(),x y ,所以有:540.08b =+,解得: 1.23b =, 所以线性回归方程^1.230.08y x =+,由12y >得:1.230.0812x +>解得:9.69x >, 由于*x N ∈,所以据此模型预报该设备使用年限的最大值为9. 故选C.x -2.0 -1.0 0 1.00 2.00 3.00y0.24 0.51 1 2.02 3.98 8.02则,x y 的函数关系与下列( )类函数最接近(其中,a b 为待定系数) A .y a bx =+ B . xy a b =+ C. 2y ax b =+ D. by a x=+【答案】B 【解析】由表格数据逐个验证,观察图象,类似于指数函数,分析选项可知模拟函数为y=a+b x .故选B .二、填空题 5.一个总体中的80个个体编号为0,1,2,…,79,并依次将其分为8个组,组号为0,1,…,9,要用(错位)系统抽样的方法抽取一个容量为8的样本,即规定先在第1组随机抽取一个号码,记为i ,依次错位地得到后面各组的号码,即第k 组中抽取个位数为i k +(当10i k +<)或10i k +-(当10i k +≥)的号码,在6i =时,所抽到的第8组的号码是 . 【答案】73【解析】第1组抽取号码为6,第8组抽取号码为68106973+-+=6.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程ˆ0.110yx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是 .【答案】②④⑤【解析】线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱,故①错;回归直线方程一定经过样本中心点(),x y P ,所以②正确;③的抽样方式为系统抽样,故③错;由在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方。