2018高三第一轮复习统计与统计案例
2018年高考数学课标通用(理科)一轮复习配套课件:第十章 统计与统计案例10-1
为了解该地区中小学生近视形成的原因, 用分层抽样的方法 抽取 2%的学生进行调查,则:
200 (1)样本容量为________ ; 20 (2)抽取的高中生中,近视的人数为________ .
解析:由题意可得,总人数为 10 000,因为抽取 2%的学生 进行调查, 所以样本容量为 10 000×2% = 200 ,则抽取的高中生有 2 000 200× =40, 10 000 其中近视的人数为 40×50%=20.
④ 个个体;④样本的容量是 100.其中正确的序号是__________ .
解析:1 000 名学生的成绩是总体,每名学生的成绩是个体, 被抽取的 100 名学生的成绩是一个样本,其样本的容量是 100.
频数问题:频数=样本容量×频率. [2017· 湖北武汉武昌区模拟 ] 已知某地区中小学生人数和近 视情况如下表所示. 年级 小学 初中 高中 人数 3 500 4 500 2 000 近视率 10% 30% 50%
依次选出的数为 08,02,14,07,01,所以第 5 个个体的编号为 01.
(3) 下 列 抽 取 样 本 的 方 式 不 属 于 简 单 随 机 抽 样 的 有
①②③④ .(填序号) ____________
①从无限多个个体中抽取 100 个个体作为样本. ②盒子里共有 80 个零件,从中选出 5 个零件进行质量检 验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把 它放回盒子里. ③从 20 件玩具中一次性抽取 3 件进行质量检验. ④某班有 56 名同学,指定个子最高的 5 名同学参加学校组 织的篮球赛.
[解析]
①不是简单随机抽样.因为被抽取样本的总体的个
数是无限的,而不是有限的. ②不是简单随机抽样.因为它是有放回抽样. ③不是简单随机抽样.因为这是 “ 一次性 ” 抽取,而不是 “逐个”抽取. ④不是简单随机抽样.因为不是等可能抽样.
2018年高中数学一轮总复习 统计案例 课件(全国理数)
n
(3)通过求Q= yi-bxi-a2的最小值而得到回归直线的方 i=1
法,即使得样本数据的点到回归直线的距离的平方和最小,这一 方法叫做最小二乘法.
(4)相关系数: 当 r>0 时,表明两个变量_正__相__关__;当 r<0 时,表明两个 变量_负__相__关__. r 的绝对值越接近于 1,表明两个变量的线性相关性_越__强_;r 的绝对值越接近于 0,表明两个变量之间_几__乎__不__存__在__线__性__相__关__关__ _系__.通常|r|大于_0_.7_5__时,认为两个变量有很强的线性相关性.
解析:由散点图可以看出两个变量所构成的点在一条直线 附近,所以线性相关关系较强,且应为正相关,所以回归 直线方程的斜率应为正数,且从散点图观察,回归直线方 程的斜率应该比 y=x 的斜率要小一些,综上可知应选 B. 答案:B
2018
第二节 统计案例
本节主要包括 2 个知识点: 1.回归分析; 2.独立性检验.
基础联通
突破点(一) 回归分析
抓主干知识的“源”与“流”
1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另 一类是相关关系;与函数关系不同,相关关系是一种_非__确__定__性__ 关系. (2)从散点图上看,点散布在从左下角到右上角的区域内, 两个变量的这种相关关系称为_正__相__关__,点散布在左上角到右 下角的区域内,两个变量的相关关系为负__相__关__.
关系数的比较,正确的是
()
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
2018届高考数学第一轮知识点梳理复习教案5(第十章统计与统计案例)
第十章⎪⎪⎪统计与统计案例第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样的步骤(1)先将总体的N个个体编号;(2)确定分段间隔k(k∈N*),对编号进行分段.当Nn(n是样本容量)是整数时,取k=Nn;(3)在第1段用简单随机抽样确定第1个个体编号l(l≤k);(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10.[答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎢⎡⎦⎥⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A .90B .100C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( )A .54B .90C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析](1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得x 900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案](1)C(2)B(3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3, (100)②001,002, (100)③00,01,02, (99)④01,02,03, (100)其中正确的序号是()A.②③④B.③④C.②③D.①②解析:选C根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为()A.10 B.12C.18 D.24解析:选A根据分层抽样的特征,从C学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是()A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.解析:设A、B、C三所学校高三文科学生人数分别为x,y,z,由题知x,y,z 成等差数列,所以x+z=2y,又x+y+z=1 500,所以y=500,用分层抽样方法抽取B校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. ②方差:标准差的平方s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x +a ,方差为m 2s 2.[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析](1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案](1)D(2)15[方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A 与B 的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 与茎叶图交汇命题[例4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )A.7,8 B .5,7 (2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 7 941x91则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三)与优化决策问题交汇[例5]甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4() A.甲B.乙C.丙D.丁[解析]由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C[方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为()A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝ ⎛⎭⎪⎫1-x 80,解得x =16.2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018.4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 84 4 6 479 3A.84,4.84 B.84,1.6 C.85,1.6 D.85,4解析:选C依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):如果甲、乙两人中只有________.解析:x-甲=x-乙=9,s2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s2甲,故甲更稳定.答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.7.[考点三·考法(二)]某车间20名工人年龄数据如下表:(1)求这20(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A 正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B 正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C 正确;故D 错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B 和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.3 1.41.60.5 1.80.6 2.1 1.1 2.5 1.2 2.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A药解:(1)设A药观测数据的平均数为x,B药观测数据的平均数为y-.由观测结果可得x-=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y-=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x->y-,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:3. 2从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是() A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B在①中,文科考生、理科考生、艺术和体育类考生会存在差异,采用分层抽样法较好;在②中,抽取的样本个数较少,宜采用简单随机抽样法.2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=()A.660 B.720 C.780 D.800解析:选B由已知条件,抽样比为13780=160,从而35600+780+n=160,解得n=720.3.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为() A.93 B.123 C.137 D.167解析:选C初中部的女教师人数为110×70%=77,高中部的女教师人数为150×(1-60%)=60,该校女教师的人数为77+60=137,故选C.4.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④解析:选B∵x甲=26+28+29+31+315=29,。
2018届一轮复习人教A版 统计与统计案例 课件
解析:(1)系统抽样按等差数列抽取,由题意可知
a1=18,a2=68,所以d=50, 所以由an=50n-32≤5 000,解得n≤100
16 ,所以最大的编号为4968,故选C. 25
(2)(2017·河北唐山三模)总体由编号为01,02,03,…,49,50的50个个体组成, 利用随机数表(以下选取了随机数表中的第1行和第2行)选取5个个体,选取方 法是从随机数表第1行的第9列和第10列数字开始由左向右读取,则选出来的4 个个体的编号为( 66 67 40 67 14 57 16 00 11 66 (A)05 (B)09 ) 64 05 71 95 86 14 90 84 45 11 (C)11 11 05 65 09 68 75 73 88 05 90 (D)20 76 83 20 37 90 52 83 20 37 90
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
解:(1)由已知条件知,
t =4, ti t
i 1 7
2
=28,
7
y
7 i 1
i
y
7
2
=0.55,
t
7 i 1
i
t yi y =
t y - t y =40.17-4×9.32=2.89,
第 2讲
统计与统计案例
高考导航
热点突破
备选例题
阅卷评析
高考导航
真题体验
演真题·明备考
1.(2017·全国Ⅲ卷,理3)某城市为了解游客人数的变化规律,提高旅游服务质量,收
集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了
2018届一轮复习人教A版 统计与统计案例 (3)课件
2.下面是 2×2 列联表:
基 础 知 识 点
y1 y2 合计
方 法
技
x1 a 21 73
巧
x2 22 25 47
合计 b 46 120
则表中 a,b 的值分别为( )
课
核
A.94,72 B.52,50 C.52,74 D.74,52
时
心
限
考
时
向
【答案】 C
检
测
菜单
基 础 知 识 点
3.调查了某地若干户家庭的年收入 x(单位:万元)和年 饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y
基 础 知 识 点
它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n,其估计值 为^ei=yi-^yi=yi-b^xi-a^,i=1,2,…,n.^ei 称为相应于点(xi,
方 法 技 巧
yi)的残差.
n
2.残差平方和为∑ i=1
(yi-^yi)2.
课
核 心 考
n
yi-^yi2
时 限 时
核
时
心 考
x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为
限 时
向
检
测
菜单
2×2 列联表
基
础 知
y1
y2
总计
识
点
x1
a
b
a+b
方 法 技 巧
x2
c
d
c+d
总计 a+c b+d a+b+c+d
核
nad-bc2
课 时
心 考
构造一个随机变量 K2=a+bc+da+cb+d,其中 n
考
2018高考数学(理)一轮复习课件 第十章 统计与统计案例 第1讲 课件
3.分层抽样 (1)定义:在抽样时,将总体分成____________的层,然后按 照一定的比例,从各层独立地抽取一定数量的个体,将各层 取出的个体合在一起作为样本,这种抽样方法是一种分层抽 样. (2)适用范围:适用于总体由______________________的几个 部分组成时.
分层 抽样
在起始部分 抽样过程 抽样时,采 总体中的个 中每个个 用简单随机 体数较多 体被抽到 抽样 的可能性 相等 各层抽样时 将总体分成几 总体由差异 采用简单随 层,按各层个 明显的几部 机抽样或系 体数之比抽取 分组成 统抽样
1.(2015· 高考四川卷)某学校为了了解三年级、六年级、九年 级这三个年级之间的学生视力是否存在显著差异,拟从这三 个年级中按人数比例抽取部分学生进行调查,则最合理的抽 样方法是( A.抽签法 C.分层抽样法
简单随机抽样 [典例引领] 下面的抽样方法是简单随机抽样的是( D ) A.在某年明信片销售活动中,规定每 100 万张为一个开奖 组,通过随机抽取的方式确定号码的后四位为 2 709 的为三 等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔 30 分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取 2 人、 14 人、4 人了解对学校机构改革的意见 D.用抽签法从 10 件产品中选取 3 件进行质量检验
3.某地区高中分三类,A 类学校共有学生 2 000 人,B 类学 校共有学生 3 000 人,C 类学校共有学生 4 000 人,若采取分 层抽样的方法抽取 900 人,则 A 类学校中的学生甲被抽到的 概率为( 1 A. 10
A
) 9 B. 20
1 1 C. D. 2 000 2 [解析] 利用分层抽样,每个学生被抽到的概率是相同的,故
2018届高三数学一轮复习: 重点强化课5 统计与统计案例
重点强化课(五) 统计与统计案例[复习导读] 本章是新课程改革增加内容,是命题的热点,以程序框图、回归分析、统计图表为重点,以客观题为主.命题注重背景新颖、角度灵活.但近几年统计与统计案例、统计与概率交汇,加大了考查力度.2015年、2016年全国卷均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.重点1 程序框图及应用☞角度1 程序框图与数列交汇执行如图1的程序框图,如果输入的N =100,则输出的X =( )A .0.95B.0.98C.0.99D.1.00图1C [由程序框图知,输出的X 表示数列⎩⎪⎨⎪⎧⎭⎪⎬⎪⎫1n (n +1)的前99项和,∴X =11×2+12×3+…+199×100=⎝ ⎛⎭⎪⎫1-12+⎝ ⎛⎭⎪⎫12-13+…+⎝ ⎛⎭⎪⎫199-1100=99100.] ☞角度2 程序框图与统计的渗透(2017·合肥模拟)随机抽取某中学甲、乙两个班各10名同学,测量他们的身高获得身高数据的茎叶图如图2,在样本的20人中,记身高在[150,160),[160,170),[170,180),[180,190)的人数依次为A 1,A 2,A 3,A 4.如图3是统计样本中身高在一定范围内的人数的算法框图.若图中输出的S=18,则判断框应填________.【导学号:01772372】图2图3i<5?或i≤4?[由于i从2开始,也就是统计大于或等于160的所有人数,于是就要计算A2+A3+A4,因此,判断框应填i<5?或i≤4?.]☞角度3程序框图与函数交汇渗透如图4所示的程序框图的输入值x∈[-1,3],则输出值y的取值范围为()【导学号:01772373】图4A.[1,2] B.[0,2]C.[0,1]D.[-1,2]B[当0≤x≤3时,1≤x+1≤4,所以,0≤log2(x+1)≤2.当-1≤x<0时,0<-x≤1⇒1<2-x≤2,所以,0<2-x-1≤1.因此输出值y的取值范围为[0,2].][规律方法] 1.完善程序框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解程序框图的结构,明确程序框图的功能,按照程序框图中的条件进行程序.重点2用样本估计总体(2015·全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图①图5B地区用户满意度评分的频数分布表比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图②图5(2)根据用户满意度评分,将用户的满意度分为三个等级:[解](1)如图所示.通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.5分(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.12分[规律方法] 1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.[对点训练1]为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图6所示.图6(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x 1-x 2的值.[解] (1)设甲校高三年级学生总人数为n .由题意知30n =0.05,解得n =600.2分样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为⎝ ⎛⎭⎪⎫1-530×100%≈83%.5分 (2)设甲、乙两校样本平均数分别为x ′1,x ′2,根据样本茎叶图可知30(x ′1-x ′2)=30x ′1-30x ′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15,因此x ′1-x ′2=0.5,故x 1-x 2的估计值为0.5分.12分重点3 统计的应用(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:图7记x 表示1台机器在三年使用期内需更换的易损零件数,y 表示1台机器在购买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数.(1)若n =19,求y 与x 的函数解析式;(2)若要求“需更换的易损零件数不大于n ”的频率不小于0.5,求n 的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?[解] (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700,所以y 与x 的函数解析式为y =⎩⎨⎧3 800,x ≤19,500x -5 700,x >19(x ∈N ).4分 (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.8分(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4300×20+4 800×10)=4 000.10分若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050.比较两个平均数可知,购买1台机器的同时应购买19个易损零件.12分[规律方法] 1.本题将分段函数、频率分布、样本的数字特征交汇命题,体现了统计思想的意识和应用.2.本题易错点有两处:一是混淆频率分布直方图与柱状图致误;二是审题不清或不懂题意,导致解题无从入手.避免此类错误,需认真审题,读懂题意,并认真观察频率分布直方图与柱状图的区别,纵轴表示的意义.[对点训练2] 某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:(1)点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:(参考公式:K 2=⎝ ⎛⎭⎪⎫(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ) [解] (1)K 2=55(20×20-10×5)230×25×25×30≈11.978>7.879, 所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关.5分(2)设所抽样本中有m 个“大于40岁”市民,则m 20=630,得m =4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市民,分别记作B1,B2,B3,B4,C1,C2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个.10分其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概率为P=815.12分。
【课标通用】2018届高考数学(理)一轮课件:39-统计与统计案例(含答案)
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”; CA2表示事件:“A地区用户的满意度等级为非常满意”; CB1表示事件:“B地区用户的满意度等级为不满意”; CB2表示事件:“B地区用户的满意度等级为满意”, 则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=CB1CA1∪CB2CA2. P(C)=P(CB1CA1∪CB2CA2)=P(CB1CA1)+P(CB2CA2) =P(CB1)P(CA1)+P(CB2)P(CA2).
考点92
考点93
试做真题
高手必备 萃取高招 对点精练
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分 满意度等级 低于 70 分 不满意 70 分到 89 分 满意 不低于 90 分 非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”. 假设两地区用户的评价结果相互独立.根据所给数据,以事件发生 的频率作为相应事件发生的概率,求C的概率.
考点92
考点93
试做真题
高手必备 萃取高招 对点精练
【解】 (1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地 区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地 区用户满意度评分比较分散.
考点92
考点93
试做真题
高手必备 萃取高招 对点精练
考点92
考点93
试做真题
高手必备 萃取高招 对点精练
4.众数、中位数、平均数
数字特征 样本数据 众数 出现次数最多的数据 频率分布直方图 取最高的小长方形底边中点 的横坐标
考点92
考点93
2018年高考数学总复习统计与统计案例(K12教育文档)
2018年高考数学总复习统计与统计案例(word版可编辑修改)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018年高考数学总复习统计与统计案例(word版可编辑修改))的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018年高考数学总复习统计与统计案例(word版可编辑修改)的全部内容。
第三节统计与统计案例考纲解读1。
理解随机抽样的必要性和重要性。
2。
会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法。
3。
了解分布的意义和作用,会列频率分布表,会画出频率分布直方图、频率折线图、茎叶图,理解它们各自的特点。
4. 理解样本数据标准差的意义和作用,会计算数据标准差.5。
能从样本的频率分布估计总体分布,会用样本的基本数字牲估计总体的基本数字特征,理解用样本估计总体的思想。
6. 会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.7. 会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系。
8。
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
9。
了解常见的统计方法,并能应用这些方法解决一些实际问题。
(1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用。
(2)回归分析了解回归分析的基本思想、方法及其简单应用。
命题趋势探究1. 本节内容是高考必考内容,以选择题、填空题为主。
2. 命题内容为:(1)三种抽样(以分层抽样为主);(2)频率分布表和频率分布直方图的制作、识图及运用。
(1)(2)有结合趋势,考题难度中下。
3. 统计案例为新课标教材新增内容,考查考生解决实际问题的能力。
2018高三大一轮复习数学(文)课件:第十章 统计与统计案例 10-2
[基础自测] 1.(2015· 高考陕西卷)某中学初中部共有 110 名教师,高中部 共有 150 名教师,其性别比例如图所示,则该校女教师的人数为 ( ) A.93 B.123 C.137 D.167
解析: 选 C. 由题干扇形统计图可得该校女教师人数为: 110×70%+150×(1-60%)=137.故选 C.
A.各月的平均最低气温都在 0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于 20 ℃的月份有 5 个
解析:选 D.根据图中的数据结合选项逐一判断. 从题中提供的信息及图中标注的数据可以看出:深色的图案 是一年十二个月中各月份的平均最低气温,颜色稍微浅一点的图 案是一年十二个月中各月份的平均最高气温,结合四个选项可以 确定 D 不正确.因为从图中可以看出,平均最高气温高于 20 ℃的 只有七、八两个月份.故应选 D.
解析:由频率分布直方图易得数学考试中成绩小于 60 分的频 率为(0.002+0.006+0.012)×10=0.2,所以所求分数小于 60 分的 学生数为 3 000×0.2=600.
答案:600
类型一
频率分布直方图的绘制与应用
[例 1] (2016· 高考四川卷)我国是世界上严重缺水的国家,某 市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案, 拟确定一个合理的月用水量标准 x(吨),一位居民的月用水量不超 过 x 的部分按平价收费,超出 x 的部分按议价收费.为了了解居 民用水情况,通过抽样,获得了某年 100 位居民每人的月均用水 量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成 9 组, 制成了如图所示的频率分布直方图.
2.(2016· 高考山东卷)某高校调查了 200 名学生每周的自习时 间(单位:小时),制成了如图所示的频率分布直方图,其中自习时 间 的 范 围 是 [17.5,30] , 样 本 数 据 分 组 为 [17.5,20) , [20,22.5) , [22.5,25),[25,27.5),[27.5,30].根据直方图,这 200 名学生中每 周的自习时间不少于 22.5 小时的人数是( A.56 C.120 B.60 D.140 )
2018高考数学一轮复习统计统计案例及算法初步训练含答案
第 1抽方法 1 . (2016? 亳州模 )某学校有男、女学生各500 名,认识男、女学生在学趣与余好方面能否存在著差别,从全体学生中抽取100 名学生行,宜采纳的抽方法是() A.抽法 B .随机数法 C.系抽法 D .分抽法分析: D. 因为是男、女学生在学趣与余好方面能否存在差别,所以用分抽法,故 D. 2 .体由号 01, 02,⋯, 19, 20的 20个个体成,利用下边的随机数表取 5 个个体,取方法是从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右挨次取两个数字,出来的第 5个个体的号()7816657208026314070243699728 0198 32049234493582003623486969387481A.08B.07C.02D.01解析:选 D.由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.3.某学校高三年级一班共有60名学生,采用系抽的方法从中抽取6名学生做“早餐与健康”的,此将学生号1, 2,⋯, 60.取的6名学生的号可能是() A. 1, 2, 3, 4, 5, 6B .6, 16, 26, 36, 46, 56C.1,2,4,8,16,32D.3,9,13,27,36, 54分析:B.由系抽知知,所学生号之的距相等且10,所以 B. 4.某工厂在12月份共生了3600双皮靴,在出厂前要批品的量,决定采用分抽的方法行抽取,若从一、二、三抽取的品数分a,b,c,且a,b,c构成等差数列,第二生的品数() A.800B.1000C.1200D.1500解析: C.因a ,b,c成等差数列,所以2b=a+c,即第二抽取的品数占抽品数的三分之一,根据分抽的性可知,第二生的品数占12月份生数的三分之一,即1 200双皮靴.5.将参加夏令的600名学生号: 001 , 002,⋯, 600. 采纳系抽的方法抽取一个容量50的本,且随机抽得的号003.600名学生分住在三个区,从001 到300在A区,从301到495在B区,从496到600 在C区,三个区被抽中的人数挨次() A.26,16, 8 B. 25, 17,8C. 25,16,9D. 24, 17, 9分析:B.依意及系抽的意可知,将600名学生按号挨次分成50,每一各有12名学生,第k(k ∈N*)抽中的号是3+12(k-1).令3+12(k-1) ≤300,得 k≤1034,因此A区被抽中的人数是25;令 300<3+12(k- 1) ≤495,得 1034<k≤42 ,因此 B 区被抽中的人数是42-25= 17.合各知B正确.6.某位有 840名工,采用系抽的方法抽取42人做卷,将840人按1,2,⋯, 840随机号,抽取的42人中,号落入区[481,720]的人数() A.11 B. 12C. 13D. 14分析:B.抽隔84042=20.在1,2,⋯ ,20中抽取号x0(x0 ∈[1,20]),在[481,720]之抽取的号20k+x0,481≤20k+ x0≤720, k∈N*. 所以24120≤k+ x020≤36. 因x020∈120, 1,所以k =24, 25,26,⋯,35,所以 k共有35- 24+1= 12(个 ),即所求人数12.7. (2015?高考福建卷)某校高一年有900名学生,此中女生400名,按男女比率用分抽的方法,从年学生中抽取一个容量45的本,抽取的男生人数________.解析:男生抽取x人,有45900= x900- 400,解得x= 25.答案:25 8.认识1200名学生学校某教改的意,打算从中抽取一个容量30的本,考采取系抽,分段的隔k________.分析:在系抽中,确立分段隔k,号行分段,k= Nn(N体的容量,n本的容量) ,所以k= Nn = 1 20030=40.答案:40。
2018高三第一轮复习统计与统计案例
2018高三第一轮复习统计与统计案例(总34页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--2018高三第一轮复习统计与统计案例一、随机抽样三种抽样方法的比较二、用样本估计总体1.用样本频率分布估计总体频率分布(1)频率分布直方图的作法①求极差:即最大数与最小数的差;②决定组距与组数:组距与组数的确定没有固定的标准,试题中一般有规定;③数据分组:计算各小组的频数和频率,列出频率分布表;④画频率分布直方图:图中纵轴表示频率组距,各小矩形宽为组距,面积为频率.(2)茎叶图茎叶图中,茎是指中间的一列数,叶是茎的旁边的数,茎中一个数与叶中的一个数并在一起构成一个完整数据.茎叶图的优点是所有数据都可以在图中得到,且便于记录和表示,数据的分布情况也比较明显.缺点是当数据较多时,用起来不太方便.2.众数、中位数、平均数3.方差和标准差:方差和标准差反映了数据波动程度的大小.(1)方差:s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2];(2)标准差:s=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2].性质:标准差(或方差)越小,说明数据波动越小,越稳定;标准差越大,说明数据越分散,越不稳定.三、变量间的相关关系及回归分析1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系.与函数关系不同,相关关系是一种不确定关系. 2.散点图:表示具有相关关系的两个变量的一组数据的图形叫作散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关.3.回归分析:对具有相关关系的两个变量进行统计分析的方法叫作回归分析.在线性回归模型y =bx +a +e 中,因变量y 的值由自变量x 和随机误差e 共同确定,即自变量x 只能解释部分y 的变化,在统计中,我们把自变量x 称为解释变量,因变量y 称为预报变量.4.回归方程:y ^=b ^x +a ^,其中b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑n i =1x i y i -nx - y -∑ni =1x 2i -nx -2,a ^=y --b ^x -.主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.5.回归中心:点(x -,y -)叫作回归中心,回归直线一定经过回归中心.6.相关系数:r =∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑n i =1(y i -y -)2.主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r >0时,表示两个变量正相关;当r <0时,表示两个变量负相关.|r |越接近1,表明两个变量的线性相关性越强;当|r |接近0时,表明两个变量间几乎不存在线性相关关系. 四、独立性检验 1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:可构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验利用随机变量、独立性假设来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断方法:统计学研究表明:当K2≤时,认为X与Y无关;当K2>时,有95%的把握说X与Y有关;当K2>时,有99%的把握说X与Y有关;当K2>时,有%的把握说X与Y有关.题型一:抽样方法1.(2013·安徽,5,易)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是( ) A.这种抽样方法是一种分层抽样B.这种抽样方法是一种系统抽样C.这五名男生成绩的方差大于这五名女生成绩的方差D.该班男生成绩的平均数小于该班女生成绩的平均数2.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.3.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.4.某工厂36名工人的年龄数据如上表.(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据; (2)计算(1)中样本的平均值x -和方差s 2;(3)36名工人中年龄在x --s 与x -+s 之间有多少人?所占的百分比是多少(精确到%)5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )A.7 B.9 C.10 D.156.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.147.(2016·重庆巴蜀一模,5)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )A.12,24,15,9 B.9,12,12,7 C.8,15,12,5 D.8,16,10,68.设样本数据x1,x2,…,x10的均值和方差分别为1和4,若y i=x i+a(a为非零常数,i =1,2,…,10),则y1,y2,…,y10的均值和方差分别为( )A.1+a,4 B.1+a,4+a C.1,4 D.1,4+a9.若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .3210.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为( )A .25,17,8B .25,16,9C .26,16,8D .24,17,911.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )分层抽样和系统抽样中的计算(1)系统抽样总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组N n个(有零头时要先去掉).若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+N n ,…,k+(n-1)Nn.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.题型二:频率分布直方图1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[,30],样本数据分组为[,20),[20, 22.5),[,25),[25,,[,30].根据直方图,这200名学生中每周的自习时间不少于小时的人数是( )A.56 B.60 C.120 D.1402.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.3.随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.根据上述数据得到样本的频率分布表如下:(1)确定样本频率分布表中n1,n2,f1和f2的值;(2)根据上述频率分布表,画出样本频率分布直方图;(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.4.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A.6 B.8 C.12 D.185.我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按[0,,[,1),…,[4,]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则( )A .m e =m 0=x -B .m e =m 0<x -C .m e <m 0<x -D .m 0<m e <x -7.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )A .B .C .D .8.一所中学共有4 000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元~14元的学生大约有________人.9.某校高三(1)班全体女生的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如图①②所示,据此解答如下问题:(1)求高三(1)班全体女生的人数;(2)求分数在[80,90)之间的女生人数,并计算频率分布直方图中[80,90)之间的矩形的高;(3)若要从分数在[80,100)之间的试卷中任取两份分析女生失分情况,在抽取的试卷中,求至少有一份分数在[90,100)之间的概率.10.(2015·课标Ⅱ,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:62 73 81 92 95 85 74 64 53 76 78 86 95 66 97 78 88 8276 89B地区:73 83 62 51 91 46 53 73 64 82 93 48 65 81 74 56 54 7665 79(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.11.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数及平均数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?12.(12分)(2014·课标Ⅰ,18)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?题型三、线性回归方程1.(2014·课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1(t i -t -)(y i -y -)∑n i =1(t i -t -)2,a ^=y --b ^t -.2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .万元B .万元C .万元D .万元3.根据如下样本数据得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <04.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )>b ′,a ^>a ′ >b ′,a ^<a ′ <b ′,a ^>a ′ <b ′,a ^<a ′5.如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到,预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =,∑7i =1t i y i =,∑7i =1(y i -y -)2=,7≈. 参考公式:相关系数r =∑ni =1 (t i -t -)(y i -y -)∑n i =1(t i -t -)2∑n i =1(y i -y -)2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1(t i -t -)(y i -y -)∑n i =1(t i -t -)2,a ^=y --b ^t -.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为 kg7.已知变量x 和y 满足关系y =-+1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 负相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 正相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关8.(2012·课标全国,3,易)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 D .19.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y 关于t 的回归方程y =b t +a ;10.表中提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=+,那么表中t 的值为( )B .C .D .题型四、2K 检验 1.2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:2.独立性检验利用随机变量K 2(也可表示为χ2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.独立性检验的方法(1)构造2×2列联表;(2)计算K2;(3)查表确定有多大的把握判定两个变量有关联.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.3.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查下表确定临界值k0:(3)0P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.另外一种说法是有1-p的把握认为X与Y有关。
最新-2018届高三数学一轮复习 18-1统计、统计案例课件 北师大版 精品
(2)随机数表中共随机出现0,1,2,…,9十个数字,也 就是说,在表中的每个位置上出现各个数字的机会都是相 等的.在使用随机数表时,如遇到三位数或四位数时,可 从选择的随机数表中的某行某列的数字计起,每三个或每 四个作为一个单位,自左向右选取,有超过总体号码或出 现重复号码的数字舍去.
[例2] 某工厂有1 003名工人,从中抽取10人参加体 检,试用系统抽样进行具体实施.
[分析] 总体中的每个个体,都必须等可能地入样, 为了实现“等距”入样,且又等概率,因此,应先剔除, 再“分段”,后定起始位.
[解析] 第一步,将在岗的工人624人,用随机方式 编号(如按出生年月日顺序),000,001,002,…,623.第二 步,由题意知,应抽取62人的样本,因为 不是整数, 所以应从总体中剔除4人(剔除方法用随机数表法,随机定 一起始数,向右取三位数.如起始数为课本附表1中第8行, 第19列数,则为1.向右取三位数为199,即编号199被剔除, 若三位数恰大于623或是已被剔除之数,则重新定起始数, 反复下去,直到剔除4人为止),将余下的620人,按编号 顺序补齐000,001,002,…619分成62个段,每段10人,在 第一段000,001,002,…,009这十个编号中,随机定一起 始号i0,则编号i0,i0+10,i0+20,…,i0+61×10为所抽 取的样本.
[分析] 简单随机抽样方法有抽签法和随机数表法, 因为样本的容量为10,因此,两种方法均可以.
[解析] 方法一 首先,把机器都编上号码 001,002,003,…,112,如用抽签法,则把112个形状、大 小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时, 每次从中抽出1个号签,连续抽取10次,就得到一个容量 为10的样本.
074,100,094,052,080,003,105,107,083,092. 第四步,对应原来编号
2018届高三数学理一轮复习课件:第十一章 统计、统计
方法技巧 1.简单随机抽样的特点 (1)抽取的个体数较少.(2)逐个抽取.(3)不放回抽取.(4)等可能抽取.只有 四个特点都满足的抽样才是简单随机抽样. 2.两种常用的简单随机抽样的方法: 抽签法(适用于总体中个体数较少的情况)、随机数法(适用于总体中个 体数较多的情况).
A.与第几次抽样有关,第一次抽到的可能性最大 B.与第几次抽样有关,第一次抽到的可能性最小 C.与第几次抽样无关,每一次抽到的可能性相等 D.与第几次抽样无关,与抽取几个个体有关
)
答案 C 由简单随机抽样的特点可知:在简单随机抽样中,每个个体被 抽到的可能性相等,与第几次抽样无关.
2.某学校为调查高三年级的240名学生完成课后作业所需时间,采取了 两种抽样调查方式:第一种由学生会的同学随机抽取24名同学进行调 查;第二种由教务处对高三年级的学生进行编号,从001到240,抽取学号 最后一位为3的同学进行调查,则这两种抽样方法依次为 ( A.分层抽样,简单随机抽样 B.简单随机抽样,分层抽样 C.分层抽样,系统抽样 D.简单随机抽样,系统抽样 )
56 4 3 = ,则样本中女运动员人数为28× = 98 56 3 7 M N 4 1 8 2
解析 男女运动员人数比为
12.故应抽取的女运动员的人数为12.
考点突破
考点一 简单随机抽样 典例1 (1) 个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取100 个进行调查,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7 个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这 两项调查宜采用的抽样方法依次是 ( A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法 )
N n N n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018高三第一轮复习统计与统计案例一、随机抽样三种抽样方法的比较二、用样本估计总体$1.用样本频率分布估计总体频率分布(1)频率分布直方图的作法①求极差:即最大数与最小数的差;②决定组距与组数:组距与组数的确定没有固定的标准,试题中一般有规定;③数据分组:计算各小组的频数和频率,列出频率分布表;④画频率分布直方图:图中纵轴表示频率组距,各小矩形宽为组距,面积为频率.(2)茎叶图茎叶图中,茎是指中间的一列数,叶是茎的旁边的数,茎中一个数与叶中的一个数并在一起构成一个完整数据.:茎叶图的优点是所有数据都可以在图中得到,且便于记录和表示,数据的分布情况也比较明显.缺点是当数据较多时,用起来不太方便.2.众数、中位数、平均数3.方差和标准差:方差和标准差反映了数据波动程度的大小.…(1)方差:s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2];(2)标准差:s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]. 性质:标准差(或方差)越小,说明数据波动越小,越稳定;标准差越大,说明数据越分散,越不稳定.三、变量间的相关关系及回归分析1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系.与函数关系不同,相关关系是一种不确定关系. 2.散点图:表示具有相关关系的两个变量的一组数据的图形叫作散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关.3.回归分析:对具有相关关系的两个变量进行统计分析的方法叫作回归分析.在线性回归模型y =bx +a +e 中,因变量y 的值由自变量x 和随机误差e 共同确定,即自变量x 只能解释部分y 的变化,在统计中,我们把自变量x 称为解释变量,因变量y 称为预报变量.4.回归方程:y ^=b ^x +a ^,其中b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i-nx - y-∑n i =1x 2i -nx -2,a ^=y --b ^x -.主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.|5.回归中心:点(x -,y -)叫作回归中心,回归直线一定经过回归中心.6.相关系数:r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑ni =1(y i -y -)2.主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r >0时,表示两个变量正相关;当r <0时,表示两个变量负相关.|r |越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系.四、独立性检验1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:】可构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验利用随机变量、独立性假设来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断方法:统计学研究表明:当K2≤3.841时,认为X与Y无关;当K2>3.841时,有95%的把握说X与Y有关;当K2>6.635时,有99%的把握说X与Y有关;当K2>10.828时,有99.9%的把握说X与Y有关./题型一:抽样方法1.(2013·安徽,5,易)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是()A.这种抽样方法是一种分层抽样B.这种抽样方法是一种系统抽样C.这五名男生成绩的方差大于这五名女生成绩的方差D.该班男生成绩的平均数小于该班女生成绩的平均数《2.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.3.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.|若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.4.某工厂36名工人的年龄数据如上表..(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的平均值x-和方差s2;(3)36名工人中年龄在x--s与x-+s之间有多少人?所占的百分比是多少(精确到0.01%)?.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7 B.9 C.10 D.15…6.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为()A.11 B.12 C.13 D.147.(2016·重庆巴蜀一模,5)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是() A.12,24,15,9 B.9,12,12,7 C.8,15,12,5 D.8,16,10,6}8.设样本数据x1,x2,…,x10的均值和方差分别为1和4,若y i=x i+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为()A.1+a,4 B.1+a,4+a C.1,4 D.1,4+a?9.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为()A.8 B.15 C.16 D.3210.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第∶营区,从301到495在第∶营区,从496到600在第∶营区.三个营区被抽中的人数依次为()A.25,17,8 B.25,16,9 C.26,16,8 D.24,17,9~11.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()!分层抽样和系统抽样中的计算(1)系统抽样总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn 个(有零头时要先去掉).若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +Nn ,…,k +(n -1)N n . (2)分层抽样;按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.题型二:频率分布直方图1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20, 22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .120D .1402.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.3.随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.根据上述数据得到样本的频率分布表如下:(1)确定样本频率分布表中n1,n2,f1和f2的值;(2)根据上述频率分布表,画出样本频率分布直方图;(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.|;4.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18{5.我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.,6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则( )A .m e =m 0=x -B .m e =m 0<x -C .m e <m 0<x -D .m 0<m e <x -{7.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )A .0.04B .0.06C .0.2D .0.3>8.一所中学共有4 000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元~14元的学生大约有________人.9.某校高三(1)班全体女生的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如图①②所示,据此解答如下问题:(1)求高三(1)班全体女生的人数;(2)求分数在[80,90)之间的女生人数,并计算频率分布直方图中[80,90)之间的矩形的高;(3)若要从分数在[80,100)之间的试卷中任取两份分析女生失分情况,在抽取的试卷中,求至少有一份分数在[90,100)之间的概率.\10.(2015·课标∶,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:627381929585746453767886956697788882 7689B地区:738362519146537364829348658174565476 6579(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:记事件C :“A 地区用户的满意度等级高于B 地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C 的概率.|11.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数及平均数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?12.(12分)(2014·课标∶,18)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?<题型三、线性回归方程1.(2014·课标∶,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:}b ^=∑ni =1(t i -t -)(y i -y -)∑ni =1(t i -t -)2,a ^=y --b ^t -.2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元3.根据如下样本数据得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <04.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′,5.如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.!附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t -)(y i -y -)∑ni =1(t i -t -)2∑ni =1(y i -y -)2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑n i =1(t i -t -)(y i -y -)∑ni =1 (t i -t -)2,a ^=y --b ^t -.;6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg·7.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 负相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 正相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关8.(2012·课标全国,3,易)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1(9.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y 关于t 的回归方程y =b t +a ;10.表中提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( )A.3 B .3.15 C .3.5 题型四、2K 检验 1.2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:2.独立性检验利用随机变量K2(也可表示为χ2)=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.-独立性检验的方法(1)构造2×2列联表;(2)计算K2;(3)查表确定有多大的把握判定两个变量有关联.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.3.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查下表确定临界值k0:/(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.另外一种说法是有1-p的把握认为X与Y有关。