高考数学大一轮复习 第十一章 统计与统计案例 第2讲 统计图表、数据的数字特征、用样本估计总体练习

合集下载

高中数学步步高大一轮复习讲义说课稿公开课一等奖课件省赛课获奖课件

高中数学步步高大一轮复习讲义说课稿公开课一等奖课件省赛课获奖课件
解行对照(1试)如验下.两图种小麦各种植了 25 亩,所
得亩产数据(单位:千克)如下:
品种 A:
357,359,367,368,375,388,392,399,400,405,41
2,414,415,421,423,423,427,430,430,434,443,
445,445,451,454 品种 B:
2,414,415,421,423,423,427,430,430,434,443,
445,445,451,454 品种 B:
363,371,374,383,385,386,391,392,394,394,39
5,397,397,400,401,401,403,406,407,410,412,
415,416,422,430 (1)作出数据的茎叶图; (2)用茎叶图处理现有的数据,有什么优点? (3)通过观察茎叶图,对品种 A 与 B 的亩产 量及其稳定性进行比较,写出统计结论.
3.运用频率分布直方图 预计样本的数字特性
(1)中位数:在频率分布直 方图中,中位数左边和右 边的直方图的面积相等, 由此可以估计中位数值. (2)平均数:平均数的估计 值等于每个小矩形的面 积乘以矩形底边中点横 坐标之和. (3)众数:最高的矩形的中 点的横坐标.
一条折线,称之为频率折线图.
基础知识
(生0.,01将0+其物0.理01成5×绩2(均+0.025+0.005)×10+x=1,可得 x=0.3,所
为整数)分成六段
以[40频,50率),分[5布0,6直0),方…图,如[9图0,1所00示]后.得到如
图所示的频率分布直方图,观察图形的信
息,回答下列问题:
(1)求分数在[70,80)内的频率,并补全这个

高三数学一轮复习 11-1统计、统计案例 (北师大版)

高三数学一轮复习 11-1统计、统计案例 (北师大版)

上页
下页
末页
第二章 函数与基本初等函数
基础自测
1.(2010·四川文)一个单位职工800人,其中具有高级
职称的160人,具有中级职称的320人,具有初级职称的
200人,其余人员120人,为了解职工收入情况,决定采用
分层抽样的方法,从中抽取容量为40的样本,则从上述各
层中依次抽取的人数分别是( )
A.12,24,15,9
首页
上页
下页
末页
第二章 函数与基本初等函数
(4)独立性检验的一般步骤 ①根据样本数据制成 2×2 列联表. ②根据公式 χ2=a+ban+adc-bb+cd2 c+d,计算 χ2 的值. ③比较 χ2 与临界值的大小关系作统计推断.
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
(3)分析两个变量相关关系的常用方法 ①利用散点图进行判断:把样本数据表示的点在平面 直角坐标系中作出,从而得到散点图,如果这些点大致分 布在通过散点图中心的一条直线附近,那么就说这两个变 量之间具有线性相关关系. ②利用相关系数r进行判断:|r|≤1而且|r|越接近于1, 相关程度越大;|r|越接近于0,相关程度越小.
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页

高考数学大一轮复习 第十一章 统计与统计案例 11.3 变量间的相关关系、统计案例教师用书 理 新人

高考数学大一轮复习 第十一章 统计与统计案例 11.3 变量间的相关关系、统计案例教师用书 理 新人

2018版高考数学大一轮复习第十一章统计与统计案例11.3 变量间的相关关系、统计案例教师用书理新人教版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学大一轮复习第十一章统计与统计案例11.3 变量间的相关关系、统计案例教师用书理新人教版)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学大一轮复习第十一章统计与统计案例11.3 变量间的相关关系、统计案例教师用书理新人教版的全部内容。

第十一章统计与统计案例 11。

3 变量间的相关关系、统计案例教师用书理新人教版1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程错误!=错误!x+错误!是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中错误!,错误!是待定参数.错误!3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n),其中(错误!,错误!)称为样本点的中心.(3)相关系数当r〉0时,表明两个变量正相关;当r〈0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0。

高考数学一轮复习10.3统计图表、数据的数字特征、用样本估计总体课件理北师大版

高考数学一轮复习10.3统计图表、数据的数字特征、用样本估计总体课件理北师大版

8
知识梳理
考点自诊
则下面结论中不正确的是( A )
A .新农村建设后,种植收入减少 B .新农村建设后,其他收入增加了一倍以上 C .新农村建设后,养殖收入增加了一倍 D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收
入的一半
解析:设建设前经济收入为1,则建设后经济收入为2,建设前种植
收入为0 .6,建设后种植收入为2 × 0 .37 = 0 .74,故A 不正确;建设前 的其他收入为0 .04,养殖收入为0 .3,建设后其他收入为0 .1,养殖收 入为0 .6,故B、C 正确;建设后养殖收入与第三产业收入的总和所 占比例为58%, 故D 正确,故选A .
方差,为
6
知识梳理
考点自诊
1 .判断下列结论是否正确,正确的画“√”错, 误的画“× ”. (1)平均数、众数与中位数都可以描述数据的集中趋势. ( √ ) (2)一组数据的方差越大,说明这组数据的波动越大. ( √ )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该
区间内的频率越大. ( √ )
误的.故选C .
11
知识梳理
考点自诊
4 .(2018 宁夏平罗中学5 月模拟,3)某高校调查了320 名学生每 周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其 中自习时间的范围是[17.5,30],样本数据分组为 [17.5,20],[20,22.5], [22.5,25],[25,27.5],[27.5,30根].据直方 图,这320 名学生中每周的自习时B间不足22.5 小时的人数是( )
10
知识梳理
考点自诊
解析:对于选项A,2000 年以来我国实际利用外资规模,基本上是 逐年上升的,利用外资规模与年份正相关,所以选项A 是错误的;对 于选项B,2010 年以来我国实际利用外资规模,2012 年比2011 年 少,所以选项B是错误的;对于选项C,从折线图可以看出,2008 年我 国实际利用外资同比增速最大,所以选项C 是正确的;对于选项 D,2008 年以来我国实际利用外资同比增速最大,所以选项D 是错

2020届高考数学一轮复习 第11章 统计与统计案例

2020届高考数学一轮复习 第11章 统计与统计案例

第十章⎪⎪⎪ 统计与统计案例全国卷5年考情图解 高考命题规律把握1.本章在高考中的分值在12分左右,主要题型是选择题、解答题.2.随机抽样、样本估计总体、独立性检验多在解答题中作为问题的一部分出现.3.解答题多以实际生活为背景,考查利用统计知识解决实际问题的能力.第一节 随机抽样一、基础知识批注——理解深一点1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.①先将总体的N 个个体编号;②确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =N n;当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.③在第1段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k 得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.二、常用结论汇总——规律多一点(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.(4)三种抽样方法的特点、联系及适用范围类别共同点各自特点联系适用范围简单随机抽样①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体个数较少系统抽样将总体均分成几部分,按预先定出的规则在各部分中抽取在起始部分取样时,采用简单随机抽样总体个数较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次被抽到的可能性最大.()(2)从100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.()(3)系统抽样适用于元素个数很多且均衡的总体.()(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.()(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()(6)某校即将召开学生代表大会,现从高一、高二、高三共抽取60名代表,则可用分层抽样方法抽取.()答案:(1)×(2)×(3)√(4)×(5)×(6)√(二)选一选1.下面抽样方法是简单随机抽样的是()A.从平面直角坐标系中抽取5个点作为样本B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号) 解析:选D平面直角坐标系中有无数个点,这与简单随机抽样中要求总体中的个体数有限不相符,故A错误;一次性抽取不符合简单随机抽样逐个抽取的特点,故B错误;50名战士是最优秀的,不符合简单随机抽样的等可能性,故C错误.D选项显然符合简单随机抽样的特点,故选D.2.某学院A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B 专业有420名学生,则应在该学院的C专业抽取的学生人数为()A.30B.40C.50 D.60解析:选B C专业的学生有1 200-380-420=400名,由分层抽样知应抽取120×4001 200=40名.3.假设从高一年级全体同学(500人)中随机抽出60人参加一项活动,利用随机数法抽取样本时,先将500名同学按000,001,…,499进行编号,如果从随机数表第8行第11列的数开始,按三位数连续向右读取,最先抽出的5名同学的号码是(下面摘取了此随机数表第7行和第8行)()84421 75331 57245 50688 77047 44767 21763 35025 83921 2067663016 37859 16955 56719 98105 07175 12867 35807 44395 23879A.455068047447176B.169105071286443C.050358074439332D.447176335025212解析:选B由随机数表法的随机抽样的过程可知最先抽出的5名同学的号码为169,105,071,286,443.(三)填一填4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样5.某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点一简单随机抽样[典例]下列抽取样本的方式属于简单随机抽样的个数有()①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③用抽签方法从10件产品中选取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0个B.1个C.2个D.3个[解析]①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案] B[解题技法] 应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.[题组训练]1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 C .02 D .01解析:选D 由随机数法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.2.利用简单随机抽样,从n 个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为13,则在整个抽样过程中,每个个体被抽到的概率为( ) A.14B.13C.514D.1027解析:选C 根据题意,9n -1=13, 解得n =28.故在整个抽样过程中每个个体被抽到的概率为1028=514. 考点二 系统抽样[典例] (1)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19(2)中央电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)因为从1 000名学生中抽取一个容量为40的样本,所以系统抽样的分段间隔为1 00040=25, 设第一组随机抽取的号码为x ,则抽取的第18组编号为x +17×25=443,所以x =18.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10. [答案] (1)C (2)2 10[变透练清]1.(变结论)若本例(1)的条件不变,则编号落入区间[501,750]的人数为________.解析:从1 000名学生中抽取一个容量为40的样本,系统抽样分40组,每组1 00040=25个号码,每组抽取一个,从501到750恰好是第21组到第30组,共抽取10人.答案:102.(2018·南昌摸底调研)某校高三(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.解析:由题知分组间隔为648=8,又第1组中抽取的号码为5,所以第6组中抽取的号码为5×8+5=45.答案:45[解题技法] 系统抽样中所抽取编号的特点系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.考点三 分层抽样[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽取100人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8 [解析] 法一:因为抽样比为10020 000=1200,所以每类人中应抽取的人数分别为 4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8. 法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽取的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8. [答案] D[解题技法] 分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”. [题组训练]1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,若高二被抽取的人数为30,则n =( )A .860B .720C .1 020D .1 040解析:选D 由已知条件知抽样比为301 200=140,从而811 000+1 200+n =140,解得n = 1 040,故选D.2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为了解该区学生参加某项社会实践活动的意向,拟采用分层抽样的方法来进行调查.若高中需抽取20名学生,则小学与初中共需抽取的学生人数为________.解析:设小学与初中共需抽取的学生人数为x ,依题意可得 1 2002 700+2 400+1 200=20x +20,解得x =85.答案:85[课时跟踪检测]1.从2 019名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 019名学生中剔除19名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 019D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于M N,故每名学生入选的概率都相等,且为502 019. 2.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )C .06D .16解析:选C 被选中的红色球的号码依次为17,12,33,06,32,22,所以第四个被选中的红色球的号码为06.3.某班共有学生52人,现根据座号,用系统抽样的方法,抽取一个容量为4的样本.已知5号、18号、44号同学在样本中,那么样本中还有一个同学的座号是( )A .23B .27C .31D .33解析:选C 分段间隔为524=13,故样本中还有一个同学的座号为18+13=31. 4.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a ,b ,c ,且a ,b ,c 构成等差数列,则第二车间生产的产品数为( )A .800双B .1 000双C .1 200双D .1 500双解析:选C 因为a ,b ,c 成等差数列,所以2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .100,20B .200,20C .200,10D .100,10解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取高中生的近视人数为40×50%=20,故选B.6.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m +k 的个位数字相同.若m=6,则在第7组中抽取的号码是( )A .63B .64C .65D .66解析:选A 若m =6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间(450,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15解析:选C 960÷32=30,故由题意可得抽到的号码构成以9为首项,以30为公差的等差数列,其通项公式为a n =9+30(n -1)=30n -21.由450<30n -21≤750,解得15.7<n ≤25.7.又n 为正整数,所以16≤n ≤25,故做问卷B 的人数为25-16+1=10.故选C.8.某企业三月中旬生产A ,B ,C 三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:统计员记得A 产品的样本容量比C 产品的样本容量多10,根据以上信息,可得C 的产品数量是________件.解析:设样本容量为x ,则x 3 000×1 300=130,∴x =300. ∴A 产品和C 产品在样本中共有300-130=170(件).设C 产品的样本容量为y ,则y +y +10=170,∴y =80.∴C 产品的数量为3 000300×80=800(件). 答案:8009.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.答案:50 1 01510.将参加冬季越野跑的600名选手编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,把编号分为50组后,在第一组的001到012这12个编号中随机抽得的号码为004,这600名选手穿着三种颜色的衣服,从001到301穿红色衣服,从302到496穿白色衣服,从497到600穿黄色衣服,则抽到穿白色衣服的选手人数为________.解析:由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是4+12(k -1).令302≤4+12(k -1)≤496,得2556≤k ≤42,因此抽到穿白色衣服的选手人数为42-25=17(人).答案:1711.某初级中学共有学生2 000名,各年级男、女生人数如下表:(1)求x 的值;(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名? 解:(1)∵x2 000=0.19,∴x =380.(2)初三年级人数为y +z =2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为482 000×500=12(名).第二节用样本估计总体一、基础知识批注——理解深一点1.频率分布直方图(1)纵轴表示频率组距,即小长方形的高=频率组距;(2)小长方形的面积=组距×频率组距=频率; (3)各个小方形的面积总和等于1 . 2.频率分布表的画法第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.4.中位数、众数、平均数的定义 (1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据x 1,x 2,…,x n 的平均数x =1n (x 1+x 2+…+x n ). 5.样本的数字特征如果有n 个数据x 1,x 2,…,x n ,那么这n 个数的(1)平均数x =1n (x 1+x 2+…+x n ).(2)标准差s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].二、常用结论汇总——规律多一点1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .(2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)在频率分布直方图中,小矩形的高表示频率.( ) (2)频率分布直方图中各个长方形的面积之和为1.( )(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( ) (4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (5)一组数据的方差越大,说明这组数据的波动越大.( ) 答案:(1)× (2)√ (3)× (4)√ (5)√(二)选一选1.某便利店记录了100天某商品的日需求量(单位:件),整理得下表:A .16件B .16.2件C .16.6件D .16.8件解析:选D 由题意可知,日平均需求量为14×0.1+15×0.2+16×0.3+18×0.2+20×0.2=16.8(件).2.(2019·长春监测)已知某班级部分同学某次测验成绩的茎叶图如图所示,则其中位数和众数分别为( )A .92,94B .92,86C .99,86D .95,91解析:选B由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,故中位数为92,众数为86.故选B.3.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( )A.105 B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,则样本方差s 2=15×[(-1)2+02+12+22+(-2)2]=2,即所求的样本方差为2.(三)填一填4.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以年龄小于45岁的共有80×0.6=48(人).答案:485.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________. 解析:5个数的平均数x =4.7+4.8+5.1+5.4+5.55=5.1,所以它们的方差s 2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.答案:0.1考点一 茎叶图[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A .3,5B .5,5C .3,7D .5,7[解析] 由两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等, 所以15×[56+62+65+74+(70+x )]=15×(59+61+67+65+78),解得x =3.[答案] A[解题技法] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.[题组训练]1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )A .1B .2C .3D .4解析:选B 由图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.2.甲、乙两名篮球运动员5场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为x 甲,x 乙,则下列结论正确的是( )A.x 甲<x 乙;乙比甲得分稳定B.x 甲>x 乙;甲比乙得分稳定C.x 甲>x 乙;乙比甲得分稳定D.x 甲<x 乙;甲比乙得分稳定 解析:选A 因为x 甲=2+7+8+16+225=11,x乙=8+12+18+21+255=16.8,所以x甲<x 乙且乙比甲成绩稳定.考点二 频率分布直方图[典例] 某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得x =0.007 5.即直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.设中位数为a ,则0.45+0.012 5×(a -220)=0.5,解得a =224,即中位数为224. [变透练清]1.某校随机抽取20个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )解析:选A 以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项A 中的图.2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取________户.解析:月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280]的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为1125+15+10+5=15.所以月平均用电量在[220,240)的用户中应抽取25×15=5(户).答案:53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)估计全市居民中月均用水量不低于3吨的人数为3.6万.理由如下:由(1)知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000=3.6(万).[解题技法]考点三样本的数字特征考法(一)样本的数字特征与频率分布直方图交汇[典例](2019·辽宁师范大学附属中学模拟)某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是()。

2015年高考数学(文)一轮课件:11-2用样本估计总体

2015年高考数学(文)一轮课件:11-2用样本估计总体

●三个特征 利用频率分布直方图估计样本的数字特征: (1)中位数:在频率分布直方图中,中位数左边和右边的直方 图的面积相等,由此可以估计中位数值. (2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形 底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标.
1.在如图所示的茎叶图表示的数据中,众数和中位数分别 是( )
解析:由题知,在区间[10,50)上的数据的频数是2+3+4+5 14 =14,故其频率为 =0.7. 20
答案:D
3.从某小学随机抽取100名同学,将他们的身高(单位:厘 米)数据绘制成频率分布直方图.由图中数据可知身高在[120,130] 内的学生人数为( )
A.20 C.30
B.25 D.35
A. x 甲< x 乙,m甲>m乙 C. x 甲> x 乙,m甲>m乙
B. x 甲< x 乙,m甲<m乙 D. x 甲> x 乙,m甲<m乙
思维启迪:仔细观察茎叶图.中位数为一列数中最中间的那 个,当数有偶数个时,中位数为中间两个数的平均数.
解析:甲数据集中于前半段,而乙数据集中于后半段,所以 18+22 27+31 x 甲< x 乙;m甲= 2 =20,m乙= 2 =29,所以m甲<m乙,所 以选B.
答案:(1)频率为0.3,频率分布直方图略;(2)71分.
点评:频率分布直方图直观形象地表示了样本的频率分布, 从这个直方图上可以求出样本数据在各个组的频率分布.根据频 率分布直方图估计样本(或者总体)的平均值时,一般是采取组中 值乘以各组的频率的方法.
通关训练1 有一个容量为200的样本,其频率分布直方图 如图所示.根据样本的频率分布直方图估计,样本数据落在区间 [10,12)内的频数为( )

高考数学一轮复习配套课件:10.2统计图表、数据的数字特征、用样本估计总体(北师大版·数学理)

高考数学一轮复习配套课件:10.2统计图表、数据的数字特征、用样本估计总体(北师大版·数学理)

(3)根据国家标准,污染指数在0~50之间时,空气质量为优; 在51~100之间时,为良;在101~150之间时,为轻微污染; 在151~200之间时,为轻度污染. 请你依据所给数据和上述标准,对该市的空气质量给出一个简 短评价. 【解题指南】首先根据题目中的数据完成频率分布表,作出频 率分布直方图,根据污染指数,确定空气质量为优、良、轻微 污染、轻度污染的天数.
天,占当月天数的 17,超过50%,说明该市空气质量有待进一
30
步改善.
4.会用样本的频率分布估计总体分布,会用样本的基本数字特 征估计总体的基本数字特征,理解用样本估计总体的思想; 5.会用随机抽样的基本方法和样本估计总体的思想解决一些简 单的实际问题.
1.频率分布直方图的应用和平均数、标准差的计算及应用是考 查重点; 2.频率分布等内容经常与概率等知识相结合出题; 3.题型以选择题和填空题为主,与概率交汇则以解答题为主.
【提醒】在画频率分布表或频率分布直方图分组时,取值区间 两端点可根据数据分别向外延伸半个组距.
【例1】对某电子元件进行寿命追踪调查,情况如下:
寿命(h) [100,200) [200,300) [300,400) [400,500) [500,600]
个数
20
30
80
40
30
(1)列出频率分布表; (2)画出频率分布直方图; (3)估计电子元件寿命在[100,400) h以内的概率; (4)估计电子元件寿命在400 h以上的概率.
统计与概率的综合应用 【方法点睛】统计与概率的综合 高考中,对统计知识的考查,往往与概率相结合,考查学生分 析、使用统计图表的能力,抽样方法的操作,概率(尤其是古 典概型)的求解,并进一步解决实际问题.在此类问题中,从统 计图表中准确获取相关信息是解题关键.

版高考数学一轮复习 核心素养测评六十二 11.2 统计图表、数据的数字特征 文(含解析)北师大版-北

版高考数学一轮复习 核心素养测评六十二 11.2 统计图表、数据的数字特征 文(含解析)北师大版-北

核心素养测评六十二统计图表、数据的数字特征、用样本估计总体(30分钟60分)一、选择题(每小题5分,共25分)1.某学生在一门功课的22次考试中,所得分数的茎叶图如图所示,则此学生该门功课考试成绩的极差与中位数之和为( )A.117B.118【解析】选B.22次考试成绩最高为98分,最低为56分,所以极差为98-56=42,从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试成绩的极差与中位数之和为42+76=118.2.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的X围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是 ( )A.56B.60C.120D.140【解析】选D.由频率分布直方图可知,每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.3.(2020·某某模拟)由小到大排列的一组数据x1,x2,x3,x4,x5,其中每个数据都小于-1,那么对于样本1,x1,-x2,x3,-x4,x5的中位数可以表示为( )A. B.C. D.【解析】选C.因为x1<x2<x3<x4<x5<-1,所以x1<x3<x5<1<-x4<-x2,则该组样本的中位数为中间两数的平均数,即.4.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差【解析】选A.9个数据去掉最高分与最低分2个,最中间的数据没变,所以不变的数字特征是中位数.5.某户居民根据以往的月用电量情况,绘制了月用电量的频率分布直方图(月用电量都在25度到325度之间)如图所示.估计该用户的月用电量的平均数、中位数、众数分别为世纪金榜导学号( )A.161,158,150B.150,150,150C.175,125,150D.161,175,150【解析】选A.估计该用户的月用电量的平均数:=50×0.12+100×0.18+150×0.3+200×0.22+250×0.12+300×0.06=161.估计该用户的月用电量的中位数约为:158.估计该用户的月用电量的众数约为:150.二、填空题(每小题5分,共15分)6.(2019·某某高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是.【解析】由题意,该组数据的平均数为=8,所以该组数据的方差是[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=.答案:7.(2020·某某模拟)如图所示的茎叶图记录了一组数据,关于这组数据,其中说法正确的序号是.①众数是9;②平均数是10;③中位数是9;④标准差是3.4.【解析】由题意可知,该组数据分别为:7,8,9,9,9,10,11,12,12,13,该组数据的众数为9,平均数为=10,中位数为=9.5,标准差为=,因此,①②正确.答案:①②8.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)频率分布直方图中x的值为.(2)在这些用户中,用电量落在区间[100,250)内的户数为.【解析】(1)由频率分布直方图中各小矩形的总面积为1,得(0.0012+0.0024×2+0.0036+x+0.0060)×50=1,解得x=0.0044.(2)用电量在[100,250)内的频率为(0.0036+0.0044+0.0060)×50=0.7,故用电量落在区间[100,250)内的户数为100×0.7=70.答案:(1)0.0044 (2)70三、解答题(每小题10分,共20分)9.为庆祝国庆节,某中学团委组织了“歌颂祖国,爱我中华”知识竞赛,从参加考试的学生中抽出60名,将其成绩(成绩均为整数)分成[40,50),[50,60),…,[90,100]六组,并画出如图所示的部分频率分布直方图,观察图形,回答下列问题:(1)求第四组的频率,并补全这个频率分布直方图.(2)估计这次考试的及格率(60分及以上为及格)和平均分.【解析】(1)因为各组的频率和等于1,所以第四组的频率为1-(0.025+0.015×2+0.010+0.005)×10=0.3.补全的频率分布直方图如图所示.(2)依题意可得第三、四、五、六组的频率之和为(0.015+0.030+0.025+0.005)×10=0.75,则可估计这次考试的及格率是75%.因为抽取学生的平均分约为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71(分),所以可估计这次考试的平均分为71分.10.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机选取18位患者服用A药,18位患者服用B药,这36位患者服用一段时间后,记录他们日平均增加的睡眠时间(单位:h),试验的观测结果如下:服用A药的18位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.22.5 2.6 1.2 2.7 1.5 2.93.0 3.1 2.3服用B药的18位患者日平均增加的睡眠时间:3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.31.6 0.5 1.8 0.62.1 1.1 2.5 1.2 2.7(1)分别计算两组数据的平均数(小数点后保留两位小数),从计算结果看哪种药疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?并说明理由. 世纪金榜导学号【解析】(1)服用A药的18位患者日平均增加的睡眠时间的平均数为=(0.6+1.2+2.7+…+3.0+3.1+2.3)≈2.23(h)服用B药的18位患者日平均增加的睡眠时间的平均数为=(3.2+1.7+1.9+…+2.5+1.2+2.7)≈1.67(h),因为2.23>1.67,所以A种药的疗效更好.(2)由观测结果可绘制如图茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.(15分钟35分)1.(5分)(2020·某某模拟)某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品的中位数与平均数分别为( )A.20,22.5B.22.5,25C.22.5,22.75D.22.75,22.75【解析】选C.根据频率分布直方图,得平均数为5×(12.5×0.02+17.5×0.04+22.5×0.08+27.5×0.03+32.5×0.03)=22.75,因为0.02×5+0.04×5=0.3<0.5,0.3+0.08×5=0.7>0.5,所以中位数应在20~25内,设中位数为x,则0.3+(x-20)×0.08=0.5,解得x=22.5,所以这批产品的中位数是22.5.【变式备选】某市要对两千多名出租车司机的年龄进行调查,现从中随机抽出100名司机,已知抽到的司机年龄都在[20,45]岁之间,根据调查结果得出司机的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频率分布直方图估计该市出租车司机年龄的中位数大约是( )岁岁岁岁【解析】选C.在频率分布直方图中,所有矩形面积之和为1,所以,数据位于的频率为1-×5=0.2,前两个矩形的面积之和为0.01×5+0.2=0.25,前三个矩形的面积之和为0.25+0.07×5=0.6,所以,中位数位于区间,设中位数为a,则有0.25+×0.07=0.5,解得a≈33.6(岁).2.(5分)(2020·某某模拟)气象意义上从春季进入夏季的标志为连续5天的日平均温度均不低于22℃.现有甲、乙、丙三地连续5天的日平均温度的记录数据:(记录数据都是正整数)①甲地5个数据的中位数为24,众数为22;②乙地5个数据的中位数为27,总体均值为24;③丙地5个数据中有一个数据是32,总体均值为26,总体方差为10.8.则肯定进入夏季的地区有.(填序号) 世纪金榜导学号【解析】①甲地:5个数据的中位数为24,众数为22,根据数据得出:甲地连续5天的日平均温度的记录数据可能为:22,22,24,25,26,其连续5天的日平均气温均不低于22;②乙地:5个数据的中位数为27,总体均值为24,当5个数据为19,20,27,27,27时,可知其连续5天的日平均温度有低于22℃的,故不确定;③丙地:5个数据中有一个数据是32,总体均值为26,若有低于22,假设取21,此时方差就超出了10.8,可知其连续5天的日平均温度均不低于22.则肯定进入夏季的地区有甲、丙两地.答案:①③【变式备选】已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为s2,则( )A.=70,s2<75B.=70,s2>75C.>70,s2<75D.<70,s2>75【解析】选A.由题意,可得==70,设收集的48个准确数据分别记为x1,x2,…,x48,则75=[++…++(60-70)2+(90-70)2]=[++…++500],s2=[++…++(80-70)2+(70-70)2]=[++…++100]<75,所以s2<75.3.(5分)(2020·某某模拟)某同学10次测评成绩的数据如茎叶图所示,总体的中位数为12,若要使该总体的标准差最小,则4x+2y的值是( )A.12B.14C.16D.18【解析】选A.因为中位数为12,所以x+y=4,数据的平均数为×(2+2+3+4+x+y+20+19+19+20+21)=11.4,要使该总体的标准差最小,即方差最小,所以(10+x-11.4)2+(10+y-11.4)2=(x-1.4)2+(y-1.4)2≥2=0.72,当且仅当x-1.4=y-1.4,即x=y=2时取等号,此时总体标准差最小,4x+2y=12.【变式备选】(2020·某某模拟)已知样本9,10,11,x,y的平均数是10,方差是2,则xy的值为( ) A.88 B.96 C.108 D.110【解析】选B.由于样本的平均数为10,则有=10,得x+y=20,由于样本的方差为2,则有=2,得+=8,即x2+y2-20+200=8,所以x2+y2=208,因此xy==96.4.(10分)(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80)企业数 2 24 53 14 7(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例.(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 世纪金榜导学号附:≈8.602.【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.产值负增长的企业频率为=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)=(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=n i=[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,所以s==0.02×≈0.17,所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.5.(10分)(2020·某某模拟)栀子原产于中国,喜温暖湿润、阳光充足的环境,较耐寒.叶,四季常绿;花,芳香素雅.绿叶白花,格外清丽.某地区引种了一批栀子作为绿化景观植物,一段时间后,从该批栀子中随机抽取100棵测量植株高度,并以此测量数据作为样本,得到该样本的频率分布直方图,其中不高于1.50m的植株高度茎叶图如图所示. 世纪金榜导学号(1)求植株高度频率分布直方图中a,b,c的值.(2)在植株高度频率分布直方图中,同一组中的数据用该区间的中点值代表,植株高度落入该区间的频率作为植株高度取该区间中点值的频率,估计这批栀子植株高度的平均值.【解析】(1)由茎叶图知,a==0.5,b==1.由频率分布直方图知(0.5+1+c+3+4)×0.1=1,所以c=1.5.(2)这批栀子植株高度的平均值的估计值为×0.1=1.60(m).(2020·某某模拟)某高中非毕业班学生人数分布情况如表,为了了解这2000个学生的体重情况,从中随机抽取160个学生并测量其体重数据,根据测量数据制作了如图所示的频率分布直方图.性别年级男生女生合计高一年级550 650 1200高二年级425 375 800合计975 1025 2000(1)为了使抽取的160个样品更具代表性,宜采取分层抽样,请你给出一个你认为合适的分层抽样方案,并确定每层应抽取的样品个数.(2)根据频率分布直方图,求x的值,并估计全体非毕业班学生中体重在[45,75)内的人数.(3)已知高一全体学生的平均体重为58.50kg,高二全体学生的平均体重为61.25kg,试估计全体非毕业班学生的平均体重. 世纪金榜导学号【解析】(1)方案一:考虑到体重应与年级及性别均有关,最合理的分层应分为以下四层:高一男生、高一女生、高二男生、高二女生高一男生:×160=44(人),高一女生:×160=52(人),高二男生:×160=34(人),高二女生:×160=30(人),方案二:按性别分为两层,男生与女生:男生人数:×160=78(人),女生人数:×160=82(人).方案三:按年级分为两层,高一学生与高二学生:高一人数:×160=96(人),高二人数:×160=64(人).(2)体重在[70,80)内的学生人数的频率:1-(0.075+0.2+0.275+0.225+0.05+0.025)=0.15,x==0.015,体重在[45,75)内人数的频率为:0.1+0.275+0.225+0.075=0.675,所以估计全体非毕业班学生体重在[45,75)内的人数为:2000×0.675=1350(人).(3)设高一全体学生的平均体重为=58.5kg,频率为P1=×100%=60%.高二全体学生的平均体重为=61.25kg,频率为P2=×100%=40%,则估计全体非毕业班学生的平均体重为·P1+·P2=58.50×60%+61.25×40%=59.6(kg).答:估计全校非毕业班学生的平均体重为59.6kg.。

高考数学一轮复习第十一章统计与统计案例2用样本估计总体课件新人教A版2

高考数学一轮复习第十一章统计与统计案例2用样本估计总体课件新人教A版2
②绘制频率分布直方图的步骤为:a. 求极差
;b.决定组距与
组数;c. 将数据分组
;d.列频率分布表;e.画频率分布直方
图.
-3知识梳理
双基自测
(3)总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中
点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,
底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方
24
图如图所示,则在抽测的60株树木中,有
株树木的底部
周长小于100 cm.
解析 由题意知,在抽测的60株树木中,底部周长小于100 cm的株
数为(0.015+0.025)×10×60=24.
-11考点1
考点2
考点3
考点 1
组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,
统计中称这条光滑曲线为总体密度曲线.总体密度曲线反映了总体
在各个范围内取值的百分比,它能提供更加精细的信息.
(4)茎叶图:茎叶图中茎是指 中间 的一列数,叶是从茎的 旁边
生长出来的数.当样本数据较少时,用茎叶图表示数据的效果较好,
它不但可以保留所有信息,而且可以随时记录,给数据的记录和表
月平均用电量在[260,280)的用户有0.005×20×100=10(户),
月平均用电量在[280,300]的用户有0.002 5×20×100=5(户),抽
11
1
= ,
取比例为
25+15+10+5
5
所以月平均用电量在[220,240)的用户中应抽取25×
1
5 =5(户).
-14考点1

2019大一轮高考总复习文数北师大版课件:第11章 第3节

2019大一轮高考总复习文数北师大版课件:第11章 第3节

(5) 在 频 率 分 布 直 方 图 中 , 众 数 左 边 和 右 边 的 小 长 方 形 的 面 积 和 是 相 等
(6)一组数据的方差越大,说明这组数据的波动越大.(
答案:(1)× (2)√ (3)× (4)√ (5)× (6)√
2.(教材习题改编)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示, 则这组数据的中位数和平均数分别是( A ) A.91.5和91.5 C.91和91.5 B.91.5和92 D.92和92
到. 比较 . ②茎叶图可以随时记录,方便________ (2)茎叶图表示数据的缺点 当数据量很大或有多组数据时,茎叶图就不那么直观清晰了.
4.数据的数字特征 (1)众数、中位数、平均数
数字特征 众数 定义与求法 一组数据中重复出现次数 最多 的数 ________ 优点与缺点 众数通常用于描述变量的值出现次数最多的 数.但显然它对其他数据信息的忽视使它无 法客观地反映总体特征
91+92 解析: 这组数据由小到大排列为 87,89,90,91,92,93,94,96. ∴中位数是 2 = , - 87+89+90+91+92+93+94+96 91.5,,平均数 x = =91.5. 8
பைடு நூலகம்
3.某雷达测速区规定:凡车速大于或等于 70 km/h的汽
车视为“超速”,并将受到处罚.如图是某路段的一个检 测点对200辆汽车的车速进行检测所得结果的频率分布直方 图,则从图中可以看出被处罚的汽车大约有( B ) A.30辆 B.40辆
1.判断下列结论的正误(正确的打“√”,错误的打“×”)
(1)在频率分布直方图中,小矩形的高表示频率.(
(2)频率分布直方图中各个长方形的面积之和为1.( 相同的数据可以只记一次.( )

(全国通用)高考数学大一轮复习第十一章统计与统计案例11.3变量间的相关关系、统计案例学案

(全国通用)高考数学大一轮复习第十一章统计与统计案例11.3变量间的相关关系、统计案例学案

§11.3变量间的相关关系、统计案例最新考纲考情考向分析1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用. 回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择、填空题中也会出现.主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i -x )(y i-y )∑ni =1 (x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表总计 a +c b +d a +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )题组二 教材改编2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A .回归分析 B .均值与方差 C .独立性检验 D .概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:y 1 y 2合计 x 1 a21 73 x 22225 47 合计b46120则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74D .74,52答案 C解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 20 30 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题组三 易错自纠5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2统计量研究患肺病是否与吸烟有关.计算得K 2=4.453,经查阅临界值表知P (K 2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A .在100个吸烟的人中约有95个人患肺病B .若某人吸烟,那么他有95%的可能性患肺病C .有95%的把握认为“患肺病与吸烟有关”D .只有5%的把握认为“患肺病与吸烟有关” 答案 C解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)学生的编号i 1 2 3 4 5 数学成绩x 80 75 70 65 60 物理成绩y7066686462现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.题型一 相关关系的判断1.观察下列各图形,其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③答案 C解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A 选项正确;2007年二氧化硫排放量较2006年降低了很多,B 选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C 选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D.3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21e c xc 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21ec xc 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关. 题型二 线性回归分析典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y)2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y)∑i =1n(t i -t )2∑i =1n(y i -y)2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17(y i -y)2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i -x )2∑i =18(w i -w )2 ∑i =18(x i -x )·(y i -∑i =18(w i -w )·(y i -y )表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v)∑i =1n(u i -u)2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w)·(y i -y )∑i =18(w i -w)2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.题型三 独立性检验典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg”,C 表示事件“新养殖法的箱产量不低于50 kg”.由题意知,P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35 (kg).思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:合计 135 45 180(2)将列联表中数据代入公式可得: K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.年份-2010 -4 -2 0 2 4 需求-257-21-111929对处理的数据,容易算得x =0,y =3.2,[4分]b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.根据如下样本数据:x 3 4 5 6 7 8 y4.02.50.50.50.40.1得到的线性回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,4.0)及(4,2.5)可知a ^>0,故选B.2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.0100.001正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C. 3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^ ,解得a ^=18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y ^ =b ^ x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^ =∑6i =1x i y i -6x ·y ∑i =16x 2i -6x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^ <b ′,a ^>a ′.6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:若t 与y 之间具有线性相关关系,则其回归直线y ^=b ^t +a ^一定过点( ) A .(3,9) B .(9,3) C .(6,14) D .(4,11)答案 A解析 t =17(0+1+2+3+4+5+6)=3,y =17(8+8+8+9+9+10+11)=9,所以回归直线y ^=b ^t +a ^一定过点(3,9).7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t ^=6.5m +17.5,则p =________. 答案 60解析 由于回归直线过样本点的中心,m =5,t =190+p5,代入t ^=6.5m +17.5,解得p =60.8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的统计量K 2来说,K 2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量K 2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,10),其线性回归方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i =________. 答案 4解析 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过(x ,y ),∴y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=1428=0.5,a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入不低于55百元的人数 月收入低于55百元的人数总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计104050K 2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·通州一模)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 答案 C解析 R 2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率. 参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)2×2列联表如下:因为K 2=100×(35×5-45×15)250×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休年龄政策”的人中抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.则8人中随机抽2人共有C 28=28种抽法,至少有1人是45岁及45岁以上共有C 16C 12+C 22=13(种)抽法,故所求概率为1328.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828答案 12解析 设男生人数为x ,由题意可得列联表如下:喜欢韩剧 不喜欢韩剧总计男生 x65x 6x 女生 x3x6x2总计x2x3x 2若有95%的把握认为是否喜欢韩剧和性别有关, 则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1 (t i -t )(y i -y )=21,14≈3.74, ∑7i =1 (y i -y ^i )2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2∑n i =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^ t . 反映回归效果的公式为:R 2=1-∑n i =1(y i -y ^i )2∑ni =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好.解 (1)由折线图中的数据得,t =4,∑7i =1 (t i -t )2=28,∑7i =1(y i -y )2=18, 所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.2

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.2

1.统计图表统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图等. 2.数据的数字特征 (1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ).在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. (2)样本方差、标准差 标准差s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是样本容量,x 是平均数.标准差是刻画数据的离散程度的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. 3.用样本估计总体(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且可以随时记录,方便表示与比较. 【知识拓展】1.频率分布直方图的特点(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示频率组距,频率=组距×频率组距.(2)频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观. 2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .(2)数据x 1,x 2,…,x n 的方差为s 2.①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √ ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( × )1.(教材改编)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92答案 A解析 这组数据由小到大排列为87,89,90,91,92,93,94,96, ∴中位数是91+922=91.5,平均数x =87+89+90+91+92+93+94+968=91.5.2.(2015·陕西)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A .93B .123C .137D .167 答案 C解析 由题干扇形统计图可得该校女教师人数为110×70%+150×(1-60%)=137.故选C. 3.(2016·宜宾模拟)若数据x 1,x 2,x 3,…,x n 的平均数为x =5,方差s 2=2,则数据3x 1+1,3x 2+1,3x 3+1,…,3x n +1的平均数和方差分别为( ) A .5,2 B .16,2 C .16,18 D .16,9答案 C解析 ∵x 1,x 2,x 3,…,x n 的平均数为5, ∴x 1+x 2+x 3+…+x n n=5,∴3x 1+3x 2+3x 3+…+3x n n +1=3×5+1=16,∵x 1,x 2,x 3,…,x n 的方差为2,∴3x 1+1,3x 2+1,3x 3+1,…,3x n +1的方差是32×2=18.4.(2016·江苏)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________. 答案 0.1解析 x =4.7+4.8+5.1+5.4+5.55=5.1,则方差s 2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.5.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24.题型一 频率分布直方图的绘制与应用例1 (2016·北京)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w 立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w 为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w 至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w =3时,估计该市居民该月的人均水费.解 (1)如图所示,用水量在[0.5,3)的频率的和为 (0.2+0.3+0.4+0.5+0.3)×0.5=0.85.∴用水量小于等于3立方米的频率为0.85,又w为整数,∴为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.(2)当w=3时,该市居民该月的人均水费估计为(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=7.2+1.8+1.5=10.5(元).即该市居民该月的人均水费估计为10.5元.思维升华(1)明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积和为1.(2)对于统计图表类题目,最重要的是认真观察图表,从中提炼有用的信息和数据.(2015·课标全国Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均数及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解(1)如图所示.通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均数高于A地区用户满意度评分的平均数;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.题型二茎叶图的应用例2(1)(2015·山东)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③ D .②④(2)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x ,y 的值分别为( ) A .2,5 B .5,5 C .5,8 D .8,8 答案 (1)B (2)C解析 (1)甲地5天的气温为26,28,29,31,31, 其平均数为x甲=26+28+29+31+315=29; 方差为s 2甲=15[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3.6; 标准差为s 甲= 3.6.乙地5天的气温为28,29,30,31,32, 其平均数为x乙=28+29+30+31+325=30; 方差为s 2乙=15[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2; 标准差为s 乙= 2. ∴x甲<x 乙,s 甲>s 乙.(2)由茎叶图及已知得x =5,又乙组数据的平均数为16.8,即9+15+10+y +18+245=16.8,解得y =8. 引申探究1.本例(2)中条件不变,试比较甲、乙两组哪组成绩较好? 解 由原题可知x =5,则甲组平均数为9+12+15+24+275=17.4.而乙组平均数为16.8,所以甲组成绩较好.2.在本例(2)条件下:①求乙组数据的中位数、众数;②求乙组数据的方差. 解 ①由茎叶图知,乙组中五名学生的成绩为9,15,18,18,24. 故中位数为18,众数为18.②s 2=15[(9-16.8)2+(15-16.8)2+(18-16.8)2×2+(24-16.8)2]=23.76.思维升华 茎叶图的优缺点由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.(1)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则7个剩余分数的方差为( ) A.1169 B.367 C .36 D.677 答案 (1)A (2)B解析 (1)由于频率分布直方图的组距为5,排除C 、D ,又[0,5),[5,10)两组各一人,排除B ,应选A.(2)由题意知87+94+90+91+90+90+x +917=91,解得x =4.所以s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2] =17(16+9+1+0+1+9+0)=367. 题型三 用样本的数字特征估计总体的数字特征例3 (1)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为________. 答案 2 解析 x 甲=15(87+91+90+89+93)=90, x乙=15(89+90+91+88+92)=90, s 2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4, s 2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.(2)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.①分别求出两人得分的平均数与方差;②根据图和上面算得的结果,对两人的训练成绩作出评价. 解 ①由图像可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分. x 甲=10+13+12+14+165=13;x 乙=13+14+12+12+145=13,s 2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4; s 2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8. ②由s 2甲>s 2乙,可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.思维升华 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.(2016·全国乙卷)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得以下柱状图: 记x 表示1台机器在三年使用期内需更换的易损零件数,y 表示1台机器在购买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数.(1)若n =19,求y 与x 的函数解析式;(2)若要求“需更换的易损零件数不大于n ”的频率不小于0.5,求n 的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件? 解 (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700. 所以y 与x 的函数解析式为y =⎩⎪⎨⎪⎧3 800,x ≤19,500x -5 700,x >19(x ∈N ). (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.(3)若每台机器在购机的同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800元,20台的费用为4 300元,10台的费用为4 800元,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000(元), 若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050(元). 比较两个平均数可知,购买1台机器的同时应购买19个易损零件.9.高考中频率分布直方图的应用考点分析频率分布直方图是高考考查的热点,考查频率很高,题型有选择题、填空题,也有解答题,难度为低中档.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.典例(12分)(2016·四川)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.规范解答解(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.[3分]由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.[5分](2)由(1)知,100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.[8分](3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.[12分]1.(2017·铁岭月考)在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A,B两样本的下列数字特征对应相同的是() A.平均数B.标准差C.众数D.中位数答案 B解析由B样本数据恰好是A样本数据每个都减5后所得数据,可得平均数、众数、中位数分别是原来结果减去5,即与A样本不相同,标准差不变,故选B.2.(2016·山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140答案 D解析设所求人数为N,则N=2.5×(0.16+0.08+0.04)×200=140,故选D. 3.(2017·北京西城区质检)下图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B .0.4 C .0.5 D .0.6 答案 B解析 10个数据落在区间[22,30)内的数据有22,22,27,29,共4个,因此,所求的频率为410=0.4.故选B.4.(2016·西安模拟)某公司10位员工的月工资(单位:元)为x 1,x 2,…,x 10,其平均数和方差分别为x 和s 2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的平均数和方差分别为( ) A.x ,s 2+1002 B.x +100,s 2+1002 C.x ,s 2 D.x +100,s 2答案 D 解析x 1+x 2+…+x 1010=x ,y i =x i +100,所以y 1,y 2,…,y 10的平均数为x +100,方差不变,故选D.5.(2016·山西大学附中诊断测试)已知样本(x 1,x 2,…,x n )的平均数为x ,样本(y 1,y 2,…,y m )的平均数为y (x ≠y ),若样本(x 1,x 2,…,x n ,y 1,y 2,…,y m )的平均数z =a x +(1-a )y ,其中0<a <12,则n ,m 的大小关系为( )A .n <mB .n >mC .n =mD .不能确定答案 A解析 由题意可得x =x 1+x 2+…+x nn ,y =y 1+y 2+…+y m m,z =x 1+x 2+…+x n +y 1+y 2+…+y m n +m=n n +m ·x 1+x 2+…+x n n +m n +m·y 1+y 2+…+y mm=nn +m ·x +mn +m ·y =a x +(1-a )y , 所以n n +m =a ,m n +m=1-a ,又0<a <12,所以0<n n +m <12<m n +m,故n <m .6.(2016·北京朝阳区期末)在一段时间内有2 000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如下面的频率分布直方图所示.若该处高速公路规定正常行驶速度为90 km /h ~120 km/h ,试估计2 000辆车中,在这段时间内以正常速度通过该处的汽车约有( )A .30辆B .300辆C .170辆D .1 700辆答案 D解析 以正常速度通过该处的汽车频率为1-(0.01+0.005)×10=0.85,所以以正常速度通过该处的汽车约有0.85×2 000=1 700(辆).7.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本方差为________. 答案 2解析 由题意可知样本的平均数为1, 所以a +0+1+2+35=1,解得a =-1,所以样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2. 8.(2015·湖北)某电子商务公司对10 000名网络购物者在2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案(1)3(2)6 000解析由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.于是消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.9.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.答案16解析若x1,x2,…,x n的标准差为s,则ax1+b,ax2+b,…,ax n+b的标准差为as.由题意s=8,则上述标准差为2×8=16.10.某学校随机抽取部分新生调查其上学所需时间(单位:分钟),并将所得数据绘制成频率分布直方图(如图),其中,上学所需时间的范围是[0,100],样本数据分组为[0,20),[20,40),[40,60),[60,80),[80,100].则(1)图中的x=________;(2)若上学所需时间不少于1小时的学生可申请在学校住宿,则该校600名新生中估计有________名学生可以申请住宿.答案(1)0.012 5(2)72解析(1)由频率分布直方图知20x=1-20×(0.025+0.006 5+0.003+0.003),解得x=0.012 5.(2)上学时间不少于1小时的学生的频率为0.12,因此估计有0.12×600=72(人)可以申请住宿.11.某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:(1)求分数在[50,60]的频率及全班人数;(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高. 解 (1)分数在[50,60]的频率为0.008×10=0.08. 由茎叶图知,分数在[50,60]之间的频数为2, 所以全班人数为20.08=25.(2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为425÷10=0.016. 12.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本的中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本的中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.。

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.3

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.3

1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y∑n i =1x 2i -n x 2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心. (3)相关系数①r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑n i =1(y i -y )2=-=∑ni ix y n x y;②当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关; 当r =0时,表明两个变量线性不相关.|r |值越接近于1,表明两个变量之间的线性相关程度越高. |r |值越接近于0,表明两个变量之间的线性相关程度越低. 4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值, 变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1. 2×2列联表:构造一个统计量χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; 当χ2>2.706时,有90%的把握判定变量A ,B 有关联; 当χ2>3.841时,有95%的把握判定变量A ,B 有关联; 当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.(×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.(√)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by+a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.2.(教材改编)下面是2×2列联表:则表中a,b的值分别为(A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.(2016·河南八市质检)为了研究某大型超市当天销售额与开业天数的关系,随机抽取了5天,其当天销售额与开业天数的数据如下表所示:根据上表提供的数据,求得y关于x的线性回归方程为y=0.67x+54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为() A.67 B.68 C.68.3 D.71答案 B解析设表中模糊看不清的数据为m,因为x=10+20+30+40+505=30,又样本中心点(x,y)在回归直线y=0.67x+54.9上,所以y=m+3075=0.67×30+54.9,得m=68,故选B.4.(2016·西安模拟)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得线性回归方程y=15元时,每天的销售量为()A.51个B.50个C.49个D.48个答案 C解析由题意知x=17.5,y=39,代入线性回归方程得a=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得χ2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案95解析根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一相关关系的判断例1(1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y与x负相关且y=2.347x-6.423;②y与x负相关且y=-3.476x+5.648;③y与x正相关且y=5.437x+8.493;④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c12e c x拟合时的相关系数的平方为r21,用y=bx+a拟合时的相关系数的平方为r22,则r21>r22;③x、y之间不能建立线性回归方程.答案(1)D(2)①②解析(1)由线性回归方程y=bx+a知当b>0时,y与x正相关,当b<0时,y与x负相关,∴①④一定错误.(2)①显然正确;由散点图知,用y=c12e c x拟合的效果比用y=bx+a拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.(1)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C. 题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b =∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人.(1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )解 (1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关. 根据(1)中的数据,可以求得χ2=100×(15×46-35×4)250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关. 思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2.③比较χ2与临界值的大小关系,作出统计推断.(2016·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得χ2=800×(60×500-100×140)2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.24.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组统计数据,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b =(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为 y -257=6.5(x -2010)+3.2, 即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y =3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y =3x -32上,所以m 4+2=3×32-32,得m =4.2.(2017·武汉质检)根据如下样本数据A.a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0答案 B解析作出散点图如下:观察图像可知,回归直线y=bx+a的斜率b<0,当x=0时,y=a>0.故a>0,b<0.3.(2017·泰安质检)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据:(1)统计量:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d).(2)独立性检验的临界值表:则下列说法正确的是()A.有99%的把握认为环保知识测试成绩与专业有关B.有99%的把握认为环保知识测试成绩与专业无关C.有95%的把握认为环保知识测试成绩与专业有关D.有95%的把握认为环保知识测试成绩与专业无关答案 C解析 因为χ2=40×(14×13-7×6)220×20×21×19≈4.912,3.841<χ2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 4.已知x 与y 之间的几组数据如下表:(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A .b >b ′,a >a ′ B .b >b ′,a <a ′ C .b <b ′,a >a ′ D .b <b ′,a <a ′答案 C解析 b ′=2,a ′=-2,由公式b =∑i =16(x i -x )(y i -y )∑i =16(x i -x )2,求得b =57,a =y -b x =136-57×72=-13,∴b <b ′,a >a ′. 5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105×(10×30-20×45)255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.(2016·合肥二模)某市居民2010~2014年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”) 答案 13 正解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 8.(2016·长春模拟)在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ,a =40.8, 即线性回归方程为y =0.36x +40.8. 当x =90时,y =0.36×90+40.8=73.2≈73.9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附解 (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500×100%=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500×100%=64%.(2)完成的2×2列联表如下:由表中数据计算得χ2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.10.(2016·江西南昌二中模拟)为了研究某种细菌随时间x 变化的繁殖个数y ,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断y =a +bx 与y =c 12e c x哪一个作为繁殖个数y 关于时间x 变化的回归方程类型为最佳;(给出判断即可,不必说明理由)(2)根据(1)中判断的最佳类型及表中的数据,建立y 关于x 的回归方程.其中z i =ln y i ,z =16∑6i =1z i.参考公式:b =∑6i =1(x i -x )(y i -y )∑6i =1(x i -x )2,a =y -b x .解(1)画散点图如下.由散点图看出样本点分布在一条类似指数函数图像的周围,于是先选择y=c12e c x.(2)对y=c12e c x两边取对数,得ln y=c2x+ln c1.令z=ln y,c2=b,ln c1=a,则z=bx+a.由b=∑6i=1(x i-x)(z i-z)∑6i=1(x i-x)2=12.0917.5=0.691,a=z-b x≈1.112,得z=0.691x+1.112,所以y=e0.691x+1.112.。

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.1

高考数学(理)(北师大版)大一轮复习讲义第十一章 统计与统计案例第十一章 11.1

1.抽样调查(1)抽样调查通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.(2)总体和样本调查对象的全体称为总体,被抽取的一部分称为样本.(3)抽样调查与普查相比有很多优点,最突出的有两点:①迅速、及时;②节约人力、物力和财力.2.简单随机抽样(1)简单随机抽样时,要保证每个个体被抽到的概率相同.(2)通常采用的简单随机抽样的方法:抽签法和随机数法.3.分层抽样(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按分组的间隔(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.(√)(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.(×)(3)抽签法中,先抽的人抽中的可能性大.(×)(4)系统抽样在第1段抽样时采用简单随机抽样.(√)(5)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.(×)(6)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(×)1.(教材改编)某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答案 B解析因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19.2.(2015·四川)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是()A.抽签法B.系统抽样法C.分层抽样法D.随机数法答案 C解析根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.3.(1)某学校为了了解2016年高考数学学科的考试成绩,在高考后对1 200名学生进行抽样调查,其中文科400名考生,理科600名考生,艺术和体育类考生共200名,从中抽取120名考生作为样本.(2)从10名家长中抽取3名参加座谈会.Ⅰ.简单随机抽样法Ⅱ.系统抽样法Ⅲ.分层抽样法问题与方法配对正确的是()A.(1)Ⅲ,(2)ⅠB.(1)Ⅰ,(2)ⅡC.(1)Ⅱ,(2)ⅢD.(1)Ⅲ,(2)Ⅱ答案 A解析 通过分析可知,对于(1),应采用分层抽样法,对于(2),应采用简单随机抽样法. 4.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为________. 答案 695解析 由题意可知,第一组随机抽取的编号l =15,分段间隔数k =N n =1 00050=20,则抽取的第35个编号为a 35=15+(35-1)×20=695.5.某学校高一,高二,高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生. 答案 15解析 设应从高二年级抽取x 名学生,则x ∶50=3∶10,解得x =15.题型一 简单随机抽样例1 (1)以下抽样方法是简单随机抽样的是( )A .在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B .某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C .某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D .用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B .07 C .02 D .01 答案 (1)D (2)D解析 (1)选项A 、B 不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C 不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.思维升华应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.(1)下列抽样试验中,适合用抽签法的有()A.从某厂生产的5 000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D.从某厂生产的5 000件产品中抽取10件进行质量检验(2)下列抽取样本的方式不属于简单随机抽样的有________________.①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.答案(1)B(2)①②③④解析(1)A,D中的总体个体数较多,不适宜抽签法,C中甲、乙两厂的产品质量有区别,也不适宜抽签法,故选B.(2)①不是简单随机抽样.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.题型二系统抽样例2 (1)(2015·湖南)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A .3 B .4 C .5 D .6(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 答案 (1)B (2)B解析 (1)由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.(2)由84042=20,即每20人抽取1人,所以抽取编号落在区间[481,720]的人数为720-48020=24020=12. 引申探究1.本例(2)中条件不变,若第三组抽得的号码为44,则在第八组中抽得的号码是________. 答案 144解析 在第八组中抽得的号码为(8-3)×20+44=144.2.本例(2)中条件不变,若在编号为[481,720]中抽取8人,则样本容量为________. 答案 28解析 因为在编号[481,720]中共有720-480=240(人),又在[481,720]中抽取8人, 所以抽样比应为240∶8=30∶1,又因为单位职工共有840人,所以应抽取的样本容量为84030=28.思维升华 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.(1)(2016·马鞍山模拟)高三(1)班有学生52人,现将所有学生随机编号,用系统抽样方法,抽取一个容量为4的样本,已知5号、31号、44号学生在样本中,则样本中还有一个学生的编号是( ) A .8 B .13 C .15D .18(2)(2016·烟台模拟)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A .7 B .9 C .10D .15答案 (1)D (2)C解析 (1)分段间隔为524=13,故还有一个学生的编号为5+13=18,故选D.(2)由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69, (939)落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 题型三 分层抽样命题点1 求总体或样本容量例3 (1)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n 等于( )A .54B .90C .45D .126(2)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案 (1)B (2)1 800解析 (1)依题意得33+5+7×n =18,解得n =90,即样本容量为90.(2)分层抽样中各层的抽样比相同.样本中甲设备生产的产品有50件,则乙设备生产的产品有30件.在4 800件产品中,甲、乙设备生产的产品总数比为5∶3,所以乙设备生产的产品的总数为1 800件.命题点2 求某层入样的个体数例4 (1)(2015·北京)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B .100 C .180 D .(2)(2015·福建)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案 (1)C (2)25解析 (1)由题意抽样比为3201 600=15,∴该样本中的老年教师人数为900×15=180.(2)由题意知,男生共有500名,根据分层抽样的特点,在容量为45的样本中男生应抽取的人数为45×500900=25.思维升华 分层抽样问题类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.(1)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.(2)某公司共有1 000名员工,下设若干部门,现采用分层抽样方法,从全体员工中抽取一个样本容量为80的样本,已告知广告部门被抽取了4个员工,则广告部门的员工人数为________.答案 (1)200,20 (2)50解析 (1)该地区中小学生总人数为 3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20. (2)设广告部门的员工人数为x , 则由分层抽样,得1 00080=x4,解得x =50.五审图表找规律典例 (12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:(1)若要抽取40人调查身体状况,则应怎样抽样?(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人? (3)若要抽20人调查对广州亚运会举办情况的了解,则应怎样抽样?抽取40人调查身体状况↓(观察图表中的人数分类统计情况)样本人群应受年龄影响↓(表中老、中、青分类清楚,人数确定)要以老、中、青分层,用分层抽样↓要开一个25人的座谈会↓(讨论单位发展与薪金调整)样本人群应受管理、技术开发、营销、生产方面的影响↓(表中管理、技术开发、营销、生产分类清楚,人数确定)要以管理、技术开发、营销、生产人员分层,用分层抽样↓要抽20人调查对广州亚运会举办情况的了解↓(可认为亚运会是大众体育盛会,一个单位人员对情,况了解相当)将单位人员看作一个整体↓(从表中数据看总人数为2 000)人员较多,可采用系统抽样规范解答解(1)按老年、中年、青年分层,用分层抽样法抽取,[1分]抽取比例为402 000=150.[2分]故老年人、中年人、青年人各抽取4人、12人、24人.[4分] (2)按管理、技术开发、营销、生产分层,用分层抽样法抽取,[5分]抽取比例为252 000=180,[6分]故管理、技术开发、营销、生产各部门抽取2人、4人、6人、13人.[8分](3)用系统抽样,对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.[12分]1.某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( ) A .6 B .8 C .10 D .12 答案 B解析 设样本容量为N ,则N ×3070=6,∴N =14,∴高二年级所抽学生人数为14×4070=8.2.(2017·榆林质检)打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌后,开始按次序搬牌,对任何一家来说,都是从52张总体抽取一个13张的样本.这种抽样方法是( ) A .系统抽样 B .分层抽样C .简单随机抽样D .非以上三种抽样方法答案 A解析 符合系统抽样的特点,故选A.3.对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( ) A .p 1=p 2<p 3 B .p 2=p 3<p 1 C .p 1=p 3<p 2 D .p 1=p 2=p 3 答案 D解析 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p 1=p 2=p 3. 4.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20 答案 C解析 由1 00040=25,可得分段的间隔为25.5.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250 ②5,9,100,107,111,121,180,195,200,265 ③11,38,65,92,119,146,173,200,227,254 ④30,57,84,111,138,165,192,219,246,270关于上述样本的下列结论中,正确的是( ) A .②、③都不能为系统抽样 B .②、④都不能为分层抽样 C .①、④都可能为系统抽样 D .①、③都可能为分层抽样 答案 D解析 因为③可以为系统抽样,所以选项A 不对;因为②可以为分层抽样,所以选项B 不对;因为④不为系统抽样,所以选项C 不对,故选D.6.将参加夏令营的600名学生编号为001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( ) A .26,16,8 B .25,17,8 C .25,16,9 D .24,17,9答案 B解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N +)组抽中的号码是3+12(k -1). 令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25; 令300<3+12(k -1)≤495得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17.故选B. 7.(2016·山西大同一中月考)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( ) A.110,110 B.310,15 C.15,310 D.310,310答案 A解析 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110,故选A.8.(2016·天津质检)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生. 答案 60解析 设应从一年级本科生中抽取x 名学生, 则x 300=44+5+5+6,解得x =60. 9.(2017·潍坊质量预测)某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山的比赛活动.每人都参与而且只能参与其中一项比赛,各年级参与比赛的人数情况如下表:其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的25.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取的人数为________. 答案 36解析 根据题意,可知样本中参与跑步的人数为200×35=120,所以从高二年级参与跑步的学生中应抽取的人数为120×32+3+5=36.10.一个总体中有90个个体,随机编号0,1,2,…,89,以从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m +k 的个位数字相同,若m =8,则在第8组中抽取的号码是________. 答案 76解析 由题意知m =8,k =8,则m +k =16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.11.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.答案 37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人,则40200=x100,解得x =20.12.某校共有学生2 000名,各年级男、女学生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为________.答案 16解析 依题意可知二年级的女生有380人,那么三年级的学生人数应该是2 000-373-377-380-370=500,即总体中各个年级的人数比为3∶3∶2,故用分层抽样法应在三年级抽取的学生人数为64×28=16.13.某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n . 解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为36n ,分层抽样的比例是n36,抽取的工程师人数为n 36×6=n 6,技术员人数为n 36×12=n 3,技工人数为n 36×18=n2,所以n 应是6的倍数,36的约数,即n =6,12,18.当样本容量为(n +1)时,总体容量是35人,系统抽样的间隔为35n +1,因为35n +1必须是整数,所以n 只能取6.即样本容量n =6.14.某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:(1)用分层抽样的方法在35~50岁年龄段的专业技术人员中抽取一个容量为5的样本,将该样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;(2)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为539,求x ,y 的值. 解 (1)用分层抽样的方法在35~50岁中抽取一个容量为5的样本,设抽取学历为本科的人数为m ,∴3050=m5,解得m =3. 抽取的样本中有研究生2人,本科生3人,分别记作S 1,S 2;B 1,B 2,B 3.从中任取2人的所有等可能基本事件共有10个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1),(S 2,B 2),(S 2,B 3),(S 1,S 2),(B 1,B 2),(B 1,B 3),(B 2,B 3),其中至少有1人的学历为研究生的基本事件有7个:(S 1,B 1),(S 1,B 2),(S 1,B 3),(S 2,B 1),(S 2,B 2),(S 2,B 3),(S 1,S 2), ∴从中任取2人,至少有1人学历为研究生的概率为710. (2)由题意,得10N =539,解得N =78,∴35~50岁中被抽取的人数为78-48-10=20, ∴4880+x =2050=1020+y , 解得x =40,y =5,即x ,y 的值分别为40,5.。

高考数学大一轮复习 第十一章 统计与统计案例 11.3学案 理 北师大版-北师大版高三全册数学学案

高考数学大一轮复习 第十一章 统计与统计案例 11.3学案 理 北师大版-北师大版高三全册数学学案

§11.3变量间的相关关系、统计案例最新考纲考情考向分析1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用. 回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择、填空题中也会出现.主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.线性回归方程(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.⎩⎨⎧b =∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y ∑ni =1x 2i -n x2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心. (3)相关系数①r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y∑n i =1x 2i-n x 2∑ni =1y 2i-n y2;②当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关; 当r =0时,表明两个变量线性不相关.|r |值越接近于1,表明两个变量之间的线性相关程度越高. |r |值越接近于0,表明两个变量之间的线性相关程度越低. 4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值, 变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1. 2×2列联表:构造一个统计量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2>3.841时,有95%的把握判定变量A,B有关联;当χ2>6.635时,有99%的把握判定变量A,B有关联.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得线性回归方程y=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( ×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.( √)题组二教材改编2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析B.均值与方差C.独立性检验D.概率答案 C解析“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.3.下面是2×2列联表:y1y2合计x1 a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.答案68解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.题组三易错自纠5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”答案 C解析由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)学生的编号i 1234 5数学成绩x 8075706560物理成绩y70 66 68 64 62现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ,a =40.8, 即线性回归方程为y =0.36x +40.8.当x =90时,y =0.36×90+40.8=73.2≈73.题型一 相关关系的判断1.观察下列各图形,其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③答案 C解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的条形统计图.以下结论不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.3.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e2c x拟合时的相关系数为r1,用y=bx+a拟合时的相关系数为r2,则r1>r2;③x,y之间不能建立线性回归方程.答案①②解析在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e2c x拟合比用y=bx+a拟合效果要好,则r1>r2,故②正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.思维升华判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.题型二线性回归分析典例(2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y)2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y)∑i =1n(t i -t )2∑i =1n(y i -y)2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17(y i -y)2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t . 将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -∑i =18(w i -表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预测值是多少? ②年宣传费x 为何值时,年利润的预测值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1n(u i -u )(v i -v)∑i =1n(u i -u)2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18(w i -w)·(y i -y )∑i =18(w i -w)2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w , 因此y 关于x 的回归方程为y =100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预测值y =100.6+6849=576.6, 年利润z 的预测值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预测值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg”,C 表示事件“新养殖法的箱产量不低于50 kg”.由题意知,P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:χ2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).思维升华 (1)比较几个分类变量有关联的可能性大小的方法①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.②根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的值.③比较χ2与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人),其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:青年人 中年人 合计 经常使用微信 80 40 120 不经常使用微信55 5 60 合计13545180(2)将列联表中数据代入公式可得: χ2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.年份-2010 -4 -2 0 2 4 需求-257-21-111929对处理的数据,容易算得x =0,y =3.2,[4分]b =(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为y -257=6.5(x -2010)+3.2,即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.根据如下样本数据:x 3 4 5 6 7 8 y4.02.50.50.50.40.1得到的线性回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b <0,由样本点(3,4.0)及(4,2.5)可知a >0,故选B.2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100由χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得χ2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 ∵χ2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ,解得a =18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y =bx +a .已知∑10i =1x i =225,∑10i =1y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166 D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b =4,∴a =y -b x =160-4×22.5=70. ∴线性回归方程为y =4x +70.将x =24代入上式,得y =4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =bx +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A .b >b ′,a >a ′ B .b >b ′,a <a ′ C .b <b ′,a >a ′ D .b <b ′,a <a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b =∑6i =1x i y i -6x ·y ∑i =16x 2i -6x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a =y -b x =136-57×72=-13,所以b <b ′,a >a ′.6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:若t 与y 之间具有线性相关关系,则其回归直线y =bt +a 一定过点( ) A .(3,9) B .(9,3) C .(6,14)D .(4,11)答案 A解析 t =17(0+1+2+3+4+5+6)=3,y =17(8+8+8+9+9+10+11)=9,所以回归直线y =bt +a 一定过点(3,9).7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t =6.5m +17.5,则p =________. 答案 60解析 由于回归直线过样本点的中心,m =5,t =190+p5,代入t =6.5m +17.5,解得p =60.8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当自变量x 每增加一个单位时,因变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (χ2≥3.841)≈0.05,P (χ2≥5.024)≈0.025.根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,χ2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,10),其线性回归方程为y =-3+2x ,若∑10i =1x i =17,则∑10i =1y i =________. 答案 4解析 依题意x =1710=1.7,而直线y =-3+2x 一定经过(x ,y ),∴y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b =∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a =y -b t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b =∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=1428=0.5, a =y -b t =4.3-0.5×4=2.3,所求线性回归方程为y =0.5t +2.3.(2)由(1)知,b =0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y =0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入不低于55百元的人数月收入低于55百元的人数总计 认为价格偏高者 赞成定价者 总计附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (χ2≥k )0.05 0.01 k3.8416.635解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入不低于55百元的人数月收入低于55百元的人数 总计认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计104050χ2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:年龄 [15,25) [25,35) [35,45) [45,55) [55,65)支持“延迟退休”的人数155152817(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;45岁以下45岁及45岁以上合计 支持 不支持 合计(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率. 参考数据:P (χ2≥k )0.100 0.050 0.010 0.001 k2.7063.8416.63510.828χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)2×2列联表如下:45岁以下45岁及45岁以上合计 支持 35 45 80 不支持 15 5 20 合计5050100因为χ2=100×(35×5-45×15)250×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休年龄政策”的人中抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.则8人中随机抽2人共有C 28=28种抽法,至少有1人是45岁及45岁以上共有C 16C 12+C 22=13(种)抽法,故所求概率为1328.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.P (χ2≥k )0.050 0.010 0.001 k3.8416.63510.828答案 12解析 设男生人数为x ,由题意可得列联表如下:喜欢韩剧 不喜欢韩剧 总计男生x65x 6x 女生x3x6x2总计x2x3x 2若有95%的把握认为是否喜欢韩剧和性别有关, 则χ2>3.841,即χ2=3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量;参考数据:y =54,∑7i =1 (t i -t )(y i -y )=21,14≈3.74,∑7i =1 (y i -y i )2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑n i =1(y i -y )2,线性回归方程y =a +bt ,b =∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a =y -b t . 解 (1)由折线图中的数据得,t =4,∑7i =1 (t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b =∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a =y -b t =54-34×4=51,所以y 关于t 的线性回归方程为y =bt +a =34t +51.将2017年对应的t =8代入得y =34×8+51=57,所以预测2017年该企业污水净化量约为57吨.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第2讲 统计图表、数据的数字特征、用样本估计总体一、选择题1.(2015·重庆卷)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是( ) A.19B.20C.21.5D.23解析 从茎叶图知所有数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20,选B. 答案 B2.学校为了解学生在课外读物方面的支出情况,抽取了n 位同学进行调查,结果显示这些同学的支出都在[10,50](单位:元)内,其中支出在[30,50](单位:元)内的同学有67人,其频率分布直方图如图所示,则n 的值为( )A.100B.120C.130D.390解析 支出在[30,50]内的同学的频率为1-(0.01+0.023)×10=0.67,n =670.67=100. 答案 A3.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( ) A.134石 B.169石 C.338石D.1 365石解析 254粒和1 534石中夹谷的百分比含量是大致相同的,可据此估计这批米内夹谷的数量.设1 534石米内夹谷x 石,则由题意知x 1 534=28254,解得x ≈169.故这批米内夹谷约为169石. 答案 B4.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析 对于选项A ,由图易知各月的平均最低气温都在0 ℃以上,A 正确;对于选项B ,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,所以七月的平均温差比一月的平均温差大,B 正确;对于选项C ,三月和十一月的平均最高气温均为10 ℃,所以C 正确;对于选项D ,平均最高气温高于20 ℃的月份有七月、八月、共2个月份,故D 错误. 答案 D5.(2015·安徽卷)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( ) A.8B.15C.16D.32解析 已知样本数据x 1,x 2,…,x 10的标准差为s =8,则s 2=64,数据2x 1-1,2x 2-1,…,2x 10-1的方差为22s 2=22×64,所以其标准差为22×64=2×8=16,故选C. 答案 C 二、填空题6.(2015·广东卷)已知样本数据x 1,x 2,…,x n 的平均数x =5,则样本数据2x 1+1,2x 2+1,…,2x n +1的平均数为________. 解析 由条件知x =x 1+x 2+…+x nn=5,则所求平均数x 0=2x 1+1+2x 2+1+…+2x n +1n=2(x 1+x 2+…+x n )+nn=2x +1=2×5+1=11.答案 117.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm ,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x ,那么x 的值为________.解析 170+17×(1+2+x +4+5+10+11)=175,17×(33+x )=5,即33+x =35,解得x =2. 答案 28.为了了解一片经济林的生长情况,随机抽取了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.解析 底部周长在[80,90)的频率为0.015×10=0.15,底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24. 答案 24 三、解答题9.某车间20名工人年龄数据如下表:(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.解 (1)这20名工人年龄的众数为30;这20名工人年龄的极差为40-19=21. (2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图如下:(3)这20名工人年龄的平均数为(19+28×3+29×3+30×5+31×4+32×3+40)÷20=30;所以这20名工人年龄的方差为120(30-19)2+320(30-28)2+320(30-29)2+520(30-30)2+420(30-31)2+320(30-32)2+120(30-40)2=12.6. 10.(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w 立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w 为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.解(1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).11.如图是一组样本数据的频率分布直方图,则依据图形中的数据,可以估计总体的平均数与中位数分别是( )A.12.5,12.5B.13,13C.13.5,12.5D.13.5,13解析第1组的频率为0.04×5=0.2,第2组的频率为0.1×5=0.5,则第3组的频率为1-0.2-0.5=0.3,估计总体平均数为7.5×0.2+12.5×0.5+17.5×0.3=13.由题意知,中位数在第2组内,设为10+x,则有0.1x=0.3,解得x=3,从而中位数是13. 答案 B12.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图,后来有1个数据模糊,无法辨认,在图中以x表示:则7个剩余分数的方差为( )A.1169 B.367C.36D.677解析 由题意知87+94+90+91+90+90+x +917=91,解得x =4.所以s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=17(16+9+1+0+1+9+0)=367.答案 B13.(2015·湖北卷)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a =________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________. 解析 (1)由0.1×1.5+0.1×2.5+0.1a +0.1×2.0+0.1×0.8+0.1×0.2=1,解得a =3.(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000. 答案 (1)3 (2)6 00014.(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解(1)样本数据的频率分布直方图如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.。

相关文档
最新文档