高中数学统计和统计案例全章复习(题型完美版).doc
(完整版)高中数学统计与统计案例全章复习(题型完美版)
第八章 统计与统计案例第1节 随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数,再取k =N ′n(N ′为从总体中剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本. 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.①从20件玩具中一次性抽取3件进行质量检验.①某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A .0 B .1C .2D .3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二1知识梳理2题型分类位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )A .12B .33C .06D .16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A .随机抽样B .分层抽样C .系统抽样D .以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【变式1】(2017•大连二模)某单位员工按年龄分为A ,B ,C 三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到的概率是91,则该单位员工总数为( )A .110B .10C .90D .80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是72,则男运动员应抽取( ) A .18人B .16人C .14人D .12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )3课后作业A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=()A.9B.10C.12D.134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为()A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生()A.1030人B.97人C.950人D.970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图. 横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率. 2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征数字特征 定义众数 在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数 样本数据的算术平均数,即x =x 1+x 2+…+x nn方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差题型一 茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )1知识梳理2题型分类A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2](2,4](4,6](6,8](8,10]人数104025205(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国①卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.3课后作业1.重庆市2016年各月的平均气温(①)数据的茎叶图如图,则这组数据的中位数是()A.19B.20C.21.5D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45B.50C.55D.604.(2016·全国卷①)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9311中A点表示十月的平均最高气温约为15 ①,B点表示四月的平均最低气温约为5 ①.下面叙述不正确的是()A.各月的平均最低气温都在0 ①以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ①的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1知识梳理1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y轴上 的截距. 3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r |大于0.75时,认为两个变量有很强的线性相关性.题型一 相关关系的判断【例】某公司2010~2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:根据统计资料,则( )A .利润中位数是16,x 与y 有正线性相关关系B .利润中位数是17,x 与y 有正线性相关关系C .利润中位数是17,x 与y 有负线性相关关系D .利润中位数是18,x 与y 有负线性相关关系【变式】对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )2题型分类A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B.产品的生产能耗与产量呈正相关C.t的取值必定是3.15D.A产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017•南昌一模)设某中学的高中女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为yˆ=0.85x−85.71,则下列结论中不正确的是()A.y与x具有正线性相关关系B.回归直线过样本的中心点(yx,)C.若该中学某高中女生身高增加1cm,则其体重约增加0.85kgD.若该中学某高中女生身高为160cm,则可断定其体重必为50.29kg【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017•成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .101.2B .108.8C .111.2D .118.2题型三 线性相关关系检验【例1】(2017•广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为0.976 C .模型①的相关指数为0.076B .模型①的相关指数为0.776 D .模型①的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强 D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量. 参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程$$y abt =+$中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y btt ==--=-∑∑$,$=.a y bt-$【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;①求y 与x 、z 与x 的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年? 参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =L 数据作了初步处理,得到下面的散点图及一些统计量的值.y u r表中i w w u r =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017•衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii x w 1=,∑==101101i i w w .(1)根据散点图判断,a bx y+=ˆ,c xdy ˆˆˆ+=哪一个更适宜作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程; (3)若该产品的日销售量g (x )(件)与时间x 的函数关系为120100)(+-=xx g (x ∈N *),求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷①)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )3课后作业A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3_____kg. 3.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(①)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=niiniiixxyyxxb121)())((,选用数据:1.1231=∑=niiiyx,1.512=∑=niix4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果. 附注:参考数据:54=y ,21))((71=--∑=i i iy y t t,74.314≈,49)ˆ(712=-∑=i i iyy. 参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节 独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。
2020年高考数学一轮复习考点与题型总结:第十章统计与统计案例(附解析)
第十章统计与统计案例第一节随机抽样一、基础知识1.简单随机抽样(1)定义:一般地,设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本 (n≤ N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样 (1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样 (1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为 N 的总体中抽取容量为 n的样本.①先将总体的 N 个个体编号;②确定分段间隔 k,对编号进行分段.当N(n 是样本容量 )是整数时,取 k=N; nn当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.③在第 1 段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本.通常是将 l 加上间隔 k 得到第 2 个个体编号 l + k,再加 k 得到第 3 个个体编号 l + 2k,依次进行下去,直到获取整个样本.、常用结论(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k 的整数倍.(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.(4)三种抽样方法的特点、联系及适用范围考点一简单随机抽样[典例 ] 下列抽取样本的方式属于简单随机抽样的个数有 ( )①从无限多个个体中抽取 100 个个体作为样本;②盒子里共有 80个零件,从中选出 5 个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③用抽签方法从 10件产品中选取 3 件进行质量检验;④某班有 56 名同学,指定个子最高的 5 名同学参加学校组织的篮球赛.A.0 个B.1个C.2个D.3 个[解析 ] ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案 ] B[ 解题技法 ] 应用简单随机抽样应注意的问题 (1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.[ 题组训练 ]1.总体由编号为 01,02,⋯, 19,20 的 20 个个体组成,利用下面的随机数表选取 5 个个体,选取方法是 从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右依次选取两个数字,则选出来的第 5 个个体的编号为 ()7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481B .07C .02考点二 系统抽样[典例] (1)某校为了解 1 000 名高一新生的身体生长状况,用系统抽样法 (按等距的规则 )抽取 40名同学进行检查, 将学生从 1~1 000进行编号, 现已知第 18组抽取的号码为 443,则第一组用简单随机抽样抽取的 号码为 ( )A .16B . 17C .18D .19(2) 中央电视台为了解观众对某综艺节目的意见,准备从 502 名现场观众中抽取 10%进行座谈,现用系统 抽样的方法完成这一抽样,则在进行分组时,需剔除 __________________ 个个体,抽样间隔为 ___________________________________________ .[解析 ] (1)因为从 1 000 名学生中抽取一个容量为 40的样本,所以系统抽样的分段间隔为 140000=25,设第一组随机抽取的号码为 x ,则抽取的第 18 组编号为 x +17×25=443,所以 x = 18.(2)把 502 名观众平均分成 50组,由于 502除以 50的商是 10,余数是 2,所以每组有 10 名A.08 D .01解析: 选 D 由随机数法的随机抽样的过程可知选出的 5个个体是 08,02,14,07,01,所以第 5 个个体的编 号是 01.2.利用简单随机抽样,从 n 个个体中抽取一个容量为 10 的样本.若第二次抽取时,余下的每个个体被 抽到的概率为 13,则在整个抽样过程中,每个个体被抽到的概率为()1 A.4 1 B.13 5 C.14 10 D.27解析:选C 根据题意, n -91=31,解得 n = 28.故在整个抽样过程中每个个体被抽到的概率为10= 5. 28=14.观众,还剩 2 名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从 502 名观众中抽取 2名观众,这 2 名观众不参加座谈;再将剩下的 500名观众编号为 1,2,3,⋯,500,并均匀分成 50段,每段含500=10个个体.所50 以需剔除 2 个个体,抽样间隔为 10.[答案 ] (1)C (2)2 10[ 变透练清 ]1. 变结论若本例 (1) 的条件不变,则编号落入区间 [501,750] 的人数为.解析:从 1 000名学生中抽取一个容量为 40的样本,系统抽样分 40组,每组140000=25 个号码,每组抽取一个,从 501 到 750 恰好是第 21 组到第 30 组,共抽取 10 人.答案: 102.(2018 ·南昌摸底调研 )某校高三 (2)班现有 64 名学生,随机编号为 0,1,2,⋯, 63,依编号顺序平均分成 8 组,组号依次为 1,2,3 ,⋯, 8.现用系统抽样方法抽取一个容量为 8 的样本,若在第 1 组中随机抽取的号码为 5,则在第 6 组中抽取的号码为.解析:由题知分组间隔为64=8,又第 1 组中抽取的号码为 5,所以第 6组中抽取的号码为5× 8+ 5= 45. 8答案: 45[ 解题技法 ] 系统抽样中所抽取编号的特点系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第 1 组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒 ] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.考点三分层抽样[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有 20 000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽取 100 人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为 ( )A .25,25,25,25B . 48,72,64,16C.20,40,30,10 D .24,36,32,8100 1 1[解析 ] 法一:因为抽样比为201 00000=2010,所以每类人中应抽取的人数分别为 4 800× 2100=24,750A .不全相等B .均不相等C .都相等,且为2 019D .都相等,且为140[答案 ] D[ 解题技法 ] 分层抽样问题的类型及解题思路 (1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比= 样本容量=各层样本数量”总体容量 =各层个体数量 ”[ 题组训练 ]1. (2019 ·山西五校联考 )某校为了解学生的学习情况,采用分层抽样的方法从高一 人、高三 n 人中抽取 81 人进行问卷调查,若高二被抽取的人数为30,则 n = ( )A .860B . 720C .1 020答案: 85[课时跟踪检测 ]1.从 2 019 名学生中选取 50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从 2200×1 200 36, 6 400 × 1 200 32,1 600× 12008. 法二: 最喜爱、喜爱、一般、不喜欢的比例为 4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽取的人数分别为 ×100= 6+9+ 8+224, 9 6+9+8+× 100= 36, 8 6+9+8+×100=32,26+9+8+×100=8.1 000 人、高二 1 200 D .1 040解析: 选 D 由已知条件知抽样比为 30 1 410,从而 81 1 000+1 20041,解得 n =1 040 ,故选D.2.(2018 广·州高中综合测试 )已知某地区中小学学生人数如图所示.为 参加某项社会实践活动的意向, 拟采用分层抽样的方法来进行调查. 若高 名学生,则小学与初中共需抽取的学生人数为 ____________________________________________ .20x +20 解得 x =85. 019 名学生中剔除 19 名学生,剩下的 2 000 名学生再按系统抽样的方法抽取,则每名学生入选的概率 () 了解该区学生 中 需 抽 取20 错误 ! =解析:选 C 从 N个个体中抽取 M 个个体,则每个个体被抽到的概率都等于M N,故每名学生入选的概率都相等,且为50.22.福利彩票“双色球”中红球的号码可以从01,02,03,⋯, 32,33 这 33 个两位号码中选取,小明利用如下所示的随机数表选取红色球的 6 个号码,选取方法是从第 1行第 9 列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为 ( )A.12 B . 33C.06 D .16解析:选 C 被选中的红色球的号码依次为 17,12,33,06,32,22,所以第四个被选中的红色球的号码为06.3.某班共有学生 52人,现根据座号,用系统抽样的方法,抽取一个容量为4的样本.已知 5 号、 18号、44 号同学在样本中,那么样本中还有一个同学的座号是 ( )A .23B . 27C.31 D .3352解析:选 C 分段间隔为542= 13,故样本中还有一个同学的座号为 18+13= 31.4.某工厂在 12 月份共生产了 3 600 双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b, c,且 a,b,c 构成等差数列,则第二车间生产的产品数为 ( )A.800 双B.1 000 双C.1 200双D.1 500 双解析:选 C 因为 a,b,c 成等差数列,所以 2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占 12 月份生产总数的三分之一,即为 1 200 双皮靴.5.(2018 南·宁摸底联考 )已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为 ( )A .100,20B . 200,20C.200,10 D .100,10解析:选 B 由题图甲可知学生总人数是 10 000,样本容量为 10 000×2%=200,抽取的高中生人数是 2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取高中生的近视人数为40× 50%=20,故选 B.6.一个总体中有 100 个个体,随机编号为 0,1,2,⋯, 99.依编号顺序平均分成 10 个小组,组号依次为 1,2,3,⋯, 10.现用系统抽样方法抽取一个容量为10 的样本,如果在第一组随机抽取的号码为m,那么在第 k组中抽取的号码个位数字与 m+k 的个位数字相同.若 m= 6,则在第 7 组中抽取的号码是()A .63B . 64C.65 D .66解析:选 A 若 m=6,则在第 7 组中抽取的号码个位数字与 13的个位数字相同,而第 7 组中的编号依次为 60,61,62,63,⋯,69,故在第 7 组中抽取的号码是 63.7.采用系统抽样方法从 960 人中抽取 32 人做问卷调查,为此将他们随机编号为 1,2,⋯,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的 32人中,编号落入区间 [1,450] 的人做问卷 A,编号落入区间(450,750]的人做问卷 B,其余的人做问卷 C.则抽到的人中,做问卷 B 的人数为()A .7 B.9C.10 D .15解析:选 C 960÷32=30,故由题意可得抽到的号码构成以9 为首项,以 30 为公差的等差数列,其通项公式为 a n=9+30(n-1)=30n-21.由 450<30n-21≤750,解得 15.7<n≤25.7.又 n为正整数,所以 16≤n≤25,故做问卷 B 的人数为 25- 16+ 1= 10.故选 C.8.某企业三月中旬生产 A,B,C 三种产品共 3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:由于不小心,表格中 A, C产品的有关数据已被污染看不清楚,统计员记得 A 产品的样本容量比C产品的样本容量多 10,根据以上信息,可得 C 的产品数量是件.x 解析:设样本容量为 x,则 3 000×1 300=130,∴x=300.∴A 产品和 C 产品在样本中共有 300-130=170(件).设 C产品的样本容量为 y,则 y+ y+10= 170,∴ y=80.∴C 产品的数量为3300000×80=800(件).答案:8009.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取 100 件做使用寿命的测试,则第一分厂应抽取的件数为_ ;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为 1 020 小时、 980 小时、 1 030 小时,估计这个企业所生产的该产品的平均使用寿命为小时.解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为 1 020×0.5+ 980×0.2+1030×0.3=1 015.答案: 50 1 01510.将参加冬季越野跑的 600 名选手编号为: 001,002,⋯, 600,采用系统抽样方法抽取一个容量为50 的样本,把编号分为 50 组后,在第一组的 001 到 012这 12 个编号中随机抽得的号码为 004,这600 名选手穿着三种颜色的衣服,从 001 到 301 穿红色衣服,从 302 到 496 穿白色衣服,从 497 到 600 穿黄色衣服,则抽到穿白色衣服的选手人数为.解由题意及系统抽样的定义可知,将这 600 名学生按编号依次分成 50 组,每一组各有 12 第 k(k∈N *)组抽中的号码是 4+12(k-1).令 302≤4+12(k-1)≤496,得 2556≤k≤42,因此抽到穿白色衣服的选手人数为 42- 25=17(人).答案:1711.某初级中学共有学生 2 000 名,各年级男、女生人数如下表:已知在全校学生中随机抽取 1 名,抽到初二年级女生的概率是 0.19.(1)求 x 的值;(2)现用分层抽样的方法在全校抽取 48 名学生,问应在初三年级抽取多少名?x解: (1)∵=0.19,∴ x= 380.2 000(2)初三年级人数为 y+z=2 000-(373+377+380+370)=500,现用分层抽样的方法在48 名学全校抽取生,应在初三年级抽取的人数为240800×500=12(名 ).第二节 用样本估计总体、基础知识1.频率分布直方图频率 频率(1)纵轴表示 组距,即小长方形的高= 组距;频率(2)小长方形的面积=组距× 组距 =频率;(3)各个小方形的面积总和等于 1 .2.频率分布表的画法(3)方差 s 2=n [( x 1- x )2+ (x 2- x )2+⋯+ (x n - x )2].第一步:求极差,决定组数和组距,组距=极差; 组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表.3.茎叶图茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.4.中位数、众数、平均数的定义(1) 中位数将一组数据按大小依次排列, 处于最中间位置的一个数据 (或最中间两个数据的平均数 位数.)叫做这组数据的中 (2) 众数 一组数据中出现次数最多的数据叫做这组数据的众数.(3)平均数一组数据的算术平均数即为这组数据的平均数, n 个数据 x 1,x 2,⋯,x n 的平均数 x 1 = n (x 1+ x 2+⋯+5. 样本的数字特征如果有 n 个数据 x 1,x 2,⋯, x n ,那么这 n个数的 1 (1) 平均数 x = n (x 1+ x 2+⋯(2) 标准差s =、常用结论1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据 x1,x2,⋯,x n的平均数为 x,则 mx1+a,mx2+a,mx3+a,⋯,mx n+a 的平均数是 mx + a.(2)若数据 x1,x2,⋯, x n的方差为 s2,则数据 ax1+b,ax2+b,⋯, ax n+b 的方差为 a2s2.考点一茎叶图[典例 ] (2017 山·东高考 )如图所示的茎叶图记录了甲、乙两组各产量数据 (单位:件 ).若这两组数据的中位数相等,且平均值也相等,5名工人某日的则 x 和 y 的值分别为 ( )A .3,5B . 5,5C.3,7 D .5,7[解析 ] 由两组数据的中位数相等可得 65= 60+ y,解得 y= 5,又它们的平均值相等,所以1×[56+62+65+74+(70+x)]=1×(59+61+67+ 65+78),解得 x=3.55[答案 ] A[ 解题技法 ] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.[ 题组训练 ]1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,数据的极差与中位数之和为 61,则被污染的数字为 ( )A.1 B.2C.3 D.4解析:选 B 由图可知该组数据的极差为48- 20=28,则该组数据的中位数为 61-28=33,易得被污染的数字为 2.2.甲、乙两名篮球运动员 5 场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为x 甲,x 乙,则下列结论正确的是 ( )A. x 甲< x 乙;乙比甲得分稳定B. x甲> x 乙;甲比乙得分稳定C. x甲 > x 乙;乙比甲得分稳定D. x 甲< x 乙;甲比乙得分稳定2+7+8+ 16+22 8+12+18+21+ 25解析:选 A 因为 x 甲== 11, x 乙== 16.8,所以 x 甲< x 乙且乙比55甲成绩稳定.考点二频率分布直方图[典例]某城市 100 户居民的月平均用电量 (单位:千瓦时 ),以[160,180) ,[180,200) ,[200,220) ,[220,240) ,[240,260) ,[260,280) ,[280,300]分组的频率分布直方图如图.(1) 求直方图中 x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002 + 0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得 x=0.0075. 即直方图中 x 的值为 0.007 5.220+ 240(2)月平均用电量的众数是= 230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,∴月平均用电量的中位数在 [220,240) 内.设中位数为 a,则 0.45+0.012 5×(a-220)=0.5,解得 a= 224,即中位数为 224.[ 变透练清 ]1.某校随机抽取 20 个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以 5 为组距将数据分组为 [0,5),[5,10),⋯,[30,35) , [35,40] ,所作的频率分布直方图是 ( )解析:选 A 以 5 为组距将数据分组为 [0,5) ,[5,10) ,⋯,[30,35) ,[35,40] ,各组的频数依次为 1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项 A 中的图.2. 变结论在本例条件下,在月平均电量为 [220,240) ,[240,260) ,[260,280) ,[280,300] 的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在 [220,240) 的用户中应抽取 _____________________________________________________________________ 户.解析:月平均用电量在 [220,240) 的用户有 0.012 5 ×20×100 =25(户).同理可得月平均用电量在 [240,260) 的用户有 15 户,月平均用电量在 [260,280] 的用户有 10 户,月平均用电量在[280,300] 的用户有 5 户,故抽取比例为1125+ 15+ 101.5.答案: 53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年 100位居民每人的月均用水量 (单位:吨 ),将数据按照 [0,0.5),[0.5,1),⋯,[4,4.5]分成 9组,制成了如图所示的频率分布直方图.(1) 求直方图中 a 的值;(2)设该市有 30万居民,估计全市居民中月均用水量不低于 3 吨的人数,说明理由.解: (1)由频率分布直方图可知,月均用水量在 [0,0.5)的频率为 0.08×0.5=0.04.同理,在[0.5,1) ,[1.5,2) ,[2,2.5) ,[3,3.5) , [3.5,4) , [4,4.5] 6 组的频率分别为 0.08,0.21,0.25,0.06,0.04,0.02.由 1- (0.04+ 0.08+0.21+0.25+0.06+ 0.04+ 0.02) = 0.5× a+ 0.5×a,解得 a= 0.30.(2)估计全市居民中月均用水量不低于3 吨的人数为 3.6 万.理由如下:由(1)知, 100位居民中月均用水量不低于 3 吨的频率为 0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30 万居民中月均用水量不低于3 吨的人数为300 000×0.12=36 000=3.6(万).考点三样本的数字特征考法 (一 ) 样本的数字特征与频率分布直方图交汇[典例 ] (2019 辽·宁师范大学附属中学模拟 )某校初三年级有 400 名学生,随机抽查了 40 名学生测试 1 分钟仰卧起坐的成绩 (单位:次 ),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是 ( )A .该校初三学生1 分钟仰卧起坐的次数的中位数为 25B.该校初三学生1 分钟仰卧起坐的次数的众数为 24C.该校初三学生1 分钟仰卧起坐的次数超过 30 的人数约有 80D.该校初三学生1 分钟仰卧起坐的次数少于 20 的人数约为 8[解析 ] 第一组数据的频率为 0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三组数据的频率为0.08×5=0.4,∴中位数在第三组内,设中位数为25+x,则 x×0.08=0.5-0.1-0.3=0.1,∴ x =1.25,∴中位数为 26.25 ,故 A 错误;第三组数据所在的矩形最高,第三组数据的中间值为27.5,∴众数为27.5,故 B错误; 1 分钟仰卧起坐的次数超过 30 的频率为 0.2,∴超过 30 次的人数为 400×0.2=80,故 C 正确; 1分钟仰卧起坐的次数少于 20 的频率为 0.1,∴1 分钟仰卧起坐的次数少于 20 的人数为400×0.1= 40,故 D 错误.故选 C.[答案 ] C[ 解题技法 ]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法 (二) 样本的数字特征与茎叶图交汇[典例 ] 将某选手的 9个得分去掉 1个最高分,去掉 1个最低分, 7 个剩余分数的平均分为91.现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以________________ x表示,则 7 个剩余分数的方差为.[解析 ] 由茎叶图可知去掉的两个数是 87,99,所以 87+90× 2+91× 2+94+90+x=91×7,解得 x=4.1 36故 s2=7[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=7.[答案 ] 376[ 解题技法 ]样本的数字特征与茎叶图综合问题的注意点(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.考法(三)样本的数字特征与优化决策问题交汇[典例 ] (2018 周·口调研)甲、乙两人在相同条件下各射击 10 次,每次中靶环数情况如图所示.(1)请填写下表(写出计算过程):(2)从下列三个不同的角度对这次测试结果进行分析:①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中 9 环及 9 环以上的次数相结合看(分析谁的成绩好些);③从折线图上两人射击命中环数的走势看(分析谁更有潜力).[解 ] 由题图,知甲射击 10 次中靶环数分别为 9,5,7,8,7,6,8,6,7,7.将它们由小到大排列为 5,6,6,7,7,7,7,8,8,9.乙射击 10 次中靶环数分别为 2,4,6,8,7,7,8,9,9,10.将它们由小到大排列为 2,4,6,7,7,8,8,9,9,10.1(1) x 甲=10× (5+6×2+7×4+ 8×2+9)=7(环),1x 乙=10×(2+4+6+7× 2+8×2+9×2+10)=7(环),s2甲=110×[(5-7)2+(6- 7)2×2+(7- 7)2×4+(8-7)2×2+(9-7)2]=110×(4+2+0+2+4)=1.2,1s2乙=10×[(2-7)2+(4- 7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=110×(25+9+1+0+2+8+ 9)= 5.4.填表如下:(2)①∵平均数相同, s2甲< s2乙,∴甲成绩比乙稳定.②∵平均数相同,命中 9 环及 9 环以上的次数甲比乙少,∴乙成绩比甲好些.③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.[解题技法]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[题组训练]1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示 ),则该样本中的中位数、众数、极差分别是 ( )C .47,45,56极差为 68- 12=56,故选 A.2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是 ( )A .甲 C .丙解析: 选 C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选 C.3.某仪器厂从新生产的一批零件中随机抽取 40 个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照 [80,82) ,[82,84) ,[84,86) ,[86,88) ,[88,90) ,[90,92) ,[92,94) ,[94,96]分成 8 组,将其按从左到右的顺序分别记为第一组,第二组,⋯⋯,第八组.则样本数据的中位数在 第 组.解析:由题图可得, 前四组的频率为 (0.037 5+ 0.062 5+0.075 0+ 0.100 0)× 2= 0.55,则其频数为 40×0.55 =22,且第四组的频数为 40×0.100 0×2=8,故中位数在第四组.答案: 四D .45,47,53 解析: 选 A 样本共 30 个,中位数为 45+47= 46;显然样本数据出现次数最多的为45,故众数为 45; B .乙 D .丁[课时跟踪检测]A级1.一个频数分布表 (样本容量为则估计样本在 [40,60) 内的数据30)不小心被损坏了一部分,只记得样本中数据在[20,60) 上的频率为 0.8,()A .14B . 15C.16 D .17解析:选 B 由题意,样本中数据在 [20,60) 上的频数为 30×0.8=24,所以估计样本在[40,60)内的数据个数为 24-4- 5=15.2.(2019 ·长春质检 )如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩y 关于测试序号 x 的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:①一班成绩始终高于年级平均水平,整体成绩比较好;②二班成绩不够稳定,波动程度较大;③三班成绩虽然多数时间低于年级平均水平,但在稳步提升.其中正确结论的个数为 ( )A.0 B.1C.2 D.3解析:选 D ①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确.②由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选 D.3.(2018 ·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80~100 分的学生人数是()A .15 B.18C.20 D.25解析:选 A 根据频率分布直方图,得第二小组的频率是 0.04×10=0.4,∵频数是 40,∴样本容量是400.4 =100,又成绩在 80~ 100 分的频率是(0.01+0.005)×10=0.15,∴成绩在 80~100 分的学生人数是 100×0.15 = 15.故选 A.4.2017 年 4 月,泉州有四处湿地被列入福建省首批重要湿地名录,其中 A,B 两地选择一处进行实地考察.因此,他通过网站了解上周去过的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记A,数据的均值分别为 x A, x B,方差分别为 s A2, s2B.若以备受好评为依据,某B两同学决定从这两个地方地综合评分则下述判断较合理的是(A .因为 x A> x B, s2A>s B2,所以应该去 A地 B.因为 x A> x B, s2A < s2B,所以应该去 A 地 C.因为 x A< x B, s2A > s2B,所以应该去B 地D .因为x A< x B,s2A<s B2,所以应该去 B 地11解析:选 B 因为 x A=×(72+86+87+89+ 92+94)≈86.67, x B=×(74+73+88+86+95+94)=。
2019精品年高考数学文专题复习第单元统计与统计案例北师大版文档
第59讲 │ 要点探究
①7,34,61,90,115,142,169,196,223,250 ②5,9,100,107,111,121,180,195,200,265 ③11,38,65,92,119,146,173,200,227,254 ④30,57,84,111,138,165,192,219,246,270 关于上述样本的下列结论中,正确的是( ) A.②、③都不能为系统抽样 B.②、④都不能为分层抽样 C.①、④都不能为系统抽样 D.②、④都不能为系统抽样
2.高考对本单元内容的要求较低,多以选择题或填空题的方 式进行考查,考查抽样方法,平均数、方差等数据特征;在解答 题中一般要通过统计图表,通过分析数据的数字特征,结合概率 等知识解决实际问题中或回答实际问题中的含义.
从陕西、安徽等省 2010 年的高考来看,均有一大一小两道 题,要求并不高,易得分,所以预测 2012 年仍然顺应这种高考 命题的趋势,在高考试卷中这部分继续考查统计的基础知识和基 本方法,在解答题中和概率统计等其他知识一起进行综合考查.
第十二单元 │ 使用建议
2.教学指导 在复习过程中,要注意以下三个方面: (1)强化概念的教学,本单元概念较多,引导学生结合具 体题目,仔细体会概念的含义,通过适当练习,学会如何使 用概念解题. (2)统计图表是统计中的主要工具,教学中要使学生学会 从图表中提取有关的数据信息、进行统计推断的方法. (3)加强运算能力的培养,统计的数字计算较繁,要求学 生培养良好的运算习惯,通过统计的复习提高运算能力. 3.课时安排 本单元包括3讲和1个单元能力训练卷,第61讲分两个课 时使用,另两讲和单元能力训练卷各用1课时,共需5课时.
第十二单元 │ 使用建议
使用建议
1.编写意图 本单元内容将教材中必修3第二章《统计》和选 修2-3第三章《统计案例》整合在一起.本单元内 容与生产生活实际相结合,数据多,公式多,要求 考生有较强的数据处理能力,公式一般不需要记 忆,考试时会给出公式.根据考试说明和高考对本 单元考查的实际情况,本单元在编写时注意到以下 几点:一是注意了基础知识的全面性和系统性;二 是注意了统计方法的讲解,编写中把各种统计方法 的使用放在首位;三是注意了高考的发展趋势,加 强了对统计案例的复习力度.
高中数学知识讲解-高考总复习:统计与统计案例
高考总复习:统计与统计案例【考纲要求】1.随机抽样(1)理解随机抽样的必要性和重要性;(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法. 2.用样本估计总体(1)了解分布的意义和作用, 会列频率分布表, 会画频率分布直方图、频率折线图、茎叶图, 理解它们各自的特点.(2)理解样本数据标准差的意义和作用, 会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差), 并作出合理的解释.(4)会用样本的频率分布估计总体分布, 会用样本的基本数字特征估计总体的基本数字特征, 理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想, 解决一些简单的实际问题. 3.变量的相关性(1)会作两个有关联变量数据的散点图, 会利用散点图认识变量间的相关关系;(2)了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆). 【知识网络】【考点梳理】考点一、随机抽样从调查的对象中按照一定的方法抽取一部分, 进行调查或观测, 获取数据, 并以此对调查对象统计图表用样本估计总体统计简单随机抽样数据的整 理分析数据的数字特征 分层抽样系统抽样变量的相关性的某项指标做出推断, 这就是抽样调查.调查对象的全体称为总体, 被抽取的一部分称为样本.1.简单的随机抽样 简单随机抽样的概念:设一个总体的个体数为N .如果通过逐个抽取的方法从中抽取一个样本, 且每次抽取时各个个体被抽到的概率相等, 就称这样的抽样为简单随机抽样.① 用简单随机抽样从含有N 个个体的总体中抽取一个容量为n 的样本时, 每次抽取一个个体时, 任一个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为n N;②简单随机抽样的特点是:不放回抽样, 逐个地进行抽取, 各个个体被抽到的概率相等; ③简单随机抽样方法体现了抽样的客观性与公平性, 是其他更复杂抽样方法的基础. 简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N 个)编号(号码可从1到N), 并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作), 然后将这些号签放在同一个箱子里, 进行均匀搅拌, 抽签时每次从中抽一个号签, 连续抽取n 次, 就得到一个容量为n 的样本.适用范围:总体的个体数不多.优点:抽签法简便易行, 当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步, 将总体中的个体编号;第二步, 选定开始的数字;第三步, 获取样本号码.2.系统抽样:当总体中的个体数较多时, 可将总体分成均衡的几个部分, 然后按预先制定出的规则, 从每一部分抽取一个个体, 得到需要的样本, 这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号, 为简便起见, 有时可直接采用个体所带有的号码, 如考生的准考证号、街道上各户的门牌号等等.②为将整个的编号分段 (即分成几个部分), 要确定分段的间隔k .当Nn是整数时(N 为总体中的个体的个数, n 为样本容量), N k n =;当N n不是整数时, 通过从总体中剔除一些个体使剩下的总体中个体的个数'N 能被n 整除, 这时'N k n=.③在第一段用简单随机抽样确定起始的个体编号l .④按照事先确定的规则抽取样本(通常是将l 加上间隔k , 得到第2个编号l k +, 第3个编号2l k +, 这样继续下去, 直到获取整个样本).要点诠释:①系统抽样适用于总体中的个体数较多的情况, 它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时, 采用的是简单随机抽样;②与简单随机抽样一样, 系统抽样是等概率抽样, 它是客观的、公平的③总体中的个体数恰好能被样本容量整除时, 可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时, 可用简单随机抽样先从总体中剔除少量个体, 使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:当已知总体由差异明显的几部分组成时, 为了使样本更充分地反映总体的情况, 常将总体分成几部分, 然后按照各部分所占的比例进行抽样, 这种抽样叫做分层抽样, 所分成的部分叫做层.4.常用的三种抽样方法的比较:要点诠释:(1)各种抽样的个体被抽到的概率相等;(2)抽样过程中个体被抽到的概率相等.5.不放回抽样和放回抽样:在抽样中, 如果每次抽出个体后不再将它放回总体, 称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体, 称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样考点二、用样本估计总体1. 统计图表包括条形图、折线图、饼图、茎叶图.2.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差)(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布表3.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离, s =(2)方差: 2222121[()()...()]n s x x x x x x n=-+-++- (n x 是样本数据,n 是样本容量,x 是样本平均数)要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标 6. 频率分布直方图反映样本的频率分布 (1)频率分布直方图中横坐标表示组距,纵坐标表示组距频率,频率=组距×组距频率(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观. (4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. 考点三、变量的相关性 1. 散点图将两个变量所对应的点描在直角坐标系中, 这些点组成了变量之间的一个图, 称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看, 散点分布具有一定的规律.如果变量之间存在某种关系, 这些点会有一个集中趋势, 这种趋势通常可以用一条光滑的曲线来近似表示, 这样近似的过程称为曲线拟合.2.两个变量的线性相关(1)相关关系:当自变量一定时, 因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.(2)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(3)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (4)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程$y bx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,),n n x y x y x y L 的回归方程,期中,a b 是待定参数.$1122211()()()n ni i i ii i n ni ii i x x y y x ynxy b x x xnx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$要点诠释:相关关系与函数关系的异同点: 相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系; ②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 考点四、统计案例 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示, 其中a,b 为模型的未知数, e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),(,),n n x y x y x y L 中回归方程的截距和斜率的最小二乘估计公式分别为:$$121()(),=-()nii i nii xx y y ba y bxxx ==--=-∑∑$$ 其中111,=,(,,)nni i i i x x y x x y n ===∑∑称为样本点的中心.(4)相关系数①()()nii xx y y r --=∑②当>0r 时,表明两个变量正相关; 当<0r 时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异µ2()i i y y -是随机误差的效应,称µµ=i ii e y y -为残差. (3)残差平方和µ21()nii i yy =-∑.(4)相关指数µ22121()()nii i n ii yy R yy ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcd c d + 总计a c +b d +a b c d +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值, 或者说2K 是一个随机变量, 它在a , b , c , d )取不同值时, 2K 可能不同, 而k 是取定一组数a , b , c , d 后的一个确定的值. 【典型例题】类型一、简单随机抽样【例1】某车间工人加工一种轴100件, 为了了解这种轴的直径, 要从中抽取10件轴在同一条件下测量, 如何采用简单随机抽样的方法抽取样本?【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.【解析】解法1:(抽签法)将100件轴编号为1, 2, …, 100, 并做好大小、形状相同的号签, 分别写上这100个数, 将这些号签放在一起, 进行均匀搅拌, 接着连续抽取10个号签, 然后测量这个10个号签对应的轴的直径.解法2:(随机数表法)将100件轴编号为00, 01, …99, 在随机数表中选定一个起始位置,如取第21行第1个数开始, 选取10个为68, 34, 30, 13, 70, 55, 74, 77, 40, 44, 这10件即为所要抽取的样本.【总结升华】从以上两种方法可以看出, 当总体个数较少时用两种方法都可以, 当样本总数较多时, 方法2优于方法1.举一反三:【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;(2)抽签法的操作要点:编号、制签、搅匀、抽取;(3)随机数表法的操作要点:编号、选起始数、读数、获取样本.【解析】抽签法第一步:将24名志愿者编号,编号为1,2,3, (24)第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:将24个号签放入一个不透明的盒子中,充分搅匀;[来源:]第四步:从盒子中逐个抽取6个号签, 并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法第一步:将24名学生编号,编号为01,02,03,……24;第二步:在随机数表中任选一数开始,按某一确定方向读数;第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数;第四步:找出号码与记录的数相同的学生组成志愿小组.类型二、系统抽样【例2】某校高中三年级的295名学生已经编号为1, 2, ……, 295, 为了了解学生的学习情况, 要按1:5的比例抽取一个样本, 用系统抽样的方法进行抽取, 并写出过程.【思路点拨】按1:5分段, 每段5人, 共分59段, 每段抽取一人, 关键是确定第1段的编号.【解析】按照1:5的比例, 应该抽取的样本容量为295÷5=59, 我们把259名同学分成59组, 每组5人, 第一组是编号为1~5的5名学生, 第2组是编号为6~10的5名学生, 依次下去, 59组是编号为291~295的5名学生.采用简单随机抽样的方法, 从第一组5名学生中抽出一名学生, 不妨设编号为k(1≤k≤5), 那么抽取的学生编号为k+5L(L=0,1,2,……, 58), 得到59个个体作为样本, 如当k=3时的样本编号为3, 8, 13, ……, 288, 293.【总结升华】系统抽样可按事先规定的规则抽取样本. 本题采用的规则是第一组随机抽取的学生编号为k, 那么第m 组抽取的学生编号为k+5(m-1).举一反三:【变式】一个总体中有100个个体, 随机编号为0, 1, 2, …, 99, 依编号顺序平均分成10个小组, 组号依次为l, 2, 3, …, 10.现用系统抽样方法抽取一个容量为10的样本, 规定如果在第1组随机抽取的号码为m, 那么在第最小组中抽取的号码个位数字与m+k 的个位数字相同.若m=6, 则在第7组中抽取的号码是 .【答案】∵6m =, 7k =, ∴13m k += ∴在第7小组中抽取的号码是63. 类型三、分层抽样【例3】某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况, 需从这600个销售点中抽取一个容量为100的样本, 记这项调查为①;在丙地区中有20个特大型销售点, 要从中抽取7个调查其销售收入和售后服务情况, 记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A .分层抽样法, 系统抽样法B .分层抽样法, 简单随机抽样法C .系统抽样法, 分层抽样法D .简单随机抽样法, 分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样, 采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时, 宜采用分层抽样;当总体中个体较少时, 宜采用随机抽样.【解析】依据题意, 第①项调查应采用分层抽样l 法、第②项调查应采用简单随机抽样法.故选B . 【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定. 举一反三:【变式】甲校有3600名学生, 乙校有5400名学生, 丙校有1800名学生, 为统计三校学生某方面的情况, 计划采用分层抽样法, 抽取一个样本容量为90人的样本, 应在这三校分别抽取学生( )A.30人, 30人, 30人B.30人, 45人, 15人C.20人, 30人, 10人D.30人, 50人, 10人【答案】B ;根据样本容量和总体容量确定抽样比, 最终得到每层中学生人数.【例4】一个地区共有5个乡镇, 人口3万人, 其中人口比例为3:2:5:2:3, 从3万人中抽取一个300人的样本, 分析某种疾病的发病率, 已知这种疾病与不同的地理位置及水土有关, 问应采取什么样的方法?并写出具体过程.【思路点拨】采用分层抽样的方法.【解析】因为疾病与地理位置和水土均有关系, 所以不同乡镇的发病情况差异明显, 因而采用分层抽样的方法, 具体过程如下:(1)将3万人分为5层, 其中一个乡镇为一层. (2)按照样本容量的比例随机抽取各乡镇应抽取的样本.300×3/15=60(人), 300×2/15=40(人), 300×5/15=100(人), 300×2/15=40(人), 300×3/15=60(人), 因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人.(3)将300人组到一起, 即得到一个样本.【总结升华】分层抽样在日常生活中应用广泛, 其抽取样本的步骤尤为重要, 应牢记按照相应的比例去抽取.举一反三:【变式】某单位最近组织了一次健身活动, 活动分为登山组和游泳组, 且每个职工至多参加了其中一组.在参加活动的职工中, 青年人占42.5%, 中年人占47.5%, 老年人占10%.登山组的职工占参加活动总人数的41, 且该组中, 青年人占50%, 中年人占40%, 老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度, 现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定(Ⅰ)游泳组中, 青年人、中年人、老年人分别所占的比例; (Ⅱ)游泳组中, 青年人、中年人、老年人分别应抽取的人数. 【答案】(Ⅰ)设登山组人数为x , 游泳组中, 青年人、中年人、老年人各占比例分别为a 、b 、c,则有40%347.5%410%310%4x xbxx xc x ⋅+⎧=⎪⎪⎨⋅+⎪=⎪⎩, 解得50%10%b c =⎧⎨=⎩故a=100%-50%-10%=40%,即游泳组中, 青年人、中年人、老年人各占比例分别为40%、50%、10%. (Ⅱ)游泳组中, 抽取的青年人数为320040%604⨯⨯=(人);抽取的中年人数为32004⨯⨯50%=75(人); 抽取的老年人数为32004⨯⨯10%=15(人).类型四、用样本估计总体【例4】甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分) 甲组 76 90 84 86 81 87 86 82 85 83乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩, 并判断哪个小组的成绩更整齐一些?【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.【解析】用茎叶图表示两小组的成绩如图:甲茎乙6 7 4 9 97 6 6 5 4 3 2 1 8 0 2 4 5 9 90 9 1由图可知甲组成绩较集中, 即甲组成绩更整齐一些.【总结升华】对各数据是二、三位数, 且数据量不是很大时, 用用茎叶图表示较为方便, 也便于进行统计推断, 否则, 应改用其他方法.举一反三:【变式1】甲、乙两个学习小组各有10名同学, 他们在一次数学测验中成绩的茎叶图如图所示, 则他们在这次测验中成绩较好的是组.【答案】甲小组【变式2】甲、乙两名运动员的5次测试成绩如下图所示, 设12,s s分别表示甲、乙两名运动员测试成绩的标准差,12,x x分别表示甲、乙两名运动员测试成绩的平均数, 则有()A.12x x=,12s s<B.12x x=,12s s>C.12x x>,12s s> D.12x x=,12s s=【答案】B【例5】以下茎叶图记录了甲、乙两组各四名同学在某次数学测验中的成绩, 甲组记录中有一个数据模糊, 无法确认, 在图中以X表示.甲组乙组甲茎乙5 7 16 88 8 2 2 3 6 76 X8 74 1 9 0 0 3(Ⅰ)如果甲组同学与乙组同学的平均成绩一样, 求X 及甲组同学数学成绩的方差;(Ⅱ)如果X=7, 分别从甲、乙两组同学中各随机选取一名, 求这两名同学的数学成绩之和大于180的概率.(注:方差2222121=[()()...()],n s x x x x x x n-+-++-其中12,,...,.n x x x x 为的平均数) 【思路点拨】(Ⅰ)利用平均数的基本概念加以求解。
人教版高中数学选修1-2《统计案例:复习参考题》【可编辑全文】
(2)建立销售总额为解释变量,利润为预报变量的回归 模型. (3)计算R2,你认为这个模型能较好地刻画销售总额和 利润之间的关系吗?请说明理由.
利润y
销售总额x与利润y的散点图
5000
4500
4000
3500
3000
2500 y = 0.0256x + 1334.5
2000
1500
R²= 0.4572
知识回顾 回归分析的思想及初步应用
1.函数关系与相关关系的区别?
函数关系是一种确定性关系,而相关关系是 一种非确定性关系.
2. 若y与x呈线性相关关系,则 回归直线方程
为
,满足
知识回顾 回归分析的思想及初步应用
3.回归分析的步骤:
解释变量
确定研究对象
预报变量
散点图
观察数据点的分布
两个变量 非线性相关
不吸烟 a
b a+b
吸烟
c
d c+d
总计 a+c b+d n (2)假设两变量无关;
(3)利用公式计算Κ2的观察值k;
,其中
(4)看下表,k与临界值k0比较; 两者无关的概率
P(K2≥k0) 0.10 0.05 0.025 0.010 0.001
k0 2.706 3.841 5.024 6.635 10.828 两者有关 90% 95% 97.5% 99% 99.9% 的概率 (5)下结论:两种角度,如
1000
500
0
0 20000 40000 60000 80000 100000 120000 140000
销售总额x
这个模型的销售总额x 对于利润y变化的 贡献率为45.72%
(完整word版)高中数学统计与统计案例全章复习(题型完美版)
第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2•会用简单随机抽样方法从总体中抽取样本;3•了解分层抽样和系统抽样方法•会用随机抽样的基本方法解决一些简单的实际问题.1知识梳理》i. 简单随机抽样(1) 定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n甸),如果每次抽取时总体内的各个个体被抽到的机会都相等』把这种抽样方法叫做简单随机抽样.⑵最常用的简单随机抽样的方法:抽签法和随机数法.2•系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1) 先将总体的N个个体编号.⑵确定分段间隔K,对编号进行分段,当N是整数时,取k=N,当N不是整数时,随机从总体中剔除余数,再取k =芈们为从总体中剔除余数后的总数).(3) 在第1段用简单随机抽样确定第一个个体编号1(1眾).(4) 按照一定的规则抽取样本,通常是将I加上间隔k得到第2个个体编号(l+kj,再加k得到第3个个体编号(1+ 2k),依次进行下去,直到获取整个样本.3•分层抽样(1) 定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.⑵分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.2题型分类【例1】下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.①从20件玩具中一次性抽取3件进行质量检验.①某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A . 0 B. 1 C. 2 D . 3位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第 1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A . 12B . 33C . 06D . 16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为 5,10,15,20,25,30,35,40,45,50的学生进行 作业检查,这种抽样方法是 ()A •随机抽样B •分层抽样C •系统抽样D •以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取 30所学校对学生进行视力调查,应从小学中抽取 ___________ 所学校,中学中抽取 _________ 所学校. 【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将 840人按1,2,…,840随机编号,则抽取的 42人中,编号落入区间[481,720]的人数为 _________ .【例6】(2017西安质检)对一个容量为 N 的总体抽取容量为 n 的样本,当选取简单随机抽样、系统抽样和 分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为P 1, p 2, p 3,则()A . P 1 = P 2<P 3B . P 2=P 3<P 1C . P 1=P 3<P 2D . P 1 = P 2=P 3【变式1】(2017?大连二模)某单位员工按年龄分为 A , B , C 三组,其人数之比为 5: 4: 1,现用分层抽样的方法从总体中抽取一个容量为 10的样本,已知C 组中某个员工被抽到的概率是1,则该单位员工总数9为( )A . 110B . 10C . 90D . 80【变式2】(2017?黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规 则)抽取40名同学进行检查,将学生从 1〜1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为() A . 16B . 17C . 18D . 19【变式3】(2017?宣城二模)一支田径队共有运动员 98人,其中女运动员 42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是2,则男运动员应抽取( )7A . 18 人B . 16 人C . 14 人D . 12 人3课后作业1 .为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到 该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽 样方法中,最合理的抽样方法是()A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样【例2】(2017?葫芦岛模拟)福利彩票双色球”中红球的号码可以从01, 02, 03,…,32, 33 这 33 个二2. 从编号为1〜50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A . 5,10,15,20,25B . 3,13,23,33,433.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为 质量是否存在显著差异,用分层抽样方法抽取了一个容量为 取了 3件,则n =()C .1,2,3,4,5D . 2,4,6,16,32120 件, 80 件, 60 件.为了解它们的产品 的样本进行调查,其中从丙车间的产品中抽A . 94.将参加英语口语测试的 1 系统抽样的方法分为 50 组, 则抽取的第 35 个编号为 (B . 10000 名学生编号为 如果第一组编号为C . 12D . 13, 999,从中抽取一个容量为 50 的样本,按015,000,001,002, •000,001,002 ,…,019,且第一组随机抽取的编号为 A .700B .669C .695D .6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生 了一个容量为 200 的样本,已知样本中女生比男生少 6 人,则该校共有女生 ()2 000 名,抽取A .1030 人B . 97 人C . 950 人第 2 节用样本估计总体最新考纲:1•了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点2理解样本数据标准差的意义和作用,会计算数据标准差3能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释4会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征. 理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1 知识梳理1.频率分布直方图(1)频率分布表的画法:极差第一步:求极差,决定组数和组距,组距= 组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.频率横轴表示样本数据,纵轴表示组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数•3•样本的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数,即X = X1+檢+…+ X nn方差1 - - -s2= j(X1—x)2+ (X2- x)2+ …+ (X n—x)2],其中S 为标准差2题型分类题型一茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()8 97 90 12 31 6为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了测试,测试成绩(单位:次 /分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩 (单位:分)•已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x , y 的值分别为( )A . 2,5B . 5,5C . 5,8D . 8,8【变式2】(2015秋?宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干 次预赛成绩中随机抽取8次,记录如下:(1) 用茎叶图表示这两组数据;(2) 现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你 认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于 35岁的80名教师按年龄分组,分组区间为 [35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如A . 91.5 和 91.5B . 91.5 和 92C . 91 和 91.5D . 92 和 92【例2】(2016?唐山一模)图,则这80名教师中年龄小于45岁的有___________ 人.【例2】(2017济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验•所有志愿者的舒张压数据(单位:kPa)的分组区间为[12 ,13),[13,14),[14,15), [15 ,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组•下图是根据试验数据制成的频率分布直方图•已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为 ____________ .【变式1】(2017?东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130, 140 )内的学生人数为100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100 , 110), [110 , 120), [120, 130 )三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_________ .【例3】(2016四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查•通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),•• (4)4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017?灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩, 根据所得数据画了如下的样本频率分布直方图.0-C 050,003 (1.0020.001------I4(43(1) 求成绩在[600, 650 )的频率;(2) 根据频率分布直方图算出样本数据的中位数;(3) 为了分析成绩与班级、学校等方面的关系,必须按成绩再从这 人作进一步分析,则成绩在 [550 , 600)的这段应抽多少人?【例4】(2017?唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱•为调查某校大学生 对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2] (2,4] (4,6] (6,8] (8,10] 人数104025205I 已知该校大一学生由 2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图; (3)估计该校大学生每周使用共享单车的平均时间 t (同一组中的数据用该组区间的中点值作代表)10000人中用分层抽样方法抽出202W'0 175 0 L5C0 125 0 0750.C5C 0,T 7【变式4】(2014全国①卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3) 根据以上抽样调查数据,能否认为该企业生产的这种产品符合质量指标值不低于95的产品至少要占全部产品80%的规定?频率购房总价(百万)【例5】(2017?肇庆三模)某市房产契税标准如下:购房总价(万)(0,200](200,400](400,]税率1% 1.5%3%从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费•从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替•当w = 3时,估计该市居民该月的人均水费•3课后作业1 •重庆市2016年各月的平均气温(①数据的茎叶图如图,则这组数据的中位数是 ( )&91 2 5 A 2 1} U33 S3 1 2A . 19B . 20C . 21.5D . 232.我国古代数学名著《数书九章》有 米谷粒分”题:粮仓开仓收粮, 有人送来米1 534石,验得米内夹谷,抽样取米 把,数得 254粒内夹谷28 粒,则这批米内夹谷约为 ( )A . 134石B . 169 石C . 338 石D . 1365 石3. 某班的全体学生参加英语测试, 成绩的频率分布直方图如图, 数据的分组依次为[20,40) , [40,60), [60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )4. (2016全国卷①某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低 气温的雷达图.图9-3-11中A 点表示十月的平均最高气温约为15①B 点表示四月的平均最低气温约为—甲均蠣低气14——平谢喊据吒4;(单位:度),以[160, 180) , [180 , 200) , [200, 220),[220 , 240), [240, 260), [260 , 280), [280 , 300)分组的频率分布直方图如图.(1) 求直方图中x 的值;0.020 0,0 IS0,0100.00520 40 60 AO 1A . 45B . 50C . 55D . 605①.A •各月的平均最低气温都在 0①U 上 C •三月和十一月的平均最高气温基本相同 B •七月的平均温差比一月的平均温差大 D .平均最高气温高于 20酗月份有5个 5. (2015?广东)某城市100户居民的月平均用电量 o(2) 求月平均用电量的众数和中位数;(3) 在月平均用电量为,[220 , 240), [240 , 260), [260 , 280), [280 , 300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220, 240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1•会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系 2 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆)3了解回归分析的基本思想、方法及其简单应用.1知识梳理Ai .回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散_ 点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3) 如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)(2)轴上 的截距.3 •相关系数最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. 回归方程:两个具有线性相关关系的变量的一组数据:(X 1, y 1), (X 2, y 2),…,(x n , y n ),其回归方 程为y = bx + a ,则n(X i x)(y i y)i 1n2(X i X)i 1nX i y i nxyi 1n2X ii 1-2nxa y bx .其中,b 是回归方程的斜率,a 是在ya .计算公式:b .当r>0时,n(X x)(y ii 1 nn _ 2(X i x)(y ii 1i 1y) _\ 2y)表明两个变量正相关;当 r<0 时,表明两个变量负相关.. r的绝对值越接近于0,表明两个变量之间相关性.2题型分类题型一相关关系的判断【例】某公司2010〜2015年的年利润x (单位:百万元)与年广告支出下表所示:y (单位:百万元)的统计资料如根据统计资料,则( )A . 利润中位数是16,x与y有正线性相关关系B . 利润中位数是17, x与y有正线性相关关系C . 利润中位数是17, x与y有负线性相关关系D . 利润中位数是18,x与y有负线性相关关系【变式】对变量X, y有观测数据(X i, y i)(i = 1,2,…,10),得散点图(1);对变量u, v有观测数据(u i, v i)(i =1,2 , •••,10),得散点图(2).由这两个散点图可以判断()A . 变量 x 与y 正相关, u 与 v 正相关B . 变量 x 与y 正相关, u 与 v 负相关C . 变量 x 与y 负相关, u 与 v 正相关D . 变量x 与y 负相关, u 与 v 负相关题型二线性回归分析相应的生产能耗y (吨)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程为 ?=0.7x+0.35, 则下列结论错误的是() X3 45 6 y2.5t44.5A .线性回归直线一定过点(4.5, 3.5)B •产品的生产能耗与产量呈正相关C . t 的取值必定是3.15D . A 产品每多生产1吨,则相应的生产能耗约增加 0.7吨【变式1】(2017?南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(X i ,y i ) (i=1,2,3,…,n ),用最小二乘法近似得到回归直线方程为 y? = 0.85x-85.71 ,则下列结论中不正确的是()A . y 与x 具有正线性相关关系B .回归直线过样本的中心点(x,y )C .若该中学某高中女生身高增加1cm ,则其体重约增加 0.85kgD •若该中学某高中女生身高为 160cm ,则可断定其体重必为50.29kg【例2】(2017?西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区 5户家庭,得到如下统计数据表:【例1】(2017?延边州模拟)如表提供了某厂节能降耗改造后在生产 A 产品过程中记录的产量 x (吨)与据上表得回归直线方程 ? bx a ,其中b 0.76, a y bx ,据此估计,该社区一户收入为 15万元家庭年支出为( )A . 11.4万元B . 11.8万元C . 12.0万元D . 12.2万元【变式2】(2017?成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的 广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为? 10.2x<?,据此模型,预测广告费为10万元时的销售额约为()A . 101.2B . 108.8C . 111.2D . 118.2题型三线性相关关系检验【例1】(2017?广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指 数R 2如下,其中拟合效果最好的为()A .模型①的相关指数为0.976B .模型①的相关指数为0.776C .模型①的相关指数为0.076D .模型①的相关指数为0.351【例2】(2015春?祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017?泉州模拟)关于衡量两个变量y与x之间线性相关关系的相关系数r与相关指数R2中,下列说法中正确的是(A . r 越大,两变量的线性相关性越强B . R 2越大,两变量的线性相关性越强C . r 的取值范围为(-a, +R )D . R 2的取值范围为[0, +8)题型四线性回归方程【例1】(2017?乐东县一模) 某公司经营一批进价为每件 4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量 y (件)之间有如下关系:(1) 求y 关于x 的回归直线方程;(2) 借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017?全国模拟)从某居民区随机抽取 10个家庭,获得第i 个家庭的月收入 X i (单位:千元)(1) 求家庭的月储蓄 y 关于月收入x 的线性回归方程 ? bX ? (2) 若该居民区某家庭月收入为 7千元,预测该家庭的月储蓄.【例2】(2017?甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图与月储蓄y i (单位:千元)的数据资料,算得1010 10 10xi80,20 ,…184,X j 2 72i 1 i 1i 1i 1(1)由折线图看出,可用线性回归模型拟合 y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到 0.01),预测2017年我国生活垃圾无害化处理量.777 - 2(y i y) 0.55,-7 2.646 .参考数据:y i 9.32 ,t i y ii 1i 140.17 ,nt i t)(y iy)参考公式:相关系数 ri 1回归方程$ a? 中斜率和截距的最小二乘估计公式nn(t i t)2(y i y)2! i 1 i 1n(t i F)(y iy)分别为:$ 口 n J=y bt.(t i D 2i 1【例3】(2017?可南一模)为了对2016年某校中考成绩进行分析,在 60分以上的全体同学中随机抽出 8宀聲Kt按羊匪哄窘S定甘出ii :卑蚱代舞 U 會韶时应年箱M 咽…丹".位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1) 若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2) 若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度; ①求y 与x 、z 与x 的线性回归方程(系数精确到 0.01),当某同学的数学成绩为 50分时,估计其物理、化学两科的得分.nn(X i x)(y i y)(X i x)(y j y )参考公式:相关系数ri 1b i 1/(x inx)2(y iy)2n(X i知2i1i 1i 1888参考数据:x 77.5 , y 85 ,z 81 ,(Xi i 1 x )2 1050 ,(y ii 1y)2 456 ,(z z)2550, 8 8(X j x)(y iy) 668,i 1(xii 1x )( z z )755 ,,1050 32.4, .456 21.4 ,:、55023.5 .【变式2】(2017?山头一模)二手车经销商小王对其所经营的 (单位:万元/辆)进行整理,得到如下数据:A 型号二手汽使用年数蛊2斗567 售饷20 12 8 C.4 4 43 z-lny3.002.4S2.0S1 Sd1用1 10F 面是z 关于x 的折线图:In 1.46 0.38, In 0.7118 0.34 .(1)由折线图可以看出,可以用线性回归模型拟合 z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆 A 型号二手车当使用年数为 9年时售价约为多少? ( b?a 小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于 该型号二手车时车辆的使用年数不得超过多少年?7118元,请根据(2)求出的回归方程预测在收购参考数据:6 6 62x i y i 187.4 ,xz 47.64 ,x ii 1i 1i 1139, 、(y i y)2V i 113.96 ,(zz)21.53 ,【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的宣传费x i和年销售量y i i 1,2丄,8数据作了初步处理,得到下面的散点图及一些统计量的值510 r SOO I- *40 i M « iO 51 M $6ur i 8表中 w i =、., X j , w =w i .8 i 1(1) 根据散点图判断,y a bx 与y c d . x ,哪一个适宜作为年销售量 y 关于年宣传费x 的回归方 程类型(给出判断即可,不必说明理由);(2) 根据(I )的判断结果及表中数据,建立 y 关于x 的回归方程. 附:对于一组数据(U i ,V i ),(U 2,V 2), , (U n ,V n ),其回归线V U 的斜率和截距的最小二乘估计分别为:n(U i u)(V iv)i 1n(U i U)2i 1【变式3】(2017?衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天 数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如 图)•一ttrF-h(1)根据散点图判断,? bx a , y - -(?哪一个更适宜作价格y 关x(2)根据判断结果和表中数据,建立y 关于x 的回归方程; (3)若该产品的日销售量g ( x )(件)与时间x 的函数关系为g(x) 二00120 ( x € N *),求该产品投放市场第几天的销售额最高?最高为多少元?X110厶0广幻 / — 110迟W 厂紆 107=110迟口丐厂小0厂刃 ;=11.63 37.J 0.89 5.15 0 92-20.618.40io1 — 1 W i—, W — W i . X i 10 i 1于时间x 的回归方程类型?(不必说明理由)3课后作业1. (2015全国卷①根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A .逐年比较,2008年减少二氧化硫排放量的效果最显著B . 2007年我国治理二氧化硫排放显现成效C . 2006年以来我国二氧化硫年排放量呈减少趋势D . 2006年以来我国二氧化硫年排放量与年份正相关2.(2017贵阳检测)若8名学生的身高和体重数据如下表:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157170 175 165 155 170 体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是 ?=0.849x-85.712,则第3名学生的体重估计为 ______________ kg. 3. (2017?合肥三模)网络购物已经成为一种时尚, 电商们为了提升知名度,加大了在媒体上的广告投入.经 统计,近五年某电商在媒体上的广告投入费用 x (亿元)与当年度该电商的销售收入 y (亿元)的数据如下表:):2012420142015 201* 广吿ffiAi0.S 0.9:L1.2\625 2d30(1 )求y 关于x 的回归方程; (2)2017年度该电商准备投入广告费 1.5亿元,利用(①)中的回归方程,预测该电商2017年的销售收入.n(X i x)(y i y)b 4―n,选用数据:x i y i 123.1 ,(人疔i 1i 1n2 X i4. (2017?包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.附:回归直线的斜率和截距的最小二乘估计公式分别为: 5.1注:年份代码1〜7分别对应年份 2010〜2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2) 建立y 关于t 的回归方程,预测 2017年该企业污水净化量;(3) 请用数据说明回归方程预报的效果.nn(t i t)(y i y)(t i t)(y iy)参考公式:相关系数r——i 1, b •反映回归效果的公式为 mnn_(t i t)2 (y i y)2待『.i 1i 1i 1n(y i ?)R 2 1 押 --------- ,其中R 2越接近于1 ,表示回归的效果越好.—2(y iy)i 1附注:参考数据:_7 _y 54 , (t i t)(y ii 1_7y) 21 ,、14 3.74 , (y ii 1?)2A・第4节独立性检验最新考纲:了解独立性检验(只要求2X2列联表)的思想、方法及其初步应用.1 知识梳理—.2X2列联表1•列联表用表格列出的分类变量的频数表,叫做列联表。
2018年高考数学总复习统计与统计案例(K12教育文档)
2018年高考数学总复习统计与统计案例(word版可编辑修改)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018年高考数学总复习统计与统计案例(word版可编辑修改))的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018年高考数学总复习统计与统计案例(word版可编辑修改)的全部内容。
第三节统计与统计案例考纲解读1。
理解随机抽样的必要性和重要性。
2。
会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法。
3。
了解分布的意义和作用,会列频率分布表,会画出频率分布直方图、频率折线图、茎叶图,理解它们各自的特点。
4. 理解样本数据标准差的意义和作用,会计算数据标准差.5。
能从样本的频率分布估计总体分布,会用样本的基本数字牲估计总体的基本数字特征,理解用样本估计总体的思想。
6. 会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.7. 会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系。
8。
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
9。
了解常见的统计方法,并能应用这些方法解决一些实际问题。
(1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用。
(2)回归分析了解回归分析的基本思想、方法及其简单应用。
命题趋势探究1. 本节内容是高考必考内容,以选择题、填空题为主。
2. 命题内容为:(1)三种抽样(以分层抽样为主);(2)频率分布表和频率分布直方图的制作、识图及运用。
(1)(2)有结合趋势,考题难度中下。
3. 统计案例为新课标教材新增内容,考查考生解决实际问题的能力。
高三数学一轮复习 11-1统计、统计案例 (北师大版)
上页
下页
末页
第二章 函数与基本初等函数
基础自测
1.(2010·四川文)一个单位职工800人,其中具有高级
职称的160人,具有中级职称的320人,具有初级职称的
200人,其余人员120人,为了解职工收入情况,决定采用
分层抽样的方法,从中抽取容量为40的样本,则从上述各
层中依次抽取的人数分别是( )
A.12,24,15,9
首页
上页
下页
末页
第二章 函数与基本初等函数
(4)独立性检验的一般步骤 ①根据样本数据制成 2×2 列联表. ②根据公式 χ2=a+ban+adc-bb+cd2 c+d,计算 χ2 的值. ③比较 χ2 与临界值的大小关系作统计推断.
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
(3)分析两个变量相关关系的常用方法 ①利用散点图进行判断:把样本数据表示的点在平面 直角坐标系中作出,从而得到散点图,如果这些点大致分 布在通过散点图中心的一条直线附近,那么就说这两个变 量之间具有线性相关关系. ②利用相关系数r进行判断:|r|≤1而且|r|越接近于1, 相关程度越大;|r|越接近于0,相关程度越小.
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
下页
末页
第二章 函数与基本初等函数
首页
上页
(完整版)高中数学统计、统计案例知识点总结和典例
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
高三数学全程复习方略第十一编 统计、统计案例(共39页)
第十一编 统计、统计案例§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.(2008·广东理)某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应答案 165.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000.(4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本.例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下:(1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本.300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分例4 为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):①从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;②每个班抽取1人,共计20人,考察这20名学生的成绩;③把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1 000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人).根据上面的叙述,试回答下列问题:(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少?(2)上面三种抽取方式各自采用的是何种抽取样本的方法? (3)试分别写出上面三种抽取方式各自抽取样本的步骤.解 (1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100.(2)三种抽取方式中,第一种采用的是简单随机抽样法; 第二种采用的是系统抽样法和简单随机抽样法; 第三种采用的是分层抽样法和简单随机抽样法. (3)第一种方式抽样的步骤如下:第一步,首先用抽签法在这20个班中任意抽取一个班.第二步,然后从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩. 第二种方式抽样的步骤如下:第一步,首先用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a.第二步,在其余的19个班中,选取学号为a 的学生,加上第一个班中的一名学生,共计20人.第三种方式抽样的步骤如下:第一步,分层,因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次.第二步,确定各个层次抽取的人数.因为样本容量与总体的个体数之比为:100∶1 000=1∶10,所以在每个层次中抽取的个体数依次为10150,10600,10250,即15,60,25.第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.1.有一批机器,编号为1,2,3,…,112,为调查机器的质量问题,打算抽取10台入样,问此样本若采用简单随机抽样方法将如何获得?解 方法一 首先,把机器都编上号码001,002,003,…,112,如用抽签法,则把112个形状、大小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时,每次从中抽出1个号签,连续抽取10次,就得到一个容量为10的样本.方法二 第一步,将原来的编号调整为001,002,003, (112)第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如:选第9行第7个数“3”,向右读.第三步,从“3”开始,向右读,每次读取三位,凡不在001~112中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到074,100,094,052,080,003,105,107,083,092. 第四步,对应原来编号74,100,94,52,80,3,105,107,83,92的机器便是要抽取的对象.2.某单位在岗职工共624人,为了调查工人用于上班途中的时间,该单位工会决定抽取10%的工人进行调查,请问如何采用系统抽样法完成这一抽样? 解 (1)将624名职工用随机方式编号由000至623. (2)利用随机数表法从总体中剔除4人.(3)将剩下的620名职工重新编号由000至619.(4)分段,取间隔k=62620=10,将总体分成62组,每组含10人.(5)从第一段,即为000到009号随机抽取一个号l.(6)按编号将l ,10+l,20+l,…,610+l,共62个号码选出,这62个号码所对应的职工组成样本. 3.某电台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12 000人,电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应当怎样进行抽样?解 可用分层抽样方法,其总体容量为12 000.“很喜爱”占000124352,应取60×000124352≈12(人);“喜爱”占000125674,应取60×000125674≈23(人);“一般”占000129263,应取60×000129263≈20(人);“不喜爱”占000120721,应取60×000120721≈5(人).因此采用分层抽样在“很喜爱”、“喜爱”、“一般”和“不喜爱”的2 435人、4 567人、3 926人和1 072人中分别抽取12人、23人、20人和5人.4.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250; ②5,9,100,107,111,121,180,195,200,265; ③11,38,65,92,119,146,173,200,227,254; ④30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是 (填序号). (1)②、③都不能为系统抽样 (2)②、④都不能为分层抽样 (3)①、④都可能为系统抽样 (4)①、③都可能为分层抽样 答案 (4)一、填空题1.(2008·安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为.答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为.答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2008·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是. 答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是.答案 67.(2008·天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.答案108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为.答案0795二、解答题9.为了检验某种作业本的印刷质量,决定从一捆(40本)中抽取10本进行检查,利用随机数表抽取这个样本时,应按怎样的步骤进行?分析可先对这40本作业本进行统一编号,然后在随机数表中任选一数作为起始号码,按任意方向读下去,便会得到10个号码.解可按以下步骤进行:第一步,先将40本作业本编号,可编为00,01,02, (39)第二步,在附录1随机数表中任选一个数作为开始.如从第8行第4列的数78开始.第三步,从选定的数78开始向右读下去,得到一个两位数字号码59,由于59>39,将它去掉;继续向右读,得到16,由于16<39,将它取出;继续读下去,可得到19,10,12,07,39,38,33,21,后面一个是12,由于在前面12已经取出,将它去掉;再继续读,得到34.至此,10个样本号码已经取满,于是,所要抽取的样本号码是16,19,10,12,07,39,38,33,21,34.10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5,∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.11.从某厂生产的10 002辆电动自行车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程.解 因为总体容量和样本容量都较大,可用系统抽样. 抽样步骤如下:第一步,将10 002辆电动自行车用随机方式编号; 第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10 000辆电动自行车重新编号(分别为00001,00002,…,10000)并分成100段;第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样抽出一个作为起始号码(如00006);第四步,把起始号码依次加间隔100,可获得样本.12.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容 量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n 36,分层抽样的比例是36n ,抽取工程师36n ×6=6n(人), 抽取技术人员36n ×12=3n(人), 抽取技工36n ×18=2n(人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.§11.2 总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= .答案 h m4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:基础自测根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)依题意知第三组的频率为1464324+++++=51,又因为第三组的频数为12,∴本次活动的参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例2 对某电子元件进行寿命追踪调查,情况如下:(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件寿命在100 h ~400 h 以内的概率; (4)估计电子元件寿命在400 h 以上的概率. 解 (1)样本频率分布表如下:(2)频率分布直方图(3)由频率分布表可以看出,寿命在100 h ~400 h 的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100 h ~400 h 的概率为0.65.(4)由频率分布表可知,寿命在400 h 以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h 以上的概率为0.35.例3 为了解A ,B 两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km ) 轮胎A 96, 112, 97, 108, 100, 103, 86, 98 轮胎B 108, 101, 94, 105, 96, 93, 97, 106(1)分别计算A ,B 两种轮胎行驶的最远里程的平均数,中位数; (2)分别计算A ,B 两种轮胎行驶的最远里程的极差、标准差; (3)根据以上数据你认为哪种型号的轮胎性能更加稳定? 解 (1)A 轮胎行驶的最远里程的平均数为:898861031001089711296+++++++=100, 中位数为:298100+ =99;B 轮胎行驶的最远里程的平均数为:810697939610594101108+++++++=100, 中位数为:297101+=99.(2)A 轮胎行驶的最远里程的极差为:112-86=26, 标准差为:s=821430831242222222+++++++=2221≈7.43;B 轮胎行驶的最远里程的极差为:108-93=15, 标准差为:s=86374561822222222+++++++=2118≈5.43.(3)由于A 和B 的最远行驶里程的平均数相同,而B 轮胎行驶的最远里程的极差和标准差较小,所以B 轮胎性能更加 稳定.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下:甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115, 90, 85, 75, 115, 110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分 (2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分 方差:s12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分 方差:s22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s12<s22,∴甲车间产品稳定.14分1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n,则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) [40,50),2;[50,60),3;[60,70),10;[70,80),15; [80,90),12;[90,100],8. (1)列出样本的频率分布表; (2)画出频率分布直方图;(3)估计成绩在[60,90)分的学生比例; (4)估计成绩在85分以下的学生比例. 解 (1)频率分布表如下:(2)频率分布直方图如图所示.(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,即为(0.20+0.30+0.24)×100%=74%.(4)成绩在85分以下的学生比例即为学生成绩不足85分的频率.由808560.0--b =809060.084.0--,故b=0.72.估计成绩在85分以下的学生约占72%.3.有甲、乙两位射击运动员在相同条件下各射击10次,记录各次命中环数; 甲:8,8,6,8,6,5,9,10,7,4 乙:9,5,7,8,7,6,8,6, 8,7 (1)分别计算他们环数的标准差; (2)谁的射击情况比较稳定.解 (1)x 甲=101(8+8+6+8+6+5+9+10+7+4)=7.1, x 乙=101(9+5+7+8+7+6+8+6+8+7)=7.1,2甲s =101[(8-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(5-7.1)2+(9-7.1)2+(10-7.1)2+(7-7.1)2+(4-7.1)2]=3.09, ∴s 甲≈1.76.2乙s =101[(9-7.1)2+(5-7.1)2+(7-7.1)2+(8-7.1)2+(7-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(7-7.1)2]=1.29,∴s 乙≈1.14.(2)∵x 甲=x 乙,s 乙<s 甲,∴乙射击情况比较稳定.4.(2008·海南、宁夏理,16)从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度(单位:mm ),结果如下: 甲品种:271 273 280 285 285 287 292 294 295 301 303 303 307 308 310 314 319 323 325 325 328 331 334 337 352 乙品种:284 292 295 304 306 307 312 313 315 315 316 318 318 320 322 322 324 327 329 331 333 336 337 343 356 由以上数据设计了如下茎叶图:根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:① ;②.答案①乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度).②甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散.(或:乙品种棉花的纤维长度较甲品种棉花的纤维长度更集中(稳定).甲品种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分散程度更大).③甲品种棉花的纤维长度的中位数为307 mm,乙品种棉花的纤维长度的中位数为318 mm.④乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间(均值附近).甲品种棉花的纤维长度除一个特殊值(352)外,也大致对称,其分布较均匀.一、填空题1.下列关于频率分布直方图的说法中不正确的是.①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值答案①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩比稳定.答案甲乙3.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用条形图表示如下:根据条形图可得这50名学生这一天平均每人的课外阅读时间为h.答案0.94.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为.答案0.9,355.(2009·启东质检)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组的频数成等差数列,设最大频率为a ,视 力在4.6到5.0之间的学生数为b,则a,b 的值分别为 .答案 0.27,786.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(2008·上海理,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 .答案 10.5、10.58.某教师出了一份共3道题的测试卷,每道题1分,全班得3分,2分,1分,0分的学生所占比例分别为30%,40%,20%,10%,若全班30人,则全班同学的平均分是 分. 答案 1.9 二、解答题9.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.(1)求第二小组的频率,并补全这个频率分布直方图; (2)求这两个班参赛的学生人数是多少?(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05.∴第二小组的频率为:1.00-(0.30+0.15+0.10+0.05)=0.40.∴落在59.5~69.5的第二小组的小长方形的高=组距频率=1040.0=0.04.则补全的直方图如图所示.(2)设九年级两个班参赛的学生人数为x 人. ∵第二小组的频数为40人,频率为0.40,∴x 40=0.40,解得x=100(人).所以九年级两个班参赛的学生人数为100人.(3)因为0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数,所以样本容量=第二小组频率第二小组频数=08.012=150.(2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.。
高中数学选修1-2第一章统计案例测试题带详细解答(可编辑修改word版)
1
A、增加3个单位B、增加个单位C、减少3个单位D、减少个单位
3
【答案】C
【解析】
解释变量即回归方程里的自变量xˆ,由回归方程知预报变量yˆ减少 3 个单位
4.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U
与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之
选修 1-2 第一章、统计案例测试
一、选择题
1.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程为ybxa必过点() A.(2,2)B. (1.5 ,4)C.(1.5 ,0)D.(1,2)
【答案】B
【解析】
试题分析:由数据可知x1.5,y4,∴线性回归方程
4
为yb xa必过点(1.5,4)
5 =11.72
. Y =(1+2+3+4+5)
5 =3
∴这组数据的相关系数是r=7.2
19.172 =0.3755,
变量U与V相对应的一组数据为(10,5),(11.3,4),
(11.8,3),(12.5,2),(13,1)
. U =(5+4+3+2+1)
5 =3,
∴这组数据的相关系数是-0.3755,
【解析】
试题分析:由题意,年劳动生产率x(千元)和工人工资y(元)之间回归方程为
y1070x,
故当x增加 1 时,y要增加 70 元,
∴劳动生产率每提高1千元时,工资平均提高70元,故A正确.
高中数学统计与统计案例全章复习题型完美版
第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当Nn是整数时,取k=Nn,当Nn不是整数时,随机从总体中剔除余数,再取k=N′n(N′为从总体中剔除余数后的总数).1知识梳理(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k).(4)按照一定的规则抽取样本,通常是将l 加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.2题型分类【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017?葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3【变式1】(2017?大连二模)某单位员工按年龄分为A,B,C三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到1,则该单位员工总数为()的概率是9A.110B.10C.90D.80【变式2】(2017?黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19【变式3】(2017?宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层2,则男运动员应抽取()抽样的方法抽取一个样本,每名运动员被抽到的概率都是7A.18人B.16人C.14人D.12人3课后作业1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显着差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9B.10C.12D.134.将参加英语口语测试的1 000名学生编号为000,001,002,...,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002, (019)且第一组随机抽取的编号为015,则抽取的第35个编号为( )A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A.1030人B.97人C.950人D.970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.1知识梳理2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数,即x=x1+x2+…+x nn方差s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中s为标准差题型一茎叶图2题型分类【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016?唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋?宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017?东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋?威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017?灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017?唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017?肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.3课后作业1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( ) A.19B.20C.21.5D.232.我国古代数学名着《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( )A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A.45B.50C.55D.604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个5.(2015?广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1知识梳理1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i i xn x yx n yx x x y y x x b 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r |大于0.75时,认为两个变量有很强的线性相关性.题型一 相关关系的判断【例】某公司2010~2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:根据统计资料,则( )2题型分类A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017?延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B .产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017?南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x?85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017?西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017?成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x yˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .101.2B .108.8C .111.2D .118.2题型三 线性相关关系检验【例1】(2017?广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为0.976 C .模型③的相关指数为0.076B .模型②的相关指数为0.776D .模型④的相关指数为0.351【例2】(2015春?祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017?泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强B .R 2越大,两变量的线性相关性越强C.r的取值范围为(-∞,+∞)D.R2的取值范围为[0,+∞)题型四线性回归方程【例1】(2017?乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x(百元)与日销售量y(件)之间有如下关系:(1)求y关于x的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017?全国模拟)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄y i(单位:千元)的数据资料,算得∑==10180iix,∑==10120iiy,∑==101184iiiyx,∑==10 12720iix.(1)求家庭的月储蓄y关于月收入x的线性回归方程ax byˆˆˆ+=;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017?甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i i y ,17.4071=∑=i i i y t ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -【例3】(2017?河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;②求y 与x 、z 与x 的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i i x x ,456)(812≈-∑=i i y y ,550)(812≈-∑=i i z z ,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017?汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据: 下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i i i y x ,64.4761=∑=i i i z x ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.6 3 8表中i w =i x ,w =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017?衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii x w 1=,∑==101101i i w w .(1)根据散点图判断,a bx y+=ˆ,c xdy ˆˆˆ+=哪一个更适宜作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;(3)若该产品的日销售量g (x )(件)与时间x 的函数关系为120100)(+-=xx g (x ∈N *),求该产品投放市场第几天的销售额最高?最高为多少元?3课后作业1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显着B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:编号12345678身高/cm165165157170175165155170体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是yˆ=0.849x-85.712,则第3名学生的体重估计为_____kg.3.(2017?合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x (亿元)与当年度该电商的销售收入y (亿元)的数据如下表:):(1)求y 关于x 的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,4.(2017?包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业污水净化量;(3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i i y y t t ,74.314≈,49)ˆ(712=-∑=i i i yy .参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为∑∑==---=ni ini i iy yyy R 1212)()ˆ(1,其中R 2越接近于1,表示回归的效果越好.第4节 独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。
(完整版)高三复习高中数学统计案例习题(有详细答案)
2015年高三复习高中数学统计案例习题(有详细答案)一.选择题(共15小题)1.(2014?四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.(2014?湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A. 2 0 B.24 C.30 D.363.(2014?湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A. 5 ,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,324.(2014?锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A. 3 000 B.6000 C.7000 D.80005.(2014?许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a}.已知a=2a,且样本容量为300,则小长方形面积最大的一组的频数为()12n A.1 00 B.120 C.150 D.2006.(2014?云南模拟)已知一组数据如图所示,则这组数据的中位数是()A. 2 7.5 B.28.5 C.27 D.287.(2014?青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横和,标准差分别为6s天的最低气温平均数分别为和两城市这、,记xn轴表示日期,纵轴表示气温)AB A s),则它们的大小关系是(B.A.B.C.D.<,<ss>,s<s >s <>,s>s ,s BAABBBAA)得到的散点图,由这些散点图可10,)x(8.2014?天门模拟)如图是根据变量x,y的观测数据(,y(i=12,…ii,以判断变量xy具有相关关系的图是()①④②③③④①②B. C .D.A.9.(2014?邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()零件数x(个)10 20 30 40 50加工时间y(min)62 a 75 81 89A. 6 8.2 B.68 C.69 D.6710.(2013?福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 5 88 B.480 C.450 D.12011.(2013?陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0 .09 B.0.20 C.0.25 D.0.4512.(2013?辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A. 4 5 B.50 C.55 D.6013.(2012?成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.7 0 户B.17 户C.56 户D.25 户14.(2012?泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A. 1 5 B.16 C.17 D.1815.(2012?绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A. 2 人B.3人C.4人D.5人二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13x+所表示的直线必经的点.x的回归方程=关于求y次,绘制成.甲、乙两位同学参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取418 茎叶图如图:乙甲7 9 75 3 58 1 2 8)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率;(Ⅰ)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.(Ⅱ月份用水量(单位:百吨)的一组数据:1﹣519.下表是某单位在2013年5 4 1 2 3 月份x1.82.5 4 3 用水量y 4.5,通过公式得”“预测可靠(Ⅰ)若由线性回归方程得到的预测数据与实际检验数据的误差不超过0.05,视为月份的用水量是否可靠?说明理由;个月的数据中所得到的线性回归方程预测5,那么由该单位前4 7(单位:百吨)的概率.个月的用水量之和小于个月中任取2个月的用水量,求所取2(Ⅱ)从这5,.参考公式:回归直线方程是:,将成绩按150分)20.某校高三数学竞赛初赛考试后,对考生的成绩进行统计(考生成绩均不低于90分,满分为,如图为其频率分布直方图的一部]150,第六组[140,)、第二组[100,110)…如下方式分成六组,第一组[90,100 人.分,若第四、五、六组的人数依次成等差数列,且第六组有4 )求第四和第五组频率,并补全频率分布直方图;(Ⅰ列联表(即填写空格处的22×140Ⅱ)若不低于120分的同学进入决赛,不低于分的同学为种子选手,完成下面(.进入决赛的同学成为种子选手与专家培训有关”数据),并判断是否有99%的把握认为“合计[140,150][120 ,140)8 8 参加培训未参加培训4 合计2 K=附:20.001 0.005 0.10 0.150.025 .25 00.05 0.010 K≥k)(P010.8282.0721.3232.7063.8415.0246.6357.879K021.为了了解某中学高二女生的身高情况,该校对高二女生的身高进行了一次随机抽样测量,所得数据整理后列出了频率分布表如下:(单位:cm)(1)表中m、n、M、N所表示的数分别是多少?(2)绘制频率分布直方图;(3)估计该校女生身高小于162.5cm的百分比.22.某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].(1)求x值;(2)(理科)从成绩不低于80分的学生中随机的选取2人,该2人中成绩在90以上(含90分)的人数记为ξ,求ξ的概率分布列及数学期望Eξ.(文)从从成绩不低于80分的学生中随机的选取3人,该3人中至少有2人成绩在90以上(含90分)的概率.23.某网站针对2014年中国好声音歌手A,B,C三人进行网上投票,结果如下观众年龄支持A 支持B 支持C20岁以下200 400 80020岁以上(含20岁)100 100 400(1)在所有参与该活动的人中,用分层抽样的方法抽取n人,其中有6人支持A,求n的值.(2)在支持C的人中,用分层抽样的方法抽取6人作为一个总体,从这6人中任意选取2人,求恰有1人在20岁以下的概率.24.某校100名学生期中考试数学成绩的频率分布直方图如图,其中成绩分组区间如下:组号第一组第二组第三组第四组第五组分组[50,60)[60,70)[70,80)[80,90)[90,100](Ⅰ)求图中a的值;(Ⅱ)根据频率分布直方图,估计这100名学生期中考试数学成绩的平均分;(Ⅲ)现用分层抽样的方法从第3、4、5组中随机抽取6名学生,将该样本看成一个总体,从中随机抽取2名,求其中恰有1人的分数不低于90分的概率?25.从某实验中,得到一组样本容量为60的数据,分组情况如下:(Ⅰ)求出表中m,a的值;分组5~15 15~25 25~35 35~45频数 6 2l m频率 a 0.05(Ⅱ)估计这组数据的平均数.26.某校高三文科分为四个班.高三数学调研测试后,随机地在各班抽取部分学生进行测试成绩统计,各班被抽取的学生人数恰好成等差数列,人数最少的班被抽取了22人.抽取出来的所有学生的测试成绩统计结果的频率分布条形图如图所示,其中120~130(包括120分但不包括130分)的频率为0.05,此分数段的人数为5人.(1)问各班被抽取的学生人数各为多少人?(2)求平均成绩;(3)在抽取的所有学生中,任取一名学生,求分数不小于90分的概率.27.在参加世界杯足球赛的32支球队中,随机抽取20名队员,调查其年龄为25,21,23,25,27,29,25,28,30,29,26,24,25,27,26,22,24,25,26,28.(1)填写下面的频率分布表(2)并画出频率分布直方图.(3)据此估计全体队员在哪个年龄段的人数最多?占总数的百分之几?分组频数频率20.5~22.522.5~24.524.5~26.526.5~28.528.5~30.5合计28.如图是调查某地某公司1000名员工的月收入后制作的直方图.(1)求该公司员工的月平均收入及员工月收入的中位数;(2)在收入为1000至1500元和收入为3500至4000元的员工中用分层抽样的方法抽取一个容量15的样本,员工甲、乙的月收入分别为1200元、3800元,求甲乙同时被抽到的概率.29.某市为了解全市居民日常用水量的分布情况,现采用抽样调查的方式,获得了n位居民某年的月均用水量(单位:t),样本统计结果如图表:(Ⅰ)分别求出x,n,y的值;(Ⅱ)若从样本中月均用水量在[5,6]内的5位居民a,b,c,d,e中任选2人作进一步的调查研究,求居民a被选中的概率.分组频数频率[0,1)25 y[1,2)0.19[2,3)50 x[3,4)0.23[4,5)0.18[5,6] 530.为了分析某次考试数学成绩情况,用简单随机抽样从某班中抽取25名学生的成绩(百分制)作为样本,得到频率分布表如下:分数[50,60)[60,70)[70,80)[80,90)[90,100]频数 2 3 9 a 1频率0.08 0.12 0.36 b 0.04(Ⅰ)求样本频率分布表中a,b的值,并根据上述频率分布表,在下表中作出样本频率分布直方图;(Ⅱ)计算这25名学生的平均数及方差(同一组中的数据用该组区间的中点值作代表);(Ⅲ)从成绩在[50,70)的学生中任选2人,求至少有1人的成绩在[60,70)中的概率.参考答案与试题解析一.选择题(共15小题)1.(2014?四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样考点:分层抽样方法.专题:阅读型.分析:若总体由差异明显的几部分组成时,经常采用分层抽样的方法进行抽样解答:解:我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,而事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.了解某地区中小学生的视力情况,按学段分层抽样,这种方式具有代表性,比较合理.故选C.点评:本小题考查抽样方法,主要考查抽样方法,属基本题.2.(2014?湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A. 2 0 B.24 C.30 D.36考点:分层抽样方法.专题:计算题.分析:根据社区里的高收入家庭户和高收入家庭户要抽取的户数,得到每个个体被抽到的概率,用求到的概率乘以低收入家庭户的户数,得到结果.解答:解:∵区现有480个住户,高收入家庭120户,抽取了6户∴每个个体被抽到的概率是=24,∴该社区本次被抽取的总户数为故选B.点评:本题考查分层抽样方法,这种题目类型是高考题目中一定会出现的题目,运算量不大,是一个必得分题目.3.(2014?湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A. 5 ,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,32考点:系统抽样方法.专题:计算题.分析:由系统抽样的特点知,将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,这时间隔一般为总体的个数除以样本容量.从所给的四个选项中可以看出间隔相等且组距为10的一组数据是由系统抽样得到的.解答:解:从50枚某型导弹中随机抽取5枚,采用系统抽样间隔应为=10,只有B答案中导弹的编号间隔为10,故选B.点评:一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本.4.(2014?锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A. 3 000 B.6000 C.7000 D.8000考点:频率分布直方图.专题:概率与统计.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,每一小组的频率等于这一组的频数除以样本容量.频率分布直方图中,小矩形的面积等于这一组的频率.底部周长小于100cm的矩形的面积求和乘以样本容量即可.解答:解:由图可知:底部周长小于100cm段的频率为(0.01+0.02)×10=0.3,则底部周长大于100cm的段的频率为1﹣0.3=0.7那么在这片树木中底部周长大于100cm的株树大约10000×0.7=7000人.故选C.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.5.(2014?许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a}.已知a=2a,且样本容量为300,则小长方形面积最大的一组的频数为()1n2A.1 00 B.120 C.150 D.200考点:频率分布直方图.专题:概率与统计.分析:根据直方图中的各个矩形的面积代表了频率,各个矩形面积之和为1,求出小长方形面积最大的一组的频率,再根据频数=频率×样本容量,求出频数即可.解答:解:∵直方图中的各个矩形的面积代表了频率,这5个小方形的面积由小到大构成等差数列{a},a=2a,1n2∴d=a,a=3a,a=4a,a=5a 1531141根据各个矩形面积之和为1,则a+a+a+a+a=15a=1 114253∴a=,小长方形面积最大的一组的频率为a=5×= 51根据频率=可求出频数=300×=100故选:A.点评:本题考查了频率、频数的应用问题,各小组频数之和等于样本容量,各小组频率之和等于1.6.(2014?云南模拟)已知一组数据如图所示,则这组数据的中位数是()A. 2 7.5 B.28.5 C.27 D.28考点:众数、中位数、平均数.专题:概率与统计.分析:利用中位数的定义即可得出.解答:36,40的中位数是=27.5.,30,32,3016,17,19,22,25,27,28,解:这组数据为故选:A.点评:本题考查了中位数的定义及其计算方法,属于基础题.7.(2014?青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横6天的最低气温平均数分别为和,标准差分别为B两城市这s和A轴n表示日期,纵轴x表示气温),记、A),则它们的大小关系是(s BA.B.C.D.<,ss >,s<s >s ,<s>>,ss <BBBAAABA考点:众数、中位数、平均数.专题:概率与统计.分析:本题可以由折线图上的数据做出两个城市的平均气温和方差,也可以根据两个折线图的高低和变化的趋势即波动的大小,得到结果.解答:解:由折线图可知A市的平均气温是,B市的平均气温是=11.7,由折线图也可以看出B市的气温较高,可以看出B市的气温的变化不大,方差较小;故选D.点评:本题考查了折线图以及平均数和方差的求法;求两组数据的平均值和方差是研究数据常做的两件事,平均值反映数据的平均水平,而方差反映数据的波动大小,从两个方面可以准确的把握数据的情况.8.(2014?天门模拟)如图是根据变量x,y的观测数据(x,y)(i=1,2,…10)得到的散点图,由这些散点图可ii以判断变量x,y具有相关关系的图是()①④②③③④①②B.C.A. D .考点:散点图.专题:计算题.分析:通过观察散点图可以知道,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.解答:解:由题图③可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,由题图④可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.故选D.点评:本题考查散点图,是通过读图来解决问题,考查读图能力,粗略的反应两个变量之间的关系,是不是线性相关,是正相关还是负相关.9.(2014?邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()40 50 10 20 30 零件数x(个)8981 加工时间y(min)62 a 75C.69D.68.2 A.6 B.68 7线性回归方程.:考点计算题;概率与统计.专题:分析:可得68.2,故可能值为68.由题意,将20代入解答:解:由题意,y=0.68×20+54.6=68.2,又由表可知加工时间y(min)都是以整数记,故a可能为68,故选B.点评:本题考查了线性回归方程的应用及数学问题与实际问题的转化,属于基础题.10.(2013?福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 5 88 B.480 C.450 D.120:考点频率分布直方图.专题:图表型.分析:根据频率分布直方图,成绩不低于60分的频率,然后根据频数=频率×总数可求出所求.解答:解:根据频率分布直方图,成绩不低于60(分)的频率为1﹣10×(0.005+0.015)=0.8.由于该校高一年级共有学生600人,利用样本估计总体的思想,可估计该校高一年级模块测试成绩不低于60(分)的人数为600×0.8=480人.故选B.点评:本小题主要考查频率、频数、统计和概率等知识,考查数形结合、化归与转化的数学思想方法,以及运算求解能力.11.(2013?陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0 .09 B.0.20 C.0.25 D.0.45考点:频率分布直方图.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,小矩形的面积等于这一组的频率,则所以面积和为1,建立等量关系即可求得长度在[25,30)内的频率即得.解答:解:设长度在[25,30)内的频率为a,根据频率分布直方图得:a+5×0.02+5×0.06+5×0.03=1?a=0.45.则根据频率分布直方图估计从该批产品中随机抽取一件,则其为二等品的概率为0.45.故选D.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.12.(2013?辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A. 4 5 B.50 C.55 D.60考点:频率分布直方图.:专题概率与统计.分析:由已知中的频率分布直方图,我们可以求出成绩低于60分的频率,结合已知中的低于60分的人数是15人,结合频数=频率×总体容量,即可得到总体容量.解答:解:∵成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01,每组数据的组距为20则成绩低于60分的频率P=(0.005+0.010)×20=0.3,又∵低于60分的人数是15人,则该班的学生人数是=50.故选B.点评:本题考查的知识点是频率分布直方图,结合已知中的频率分布直方图,结合频率=矩形的高×组距,求出满足条件的事件发生的频率是解答本题的关键.13.(2012?成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.7 0 户B.17 户C.56 户D.25 户考点:分层抽样方法.专题:概率与统计.分析:由分层抽样的计算方法:中等收入家庭的户数占总户数的比例再乘以要抽取的户数,即可得出答案.解答:解:由已知可得中等收入家庭中应抽选出的户数==56.故选C.点评:本题考查了分层抽样,掌握分层抽样的计算方法是解决问题的关键.14.(2012?泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A. 1 5 B.16 C.17 D.18考点:分层抽样方法.专题:计算题.分析:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,由此解得x 的值.解答:解:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,解得x=18,故选D.点评:本题主要考查分层抽样的定义和方法,利用了总体中各层的个体数之比等于样本中对应各层的样本数之比,属于基础题.15.(2012?绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A. 2 人B.3人C.4人D.5人考点:分层抽样方法.专题:计算题.分析:先求出每个个体被抽到的概率,用该层的个体数乘以每个个体被抽到的概率,就等于该层应抽取的个体数.解答:解:每个个体被抽到的概率等于=,老年人中被抽取到参加健康检查的人数是40×=4,故选C.点评:本题主要考查分层抽样的定义和方法,用每层的个体数乘以每个个体被抽到的概率等于该层应抽取的个体数,属于基础题.二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?考点:频率分布直方图;频率分布表.专题:概率与统计.分析:(1)根据上表求出身高不低于1.65m且不高于1.71m的频率与不低于1.63m的频率;(2)将测量数据分组,求频数与频率,列出频率分布表,画出频率分布直方图;(3)根据图形得出正确的结论以及估计结果.解答:解:(1)根据上表得,身高不低于1.65m且不高于1.71m的频率是,=≈0.567 ;约占总体的56.7%∴0.15=0.85,﹣的频率是1﹣=1不低于1.63m 85%;约占总体的0.04组,∴∴,组距是,=0.0336(2)将测量数据分布计算频数与频率,列出频率分布表,如下;分组频数频率0.11 ﹣160.5 7 156.50.15 ﹣160.5164.5 90.25 ﹣164.5168.5 150.37 ﹣168.5172.5 220.10 6 ﹣172.5176.50.02 1 ﹣176.5180.51.00合计60画出样本频率分布直方图,如图所示;(3)根据图形知,该校年满16周岁的男生在168.5﹣172.5内的人数所占的比例最大,如果年满16周岁的男生有360人,那么在这个范围的人数估计约为360×0.37=133人.点评:本题考查了频率分布直方图的应用问题,也考查了列表和画图的能力,解题时应根据图中数据进行有关的计算,是基础题.17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13的回归方程=x+关于x所表示的直线必经的点.求y考点:回归分析的初步应用.专题:计算题;概率与统计.分析:求平均值,回归直线必过样本点的中心.解答:解:==3,。
高中数学统计与统计案例全章复习(题型)
第八章 统计与统计案例第1节 随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数,再取k =N ′n(N ′为从总体中剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本. 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.1知识梳理【例1】下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.①从20件玩具中一次性抽取3件进行质量检验.①某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()2题型分类A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【变式1】(2017•大连二模)某单位员工按年龄分为A ,B ,C 三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C 组中某个员工被抽到的概率是91,则该单位员工总数为( )A .110B .10C .90D .80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是72,则男运动员应抽取( ) A .18人B .16人C .14人D .12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A .5,10,15,20,25B .3,13,23,33,43C .1,2,3,4,5D .2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,3课后作业则抽取的第35个编号为()A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生()A.1030人B.97人C.950人D.970人第2节 用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征数字特征 定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数1知识梳理中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数,即x =x 1+x 2+…+x nn方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差题型一 茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A .和B .和92C .91和D .92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析. 2题型分类【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,,[,1),……,[4,]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2](2,4](4,6](6,8](8,10]人数104025205(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国①卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.1.重庆市2016年各月的平均气温(①)数据的茎叶图如图,则这组数据的中位数是()A.19B.20C.D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()3课后作业A.45B.50C.55D.604.(2016·全国卷①)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9311中A点表示十月的平均最高气温约为15 ①,B点表示四月的平均最低气温约为5 ①.下面叙述不正确的是()A.各月的平均最低气温都在0 ①以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ①的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节 线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y1知识梳理轴上的截距.3.相关系数a.计算公式:∑∑∑===----=niniiiniiiyyxxyyxxr11221)()())((b.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于时,认为两个变量有很强的线性相关性.题型一相关关系的判断【例】某公司2010~2015年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:根据统计资料,则()A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断()2题型分类A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=+,则下列结论错误的是()A.线性回归直线一定过点(,)B.产品的生产能耗与产量呈正相关C.t的取值必定是D.A产品每多生产1吨,则相应的生产能耗约增加吨【变式1】(2017•南昌一模)设某中学的高中女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为yˆ=−,则下列结论中不正确的是()A.y与x具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加D .若该中学某高中女生身高为160cm ,则可断定其体重必为【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .万元B .万元C .万元D .万元【变式2】广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .B .C .D .题型三 线性相关关系检验【例1】(2017•广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为 C .模型①的相关指数为B .模型①的相关指数为 D .模型①的相关指数为【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强 D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;①求y 与x 、z 与x 的线性回归方程(系数精确到),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y表中i w w =1881i i w =∑.(1)根据散点图判断,y a bx=+与y c d x=+,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程.附:对于一组数据),(),,(2211vuvu,……,),(nnvu,其回归线uvβα+=的斜率和截距的最小二乘估计分别为:∑∑==---=niiniiiuuvvuu121)())((ˆβ.【变式3】某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii xw1=,∑==101101iiww.(1)根据散点图判断,abxy+=ˆ,cxdyˆˆˆ+=哪一个更适宜作价格y关于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程;求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷①)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:编号12345678身高/cm165165157170175165155170体重/kg48575464614359第33.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费亿元,利用(①)中的回归方程,预测该电商2017年的销售收入.3课后作业附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,1.512=∑=ni ix4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i iy y t t,74.314≈,49)ˆ(712=-∑=i i iyy. 参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1知识梳理一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本; 3•了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1知识梳1.简单随机抽样(1)定义:设一个总体含有N个个体,从屮逐个不放冋地抽取n个个体作为样本5WN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体屮抽収容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当号是整数时,取当号不是整数时,随机从总体中剔除余数,再取k=*(N为从总体屮剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号/(/<«.(4)按照一定的规则抽取样本,通常是将I加上间隔k得到第2个个体编号吐再加k得到第3个个体编号(Z+2Q,依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交义的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由渥异明显的儿个部分组成时,往往选用分层抽样.2题型分【例1】下列抽取样本的方式屈于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿汕一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B. 1C. 2D. 3【例2】(2017*葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01, 02, ()3,…,32, 33这33个二位号码屮选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10 列的数字开始从左到右依次选取两个数字,则第四个被选屮的红色球号码为()A.12B. 33C. 06D. 16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取_____________ 所学校,中学中抽取________ 所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…, 84()随机编号,则抽取的42人中,编号落入区间[481,720]的人数为__________ .【例6](2017-西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为0, “2,力,贝9()A・P\=P2<P3 B. P2=P3<P I C. p\=py<P2 D. P\=P2=P3【变式(2017*大连二模)某单位员工按年龄分为A, B, C三组,其人数Z比为5: 4: 1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到的概率是丄,则该单位员工总数9为()A.110B. 10C. 90D. 80【变式2? (2017-黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1〜1000进行编号,现已知笫18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B. 17C. 18D. 19【变式3? (2017-宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取2一个样本,每名运动员被抽到的概率都是兰,则男运动员应抽取()7A.18 人B. 16 人C. 14 人D. 12 人3已课后作1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1〜50的50枚最新研制的某种型号的导弹中随机抽収5枚來进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A・ 5,10,15,20,25 B. 3,13,23,33,43 C. 1,2,3,4,5 D. 2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为川的样木进行调查,其屮从丙车间的产品屮抽取了3件,贝山=()A.9B. 10C. 12D. 134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015, 则抽取的第35个编号为()A.700B. 669C. 695D. 6765.某防疫站对学生进行身体健康调查,欲釆用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生()A.1030 人B. 97 人C. 950 人D. 970 人第2节用样本估计总体最新考纲:1•了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎 叶图,体会它们各自的特点2理解样本数据标准差的意义和作用,会计算数据标准差3能从样 本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释4会用样本的频率分布 估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思 想,会用样本估计总体的思想解决一些简单的实际问题. 1.频率分布直方图⑴频率分布表的画法:笫二步:金组,通常对组内数值所在区I'可取左闭右开区间,最后一组取闭区I'可;2. 茎叶图统计屮还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的 数. 3. 样本的数字特征 数字特征定义 众数 在一组数据屮,出现次数竝的数据叫做这组数据的众数中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数 据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数 样本数据的算术平均数,即;/+町••卄方差52=~[(X J — X )2 +(X2— X )2+...+(X n — X )2],其屮 S 为标准差2题型分题型一茎叶图【例1](必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位 数和平均数分别是()第一步: 求极差,决定组数和组距,组距=极差组数; 第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样木数据,纵轴表 一频率在该组内的频率.每个小矩形的面积表示样木落【例2】(2016-唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了 6轮 测试,测试成绩(单位:次/分钟)如表: 轮次 —- 三 四 五 六 甲 7366 S2 72 63 76 乙83 75 62 69 75 6S(1) 补全茎叶图并指岀乙队测试成绩的屮位数和众数;(2) 试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组 数据的中位数为15,乙组数据的平均数为16.8,则兀,丿的值分别为()甲组乙组90 9 jr 21 5 v 8 7 42 4 A. 2,【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干 次预赛成绩中随机抽取8次,记录如下:甲 8281 79 7S 95 S8 93 S4 乙92 95 80 75 83 80 90 S5(1) 用茎叶图表示这两组数据;(2) 现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你 认为选派哪位学生参加合适?请说明理由.A ・ 91.5 和 91.5B. 91.5 和 92 C ・ 91 和 91.5 D. 92 和 92D. 8,8题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40), [40,45), [45,50), [50,55), [55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有_________ 人.【例2] (2017-济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12, 13), [13, 14), [14, 15), [15, 16), [16, 17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为____________________ ・【变式1】(2017-东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130, 140)内的学生人数为___________ .【变式2】(2016秋•威海期末)从某小学随机抽収100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100, 110) , [110, 120) , [120, 130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在L120, 130)内的学生中选取的人数应为__________ .【例3] (2016-四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0, 0.5), [0.5, 1),……, [4, 4.5]分成9组,制成了如图所示的频率分布直方图.(2)设该市有30万居民,估汁全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017-灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩, 根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600, 650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20 人作进一步分析,则成绩在[550, 600)的这段应抽多少人?【例4】(2017-唐山二模)共亨单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这1()0名同学每周使用共亭单车的时间(单位:小时)如表:使用时间 [0,21 (2,4] (4,6] (6,8] (8,10] 人数104025205使用(1) 已知该校大一学生由2400人,求抽取的100名学生屮大一学生人数; (2) 作出这些数据的频率分布直方图;(3) 估计该校大学生每周使用共亨单车的平均吋间;(同一组中的数据用该组区I'可的中点值作代表).【变式4] (2014-全国I 卷)从某企业生产的某种产品屮抽取100件,测量这些产品的一项质量指标值,由测 量结果得如下频数分布表:0.225 0.200 0.175 0.150 0.125 0.100 0.075 0.050 0.025频数62638228(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规泄?【例5】(2017-肇庆三模)某市房产契税标准如下:购房总价(万)(0,200](200,400](400,+oo]税率1% 1.5%3%从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1) 假设该小区已经出售了 2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2) 假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016-北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过⑷立方米的部分按4元/立 方米收费,超出⑷立方米的部分按10元/立方米收费.从该市随机调查了 10000位居民,获得了他们某月的 用水量数据,整理得到如下频率分布直方图:(1) 如果w 为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w 至少 定为多少?(2) 假设同组中的每个数据用该组区间的右端点值代替•当⑷=3时,估计该市居民该月的人均水费.3课后作1. 重庆市2016年各月的平均气温(°C )数据的茎叶图如图,则这组数据的中位数是()购房总价(百万)频率123A. 19 B- 20 C. 21.5 D. 232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷, 抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A. 134 石B. 169 石C・ 338 石 D. 1365 石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40), [40,60), [60,80), [80,100].若低于60分的人数是15,则该班的学生人数是()频率组距0.020.0150.0100.005--- ----020 40 60 80 100 成绩屈A. 45B. 50C. 55D. 604.(2016-全国卷III)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中4点表示十月的平均最高气温约为15 °C, 8点表示四月的平均最低气温约为5 °C. 下面叙述不正确的是()5.(2015・广东)某城市100户居民的月平均用电量(单位:度),以L160, 180) , [180, 200) , [200, 220), 1220, 240) ,821A.各月的平均最低气温都在0 °C以上C.三月和十一月的平均最高气温基本相同B.七月的平均温差比一月的平均温差大D.平均最高气温高于20 °C的月份有5个一月•…•平均故低任温——平均最高气温[240, 260) , [260, 280) , [280, 300)分组的频率分布直方图如图.频率(1)求直方图中兀的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,1220, 240) , 1240, 260) , [260, 280) , [280, 300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220, 240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系2 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆)3了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到冋归直线的里离的蛋方型最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(七,八),(疋,),2),…,(心,%),其回归方A A A A工3 J)®") 1>必7石a _ _ A程为y=bx+a f则b = ---------- = --------- , a = y-bx .K'l1,方是冋归方程的斜率,a是在y/=! /=1轴上的截距.3・相关系数工(兀・-兀)(儿.-刃a・计算公式:厂=J ”V /=i /=ib・当Q0时,表明两个变量正相•关;当Y0时,表明两个变量负相关.厂的绝对值越接近于1,表明两个变量的线性相关性越强.厂的绝对值越接近于0,表明两个变量之间相关性越弱.通常大于0.75时,认为两个变量有很强的线性相关性.2)题型分题型一相关关系的判断【例】某公司2010〜2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:【变式】对变量兀,y 有观测数据(益,刃(=1,2,…,10),得散点图⑴;对变量u, v 有观测数据(⑷,v/)(Z= 1,2,…,10),得散点图(2).由这两个散点图可以判断()图⑴ A. 变量兀与y 正相关, B. 变量兀与歹正相关, C. 变量x 与y 负相关, D. 变量兀与y 负相关, 题型二线性回归分析【例1】(2017・延边州模拟)如表提供了某厂节能降耗改造后在生产A 产品过程中记录的产量兀(吨)与 相应的生产能耗y (吨)的几组对应数据,根据表中提供的数据,求出y 关于兀的线性回归方程为$二0.7兀+0.35, 则下列结论错误的是()X3 4L6 y2.5t44.5A. 线性回归直线一定过点(4.5, 3.5)B. 产品的生产能耗与产量呈正相关C. r 的取值必定是3.15D ・A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017-南昌一模)设某中学的高中女生体重y (单位:焰)与身高兀(单位:an )具有线性相关 关系,根据一组样本数据(冷必)(匸1,2, 3,用最小二乘法近似得到回归直线方程为$ =0.85x-85.71, 则下列结论中不正确的是()A. y 与x 具有正线性相关关系根据统计资料,则( )A. 利润中位数是16,B. 利润中位数是17,C. 利润中位数是17,D. 利润小位数是18, x 与y 有正线性相关•关系 兀与y 有正线性相关关系x 与),有负线性相关关系 x 与有负线性相关关系0 1 23 4567 X 0 1 234567 u图⑵"与u 正相关 〃与v 负相•关 "与v 正相关 "与u 负相关B.回归直线过样本的中心点(x,v)C. 若该屮学某高屮女生身高增加lcm,则其体重约增加0.85kg D ・若该屮学某高屮女生身高为160cm,则可断定其体重必为50.29kg【例2】(2017-西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家 庭,得到如下统计数据表:据上表得回归直线方程y = bx + a.其中b = 0.76, a = y-bx,据此估计,该社区一户收入为15万元家庭 年支出为()A. 11.4万元B. 11.8万元C. 12.0万元D. 12.2万元【变式2】(2017・成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的 广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为$ul0.2x + &,据此模型,预测广告费为10万元时的销售额约为( )题型三线性相关关系检验【例1】(2017-广西一模)在两个变量y 与兀的回归模型中,分别选择了四个不同的模型,它们的相关指 数R ?如下,其中拟合效果最好的为()A.模型①的相关指数为0.976B.模型②的相关指数为0.776C.模型③的相关指数为0.076 D.模型④的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:B. 108.8C. 111.2D. 118.2 A. 101.2求年推销金额y与工作年限兀之间的相关系数.【变式】(2017-泉州模拟)关于衡量两个变量y与兀之间线性相关关系的相关系数厂与相关指数R2*!',下列说法中正确的是()A.,•越大,两变量的线性相关性越强B. 2越大,两变量的线性相关性越强C. 7•的取值范围为(-00, +8)D. /的取值范围为[0, +00)题型四线性回归方程【例1】(2017-乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价兀(百元)与日销售量y (件)之间有如下关系:(1)求y关于兀的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)吋,日利润最大?【变式1】(2017-全国模拟)从某居民区随机抽取10个家庭,获得笫i个家庭的月收入兀•(单位:千元)10 10 10 10与月储蓄幵(单位:千元)的数据资料,算得》>产80,工必=20,工兀必=184,工坷2 =720./=! /=! /=1 /=!(1)求家庭的月储蓄y关于月收入x的线性回归方程y = bx^-a;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017*甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与f的关系,请用相关系数加以说明;(2)建立y关于『的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.7 7 7 _参考数据:工必=9.32,工口・=40.17, 工(开一$)2 =0.55, "“.646./=1 /=! V /=1工(右-/)(牙-刃参考公式:相关系数厂=一「,回归方程y = a + bt^斜率和截距的最小二乘估计公式血a-门吃(y厂疔V /=1 :=1£©-门(必-刃 _ .分别为:b = —-- ----------- , a=y-bt.【例3] (2017-河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8 位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y与兀、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求)',与兀、z与兀的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分吋,估计英物理、化学两科的得分.X(旺7)(兀一y)X(兀一兀)(%一刃参考公式:相关系数z / ”.,b= —-——.£a・一;)吃(开-y)2刃习_x)2V /=1 /=l "T_ _ _ 8 _ 8 _ 8参考数据:X = 77.5 , y = 85 , z = 81 , -x)2 « 1050 , ^(>; -y)2«456 ,Z=1 /=1 Z=18 _ _ 8 _ _ _________________________________________________________________________ ___________________ ____________________工(X - - y)« 668, 工(石-匚)(召-亠755, Jl050 = 32.4, V456«21.4 , ^550«23.5 .Z=1 1=1【变式2] (2017-汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数X34■67售价y2012S 6.4 4.43z=lnvJ3.00 2.48 2.08 1.86 1.48 1.10(1)rh折线图可以看岀,可以用线性回归模型拟合z与兀的关系,请用相关数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(乙力小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?6 6 6 1~62~ r~6 ]~参考数据:工习”=187.4,=47.64, ^X/2=139, -y)2 = 13.96 , ^(z,--z)2 = 1.53 , /=1 /=1 i=l V /=1 V /=1lnl.46«0.38, ln0.7118« 0.34 .【例4] (2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y (单位:/)和年利润z (单位:千元)的影响,对近8年的宣传费无和年销售量= 出)数据作了初步处理,得到下面的散点图及一些统计量的值.520 •500 - •480 34 36 38 40 42 44 46 48 50 52 54 56 勺宜传优/千元X W8 _£ 3-兀)21=18 _ 工(Wj-W)2 i=l8 _ _ 工(兀-兀心-y)/=!8 _ _ 工(鸭―w)(X —y) /=146.656.3 6.8289.8 1.61469108.8表中W产肩,⑷二!工吟O /=!(1)根据散点图判断,y = a + bx与尸c + d長,哪一个适宜作为年销售量y关于年宣传费兀的回归,方程类型(给出判断即可,不必说明理由);(2)根据(I)的判断结果及表中数据,建立丿关于兀的冋归方程.附:对于一组数据(绚,气),他宀),……,其冋归线v = a + /3u的斜率和截距的最小二乘估计分别为: 620600580560540 二聽盜£射nY(W/ -2/)(V z -V)【变式3】(2017-衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间兀(天数)与销售单价歹(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如 图).根据散点图判断,y = bx-^a, y = - + c 哪一个更适宜作价格关 2 根据判断结果和表中数据,建立y 关于x 的回归方程;3若该产品的日销售量g (x )(件)与时间x 的函数关系为g (Q =』+ 120 (xeNO ,求该产品投放市场笫几天的销售额最高?最高为多少元?-VV10 Z CvrD 1 2 3 /=1 10X 3厂乔尸 7=110 迟(X 厂壬)0厂亍) 7=110迟(W 厂祁)0厂丿) /—11.6337.80.S95.150.92-20.618.40叱・•表屮 (1)兀的冋归方程类型?(不必说明理由)于时间=123.1,附:回归直线的斜率和截距的最小二乘估计公式分别为:b =,选用数据: n艺(习-兀)(〉;•-y ) 匸1 £(兀-孑1=13课后作1. (2015-全国卷II )根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论屮不正确的是()A. 逐年比较,2008年减少二氧化硫排放量的效果最显著B. 2007年我国治理二氧化硫排放显现成效C. 2006年以来我国二氧化硫年排放塑呈减少趋势D. 2006年以来我国二氧化硫年排放量与年份正相关 2. (2017•贵阳检测)若8名学生的身高和体重数据如下表:编号 1 2 3 4 5 6 7 8 身高/cm 165 165157 170 175 165 155 170 体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是j-0.849x-85.712,则第3名学生的体重估计为 ______________ kg.3. (2017-合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经 统计,近五年某电商在媒体上的广告投入费用兀(亿元)与当年度该电商的销售收入y (亿元)的数据如下 表:):年份 2012 年 2013 年 2014 2015 2016 广告投入x 0.8 0.9 1 1.1 1.2 销售收入:1623252630(1) 求y 关于X 的回归方程;(2) 2017年度该电商准备投入广告费1.5亿元,利用(I )中的回归方程,预测该电商2017年的销售收A.1 9002004^2005^ 2006^n2 700 2600 2500 2400 2300 2 200 2100 2 0004. (2017*包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1〜7分别对应年份2010〜2016.(1) 由折线图看岀,可用线性回归模型拟合y 和r 的关系,请用相关系数加以说明;(2) 建立y 关于r 的回归方程,预测2017年该企业污水净化量;7 QV14 » 3.74 , ~ = — •/=14工(右一0(开一刃 Q---------------- 仮映冋归效果的公式为工(51=1A・(3) 请用数据说明回归方程预报的效杲._ 7 _附注:参考数据:$ = 54,工(“-;)(”•-亍) = 21, 为4 一/)(必一刃参考公式:相关系数厂二心1&-b 2£a-y)212 3 45 6 7 年份代号(。