高中数学重点强化训练5统计与统计案例
高中数学 阶段质量检测(五)统计案例 苏教版选修2-3-苏教版高二选修2-3数学试题
阶段质量检测(五)统计案例(时间120分钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.已知回归方程y ^=b ^x +a ^,其中a ^=3,且样本点的中心为(1,2),则回归直线方程为( )A.y ^=x +3B.y ^=-2x +3 C.y ^=-x +3 D.y ^=x -3解析:选C 因为回归方程一定经过样本点的中心,所以只需将样本点的中心坐标代入方程,用待定系数法求出即可.2.每一吨铸铁成本y (元)与铸件废品率x %建立的回归方程y ^=56+8x ,下列说法正确的是( )A .废品率每增加1%,成本每吨增加64元B .废品率每增加1%,成本每吨增加8%C .废品率每增加1%,成本每吨增加8元D .如果废品率增加1%,则每吨成本为56元解析:选C 根据回归方程知y 是关于x 的单调增函数,并且由系数知x 每增加一个单位,y 平均增加8个单位.3.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 用水量y4.5432.5由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^=-0.7x +a ^,则a ^等于( )A .10.5B .5.15C .5.2D .5.25解析:选D 样本点的中心为(2.5,3.5),将其代入线性回归方程可解得a ^=5.25. 4.下表显示出样本中变量y 随变量x 变化的一组数据,由此判断它最可能是( )x 4 5 6 7 8 9 10 y14181920232528AC .指数函数模型D .对数函数模型解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.5.试验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )A.y ^=x +1B. y ^=x +2 C.y ^=2x +1 D.y ^=x -1解析:选A 由题意发现,(x ,y )的四组值均满足y ^=x +1,故y ^=x +1为回归直线方程. 6.下列说法中,错误说法的个数是( )①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②回归方程y ^=3-5x ,变量x 增加1个单位时,y ^平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过样本点的中心(x ,y );④在一个2×2列联表中,若χ2的观测值k =13.079,则有99.9%以上的把握认为这两个变量之间有关系.A .0B .1C .2D .3解析:选B 数据的方差与加了什么样的常数无关,故①正确;对于回归方程y ^=3-5x ,变量x 增加1个单位时,y ^平均减少5个单位,故②错误;易知③正确;若k =13.079>10.828,则有99.9%以上的把握认为这两个变量之间有关系,故④正确.7.根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的散点图分析存在线性相关关系,求得其回归方程y ^=0.85x -85.7,则在样本点(165,57)处的残差为( )A .54.55B .2.45C .3.45D .111.55解析:选B 把x =165代入y ^=0.85x -85.7,得y =0.85×165-85.7=54.55,故残差为57-54.55=2.45.8.某高校《统计》课程的教师随机给出了选修该课程的一些情况,具体数据如下:χ2>3.841,所以可以判断选修该课程与性别有关.那么这种判断出错的可能性不超过( )A .5%B .95%C .1%D .99%解析:选A 若χ2>3.841,说明在犯错误的概率不超过0.05的前提下认为选修该课程与性别有关,也就是选修该课程与性别有关出错的可能性不超过5%.9.为考察数学成绩与物理成绩的关系,某老师在高二随机抽取了300名学生,得到下面的列联表:A .0.5%B .1%C .2%D .5%解析:选D 由表中数据代入公式得χ2的观测值 χ2=300×(37×143-85×35)2122×178×72×228≈4.514>3.841,所以有95%以上的把握认为数学成绩与物理成绩有关,因此,判断的出错率不超过5%. 10.已知x 与y 之间的几组数据如下表所示.假设根据上表数据所得回归方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′解析:选C 由题意可得,b ′=2,a ′=-2,x =72,y =136.由公式b ^=∑i =16(x i -x )(y i -y)∑i =16(x i -x)2求得b ^=57,a ^=y -b ^x =136-57×72=-13,∴b ^<b ′,a ^>a ′.11.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表如下:( ) A .a =9,b =8,c =7,d =6 B .a =9,b =7,c =6,d =8 C .a =8,b =6,c =9,d =7 D .a =6,b =7,c =8,d =9解析:选B 对于同一样本,|ad -bc |越大,说明X 与Y 之间的关系越强,故检验知选B.12.两个分类变量X 和Y, 值域分别为{x 1,x 2}和{y 1,y 2}, 其样本频数分别是a =10, b =21, c +d =35. 若X 与Y 有关系的可信程度不小于97.5%, 则c 等于( )A .3B .4C .5D .6解析:选A 列2×2列联表如下:故K 2的观测值k =31×35×(10+c )(56-c )≥5.024. 把选项A, B, C, D 代入验证可知选A.二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上) 13.已知高三某学生的高考成绩y (分)与高三期间有效复习时间x (天)正相关,且回归方程是y ^=3x +50,若期望他高考达到500分,则他的有效复习时间应不低于________天.解析:本题主要考查运用线性回归方程来预测变量的取值.当y ^=500时,易得x =500-503=150. 答案:15014.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则r 2为________.解析:e i 恒为0,说明随机误差总为0,于是y i =y ^,故r 2=1. 答案:115.欲知作者的性别是否与读者的性别有关,某出版公司派工作人员到各书店随机调查了500位买书的顾客,结果如下表所示.________.(填“有关”或“无关”)解析:由公式得χ2=500×(142×133-122×103)2264×236×245×255≈5.131>5.024,所以在犯错误的概率不超过0.025的前提下作者的性别与读者的性别有关.答案:有关16.已知x ,y 之间的一组数据如下表,对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =13x +1与l 2:y =12x +12,利用最小二乘法判断拟合程度更好的直线是______________.解析:用y =13x +1作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 1=⎝⎛⎭⎪⎫1-432+(2-2)2+(3-3)2+⎝⎛⎭⎪⎫4-1032+⎝⎛⎭⎪⎫5-1132=73.用y =12x +12作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 2=(1-1)2+(2-2)2+⎝⎛⎭⎪⎫3-722+(4-4)2+⎝⎛⎭⎪⎫5-922=12. 因为S 2<S 1,故用直线l 2:y =12x +12,拟合程度更好.答案:y =12x +12三、解答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)解:对于上述三种心理障碍分别构造三个随机变量χ21,χ22,χ23, 由表中数据可得χ21=110×(5×60-25×20)230×80×25×85≈0.863,χ22=110×(10×70-20×10)230×80×20×90≈6.366,χ23=110×(15×30-15×50)230×80×65×45≈1.410.因为χ22的值最大,所以说谎与性别关系最大.18.(本小题满分12分)某房地产公司有6名产品推销员,其中5名推销员的工作年限与年推销金额的数据如表:(1)求这5 (2)若第6名推销员的工作年限为11年,试估计他的推销金额.解:(1)设所求的线性回归方程为y ^=b ^x +a ^,由题表数据得x =6,y =3.4,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=1020=0.5,a ^=y -b ^x =0.4. 所以这5名推销员的年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4. (2)当x =11时,y ^=0.5×11+0.4=5.9.所以估计第6名推销员的年推销金额为5.9百万元.19.(本小题满分12分)淘宝网卖家在某商品的所有买家中,随机选择男女买家各50位进行调查,他们的评分等级如下:(2)规定:评分等级在[0,3]为不满意该商品,在(3,5]为满意该商品.完成下列2×2列联表,并帮助卖家判断能否95%的把握的认为是否满意该商品与性别有关系.解:(1)20种选法,其中恰有1人为男性的共有C 112C 18=96种选法,所以所求概率P =96190=4895.(2)2×2列联表如下:假设H 0由公式得χ2=100×(32×30-20×18)250×50×52×48≈5.769>3.841,所以能95%的把握认为是否满意该商品与性别有关.20.(本小题满分12分)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:(1)根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?甲工艺乙工艺总计一等品非一等品总计附:P(χ2≥k0)0.100.050.01k0 2.706 3.841 6.635χ2=n(ad2(a+b)(c+d)(a+c)(b+d)(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产该种零件?请说明理由.解:(1)2×2列联表如下:甲工艺乙工艺总计一等品5060110非一等品504090总计100100200K2=200×(110×90×100×100≈2.02<2.706,所以没有理由认为选择不同的工艺与生产出一等品有关.(2)由题知运用甲工艺生产单件产品的利润X的分布列为X的数学期望为E(X)24,X的方差为V(X)=(30-24)2×0.5+(20-24)2×0.3+(15-24)2×0.2=39.乙工艺生产单件产品的利润Y的分布列为Y的数学期望为E(Y),Y的方差为V(Y)=(30-24.5)2×0.6+(20-24.5)2×0.1+(15-24.5)2×0.3=47.25.由上述结果可以看出V(X)<V(Y),即甲工艺波动小,虽然E(X)<E(Y),但相差不大,所以以后应选择甲工艺.21.(本小题满分12分)某区卫生部门成立了调查小组,调查常吃零食与患龋齿的关系,对该区六年级的800名学生进行检查,按患龋齿和不患龋齿分类,得汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.(1)完成下列2×2列联表,并分析能否在犯错概率不超过0.001的前提下,认为该区的学生常吃零食与患龋齿有关系?(2)4负责数据处理.求工作人员甲分到负责收集数据组,工作人员乙分到负责数据处理组的概率.解:(1)由题意可得列联表如下所示.因为K2的观测值k=≈16.667>10.828,160×640×200×600所以能在犯错概率不超过0.001的前提下,认为该区的学生常吃零食与患龋齿有关系.(2)设其他工作人员为丙和丁,4人分组的所有情况有:收集数据组:甲乙;甲丙;甲丁;乙丙;乙丁;丙丁;相应的处理数据组:丙丁;乙丁;乙丙;甲丁;甲丙;甲乙.共有6种情况. 记事件A 为“工作人员甲分到负责收集数据组,工作人员乙分到负责数据处理组”, 则满足条件的情况有:甲丙收集数据,乙丁处理数据或 甲丁收集数据,乙丙处理数据,共2种情况. 所以P (A )=26=13.22.(本小题满分12分)某市为了对学生的数理(数学与物理)学习能力进行分析,从10 000名学生中随机抽出100位学生的数理综合学习能力等级分数(6分制)作为样本,分数频数分布如下表: 等级得分 (0,1] (1,2] (2,3] (3,4] (4,5] (5,6] 人数 3173030173(1)如果以能力等级分数大于4分作为良好的标准,从样本中任意抽取2名学生,求恰有1名学生为良好的概率.(2)统计方法中,同一组数据常用该组区间的中点值(例如区间(1,2]的中点值为1.5)作为代表:①据此,计算这100名学生数理学习能力等级分数的期望μ及标准差σ(精确到0.1); ②若总体服从正态分布,以样本估计总体,估计该市这10 000名学生中数理学习能力等级在(1.9,4.1)X 围内的人数.(3)从这10 000名学生中任意抽取5名同学,他们数学与物理单科学习能力等级分数如下表:x (数学学习能力) 2 3 4 5 6 y (物理学习能力)1.534.556①请画出上表数据的散点图;②请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^(附参考数据:129≈11.4).解:(1)样本中学生为良好的人数为20人.故从样本中任意抽取2名学生,则仅有1名学生为良好的概率为C 120×C 180C 2100=3299.word 11 / 11 (2)①总体数据的期望约为:μ=0.5×0.03+1.5×0.17+2.5×0.30+3.5×0.30+4.5×0.17+5.5×0.03=3.0,标准差σ=[(0.5-3)2×0.03+(1.5-3)2×0.17+(2.5-3)2×0.3+(3.5-3)2×0.3+(4.5-3)2×0.17+(5.5-3)2×0.03]12= 1.29≈1.1, ②由于μ=3,σ=1.1当x ∈(1.9,4.1)时,即x ∈(μ-σ,μ+σ),故数理学习能力等级分数在(1.9,4.1)X 围中的概率约为0.682 7.数理习能力等级分数在(1.9,4.1)X 围中的学生的人数约为10 000×0.682 7=6 827人.(3)①数据的散点图如图:②设线性回归方程为y ^=b ^x +a ^,则x =4,y =4.b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=1.1,a ^=y -b ^x =-0.4. 故回归直线方程为y ^=1.1x -0.4.。
高考数学考点专项突破 统计与统计案例(含解析)
学习资料统计与统计案例一、单选题1、(江苏金陵中学开学初调研)已知变量x 与y 正相关,且由观测数据算得样本平均数3x =, 3.5y =,则由该观测的数据算得的线性回归方程可能是( )A .0.4.3ˆ2yx =+ B .2 2.4ˆyx =- C .9ˆ2.5yx =-+ D .0.3 4.4ˆyx =-+ 【答案】A 【解析】因为与正相关,排除选项C 、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A .2、(山东青岛中学调研)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据,根据表格中的数据求得同归方程ˆˆˆybx a =+,则下列说法正确的是( ) A .0a >,0b > B .0a >,0b < C .0a <,0b > D .0a <,0b <【答案】B【解析】由已知数据,可知y 随着x 的增大而减小, 则变量x 和变量y 之间存在负相关的关系,0b ∴<, 当0x =时,则 3.50a y =>>,即:0a >,0b <. 故选:B.3、(2020届山东省济宁市高三3月月考)下列说法正确的是( )A .回归直线ˆˆˆy bx a =+至少经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点B .从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .将一组数据的每一个数据都加上或减去同一个常数后,其方差也要加上或减去这个常数 【答案】C【解析】回归直线ˆˆˆy bx a =+可以不经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点,则A 错误;从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌,则B 错误;在残差图中,残差点分布的带状区域的宽度越窄,表示数据的残差越小,其模型拟合的精度越高,即C 正确; 将一组数据的每一个数据都加上或减去同一个常数后,其平均数也加上或减去同一个常数,则其方差不变,故D 错误, 故选:C4、(江西省抚州市临川区第一中学2017—2018学年高二下学期期末)临川一中舞蹈社为了研究男女学生对舞蹈的喜爱程度,随机调查学校110名学生是否喜欢跳舞,由列联表和公式()()()()()22n ad bc K a b c d a c b d -=++++计算出2K ,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则2K 可以为( )A 。
高中数学 统计 专题总结及典例练习
高中数学《统计》学考复习一、课标要求:1.理解简单随机抽样的概念,会用简单随机抽样(抽签法、随机数表法)从总体中抽取样本;理解系统抽样,会用系统抽样从总体中抽取样本;理解分层抽样的概念,会用分层抽样从总体中抽取样本。
2.了解当总体中的个体取不同数值很少时,可用频率分布表或频率分布条形图估计总体分布,并会用这两种方式估计总体分布。
3.了解当总体中的个体取不同值较多,甚至无限时,可用频率分布表或频率分布直方图去估计总体分布,并会用这两种方式估计总体分布。
4. 能根据实际问题的需要合理地选取样本,从样本数据中提取最基本的数字特征,并做出合理的解释;会用样本的基本数字特征去估计总体的基本数字特征。
5. 了解相关关系、回归分析、散点图等概念,会求回归直线方程。
二、重点知识:1.2以是各个不同区间内取值的频率,相应的直方图是用图形面积的大小来表示在各个区间内取值的频率.3.频率分布将随着样本容量的增大更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线——反映总体分布的密度曲线.总体密度曲线较为直观地表达了它们之间的关系,基于频率分布与相应的总体分布的关系,由于通常我们不知道一个总体的分布,因此我们往往从总体中抽取一个样本,用样本的频率分布估计相应的总体分布.4.频率直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图.5.用数字估计总体特征●根据样本频率分布直方图,分别估计总体的众数、中位数和平均数1)众数:最高矩形下端中点的横坐标2)中位数:直方图面积平分线与横轴交点的横坐标3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和●分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.A.用茎叶图表示数据的分布情况是一种好方法,茎叶图具有优点:(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.B. 茎叶图中数据的茎和叶的划分,可根据样本数据的特点灵活决定.C.画出一组样本数据的茎叶图的步骤:第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧.●样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况。
2024年高考数学一轮复习通用版第十五单元统计与统计案例
第一节统计
统计学是一门深入研究社会发展现象、收集各种信息有关经济、社会
等方面的现象,而综合运用几何学,概率论,统计学原理建立的科学模型,使数据进行统计分析的一门科学。
主要用于分析和收集各种信息,由此产
生的规律和趋势,调查统计现象和情况,发现其背后的规律和趋势,从而
研究社会上多种现象的变化规律。
统计学主要解决四个方面问题:
1.收集数据,概括和引申数据,以表示其中一社会现象的特征;
2.运用各种统计方法,对数据进行描述,以探索其中一社会现象的规律;
3.建立统计模型,用来估算、预测其中一社会现象的发展趋势;
4.根据统计分析结果,作出科学的决定,改善社会环境和生活质量。
第二节统计案例
1.调查学生上网时间
一所中学要开展学生上网时间的调查。
方法如下:
先在学校开展一次上网时间调查问卷调查,要求学生填写上网时间的
长短,有无违背规定的行为,网络上的活动,以及是否有不良信息等;
其次,定期对学生的上网行为进行监视,及时发现学生在上网时是否
有违背规定的行为;。
高中数学:统计与统计案例练习
高中数学:统计与统计案例练习一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100 名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1 : 3 : 5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()领率组距A. 200 C. 400 0.0350.015B. 240D. 48010平均每周上网时间(h)解析:选C 设频率分布直方图中从左到右前3个小矩形的面积分别为A3K5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)X2 = 0.1.由于频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即尸=0.1.所以平均每周上网时间少于4h的学生所占比例为尸+3P=0.4,由此估计学生人数为0.4X1 000 =400.2. AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0〜50),二级良(51〜100),三级轻度污染(101〜150),四级中度污染(151〜200),五级重度污染(201〜300),六级严重污染(大于300).如图是昆明市2021年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2021年4月份空气质量优的天数为 ()A. 3B. 4C. 12D. 2142解析:选c 从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为 1 V.Z 22所以估计昆明市2021年4月份空气质量为优的天数为30X5=12,应选C.3.〔成都模拟〕某城市收集并整理了该市2021年1月份至10月份各月最低气温与最高气 温〔单位:C 〕的数据,绘制了下面的折线图.该城市各月的最低气温与最高气温具有较好的线性关系,那么根据折线图,以下结论错误 的是〔〕A.最低气温与最高气温为正相关B. 10月的最高气温不低于5月的最高气温C.月温差〔最高气温减最低气温〕的最大值出现在1月D.最低气温低于0C 的月份有4个解析:选D 在A 中,最低气温与最高气温为正相关,故A 正确;在B 中,10月的最高气温 不低于5月的最高气温,故B 正确;在C 中,月温差〔最高气温减最低气温〕的最大值出现在1月, 故C 正确:在D 中,最低气温低于0℃的月份有3个,故D 错误.应选D.4 .〔承德模拟〕为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取 了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体 中倾向选择生育二胎与倾向选择不生育二胎的人数比例图〔如下图〕,其中阴影局部表示倾向 选择生育二胎的对应比例,那么以下表达中错误的选项是〔〕A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关♦最高气温 ♦最低气温C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C 由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不 生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为 60X60% =36,女性人数为40X60%=24,不相同.应选C.5 .(石家庄模拟)某学校48两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过 茎叶图比拟两个班兴趣小组成绩的平均值及标准差.3 4 28 8 4 6 8 65152①A 班兴趣小组的平均成绩高于B 班兴趣小组的平均成绩; ②B 班兴趣小组的平均成绩高于A 班兴趣小组的平均成绩; ③A 班兴趣小组成绩的标准差大于B 班兴趣小组成绩的标准差;@B 班兴趣小组成绩的标准差大于A 班兴趣小组成绩的标准差. 其中正确结论的编号为()A.①④C. ®®其方差为白义[(53—78尸+(62—78/ +…+ (95—78)2]=121.6, 那么其标准差为'121.6%11.03;45+48+5H -------- F91B 班兴趣小组的平均成成为'」=66,其方差为表义[(45—66)2+(48 - 66)2 + ... + (91-66)2] =169.2, 那么其标准差为1169.2%13.01.应选A.6 .某商场对某一商品搞活动,该商品每一个的进价为3元,销售价为8元,每天售出的 第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如下图,设M 个)为每天商 品的销量,M 元)为该商场每天箱售这种商品的利润.从日利润不少于96元的几天里任选2天, 那么选出的这2天日利润都是97元的概率为()4 5 5 1 6 2 7 38班8 3 6 4 5 3 4 02B.②③D.①③解析:选A A 班兴趣小组的平均成绩为 53+62+64+…+92+95--------------- ---------------- =785x, x=18, 19, y =<l95+(x-19)(4-3), x=20, 21, J5x, x=18, 19, 即 L176+x, x=20, 21.当日销量不少于20个时,日利泗不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利泗为96元的有3天,记为日利泗为97元的有2天,记为人丛从中任选2天有 (.4),(〃石),(.力),(.1),3/),(48),3«),(c4),(.,8),(48),共 10 种情况.其中选出的这2天日利泗都是97元的有(A,8)1种情况. 故所求概率为关.应选B. 二、填空题7 .某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x/元 3.0 3.2 3.4 3.6 3.8 4.0 销量w 瓶504443403528x,y 的关系符合回归方程£=£+2其中分=-20.假设该品牌饮料的进价为2元,为使利润 最大,零售价应定为 元.解析:依题意得:x =3.5, y =40,A所以.=40—(- 20)X3.5=110,所以回归直线方程为f=-20x+110,利润 L = (A —2)(-20A + 110)= -201+ 150x-220,B 选• •1 - 9 1 - 5 A.C 解BioD.g由题意知频数(天)0 18 19 20 2 俏量〔个〕所以x=* = 3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如下图的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是.解析:设所求的人数为〃,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08 +0.16) X 2.5=0.7, n=0.7 X 200=140.答案:1409.为比拟甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:C) 制成如下图的茎叶图,甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,那么甲地该月11时的平均气温的标准差为.甲9 8 2 62 m 03 I解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+〃?,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,那么乙地该月11时的平均气温为(26+28+29+31+31计5 = 29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m + 32)+5 = 30,解得〃?=1,那么甲地该月11时的平均气温的标准差为嗝义[(28 - 30产+(29 - 30)2+(30 - 30/+(31 - 30/+(32 - 30户]=\(2.答案:^2三、解做题10.某篮球运发动的投篮命中率为50%,他想提升自己的投篮水平,制定了一个夏季练习计划,为了了解练习效果,执行练习前他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为463执行练习后也统计了10场比赛的得分,茎叶图如下图:0 8 91 2 4 4 5 6 82 1 3(1)请计算该篮球运发动执行练习后统计的10场比赛得分的中位数、平均得分与方差;⑵如果仅从执行练习前后统计的各10场比赛得分数据分析,你认为练习方案对该运发动的投篮水平的提升是否有帮助?为什么?解:(1)练习后得分的中位数为上芋=14.5;平均得分为8+9+12+14+14+15+16+18 + 21+23= 15:10方差为击义[(8—15)2 + (9 — 15>+(12 —15>+(14 — 15)2+(14 — 15> + (15 —15>+(16 — 15产+(18-15)2+(21-15)2+(23 —15)2]=20.6.(2)尽管中位数练习后比练习前稍小,但平均得分一样,练习前方差20.6小于练习前方差46.3, 说明练习后得分稳定性提升了(阐述观点合理即可),这是投篮水平提升的表现.故此练习方案对该篮球运发动的投篮水平的提升有帮助.11.(西安八校联考)在2021年俄罗斯世界杯期间,莫斯科的局部餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:⑴销售单价),与等级代码数值x之间存在线性相关关系,求),关于x的线性回归方程(系数精确到0.1);(2)假设莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(xi1 ),3,光),…其回归直线f=源+2的斜率和截距的最小2Xyi一〃x y八 '। A — A——二乘估计分别为Z? = ----------------- a= y —b x .n _Xxr-n x 26 6参考数据:2>»=8 440, 2e = 25 564.—38+48 + 58 + 68 + 78 + 88解:(1)由题意,得x -■= 63,- 16.8+18.8+20.8 + 22.8 + 24+25.8 _y = 6 =21.5,yA_8 440 - 6X63X21.5〜h = ~~6Z—=25 564—6X63X63「026 A 2A — A 一a= y -bx =21.5-0.2X63 = 8.9.故所求线性回归方程为f=0.2x+8.9.⑵由(1)知,当%=98 时,>=0.2X98+8.9=28.5.・•・估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术测试的100人的成绩进行了统计, 绘制的频率分布直方图如下图.规定80分以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中.的值;(2)估计该次测试的平均分不(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面2X2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.P(K?2k)0.40 0.25 0.15 0.1()0.050.025k0.708 1.323 2.072 2.706 3.841 5.024解:(1)由频率分布直方图中各小长方形面积总和为1,得(2.+ 0.020+0.03.+0.040)义10=1,解得〃=0...5.⑵由频率分布直方图知洛小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05.30,0.40,0.20.05,那么估计该次测试的平均分为 x = 55X0.05 + 65X0.30 + 75X0.40 + 85X0.20 + 95X0.05 = 74(分). ⑶由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100X0.25 = 25,填写2X2列联表如下:晋级成功 晋级失败合计男 16 34 50 女 9 41 50 合计2575100100X(16X41 ——25X75X50X50^2,613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.1 .为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单 位:小时)如下:248 256 232 243 188 268 278 266 289 312 274296 288 302 295 228 287 217 329 283K 2=n(acl-bc)2(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)频率分布表及频率分布直方图如下所示:0.0100 ——⑵由题意可得8乂(0.30+0.10+0.05) = 3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x =190X0.05 + 210X0.05 + 230X0.10 + 250X0.15 + 270X0.20 + 290X0.30 + 310X0.10 + 330X0.05 = 269(小时),所以样本的平均无故障连续使用时限为269小时.2 .海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg 〞,估计A 的概率;⑵填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量V50 kg箱产量250 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比拟. 附:P (心2)0.050 0.010 0.001 k3.841 6.635 10.8280.01500.0125频率 仇距0.0075 0.0050 0.0025.厂工丁丁丁丁厂!无故障连续使用时用/小时新养殖法、n(ad-bc)1 _ .K-= . , , ,,其中〃=a+/?+c+d.(a+Z?)(c 十d)(a十c)(Z?+d)解:⑴旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)X5=0.62.因此,事件A的概率估计值为0.62.⑵根据箱产量的频率分布直方图得到联表:K2=---------- -------------------- 15 705100X100 X 96X104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图说明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =+£即=9.97,5=、*ZG L x )21 /=1 \ / 1O/=1/ 1 16 _ / 16 16 _=、/讳16 X 2比0.212, / L G-8.5)2^ 18.439,Z (x,- x )(L8.5)=—2.78,其中为为抽取的第i个零件的尺寸,i= 1,2, (16)(1)求⑶,i)(i= 12…,16)的相关系数二并答复是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(假设加V0.25,那么可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(刀-35,7 +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(7 -35,7 +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(H,v)(i = 12…4的相关系数£(X,-7)(57-7)r=I ______/ / ・、/(),008公丫0・09・、/ £ d )2、/ £ 8 - 5 )216 _Z (XL x )(/—8.5)尸1解:(1)由样本数据得8,i)(i= 1,2,…,16)的相关系数为r= --------- /--- 1/16 _ / 16、/ Z (即- X C-8.5)2 -2.78剔除第13个数据,剩下数据的样本方差为aX 〔1 591.134 —9.22?—15X 10.022〕=0.008,A Q 这条生产线当天生产的零件尺寸的标准差的估计值为廊而比0.09.4.〔昆明模拟〕〞工资条里显红利,个税新政入民心〞.随着2021年新年钟声的敲响,我国 自1980年以来,力度最大的一次个人所得税〔简称个税〕改革迎来了全面实施的阶段.某IT 从业 者为了解自己在个税新政下能享受多少税收红利,绘制了他在26〜35岁〔2021〜2021年〕之间各 年的月平均收入〕,〔单位:千元〕的散点图:20・・・・ 16- ・ , 12- ., 8 ■ •4°123456789 io"年龄代码工注:年龄代码1~10分别对应年的26〜35岁⑴由散点图知,可用回归模型y=h\n x+a 拟合〕,与x 的关系,试根据有关数据建立〕,关于x 的回归方程;〔2〕如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用〔1〕的结果,将月平 均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.1010 10 _10_ _ 10附注:参考数据:= 55,2〕〉= 155.5,N 〔即一x 〕2 =82.5,2 — x〕〔F — y 〕 = 94.9,26= i=li=li=lJ =1io _ io _ _15.1,2 缶- 1〕2=4.84,£〔力一 t 〕〔yi- y 〕 =242其中"=ln 为;取 In 11 =24,In 36=361=1 /=1参考公式:回归方程.=筋+味中斜率和截距的最小二乘估计分别为公= n ______ _X 〔出一〃〕〔.- V 〕 曰 A - A — -------------------------- \a= v —b u .Z 〔3一 〃 〕2月平均收入y千元解:(1)令 f=lnx,那么 y=bf+a10__Z & -,)()L y)24.2, b ~ ~__Z _痴_5ze —)2r=l10Zu-_2__155.5-_2_=而=-^-=15.55, t =苗A — A —a= y —b t = 15.55 —5X 1.51=8,所以〕,关于/的回归方程为〕,=5/+8.1015.1 lo"=L51由于/=lnx,所以y关于x的回归方程为y=51nx+8.⑵由⑴得,该IT从业者36岁时月平均收入为y=51n 11+8 = 5X2.4+8 = 20〔千元〕.旧个税政策下每个月应缴纳的个人所得税为1 500X3%+3 000X10%+4 500X20%+〔20 000-3 500-9 000〕X25% = 3 120〔元〕.新个税政策下每个月应缴纳的个人所得税为3 000X3%+〔20 000-5 OOO-3OOO-3 000〕X 10%=990〔元〕.故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(70).I— 0 180.212X716X18.439 ',由于lrlV0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于7 =9.97,产0.212,由样本数据可以看出抽取的第13个零件的尺寸在(T—3s,7 + 3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为右义(16义9.97—9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162X?=16X0.212I2+16X9.972^1 591.134,。
2019高三数学文一轮:第9章 重点强化课5 统计与统计案例
重点强化课(五) 统计与统计案例(对应学生用书第145页)[复习导读] 本章是新课程改革增加内容,是命题的热点,以算法框图、回归分析、统计图表为重点,以客观题为主.命题注重背景新颖、角度灵活.但近几年统计与统计案例、统计与概率交汇,加大了考查力度.2015年、2016年全国卷均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.重点1 算法框图及应用角度1 算法框图与数列交汇执行如图1的算法框图,如果输入的N =100,则输出的X =( )【导学号:00090336】A .0.95B .0.98C .0.99D .1.00图1C [由算法框图知,输出的X 表示数列⎩⎪⎨⎪⎧⎭⎪⎬⎪⎫1n (n +1)的前99项和,∴X =11×2+12×3+…+199×100=⎝ ⎛⎭⎪⎫1-12+⎝ ⎛⎭⎪⎫12-13+…+⎝ ⎛⎭⎪⎫199-1100=99100.]角度2 算法框图与统计的渗透(2017·合肥模拟)随机抽取某中学甲、乙两个班各10名同学,测量他们的身高获得身高数据的茎叶图如图2,在样本的20人中,记身高在[150,160),[160,170),[170,180),[180,190)的人数依次为A1,A2,A3,A4.如图3是统计样本中身高在一定范围内的人数的算法框图.若图中输出的S=18,则判断框应填________.图2图3i<5或i≤4[由于i从2开始,也就是统计大于或等于160的所有人数,于是就要计算A2+A3+A4,因此,判断框应填i<5或i≤4.]角度3算法框图与函数交汇渗透如图4所示的算法框图的输入值x∈[-1,3],则输出值y的取值范围为()图4A.[1,2]B.[0,2]C.[0,1]D.[-1,2]B[当0≤x≤3时,1≤x+1≤4,所以0≤log2(x+1)≤2.当-1≤x<0时,0<-x≤1⇒1<2-x≤2,所以0<2-x-1≤1.因此输出值y的取值范围为[0,2].][规律方法] 1.完善算法框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解算法框图的结构,明确算法框图的功能,按照算法框图中的条件进行程序.重点2用样本估计总体随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图,如图5所示.图5(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取2名身高不低于173 cm的同学,求身高为176 cm的同学被抽中的概率.[解](1)由茎叶图可知:甲班同学身高集中在162~179 cm,而乙班同学身高集中在170~179 cm,因此乙班的平均身高高于甲班.(2)x甲=158+162+163+168+168+170+171+179+179+18210=170(cm),甲班的样本方差s2甲=110×[(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2]=57.2(cm)2.(3)记“身高为176 cm的同学被抽中”为事件A.从乙班10名同学中抽出2名身高不低于173 cm的同学有:(173,176),(173,178),(173,179),(173,181),(176,178),(176,179),(176,181),(178,179),(178,181),(179,181),共10个基本事件,而事件A含有4个基本事件,故P(A)=410=25.[规律方法] 1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过茎叶图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.[对点训练1] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图6所示.图6(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x1-x 2的值. 【导学号:00090337】[解] (1)设甲校高三年级学生总人数为n . 由题意知30n =0.05,解得n =600.2分样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为 ⎝ ⎛⎭⎪⎫1-530×100%≈83%.5分(2)设甲、乙两校样本平均数分别为x ′1,x ′2,根据样本茎叶图可知30(x ′1-x ′2)=30x ′1-30x ′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15,因此x ′1-x ′2=0.5, 故x 1-x 2的估计值为0.5分.12分重点3 统计的应用(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:图7记x 表示1台机器在三年使用期内需更换的易损零件数,y 表示1台机器在购买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数. (1)若n =19,求y 与x 的函数解析式;(2)若要求“需更换的易损零件数不大于n ”的频率不小于0.5,求n 的最小值; (3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件? [解] (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700, 所以y 与x 的函数解析式为 y =⎩⎨⎧3 800,x ≤19,500x -5 700,x >19(x ∈N ).4分(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.8分(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000.10分若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050. 比较两个平均数可知,购买1台机器的同时应购买19个易损零件.12分[规律方法] 1.本题将分段函数、频率分布、样本的数字特征交汇命题,体现了统计思想的意识和应用.2.本题易错点有两处:一是混淆频率分布直方图与柱状图致误;二是审题不清或不懂题意,导致解题无从入手.避免此类错误,需认真审题,读懂题意,并认真观察频率分布直方图与柱状图的区别,纵轴表示的意义.[对点训练2] (2018·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图8所示.规定80分以上者晋级成功,否则晋级失败(满分为100分). 【导学号:00090338】 (1)求图中a 的值;(2)估计该次考试的平均分x (同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.图--参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[+0.040)×10=1,解得a=0.005. 3分(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分布为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分). 6分(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,8分填写2×2列联表如下:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关. 12分。
2021高考数学二轮专题复习专题五第1讲 统计与统计案例
第1讲 统计与统计案例[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )A .这11天复工指数和复产指数均逐日增加B .这11天期间,复产指数增量大于复工指数的增量C .第3天至第11天复工复产指数均增大都超过80%D .第9天至第11天复产指数增量大于复工指数的增量 答案 CD(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( )A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸答案 A解析根据频率分布直方图可列下表:阅读时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60]抽样人数(名)1018222520 5抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.跟踪演练1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温不低于20 ℃的月份有5个答案 D解析由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是( ) A .获得A 等级的人数增加了 B .获得B 等级的人数增加了1.5倍 C .获得D 等级的人数减少了一半 D .获得E 等级的人数相同 答案 AB解析 设2018年参加“选择考”的总人数为x ,则2020年参加“选择考”的总人数为2x ,根据图表得出2018年和2020年各个等级的人数如表所示.等级年份 AB C D E2018 0.28x 0.32x 0.30x 0.08x 0.02x 20200.48x0.8x0.56x0.12x0.04x由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x0.32x=1.5倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.考点二 回归分析 核心提炼在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y )2=9 000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,2≈1.414.解 (1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y)∑i =120(x i -x )2∑i =120(y i -y)2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑ni =1(y i -y )2,反映样本数据的相关程度,|r |越大,则相关性越强.跟踪演练2 (1)已知某产品的销售额y 与广告费用x 之间的关系如下表:若求得其线性回归方程为y ^=6.5x +a ^,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 答案 C解析 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),又线性回归方程y ^=6.5x +a ^经过样本点的中心,所以22=6.5×2+a ^,解得a ^=9,所以y ^=6.5x +9,当x =6时,y ^=48.(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y )数据中去掉D (3,10)后,下列说法正确的是( )A.残差平方和变小B.相关系数r变小C.相关指数R2变小D.解释变量x与预报变量y的相关性变弱答案 A解析∵从散点图可分析得出:只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,∴相关系数变大,相关指数变大,残差平方和变小,故选A.考点三独立性检验核心提炼假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).例3 (2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2 [0,50](50,150](150,475](1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)由所给数据,可得2×2列联表:(3)根据2×2列联表中的数据可得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(64×10-16×10)2 80×20×74×26≈7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.规律方法独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.跟踪演练3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 由题意知,K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的16,女生喜欢某视频APP 的人数占女生人数的23,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有( ) 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).A .12人B .6人C .10人D .18人 答案 A解析 设被调查的男生人数为x ,则被调查的女生人数为x2,则2×2列联表为若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2⎝ ⎛⎭⎪⎫x 6×x 6-5x 6×x 32x ×x 2×x 2×x=3x8≥3.841,则x ≥3.841×83≈10.243,又x 2,x 3,x6均为整数,所以男生至少有12人. 专题强化练一、单项选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .4 B .3 C .2 D .1 答案 A解析 依题意有x +y +10+11+95=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x =8,y =12或x =12,y =8,故|x -y |=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8答案 C解析根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x答案 D解析由散点图可以看出,点大致分布在对数型函数的图象附近.4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好 答案 D解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65 答案 D解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确;得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C 正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D错误. 二、多项选择题6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D .有99%的把握认为男、女生对该食堂服务的评价有差异 答案 AC解析 对于选项A ,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A 正确;对于选项B ,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B 错误;因为k ≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误.7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G 经济产出所做的预测.结合上图,下列说法正确的是( )A.5G的发展带动今后几年的总经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.信息服务商与运营商的经济产出的差距有逐步拉大的趋势D.设备制造商在各年的经济产出中一直处于领先地位答案ABC解析由图易知A,B,C正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D 错误.8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( )注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后比80前多D.互联网行业中从事技术岗位的人数90后比80后多答案ABC解析选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确;选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确;选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题9.某企业的一种商品的产量与成本数据如下表:若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=-1.15x +28.1,则a 的值为________. 答案 5解析 由题意知x =14+16+18+20+225=905=18,y =12+10+7+a +35=32+a5,又y =-1.15×18+28.1=7.4, 所以32+a5=7.4,解得a =5.10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.答案 200 20解析 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比例为150,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%=20.11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号)①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值); (3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元) 1 2 3 4 5 销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.附:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑5i =1x i y i =1×2+2×3+3×2+4×5+5×7=69,∑5i =1x 2i =12+22+32+42+52=55.根据公式可求得b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=69-5×3×3.855-5×32=1210=1.2, a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,等级为2的概率为5+10+12100=0.27,等级为3的概率为6+7+8100=0.21,等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45100=350.(3)2×2列联表如下:K 2=100×(33×8-37×22)255×45×70×30≈5.820>3.841, 因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
高中数学知识点之统计及统计案例分析
统计概率新泰一中 闫辉例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)依题意知第三组的频率为1464324+++++=51,又因为第三组的频数为12, ∴本次活动的参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为 60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例2(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样.2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分 方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分 方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分 ∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内?解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n , 则有n =第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) [40,50),2;[50,60),3;[60,70),10;[70,80),15; [80,90),12;[90,100],8. (1)列出样本的频率分布表; (2)画出频率分布直方图;(3)估计成绩在[60,90)分的学生比例; (4)估计成绩在85分以下的学生比例.解 (1)频率分布表如下:(2)频率分布直方图如图所示.(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,即为(0.20+0.30+0.24)×100%=74%. (4)成绩在85分以下的学生比例即为学生成绩不足85分的频率. 设相应的频率为b . 由808560.0--b =809060.084.0--,故b =0.72.估计成绩在85分以下的学生约占72%.一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;…… 第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图. 设成绩小于17秒的学生人数占全班总人数的百分比为x ,成绩大于等于15秒且小于17秒的学 生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9,353.(2009·启东质检)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组的频数成等差数列,设最大频率为a ,视 力在4.6到5.0之间的学生数为b ,则a ,b 的值分别为 .答案 0.27,784.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲 二、解答题5.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.(1)求第二小组的频率,并补全这个频率分布直方图; (2)求这两个班参赛的学生人数是多少?(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05. ∴第二小组的频率为:1.00-(0.30+0.15+0.10+0.05)=0.40. ∴落在59.5~69.5的第二小组的小长方形的高=组距频率=1040.0=0.04.则补全的直方图如图所示.(2)设九年级两个班参赛的学生人数为x 人. ∵第二小组的频数为40人,频率为0.40, ∴x40=0.40,解得x =100(人).所以九年级两个班参赛的学生人数为100人.(3)因为0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.6.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数,所以样本容量=第二小组频率第二小组频数=08.012=150.(2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.7.某赛季甲、乙两名篮球运动员每场比赛得分情况如下:甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50; 乙的得分:8,13,14,16,23,26,28,33,38,39,59. (1)制作茎叶图,并对两名运动员的成绩进行比较;(2)计算上述两组数据的平均数和方差,并比较两名运动员的成绩和稳定性; (3)能否说明甲的成绩一定比乙好,为什么? 解 (1)制作茎叶图如下:从茎叶图上可看出,甲运动员发挥比较稳定,总体得分情况比乙好.(2)x 甲=33,2甲s ≈127.23,x 乙=27,2乙s ≈199.09,∴x 甲>x 乙, 2甲s <2乙s ,∴甲运动员总体水平比乙好,发挥比乙稳定.(3)不能说甲的水平一定比乙好,因为上述是甲、乙某赛季的得分情况,用样本估计总体也有一定的偶然性,并不能说一定准确反映总体情况.线性回归方程1.为了考察两个变量x 、y 之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l 1和l2.已知在两人的试验中发现变量x 的观测数据的平均值恰好相等,都为s ,变量y 的观测数据的平均值也恰好相等,都为t ,那么下列说法中正确的是 (填序号). ①直线l 1,l 2有交点(s ,t )②直线l 1,l 2相交,但是交点未必是(s ,t ) ③直线l 1,l 2由于斜率相等,所以必定平行 ④直线l 1,l 2必定重合 答案 ① 2.下列有关线性回归的说法,正确的是 (填序号). ①相关关系的两个变量不一定是因果关系 ②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系 ④任一组数据都有回归直线方程 答案 ①②③ 3.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=b ˆx +a ˆ及回归系数b ˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 . 答案 ①②③4.已知回归方程为yˆ=0.50x -0.81,则x =25时,y ˆ的估计值为 . 答案 11.691.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?基础自测(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y=45.4435.2+++=3.5∑=41i iiy x=3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144xx yx y xi i i i i-∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.2.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?解 (1)n =6,∑=61i ix=21,∑=61i iy=426,x =3.5,y=71,∑=612i ix =79,∑=61i ii yx =1 481,bˆ=26126166xxyx y xi ii i i-∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.1.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为yˆ=8.25x +60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②2.已知关于某设备的使用年限x 与所支出的维修费用y (万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx +a ˆ表示的直线一定过定点 . 答案 (4,5)统计案例例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分=13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.635 6分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u =x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u , 最后回代u =x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.工人月工资y (元)依劳动生产率x (千元)变化的回归方程为yˆ=50+80x ,下列判断正确的是 . ①劳动生产率为1 000元时,工资为130元 ②劳动生产率提高1 000元时,工资平均提高80元 ③劳动生产率提高1 000元时,工资平均提高130元 ④当月工资为210元时,劳动生产率为2 000元 答案 ②2.下面是2×2列联表:则表中a ,b 的值分别为 . 答案 52,743.在一次对性别与说谎是否有关的调查中,得到如下数据:根据表中数据,得到如下结论中不正确的是 . ①在此次调查中有95%的把握认为是否说谎与性别有关 ②在此次调查中有99%的把握认为是否说谎与性别有关 ③在此次调查中有99.5%的把握认为是否说谎与性别有关 ④在此次调查中没有充分的证据显示说谎与性别有关 答案 ①②③ 答案 5%4.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天的结果如下表所示:进行统计分析时的统计假设是: . 答案 小白鼠的死亡与剂量无关 二、解答题5.在一次飞机航程中调查男女乘客的晕机情况,其二维条形图如图: (1)写出2×2列联表; (2)判断晕机与性别是否有关? 解 (1)(2)2χ=80309020)10702010(1102⨯⨯⨯⨯-⨯⨯≈6.366>5.024,故有97.5%的把握认为“晕机与性别有关”.6.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?解 根据题目所给的数据作出如下的列联表:根据列联表作出相应的二维条形图:从二维条形图来看,在男人中患色盲的比例为48038,要比女人中患色盲的比例5206大.其差值为520648038-≈0.068,差值较大.因而,我们可以认为“患色盲与性别是有关的”. 根据列联表所给的数据可以有a =38,b =442,c =6,d =514,a +b =480,c +d =520, a +c =44,b +d =956,n =1 000, 由2χ=))()()(()(2d b c a d c b a bc ad n ++++-=95644520480)442651438(00012⨯⨯⨯⨯-⨯⨯≈27.1.由27.1>10.828,所以我们有99.9%的把握认为患色盲与性别有关系,这个结论只对所调查的480名男人和520名女人有效.7.(16分)从甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下(单位:cm ) 甲:25 41 40 37 22 14 19 39 21 42 乙:27 1644 27 44 16 40 40 16 40问:(1)哪种玉米的苗长得高? (2)哪种玉米的苗长得齐? 解 (1)x 甲=101(25+41+40+37+22+14+19+39+21+42)=101×300=30 (cm ),x乙=101(27+16+44+27+44+16+40+40+16+40)=101×310=31(cm).∴x 甲<x 乙,即乙种玉米的苗长得高.(2)2甲s =101[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]=101 (25+121+100+49+64+256+121+81+81+144)=101×1 042=104.2 (cm 2),2乙s =101[(27-31)2×2+(16-31)2×3+(44-31)2×2+(40-31)2×3]=101×1 288=128.8 (cm 2).∴2甲s <2乙s .即乙种玉米的苗长得高,甲种玉米的苗长得整齐.。
高中数学统计和统计案例全章复习(题型完美版).doc
第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本; 3•了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1知识梳1.简单随机抽样(1)定义:设一个总体含有N个个体,从屮逐个不放冋地抽取n个个体作为样本5WN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体屮抽収容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当号是整数时,取当号不是整数时,随机从总体中剔除余数,再取k=*(N为从总体屮剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号/(/<«.(4)按照一定的规则抽取样本,通常是将I加上间隔k得到第2个个体编号吐再加k得到第3个个体编号(Z+2Q,依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交义的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由渥异明显的儿个部分组成时,往往选用分层抽样.2题型分【例1】下列抽取样本的方式屈于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿汕一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B. 1C. 2D. 3【例2】(2017*葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01, 02, ()3,…,32, 33这33个二位号码屮选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10 列的数字开始从左到右依次选取两个数字,则第四个被选屮的红色球号码为()A.12B. 33C. 06D. 16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取_____________ 所学校,中学中抽取________ 所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…, 84()随机编号,则抽取的42人中,编号落入区间[481,720]的人数为__________ .【例6](2017-西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为0, “2,力,贝9()A・P\=P2<P3 B. P2=P3<P I C. p\=py<P2 D. P\=P2=P3【变式(2017*大连二模)某单位员工按年龄分为A, B, C三组,其人数Z比为5: 4: 1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到的概率是丄,则该单位员工总数9为()A.110B. 10C. 90D. 80【变式2? (2017-黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1〜1000进行编号,现已知笫18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B. 17C. 18D. 19【变式3? (2017-宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取2一个样本,每名运动员被抽到的概率都是兰,则男运动员应抽取()7A.18 人B. 16 人C. 14 人D. 12 人3已课后作1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1〜50的50枚最新研制的某种型号的导弹中随机抽収5枚來进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A・ 5,10,15,20,25 B. 3,13,23,33,43 C. 1,2,3,4,5 D. 2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为川的样木进行调查,其屮从丙车间的产品屮抽取了3件,贝山=()A.9B. 10C. 12D. 134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015, 则抽取的第35个编号为()A.700B. 669C. 695D. 6765.某防疫站对学生进行身体健康调查,欲釆用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生()A.1030 人B. 97 人C. 950 人D. 970 人第2节用样本估计总体最新考纲:1•了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎 叶图,体会它们各自的特点2理解样本数据标准差的意义和作用,会计算数据标准差3能从样 本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释4会用样本的频率分布 估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思 想,会用样本估计总体的思想解决一些简单的实际问题. 1.频率分布直方图⑴频率分布表的画法:笫二步:金组,通常对组内数值所在区I'可取左闭右开区间,最后一组取闭区I'可;2. 茎叶图统计屮还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的 数. 3. 样本的数字特征 数字特征定义 众数 在一组数据屮,出现次数竝的数据叫做这组数据的众数中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数 据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数 样本数据的算术平均数,即;/+町••卄方差52=~[(X J — X )2 +(X2— X )2+...+(X n — X )2],其屮 S 为标准差2题型分题型一茎叶图【例1](必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位 数和平均数分别是()第一步: 求极差,决定组数和组距,组距=极差组数; 第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样木数据,纵轴表 一频率在该组内的频率.每个小矩形的面积表示样木落【例2】(2016-唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了 6轮 测试,测试成绩(单位:次/分钟)如表: 轮次 —- 三 四 五 六 甲 7366 S2 72 63 76 乙83 75 62 69 75 6S(1) 补全茎叶图并指岀乙队测试成绩的屮位数和众数;(2) 试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组 数据的中位数为15,乙组数据的平均数为16.8,则兀,丿的值分别为()甲组乙组90 9 jr 21 5 v 8 7 42 4 A. 2,【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干 次预赛成绩中随机抽取8次,记录如下:甲 8281 79 7S 95 S8 93 S4 乙92 95 80 75 83 80 90 S5(1) 用茎叶图表示这两组数据;(2) 现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你 认为选派哪位学生参加合适?请说明理由.A ・ 91.5 和 91.5B. 91.5 和 92 C ・ 91 和 91.5 D. 92 和 92D. 8,8题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40), [40,45), [45,50), [50,55), [55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有_________ 人.【例2] (2017-济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12, 13), [13, 14), [14, 15), [15, 16), [16, 17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为____________________ ・【变式1】(2017-东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130, 140)内的学生人数为___________ .【变式2】(2016秋•威海期末)从某小学随机抽収100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100, 110) , [110, 120) , [120, 130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在L120, 130)内的学生中选取的人数应为__________ .【例3] (2016-四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0, 0.5), [0.5, 1),……, [4, 4.5]分成9组,制成了如图所示的频率分布直方图.(2)设该市有30万居民,估汁全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017-灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩, 根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600, 650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20 人作进一步分析,则成绩在[550, 600)的这段应抽多少人?【例4】(2017-唐山二模)共亨单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这1()0名同学每周使用共亭单车的时间(单位:小时)如表:使用时间 [0,21 (2,4] (4,6] (6,8] (8,10] 人数104025205使用(1) 已知该校大一学生由2400人,求抽取的100名学生屮大一学生人数; (2) 作出这些数据的频率分布直方图;(3) 估计该校大学生每周使用共亨单车的平均吋间;(同一组中的数据用该组区I'可的中点值作代表).【变式4] (2014-全国I 卷)从某企业生产的某种产品屮抽取100件,测量这些产品的一项质量指标值,由测 量结果得如下频数分布表:0.225 0.200 0.175 0.150 0.125 0.100 0.075 0.050 0.025频数62638228(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规泄?【例5】(2017-肇庆三模)某市房产契税标准如下:购房总价(万)(0,200](200,400](400,+oo]税率1% 1.5%3%从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1) 假设该小区已经出售了 2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2) 假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016-北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过⑷立方米的部分按4元/立 方米收费,超出⑷立方米的部分按10元/立方米收费.从该市随机调查了 10000位居民,获得了他们某月的 用水量数据,整理得到如下频率分布直方图:(1) 如果w 为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w 至少 定为多少?(2) 假设同组中的每个数据用该组区间的右端点值代替•当⑷=3时,估计该市居民该月的人均水费.3课后作1. 重庆市2016年各月的平均气温(°C )数据的茎叶图如图,则这组数据的中位数是()购房总价(百万)频率123A. 19 B- 20 C. 21.5 D. 232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷, 抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A. 134 石B. 169 石C・ 338 石 D. 1365 石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40), [40,60), [60,80), [80,100].若低于60分的人数是15,则该班的学生人数是()频率组距0.020.0150.0100.005--- ----020 40 60 80 100 成绩屈A. 45B. 50C. 55D. 604.(2016-全国卷III)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中4点表示十月的平均最高气温约为15 °C, 8点表示四月的平均最低气温约为5 °C. 下面叙述不正确的是()5.(2015・广东)某城市100户居民的月平均用电量(单位:度),以L160, 180) , [180, 200) , [200, 220), 1220, 240) ,821A.各月的平均最低气温都在0 °C以上C.三月和十一月的平均最高气温基本相同B.七月的平均温差比一月的平均温差大D.平均最高气温高于20 °C的月份有5个一月•…•平均故低任温——平均最高气温[240, 260) , [260, 280) , [280, 300)分组的频率分布直方图如图.频率(1)求直方图中兀的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,1220, 240) , 1240, 260) , [260, 280) , [280, 300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220, 240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系2 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆)3了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到冋归直线的里离的蛋方型最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(七,八),(疋,),2),…,(心,%),其回归方A A A A工3 J)®") 1>必7石a _ _ A程为y=bx+a f则b = ---------- = --------- , a = y-bx .K'l1,方是冋归方程的斜率,a是在y/=! /=1轴上的截距.3・相关系数工(兀・-兀)(儿.-刃a・计算公式:厂=J ”V /=i /=ib・当Q0时,表明两个变量正相•关;当Y0时,表明两个变量负相关.厂的绝对值越接近于1,表明两个变量的线性相关性越强.厂的绝对值越接近于0,表明两个变量之间相关性越弱.通常大于0.75时,认为两个变量有很强的线性相关性.2)题型分题型一相关关系的判断【例】某公司2010〜2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:【变式】对变量兀,y 有观测数据(益,刃(=1,2,…,10),得散点图⑴;对变量u, v 有观测数据(⑷,v/)(Z= 1,2,…,10),得散点图(2).由这两个散点图可以判断()图⑴ A. 变量兀与y 正相关, B. 变量兀与歹正相关, C. 变量x 与y 负相关, D. 变量兀与y 负相关, 题型二线性回归分析【例1】(2017・延边州模拟)如表提供了某厂节能降耗改造后在生产A 产品过程中记录的产量兀(吨)与 相应的生产能耗y (吨)的几组对应数据,根据表中提供的数据,求出y 关于兀的线性回归方程为$二0.7兀+0.35, 则下列结论错误的是()X3 4L6 y2.5t44.5A. 线性回归直线一定过点(4.5, 3.5)B. 产品的生产能耗与产量呈正相关C. r 的取值必定是3.15D ・A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017-南昌一模)设某中学的高中女生体重y (单位:焰)与身高兀(单位:an )具有线性相关 关系,根据一组样本数据(冷必)(匸1,2, 3,用最小二乘法近似得到回归直线方程为$ =0.85x-85.71, 则下列结论中不正确的是()A. y 与x 具有正线性相关关系根据统计资料,则( )A. 利润中位数是16,B. 利润中位数是17,C. 利润中位数是17,D. 利润小位数是18, x 与y 有正线性相关•关系 兀与y 有正线性相关关系x 与),有负线性相关关系 x 与有负线性相关关系0 1 23 4567 X 0 1 234567 u图⑵"与u 正相关 〃与v 负相•关 "与v 正相关 "与u 负相关B.回归直线过样本的中心点(x,v)C. 若该屮学某高屮女生身高增加lcm,则其体重约增加0.85kg D ・若该屮学某高屮女生身高为160cm,则可断定其体重必为50.29kg【例2】(2017-西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家 庭,得到如下统计数据表:据上表得回归直线方程y = bx + a.其中b = 0.76, a = y-bx,据此估计,该社区一户收入为15万元家庭 年支出为()A. 11.4万元B. 11.8万元C. 12.0万元D. 12.2万元【变式2】(2017・成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的 广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为$ul0.2x + &,据此模型,预测广告费为10万元时的销售额约为( )题型三线性相关关系检验【例1】(2017-广西一模)在两个变量y 与兀的回归模型中,分别选择了四个不同的模型,它们的相关指 数R ?如下,其中拟合效果最好的为()A.模型①的相关指数为0.976B.模型②的相关指数为0.776C.模型③的相关指数为0.076 D.模型④的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:B. 108.8C. 111.2D. 118.2 A. 101.2求年推销金额y与工作年限兀之间的相关系数.【变式】(2017-泉州模拟)关于衡量两个变量y与兀之间线性相关关系的相关系数厂与相关指数R2*!',下列说法中正确的是()A.,•越大,两变量的线性相关性越强B. 2越大,两变量的线性相关性越强C. 7•的取值范围为(-00, +8)D. /的取值范围为[0, +00)题型四线性回归方程【例1】(2017-乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价兀(百元)与日销售量y (件)之间有如下关系:(1)求y关于兀的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)吋,日利润最大?【变式1】(2017-全国模拟)从某居民区随机抽取10个家庭,获得笫i个家庭的月收入兀•(单位:千元)10 10 10 10与月储蓄幵(单位:千元)的数据资料,算得》>产80,工必=20,工兀必=184,工坷2 =720./=! /=! /=1 /=!(1)求家庭的月储蓄y关于月收入x的线性回归方程y = bx^-a;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017*甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与f的关系,请用相关系数加以说明;(2)建立y关于『的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.7 7 7 _参考数据:工必=9.32,工口・=40.17, 工(开一$)2 =0.55, "“.646./=1 /=! V /=1工(右-/)(牙-刃参考公式:相关系数厂=一「,回归方程y = a + bt^斜率和截距的最小二乘估计公式血a-门吃(y厂疔V /=1 :=1£©-门(必-刃 _ .分别为:b = —-- ----------- , a=y-bt.【例3] (2017-河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8 位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y与兀、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求)',与兀、z与兀的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分吋,估计英物理、化学两科的得分.X(旺7)(兀一y)X(兀一兀)(%一刃参考公式:相关系数z / ”.,b= —-——.£a・一;)吃(开-y)2刃习_x)2V /=1 /=l "T_ _ _ 8 _ 8 _ 8参考数据:X = 77.5 , y = 85 , z = 81 , -x)2 « 1050 , ^(>; -y)2«456 ,Z=1 /=1 Z=18 _ _ 8 _ _ _________________________________________________________________________ ___________________ ____________________工(X - - y)« 668, 工(石-匚)(召-亠755, Jl050 = 32.4, V456«21.4 , ^550«23.5 .Z=1 1=1【变式2] (2017-汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数X34■67售价y2012S 6.4 4.43z=lnvJ3.00 2.48 2.08 1.86 1.48 1.10(1)rh折线图可以看岀,可以用线性回归模型拟合z与兀的关系,请用相关数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(乙力小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?6 6 6 1~62~ r~6 ]~参考数据:工习”=187.4,=47.64, ^X/2=139, -y)2 = 13.96 , ^(z,--z)2 = 1.53 , /=1 /=1 i=l V /=1 V /=1lnl.46«0.38, ln0.7118« 0.34 .【例4] (2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y (单位:/)和年利润z (单位:千元)的影响,对近8年的宣传费无和年销售量= 出)数据作了初步处理,得到下面的散点图及一些统计量的值.520 •500 - •480 34 36 38 40 42 44 46 48 50 52 54 56 勺宜传优/千元X W8 _£ 3-兀)21=18 _ 工(Wj-W)2 i=l8 _ _ 工(兀-兀心-y)/=!8 _ _ 工(鸭―w)(X —y) /=146.656.3 6.8289.8 1.61469108.8表中W产肩,⑷二!工吟O /=!(1)根据散点图判断,y = a + bx与尸c + d長,哪一个适宜作为年销售量y关于年宣传费兀的回归,方程类型(给出判断即可,不必说明理由);(2)根据(I)的判断结果及表中数据,建立丿关于兀的冋归方程.附:对于一组数据(绚,气),他宀),……,其冋归线v = a + /3u的斜率和截距的最小二乘估计分别为: 620600580560540 二聽盜£射nY(W/ -2/)(V z -V)【变式3】(2017-衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间兀(天数)与销售单价歹(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如 图).根据散点图判断,y = bx-^a, y = - + c 哪一个更适宜作价格关 2 根据判断结果和表中数据,建立y 关于x 的回归方程;3若该产品的日销售量g (x )(件)与时间x 的函数关系为g (Q =』+ 120 (xeNO ,求该产品投放市场笫几天的销售额最高?最高为多少元?-VV10 Z CvrD 1 2 3 /=1 10X 3厂乔尸 7=110 迟(X 厂壬)0厂亍) 7=110迟(W 厂祁)0厂丿) /—11.6337.80.S95.150.92-20.618.40叱・•表屮 (1)兀的冋归方程类型?(不必说明理由)于时间=123.1,附:回归直线的斜率和截距的最小二乘估计公式分别为:b =,选用数据: n艺(习-兀)(〉;•-y ) 匸1 £(兀-孑1=13课后作1. (2015-全国卷II )根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论屮不正确的是()A. 逐年比较,2008年减少二氧化硫排放量的效果最显著B. 2007年我国治理二氧化硫排放显现成效C. 2006年以来我国二氧化硫年排放塑呈减少趋势D. 2006年以来我国二氧化硫年排放量与年份正相关 2. (2017•贵阳检测)若8名学生的身高和体重数据如下表:编号 1 2 3 4 5 6 7 8 身高/cm 165 165157 170 175 165 155 170 体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是j-0.849x-85.712,则第3名学生的体重估计为 ______________ kg.3. (2017-合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经 统计,近五年某电商在媒体上的广告投入费用兀(亿元)与当年度该电商的销售收入y (亿元)的数据如下 表:):年份 2012 年 2013 年 2014 2015 2016 广告投入x 0.8 0.9 1 1.1 1.2 销售收入:1623252630(1) 求y 关于X 的回归方程;(2) 2017年度该电商准备投入广告费1.5亿元,利用(I )中的回归方程,预测该电商2017年的销售收A.1 9002004^2005^ 2006^n2 700 2600 2500 2400 2300 2 200 2100 2 0004. (2017*包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1〜7分别对应年份2010〜2016.(1) 由折线图看岀,可用线性回归模型拟合y 和r 的关系,请用相关系数加以说明;(2) 建立y 关于r 的回归方程,预测2017年该企业污水净化量;7 QV14 » 3.74 , ~ = — •/=14工(右一0(开一刃 Q---------------- 仮映冋归效果的公式为工(51=1A・(3) 请用数据说明回归方程预报的效杲._ 7 _附注:参考数据:$ = 54,工(“-;)(”•-亍) = 21, 为4 一/)(必一刃参考公式:相关系数厂二心1&-b 2£a-y)212 3 45 6 7 年份代号(。
统计案例高中数学
统计案例高中数学
高中数学统计案例示例如下:
假设你是一名学生,想要了解不同科目在学校的成绩分布。
你使用班级的成绩表来计算每个科目的平均分数,并将结果展示在学校官方网站上。
计算平均分数的过程如下:
1. 整理成绩表,将每个科目的成绩按列排序。
2. 计算每个科目的平均分数。
- 如果有一个科目有多个学生成绩,需要选取取平均值。
- 如果只有一个科目,则可以直接计算所有学生成绩的和再除以人数。
例如,如果成绩表如下所示:
| 科目 | 成绩 |
|------|----------|
| 数学 | 90 |
| 英语 | 85 |
| 物理 | 80 |
| 化学 | 75 |
| 历史 | 80 |
那么平均分数为(90 + 85 + 80 + 75 + 80) / 5 = 175/5 = 34.33(保留两位小数)。
将平均分数和学校官方网站上的成绩进行比较,以确保成绩分布
符合预期。
该学生在学校官方网站上发布了数学、英语和历史的平均分数分别为34.33、34.33和33.67。
这意味着在这个班级中,数学、英语和历史的平均分数相对较高,而物理、化学和历史的平均分数相对较低。
高中数学【统计与统计案例】专题练习
高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。
高中数学统计案例
高中数学统计案例数学统计是数学中的一个重要分支,它研究的是收集、分析和解释数据的方法。
统计学在现代社会中有着广泛的应用,无论是在科学研究、经济分析还是社会调查中,统计学都发挥着重要作用。
在高中数学教学中,统计学也是一个重要的内容,通过统计案例的学习,学生可以更好地理解和应用统计学的知识。
首先,我们来看一个关于学生身高的统计案例。
某高中有1000名学生,他们的身高分布如下,150-160cm的学生有200人,160-170cm的学生有400人,170-180cm的学生有300人,180-190cm的学生有100人。
现在我们要对这些数据进行统计分析。
首先,我们可以计算出这1000名学生的平均身高,即(150200 + 155200 + 165400 + 175300 + 185100)/1000 = 167cm。
通过这个案例,学生可以学习到如何计算平均值,并且了解到平均值的意义和应用。
其次,我们来看一个关于学生学习时间的统计案例。
某班级的学生在一周内的学习时间分布如下,0-5小时的学生有50人,5-10小时的学生有150人,10-15小时的学生有200人,15-20小时的学生有100人。
现在我们要对这些数据进行统计分析。
首先,我们可以计算出这个班级学生的平均学习时间,即(2.550 + 7.5150 + 12.5200 + 17.5100)/500 = 11小时。
通过这个案例,学生可以学习到如何计算平均值,并且了解到平均值的意义和应用。
最后,我们来看一个关于学生成绩的统计案例。
某班级的学生成绩分布如下,90-100分的学生有50人,80-90分的学生有150人,70-80分的学生有200人,60-70分的学生有100人。
现在我们要对这些数据进行统计分析。
首先,我们可以计算出这个班级学生的平均成绩,即(9550 + 85150 + 75200 + 65100)/500 = 78分。
通过这个案例,学生可以学习到如何计算平均值,并且了解到平均值的意义和应用。
(完整版)高中数学统计、统计案例知识点总结和典例
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
高中数学统计与统计案例全章复习(题型完美版)
第八章 统计与统计案例第1节 随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当N n不是整数时,随机从总体中剔除余数,再取k =N ′n(N ′为从总体中剔除余数后的总数). (3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围: 当总体由差异明显的几个部分组成时,往往选用分层抽样.【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A .0B .1C .2D .3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )A .12B .33C .06D .16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A .随机抽样B .分层抽样C .系统抽样D .以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【变式1】(2017•大连二模)某单位员工按年龄分为A ,B ,C 三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C 组中某个员工被抽到的概率是91,则该单位员工总数为( )A .110B .10C .90D .80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是72,则男运动员应抽取( ) A .18人B .16人C .14人D .12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样 2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A .5,10,15,20,25B .3,13,23,33,43C .1,2,3,4,5D .2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )A .700B .669C .695D .6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A .1030人B .97人C .950人D .970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法: 第一步:求极差,决定组数和组距,组距=极差组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征题型一 茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是()A.19B.20C.21.5D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45B.50C.55D.604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y轴上 的截距. 3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r |大于0.75时,认为两个变量有很强的线性相关性.题型一 相关关系的判断【例】某公司2010~2015年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如下表所示:根据统计资料,则( )A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B.产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017•南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x−85.71,则下列结论中不正确的是( )A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017•成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A.101.2 B.108.8 C.111.2D.118.2题型三线性相关关系检验【例1】(2017•广西一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为()A.模型①的相关指数为0.976 C.模型③的相关指数为0.076 B.模型②的相关指数为0.776 D.模型④的相关指数为0.351【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y与工作年限x之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y与x之间线性相关关系的相关系数r与相关指数R2中,下列说法中正确的是()A.r越大,两变量的线性相关性越强C.r的取值范围为(-∞,+∞)B.R2越大,两变量的线性相关性越强D.R2的取值范围为[0,+∞)题型四线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x(百元)与日销售量y(件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt==--=-∑∑,=.a y bt -【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;②求y 与x 、z 与x 的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y46.6 56.3 6.8表中i w w =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017•衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程;求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3_____kg. 3.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x (亿元)与当年度该电商的销售收入y (亿元)的数据如下表:):(1)求y 关于x 的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,1.512=∑=ni ix4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i i y y t t ,74.314≈,49)ˆ(712=-∑=i i i yy .参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。
高中数学知识点之统计及统计案例分析
高中数学知识点之统计及统计案例分析第十一编统计、统计案例§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .答案①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .答案3,9,184.(2008·广东理)某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为 .一年级二年级三年级女生373 x y男生377 370 z答案165.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .答案80例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法:基础自测第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =100001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l .(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本.例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病及不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本.14分例4 为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):①从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;②每个班抽取1人,共计20人,考察这20名学生的成绩;③把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1 000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人). 根据上面的叙述,试回答下列问题:(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少? (2)上面三种抽取方式各自采用的是何种抽取样本的方法? (3)试分别写出上面三种抽取方式各自抽取样本的步骤.解 (1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100. (2)三种抽取方式中,第一种采用的是简单随机抽样法; 第二种采用的是系统抽样法和简单随机抽样法; 第三种采用的是分层抽样法和简单随机抽样法. (3)第一种方式抽样的步骤如下:第一步,首先用抽签法在这20个班中任意抽取一个班.第二步,然后从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩. 第二种方式抽样的步骤如下:第一步,首先用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a .第二步,在其余的19个班中,选取学号为a 的学生,加上第一个班中的一名学生,共计20人. 第三种方式抽样的步骤如下:第一步,分层,因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次.第二步,确定各个层次抽取的人数.因为样本容量及总体的个体数之比为:100∶1 000=1∶10,所以在每个层次中抽取的个体数依次为10150,10600,10250,即15,60,25. 第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.1.有一批机器,编号为1,2,3,...,112,为调查机器的质量问题,打算抽取10台入样,问此样本若采用简单随机抽样方法将如何获得? 解 方法一 首先,把机器都编上号码001,002,003,...,112,如用抽签法,则把112个形状、大小相同的号签放在同一个箱子里,进行均匀搅拌,抽签时,每次从中抽出1个号签,连续抽取10次,就得到一个容量为10的样本. 方法二 第一步,将原来的编号调整为001,002,003, (112)第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如:选第9行第7个数“3”,向右读.第三步,从“3”开始,向右读,每次读取三位,凡不在001~112中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到074,100,094,052,080,003,105,107,083,092.第四步,对应原来编号74,100,94,52,80,3,105,107,83,92的机器便是要抽取的对象.2.某单位在岗职工共624人,为了调查工人用于上班途中的时间,该单位工会决定抽取10%的工人进行调查,请问如何采用系统抽样法完成这一抽样?解 (1)将624名职工用随机方式编号由000至623. (2)利用随机数表法从总体中剔除4人. (3)将剩下的620名职工重新编号由000至619. (4)分段,取间隔k =62620=10,将总体分成62组,每组含10人. (5)从第一段,即为000到009号随机抽取一个号l .(6)按编号将l ,10+l ,20+l ,…,610+l ,共62个号码选出,这62个号码所对应的职工组成样本.3.某电台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12 000人,其中持各种态度的人数如下表:很喜爱 喜爱 一般 不喜爱 2 4354 5673 9261 072电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应当怎样进行抽样? 解 可用分层抽样方法,其总体容量为12 000.“很喜爱”占000124352,应取60×000124352≈12(人);“喜爱”占000125674,应取60×000125674≈23(人);“一般”占000129263,应取60×000129263≈20(人);“不喜爱”占000120721,应取60×000120721≈5(人).因此采用分层抽样在“很喜爱”、“喜爱”、“一般”和“不喜爱”的2 435人、4 567人、3 926人和1 072人中分别抽取12人、23人、20人和5人. 4.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况: ①7,34,61,88,115,142,169,196,223,250; ②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是(填序号).(1)②、③都不能为系统抽样(2)②、④都不能为分层抽样(3)①、④都可能为系统抽样(4)①、③都可能为分层抽样答案(4)一、填空题1.(2008·安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2008·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类及果蔬类食品种数之和是 .答案 67.(2008·天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.答案108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 .答案0795二、解答题9.为了检验某种作业本的印刷质量,决定从一捆(40本)中抽取10本进行检查,利用随机数表抽取这个样本时,应按怎样的步骤进行?分析 可先对这40本作业本进行统一编号,然后在随机数表中任选一数作为起始号码,按任意方向读下去,便会得到10个号码. 解 可按以下步骤进行:第一步,先将40本作业本编号,可编为00,01,02, (39)第二步,在附录1随机数表中任选一个数作为开始.如从第8行第4列的数78开始.第三步,从选定的数78开始向右读下去,得到一个两位数字号码59,由于59>39,将它去掉;继续向右读,得到16,由于16<39,将它取出;继续读下去,可得到19,10,12,07,39,38,33,21,后面一个是12,由于在前面12已经取出,将它去掉;再继续读,得到34.至此,10个样本号码已经取满,于是,所要抽取的样本号码是16,19,10,12,07,39,38,33,21,34.10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4 ∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部及工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人. (3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.11.从某厂生产的10 002辆电动自行车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程. 解 因为总体容量和样本容量都较大,可用系统抽样. 抽样步骤如下:第一步,将10 002辆电动自行车用随机方式编号;第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10 000辆电动自行车重新编号(分别为00001,00002,…,10000)并分成100段;第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样抽出一个作为起始号码(如00006);第四步,把起始号码依次加间隔100,可获得样本.12.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容 量n .解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n 36,分层抽样的比例是36n ,抽取工程师36n ×6=6n(人),抽取技术人员36n ×12=3n(人), 抽取技工36n ×18=2n(人). 所以n 应是6的倍数,36的约数即n =6,12,18,36.当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.§11.2 总体分布的估计及总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 .答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 .答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .分数 5 4 3 2 1 人数2010303010答案5102 5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:基础自测根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)依题意知第三组的频率为 1464324+++++=51,又因为第三组的频数为12, ∴本次活动的参评作品数为5112=60. (2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95, 第六组上交的作品数量为 60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高. 例2 对某电子元件进行寿命追踪调查,情况如下:寿命(h ) 100~200 200~300 300~400 400~500 500~600 个数2030804030(1)列出频率分布表; (2)画出频率分布直方图;(3)估计电子元件寿命在100 h ~400 h 以内的概率;(4)估计电子元件寿命在400 h 以上的概率. 解 (1)样本频率分布表如下:寿命(h ) 频数 频率 100~200 20 0.10 200~300 30 0.15 300~400 80 0.40 400~500 40 0.20 500~600 30 0.15 合计2001(2)频率分布直方图(3)由频率分布表可以看出,寿命在100 h ~400 h 的电子元件出现的频率为0.65,所以我们估计电子元件寿命在 100 h ~400 h 的概率为0.65.(4)由频率分布表可知,寿命在400 h 以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h 以上的概率为0.35.例3 为了解A ,B 两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km ) 轮胎A 96, 112, 97, 108, 100, 103, 86, 98 轮胎B 108, 101, 94, 105, 96, 93, 97, 106 (1)分别计算A ,B 两种轮胎行驶的最远里程的平均数,中位数; (2)分别计算A ,B 两种轮胎行驶的最远里程的极差、标准差; (3)根据以上数据你认为哪种型号的轮胎性能更加稳定? 解 (1)A 轮胎行驶的最远里程的平均数为: 898861031001089711296+++++++=100,中位数为:298100+ =99; B 轮胎行驶的最远里程的平均数为:810697939610594101108+++++++=100,中位数为:297101+=99.(2)A 轮胎行驶的最远里程的极差为:112-86=26,标准差为:s =821430831242222222+++++++=2221≈7.43;B 轮胎行驶的最远里程的极差为:108-93=15, 标准差为: s =86374561822222222+++++++=2118≈5.43.(3)由于A 和B 的最远行驶里程的平均数相同,而B 轮胎行驶的最远里程的极差和标准差较小,所以B 轮胎性能更加 稳定.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115,90,85,75,115,110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样.2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100, 7分 方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100, 11分 方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4. 13分 ∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2.(2)设参加这次测试的学生人数是n ,则有n =第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) [40,50),2;[50,60),3;[60,70),10;[70,80),15; [80,90),12;[90,100],8. (1)列出样本的频率分布表; (2)画出频率分布直方图;(3)估计成绩在[60,90)分的学生比例; (4)估计成绩在85分以下的学生比例. 解 (1)频率分布表如下:成绩分组 频数 频率 [40,50) [50,60) [60,70) [70,80) [80,90) [90,100]2 3 10 15 12 8 0.04 0.06 0.20 0.30 0.24 0.16 合计501.00(2)频率分布直方图如图所示.(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,即为(0.20+0.30+0.24)×100%=74%. (4)成绩在85分以下的学生比例即为学生成绩不足85分的频率. 设相应的频率为b . 由808560.0--b =809060.084.0--,故b =0.72. 估计成绩在85分以下的学生约占72%.3.有甲、乙两位射击运动员在相同条件下各射击10次,记录各次命中环数; 甲:8,8,6,8,6,5,9,10,7,4 乙:9,5,7,8,7,6,8,6, 8,7 (1)分别计算他们环数的标准差; (2)谁的射击情况比较稳定. 解 (1)x 甲=101(8+8+6+8+6+5+9+10+7+4)=7.1, x 乙=101(9+5+7+8+7+6+8+6+8+7)=7.1, 2甲s =101[(8-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(5-7.1)2+(9-7.1)2+(10-7.1)2+(7-7.1)2+(4-7.1)2]=3.09,∴s 甲≈1.76.2乙s =101[(9-7.1)2+(5-7.1)2+(7-7.1)2+(8-7.1)2+(7-7.1)2+(6-7.1)2+(8-7.1)2+(6-7.1)2+(8-7.1)2+(7-7.1)2]=1.29, ∴s 乙≈1.14.(2)∵x 甲=x 乙,s 乙<s 甲,∴乙射击情况比较稳定.4.(2008·海南、宁夏理,16)从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度(单位:mm ),结果如下: 甲品种:271273 280 285 285 287 292 294 295 301 303 303 307 308 310 314 319323325325 328 331 334 337 352 乙品种:284292 295 304 306 307 312 313 315 315 316 318 318 320 322 322 324327329331333336337343356由以上数据设计了如下茎叶图:根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:① ; ② .答案 ①乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均长度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的纤维长度). ②甲品种棉花的纤维长度较乙品种棉花的纤维长度更分散.(或:乙品种棉花的纤维长度较甲品种棉花的纤维长度更集中(稳定).甲品种棉花的纤维长度的分散程度比乙品种棉花的纤维长度的分散程度更大).③甲品种棉花的纤维长度的中位数为307 mm ,乙品种棉花的纤维长度的中位数为318 mm.④乙品种棉花的纤维长度基本上是对称的,而且大多集中在中间(均值附近).甲品种棉花的纤维长度除一个特殊值(352)外,也大致对称,其分布较均匀.一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数及组距的比值④直方图的高表示该组上的个体在样本中出现的频率及组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙3.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用条形图表示如下:根据条形图可得这50名学生这一天平均每人的课外阅读时间为 h.答案0.94.某班50名学生在一次百米测试中,成绩全部介于13秒及19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为 .答案0.9,355.(2009·启东质检)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为 .答案0.27,786.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x甲、x乙,则x甲x乙,比稳定.答案<乙甲7.(2008·上海理,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a、b的取值分别是 .答案10.5、10.58.某教师出了一份共3道题的测试卷,每道题1分,全班得3分,2分,1分,0分的学生所占比例分别为30%,40%,20%,10%,若全班30人,则全班同学的平均分是分.答案 1.9二、解答题9.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.(1)求第二小组的频率,并补全这个频率分布直方图;(2)求这两个班参赛的学生人数是多少?(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05. ∴第二小组的频率为:1.00-(0.30+0.15+0.10+0.05)=0.40. ∴落在59.5~69.5的第二小组的小长方形的高=组距频率=1040.0=0.04.则补全的直方图如图所示.(2)设九年级两个班参赛的学生人数为x 人. ∵第二小组的频数为40人,频率为0.40, ∴x40=0.40,解得x =100(人). 所以九年级两个班参赛的学生人数为100人.(3)因为0.3×100=30,0.4×100=40,0.15×100=15,0.10×100=10,0.05×100=5,即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为: 391517424+++++=0.08.又因为频率=样本容量第二小组频数,所以样本容量=第二小组频率第二小组频数=08.012=150.(2)由图可估计该学校高一学生的达标率约为。
高中数学统计与统计案例全章复习(题型)
第八章 统计与统计案例第1节 随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔K ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数,再取k =N ′n(N ′为从总体中剔除余数后的总数).(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k ).(4)按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本. 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.1知识梳理【例1】下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.①从20件玩具中一次性抽取3件进行质量检验.①某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()2题型分类A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【变式1】(2017•大连二模)某单位员工按年龄分为A ,B ,C 三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C 组中某个员工被抽到的概率是91,则该单位员工总数为( )A .110B .10C .90D .80【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是72,则男运动员应抽取( ) A .18人B .16人C .14人D .12人1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A .5,10,15,20,25B .3,13,23,33,43C .1,2,3,4,5D .2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .134.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,3课后作业则抽取的第35个编号为()A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生()A.1030人B.97人C.950人D.970人第2节 用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征数字特征 定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数1知识梳理中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数,即x =x 1+x 2+…+x nn方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差题型一 茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A .和B .和92C .91和D .92和92【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析. 2题型分类【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为,则x,y的值分别为()A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,,[,1),……,[4,]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2](2,4](4,6](6,8](8,10]人数104025205(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国①卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017•肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.1.重庆市2016年各月的平均气温(①)数据的茎叶图如图,则这组数据的中位数是()A.19B.20C.D.232.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()3课后作业A.45B.50C.55D.604.(2016·全国卷①)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9311中A点表示十月的平均最高气温约为15 ①,B点表示四月的平均最低气温约为5 ①.下面叙述不正确的是()A.各月的平均最低气温都在0 ①以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ①的月份有5个5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节 线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i ixn x yx n yx x x y y x xb 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y1知识梳理轴上的截距.3.相关系数a.计算公式:∑∑∑===----=niniiiniiiyyxxyyxxr11221)()())((b.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于时,认为两个变量有很强的线性相关性.题型一相关关系的判断【例】某公司2010~2015年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:根据统计资料,则()A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i =1,2,…,10),得散点图(2).由这两个散点图可以判断()2题型分类A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=+,则下列结论错误的是()A.线性回归直线一定过点(,)B.产品的生产能耗与产量呈正相关C.t的取值必定是D.A产品每多生产1吨,则相应的生产能耗约增加吨【变式1】(2017•南昌一模)设某中学的高中女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为yˆ=−,则下列结论中不正确的是()A.y与x具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加D .若该中学某高中女生身高为160cm ,则可断定其体重必为【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .万元B .万元C .万元D .万元【变式2】广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x y ˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .B .C .D .题型三 线性相关关系检验【例1】(2017•广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为 C .模型①的相关指数为B .模型①的相关指数为 D .模型①的相关指数为【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017•泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强 D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑==10180i ix,∑==10120i iy,∑==101184i ii yx ,∑==1012720i ix.(1)求家庭的月储蓄y 关于月收入x 的线性回归方程a x b yˆˆˆ+=; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i iy,17.4071=∑=i ii yt ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率; (2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y 与x 、z 与x 的相关系数说明物理与数学、化学与数学的相关程度;①求y 与x 、z 与x 的线性回归方程(系数精确到),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i ix x,456)(812≈-∑=i iy y,550)(812≈-∑=i iz z,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i ii yx ,64.4761=∑=i ii zx ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y表中i w w =1881i i w =∑.(1)根据散点图判断,y a bx=+与y c d x=+,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程.附:对于一组数据),(),,(2211vuvu,……,),(nnvu,其回归线uvβα+=的斜率和截距的最小二乘估计分别为:∑∑==---=niiniiiuuvvuu121)())((ˆβ.【变式3】某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii xw1=,∑==101101iiww.(1)根据散点图判断,abxy+=ˆ,cxdyˆˆˆ+=哪一个更适宜作价格y关于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程;求该产品投放市场第几天的销售额最高?最高为多少元?1.(2015·全国卷①)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:编号12345678身高/cm165165157170175165155170体重/kg48575464614359第33.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费亿元,利用(①)中的回归方程,预测该电商2017年的销售收入.3课后作业附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=ni ini i ix xy y x xb 121)())((,选用数据:1.1231=∑=ni ii yx ,1.512=∑=ni ix4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业污水净化量; (3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i iy y t t,74.314≈,49)ˆ(712=-∑=i i iyy. 参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式为第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1知识梳理一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重点强化训练(五)统计与统计案例A组基础达标(建议用时:30分钟)一、选择题1.(2017·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A.101B.808C.1 212D.2 012B[由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N=808.]2.设某大学的女生体重y(单位:kg)写身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kgD[∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵y=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.]3.亚冠联赛前某参赛队准备在甲、乙两名球员中选一人参加比赛.如图8所示的茎叶图记录了一段时间内甲、乙两人训练过程中的成绩,若甲、乙两名球员的平均成绩分别是x1,x2,则下列结论正确的是()A.x1>x2,选甲参加更合适B.x1>x2,选乙参加更合适C.x1=x2,选甲参加更合适D.x1=x2,选乙参加更合适A[根据茎叶图可得甲、乙两人的平均成绩分别为x1≈31.67,x2≈24.17,从茎叶图来看,甲的成绩比较集中,而乙的成绩比较分散,因此甲发挥得更稳定,选甲参加比赛更合适.]4.(2017·安徽皖南八校联考)某同学在研究性学习中,收集到某制药今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:x(月份)1234 5y(万盒)55668若x,y6月份生产甲胶囊产量为()A.8.1万盒B.8.2万盒C.8.9万盒D.8.6万盒A[由题意知x=3,y=6,则a=y-0.7x=3.9,∴x=6时,y=8.1.] 5.(2017·郑州质量预测)利用如图9所示算法在平面直角坐标系上一系列点,则的点在圆x2+y2=10内的个数为()导学号:66482445图9A.2 B.3C.4 D.5B[执行题中的算法框图,的点的坐标依次为(-3,6),(-2,5),(-1,4),(0,3),(1,2),(2,1),其中点(0,3),(1,2),(2,1)位于圆x2+y2=10内,因此的点位于圆x2+y2=10内的共有3个.]二、填空题6.在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图10),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.图10160[设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.]7.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:女男总计喜爱402060不喜爱203050总计6050110与否和性别有关”.参考附表:P(χ2≥x0)0.0500.0100.001x0 3.841 6.63510.82899%[假设喜爱该节目和性别无关,分析列联表中数据,可得χ2=110×(40×30-20×20)2≈7.8>6.635,60×50×60×50所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.]8.(2017·太原模拟)数列{a n}满足a n=n,阅读如图11所示的算法框图,运行相应的程序,若输入n=5,a n=n,x=2的值,则输出的结果v=________.图11129[该算法框图循环4次,各次v的值分别是14,31,64,129,故输出结果v=129.]三、解答题9. (2017·桂林联考)如图12所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x ,已知甲、乙两组的平均成绩相同.图12(1)求x 的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率.[解] (1)x 甲=9+9+11+114=10,x 乙=8+9+12+10+x 4=10,∴x =1,2分又s 2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1, s 2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52, ∴s 2甲<s 2乙,∴甲组成绩比乙组稳定. 5分(2)记甲组4名同学为:A 1,A 2,A 3,A 4;乙组4名同学为:B 1,B 2,B 3,B 4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),共16种. 10分其中得分之和低于20分的共6种,∴得分之和低于20分的概率P =616=38. 12分10.(2015·重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 20112012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元) 567810(1)求y 关于t 的回归方程y =bt +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y =bt +a 中,b =∑i =1nt i y i -n t y∑i =1nt 2i -n t 2,a =y -b t .[解] (1)列表计算如下:这里n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2. 2分又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1n t i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt=1210=1.2,a =y -b t =7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6. 7分(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元). 12分B组能力提升(建议用时:15分钟)1.如图13所示的算法框图,若输出k的值为6,则判断框内可填入的条件是()图13A.s>12B.s>35C.s>710D.s>45C[第一次执行循环:s=1×910=910,k=8,s=910应满足条件;第二次执行循环:s=910×89=810,k=7,s=810应满足条件,排除选项D;第三次执行循环:s=810×78=710,k=6,不再满足条件,结束循环.因此判断框中的条件为s>710.]2.(2017·西安调研)已知某产品连续4个月的广告费用x1(千元)与销售额y1(万元),经过对这些数据的处理,得到如下数据信息:①∑i=14x i=18,∑i=14y i=14;②广告费用x和销售额y之间具有较强的线性相关关系;③回归直线方程y =bx +a 中的b =0.8(用最小二乘法求得).那么,广告费用为6千元时,可预测销售额约为________万元.导学号:664824464.7 [因为∑i =14x i =18,∑i =14y i =14,所以x =4.5,y =3.5,因为回归直线方程y =bx +a 中的b =0.8, 所以3.5=0.8×4.5+a ,所以a =-0.1,所以y =0.8x -0.1. x =6时,可预测销售额约为4.7万元.] 3.(2015·高考)某36名工人的年龄数据如下表.机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的均值x 和方差s 2;(3)36名工人中年龄在x -s 与x +s 之间有多少人?所占的百分比是多少(精确到0.01%)?[解] (1)36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,所以所有样本数据的编号为4n-2(n=1,2,…,9),其年龄数据为:44,40,36,43,36,37,44,43,37. 5分(2)由均值公式知:x=44+40+…+379=40,由方差公式知:s2=19[(44-40)2+(40-40)2+…+(37-40)2]=1009. 8分(3)因为s2=1009,s=103,所以36名工人中年龄在x-s和x+s之间的人数等于年龄在区间[37,43]上的人数,即40,40,41,…,39,共23人.所以36名工人中年龄在x-s和x+s之间的人数所占的百分比为23 36×100%≈63.89%. 12分。