高考数学统计与统计案例专题讲解
高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.
到
的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从
到
的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.
则
认
为
高三数学统计和统计案例PPT教学课件

(4)中位数仅与数据的排列位置有关, 某些数据的变动对中位数没有影响. 中位数可能出现在所给数据中,也可能 不在所给数据中,当一组数据中的个别 数据变动较大时,可用中位数描述其集 中趋势.
2、关于统计的有关性质及规律 (1)若 x1, x2, , xn 的平均数为 x , 那么 mx1 a, mx2 a, , mxn a , 的平均数是 mx a.
《银鸥世界》
却抱住那球假装死了。土穴越掘越深,工作的甲 虫看不见了。即使有时它到地面上来看一看,球 旁睡着的甲虫一动不动,觉得很安心。但是主人 离开的时间久了,那贼就乘这个机会,很快的将 球推走,同小偷怕被人捉住一样快。假使主人追 上了它--这种偷盗行为被发现了--它就赶快变更 位置,看起来好像它是无辜的,因为球向斜坡滚 下去了,它仅是想止住它啊!于是两个“伙伴”又 将球搬回,好像什么事情都没有发生一样。
①求极差;②确定组距和组数; ③将数据分组;④列频率分布表; ⑤画频率分布直方图.
(2)连接频率分布直方图中各小长 方形上端的中点,就得到频率分布折 线图,随着频率的增加,作图时所分 的组数也在增加,相应的频率分布折 线图就会越来越接近于一条光滑曲线, 统计中称之为总体密度曲线.
4、回归分析
(1)回归直线方程 y a bx.
蜣螂(屎克螂 )-- 摘自《昆虫记》
但也有时候,贼竟会牺牲一些时间,利 用狡猾的手段来行骗。它假装帮助这个被驱者 搬动食物,经过生满百里香的沙地,经过有深 车轮印和险峻的地方,但实际上它用的力却很 少,它做的大多只是坐在球顶上观光,到了适 宜于收藏的地点,主人就 开始用它边缘锐利的头, 有齿的腿向下开掘,把沙 土抛向后方,而这贼
湖南师大附中 刘东红
1、抽样方法 常用抽样方法有三种,即简单随机抽样、
高考数学一轮复习第九章统计与统计案例第一节统计讲义含解析0513113.doc

第一节统计突破点一随机抽样[基本知识]1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较[基本能力]一、判断题(对的打“√”,错的打“×”)(1)简单随机抽样是一种不放回抽样.( )(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )(3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( ) 答案:(1)√ (2)× (3)√ (4)× (5)× 二、填空题1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是________.答案:总体2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是________.答案:163.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:1 8001.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号码依据第一组抽取的号码和组距确定.每组抽取的号码依次构成一个以第一组抽取的号码m 为首项、组距d 为公差的等差数列{a n },第k 组抽取的号码为a k =m +(k -1)d .2.分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比=样本容量总体容量=各层样本数量各层个体数量.[典例感悟]1.(2018·河北石家庄二中三模)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C ∵从1 000名学生中抽取一个容量为40的样本,∴系统抽样的分段间隔为1 00040=25,设第一组随机抽取的号码为x ,则抽取的第18组的号码为x +17×25=443,∴x =18.故选C.2.(2019·吉林通化模拟)分层抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是( )A .甲应付5141109钱B .乙应付3224109钱C .丙应付1656109钱D .三者中甲付的钱最多,丙付的钱最少解析:选B 依题意由分层抽样可知,100÷(560+350+180)=10109,则甲应付:10109×560=5141109(钱);乙应付:10109×350=3212109(钱);丙应付:10109×180=1656109(钱).[方法技巧]系统抽样和分层抽样中的计算(1)系统抽样总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组N n个(有零头时要先去掉). 若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n -1)N n.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[针对训练]1.(2019·唐山模拟)用简单随机抽样的方法从含有100个个体的总体中抽取一个容量为5的样本,则个体M 被抽到的概率为( )A.1100B.199C.120D.150解析:选C 一个总体含有100个个体,每个个体被抽到的概率为1100,用简单随机抽样方法从该总体中抽取容量为5的样本,则每个个体被抽到的概率为1100×5=120.2.(2019·江西八校联考)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.3.(2019·陕西部分学校摸底检测)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则应分别抽取老年人、中年人、青年人的人数是( )A .7,11,18B .6,12,18C .6,13,17D .7,14,21解析:选D 因为该单位共有27+54+81=162(人),样本容量为42,所以应当按42162=727的比例分别从老年人、中年人、青年人中抽取样本,且应分别抽取的人数是7,14,21.故选D.4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样突破点二 用样本估计总体[基本知识]1.频率分布直方图和茎叶图 (1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组; ④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.众数、中位数、平均数(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1nx 1-x-2+x 2-x-2+…+x n -x-2].(2)方差:标准差的平方s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x -是样本平均数.(3)方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.4.平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x -,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ,方差为m 2s 2.[基本能力]一、判断题(对的打“√”,错的打“×”)(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) (2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( ) 答案:(1)√ (2)× (3)√ (4)× (5)√ (6)× 二、填空题1.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积之和的25,且样本容量为140,则中间一组的频数为________.答案:402.某学校组织学生参加数学测试,成绩(单位:分)的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.答案:503.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.答案:93,924.已知一组正数x 1,x 2,x 3的方差s 2=13(x 21+x 22+x 23-12),则数据x 1+1,x 2+1,x 3+1的平均数为________.答案:3[全析考法]考法一折线图、饼图的应用[例1] (1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半(2)(2019·昆明市高三质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2018年9月到2019年2月这半年来,某个关键词的搜索指数变化的统计图.根据该统计图判断,下列结论正确的是( )A.这半年来,网民对该关键词相关的信息关注度呈周期性变化B.这半年来,网民对该关键词相关的信息关注度不断减弱C.从该关键词的搜索指数来看,2018年10月的方差小于11月的方差D.从该关键词的搜索指数来看,2018年12月的平均值大于2019年1月的平均值[解析] (1)设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:(2)由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A ;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B ;由统计图可知,2018年10月该关键词的搜索指数波动较大,11月的波动较小,所以2018年10月的方差大于11月的方差,排除C ;由统计图可知,2018年12月该关键词的搜索指数大多高于10 000,该月平均值大于10 000,2019年1月该关键词的搜索指数大多低于10 000,该月平均值小于10 000,选D.[答案] (1)A (2)D [方法技巧]利用饼图、折线图分析问题的关键是读懂图形,读准图形中给的数据,明确图形中的变化等.考法二 频率分布直方图的应用[例2] (2018·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2018年8月某日起连续n 天监测空气质量指数(AQI),数据统计如下表: 直方图;(2)由频率分布直方图,求该组数据的平均数与中位数;(3)在空气质量指数分别为(50,100]和(150,200]的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A “两天空气质量等级都为良”的概率.[解] (1)∵0.004×50=20n,∴n =100,∵20+40+m +10+5=100,∴m =25.40100×50=0.008;25100×50=0.005;10100×50=0.002;5100×50=0.001.由此完成频率分布直方图,如图:(2)由频率分布直方图得该组数据的平均数为25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,∵[0,50]的频率为0.004×50=0.2,(50,100]的频率为0.008×50=0.4, ∴中位数为50+0.5-0.20.4×50=87.5.(3)由题意知在空气质量指数为(50,100]和(150,200]的监测天数中分别抽取4天和1天,在所抽取的5天中,将空气质量指数为(50,100]的4天分别记为a ,b ,c ,d ; 将空气质量指数为(150,200]的1天记为e ,从中任取2天的基本事件为(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ),(b ,e ),(c ,d ),(c ,e ),(d ,e ),共10个,其中事件A “两天空气质量等级都为良”包含的基本事件为(a ,b ),(a ,c ),(a ,d ),(b ,c ),(b ,d ),(c ,d ),共6个,所以P (A )=610=35.[方法技巧]1.由频率分布直方图进行相关计算时,需掌握的两个关系式 (1)频率组距×组距=频率.(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数. 2.利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和. (3)众数:最高的矩形的中点的横坐标.考法三 茎叶图的应用[例3] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.[解] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. (2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.[方法技巧]1.茎叶图的绘制需注意(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图的用途(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.考法四样本的数字特征及其应用[例4] (2019·河南周口上学期期末抽测调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:(1)请填写下表(写出计算过程):(2)①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);③从折线图上两人射击命中环数的走势看(分析谁更有潜力).[解] 由题图,知甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.(1)x甲=110×(5+6×2+7×4+8×2+9)=7(环),x乙=110×(2+4+6+7×2+8×2+9×2+10)=7(环),s2甲=110×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=110×(4+2+0+2+4)=1.2,s2乙=110×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=110×(25+9+1+0+2+8+9)=5.4.填表如下:(2)甲乙∴甲成绩比乙稳定.②∵平均数相同,命中9环及9环以上的次数甲比乙少,∴乙成绩比甲好些.③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.[方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[集训冲关]1.[考法一]某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析:选D 在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确;在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D.2.[考法二]近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中年龄在区间[30,40)内的有2 500人,在区间[20,30)内的有1 200人,则m 的值为( )A .0.013B .0.13C .0.012D .0.12解析:选C 由题意,得年龄在区间[30,40)内的频率为0.025×10=0.25,则赞成高校招生改革的市民有2 5000.25=10 000(人),因为年龄在区间[20,30)内的有1 200人,所以m =1 20010 00010=0.012.3.[考法三]一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( )A .2B .-2C .3D .-3解析:选D 由茎叶图知⎩⎪⎨⎪⎧72+77+86++x +905=81,70+y =73,解得x =0,y =3,所以x -y =-3,故选D.4.[考法三、四]在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩x 甲=68+76+79+86+88+956=82,学生乙的平均成绩x 乙=71+75+82+84+86+946=82,又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673, 则x 甲=x 乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.5.[考法二、四](2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m 3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表使用了节水龙头50天的日用水量频数分布表 (1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m 3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解:(1)频率分布直方图如图所示.(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m 3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m 3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为x 1=150×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为x 2=150×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3).精美句子1、善思则能“从无字句处读书”。
高考数学一轮复习第十章统计与统计案例第一节统计实用市赛课公开课一等奖省名师优质课获奖课件

均为不放回抽样,且抽样过程中每个个体被抽取机会相等
从总体中逐一抽取
是后两种方法基础
总体中个数较少
系统抽样
将总体均分成几部分,按事先确定规则在各部分中抽取
在起始部分抽样时采取简单随机抽样
元素个数很多且均衡总体抽样
分层抽样
将总体分成几层Biblioteka 分层按百分比进行抽取各层抽样时采取简单随机抽样或系统抽样
总体密度曲线
伴随样本容量增加,作图时所分_____增加,______减小,对应频率折线图会越来越靠近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线
32/84
33/84
34/84
35/84
36/84
37/84
38/84
39/84
40/84
41/84
研透高考·讲练区
42/84
43/84
44/84
45/84
46/84
47/84
48/84
49/84
50/84
51/84
52/84
53/84
54/84
55/84
56/84
57/84
58/84
59/84
60/84
61/84
62/84
63/84
64/84
65/84
66/84
67/84
68/84
75/84
76/84
77/84
78/84
79/84
80/84
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
高中数学知识讲解-高考总复习:统计与统计案例

高考总复习:统计与统计案例【考纲要求】1.随机抽样(1)理解随机抽样的必要性和重要性;(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法. 2.用样本估计总体(1)了解分布的意义和作用, 会列频率分布表, 会画频率分布直方图、频率折线图、茎叶图, 理解它们各自的特点.(2)理解样本数据标准差的意义和作用, 会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差), 并作出合理的解释.(4)会用样本的频率分布估计总体分布, 会用样本的基本数字特征估计总体的基本数字特征, 理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想, 解决一些简单的实际问题. 3.变量的相关性(1)会作两个有关联变量数据的散点图, 会利用散点图认识变量间的相关关系;(2)了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆). 【知识网络】【考点梳理】考点一、随机抽样从调查的对象中按照一定的方法抽取一部分, 进行调查或观测, 获取数据, 并以此对调查对象统计图表用样本估计总体统计简单随机抽样数据的整 理分析数据的数字特征 分层抽样系统抽样变量的相关性的某项指标做出推断, 这就是抽样调查.调查对象的全体称为总体, 被抽取的一部分称为样本.1.简单的随机抽样 简单随机抽样的概念:设一个总体的个体数为N .如果通过逐个抽取的方法从中抽取一个样本, 且每次抽取时各个个体被抽到的概率相等, 就称这样的抽样为简单随机抽样.① 用简单随机抽样从含有N 个个体的总体中抽取一个容量为n 的样本时, 每次抽取一个个体时, 任一个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为n N;②简单随机抽样的特点是:不放回抽样, 逐个地进行抽取, 各个个体被抽到的概率相等; ③简单随机抽样方法体现了抽样的客观性与公平性, 是其他更复杂抽样方法的基础. 简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N 个)编号(号码可从1到N), 并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作), 然后将这些号签放在同一个箱子里, 进行均匀搅拌, 抽签时每次从中抽一个号签, 连续抽取n 次, 就得到一个容量为n 的样本.适用范围:总体的个体数不多.优点:抽签法简便易行, 当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步, 将总体中的个体编号;第二步, 选定开始的数字;第三步, 获取样本号码.2.系统抽样:当总体中的个体数较多时, 可将总体分成均衡的几个部分, 然后按预先制定出的规则, 从每一部分抽取一个个体, 得到需要的样本, 这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号, 为简便起见, 有时可直接采用个体所带有的号码, 如考生的准考证号、街道上各户的门牌号等等.②为将整个的编号分段 (即分成几个部分), 要确定分段的间隔k .当Nn是整数时(N 为总体中的个体的个数, n 为样本容量), N k n =;当N n不是整数时, 通过从总体中剔除一些个体使剩下的总体中个体的个数'N 能被n 整除, 这时'N k n=.③在第一段用简单随机抽样确定起始的个体编号l .④按照事先确定的规则抽取样本(通常是将l 加上间隔k , 得到第2个编号l k +, 第3个编号2l k +, 这样继续下去, 直到获取整个样本).要点诠释:①系统抽样适用于总体中的个体数较多的情况, 它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时, 采用的是简单随机抽样;②与简单随机抽样一样, 系统抽样是等概率抽样, 它是客观的、公平的③总体中的个体数恰好能被样本容量整除时, 可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时, 可用简单随机抽样先从总体中剔除少量个体, 使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:当已知总体由差异明显的几部分组成时, 为了使样本更充分地反映总体的情况, 常将总体分成几部分, 然后按照各部分所占的比例进行抽样, 这种抽样叫做分层抽样, 所分成的部分叫做层.4.常用的三种抽样方法的比较:要点诠释:(1)各种抽样的个体被抽到的概率相等;(2)抽样过程中个体被抽到的概率相等.5.不放回抽样和放回抽样:在抽样中, 如果每次抽出个体后不再将它放回总体, 称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体, 称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样考点二、用样本估计总体1. 统计图表包括条形图、折线图、饼图、茎叶图.2.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差)(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布表3.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离, s =(2)方差: 2222121[()()...()]n s x x x x x x n=-+-++- (n x 是样本数据,n 是样本容量,x 是样本平均数)要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标 6. 频率分布直方图反映样本的频率分布 (1)频率分布直方图中横坐标表示组距,纵坐标表示组距频率,频率=组距×组距频率(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观. (4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. 考点三、变量的相关性 1. 散点图将两个变量所对应的点描在直角坐标系中, 这些点组成了变量之间的一个图, 称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看, 散点分布具有一定的规律.如果变量之间存在某种关系, 这些点会有一个集中趋势, 这种趋势通常可以用一条光滑的曲线来近似表示, 这样近似的过程称为曲线拟合.2.两个变量的线性相关(1)相关关系:当自变量一定时, 因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.(2)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(3)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (4)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程$y bx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,),n n x y x y x y L 的回归方程,期中,a b 是待定参数.$1122211()()()n ni i i ii i n ni ii i x x y y x ynxy b x x xnx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$要点诠释:相关关系与函数关系的异同点: 相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系; ②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 考点四、统计案例 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示, 其中a,b 为模型的未知数, e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),(,),n n x y x y x y L 中回归方程的截距和斜率的最小二乘估计公式分别为:$$121()(),=-()nii i nii xx y y ba y bxxx ==--=-∑∑$$ 其中111,=,(,,)nni i i i x x y x x y n ===∑∑称为样本点的中心.(4)相关系数①()()nii xx y y r --=∑②当>0r 时,表明两个变量正相关; 当<0r 时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异µ2()i i y y -是随机误差的效应,称µµ=i ii e y y -为残差. (3)残差平方和µ21()nii i yy =-∑.(4)相关指数µ22121()()nii i n ii yy R yy ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcd c d + 总计a c +b d +a b c d +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值, 或者说2K 是一个随机变量, 它在a , b , c , d )取不同值时, 2K 可能不同, 而k 是取定一组数a , b , c , d 后的一个确定的值. 【典型例题】类型一、简单随机抽样【例1】某车间工人加工一种轴100件, 为了了解这种轴的直径, 要从中抽取10件轴在同一条件下测量, 如何采用简单随机抽样的方法抽取样本?【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.【解析】解法1:(抽签法)将100件轴编号为1, 2, …, 100, 并做好大小、形状相同的号签, 分别写上这100个数, 将这些号签放在一起, 进行均匀搅拌, 接着连续抽取10个号签, 然后测量这个10个号签对应的轴的直径.解法2:(随机数表法)将100件轴编号为00, 01, …99, 在随机数表中选定一个起始位置,如取第21行第1个数开始, 选取10个为68, 34, 30, 13, 70, 55, 74, 77, 40, 44, 这10件即为所要抽取的样本.【总结升华】从以上两种方法可以看出, 当总体个数较少时用两种方法都可以, 当样本总数较多时, 方法2优于方法1.举一反三:【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;(2)抽签法的操作要点:编号、制签、搅匀、抽取;(3)随机数表法的操作要点:编号、选起始数、读数、获取样本.【解析】抽签法第一步:将24名志愿者编号,编号为1,2,3, (24)第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:将24个号签放入一个不透明的盒子中,充分搅匀;[来源:]第四步:从盒子中逐个抽取6个号签, 并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法第一步:将24名学生编号,编号为01,02,03,……24;第二步:在随机数表中任选一数开始,按某一确定方向读数;第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数;第四步:找出号码与记录的数相同的学生组成志愿小组.类型二、系统抽样【例2】某校高中三年级的295名学生已经编号为1, 2, ……, 295, 为了了解学生的学习情况, 要按1:5的比例抽取一个样本, 用系统抽样的方法进行抽取, 并写出过程.【思路点拨】按1:5分段, 每段5人, 共分59段, 每段抽取一人, 关键是确定第1段的编号.【解析】按照1:5的比例, 应该抽取的样本容量为295÷5=59, 我们把259名同学分成59组, 每组5人, 第一组是编号为1~5的5名学生, 第2组是编号为6~10的5名学生, 依次下去, 59组是编号为291~295的5名学生.采用简单随机抽样的方法, 从第一组5名学生中抽出一名学生, 不妨设编号为k(1≤k≤5), 那么抽取的学生编号为k+5L(L=0,1,2,……, 58), 得到59个个体作为样本, 如当k=3时的样本编号为3, 8, 13, ……, 288, 293.【总结升华】系统抽样可按事先规定的规则抽取样本. 本题采用的规则是第一组随机抽取的学生编号为k, 那么第m 组抽取的学生编号为k+5(m-1).举一反三:【变式】一个总体中有100个个体, 随机编号为0, 1, 2, …, 99, 依编号顺序平均分成10个小组, 组号依次为l, 2, 3, …, 10.现用系统抽样方法抽取一个容量为10的样本, 规定如果在第1组随机抽取的号码为m, 那么在第最小组中抽取的号码个位数字与m+k 的个位数字相同.若m=6, 则在第7组中抽取的号码是 .【答案】∵6m =, 7k =, ∴13m k += ∴在第7小组中抽取的号码是63. 类型三、分层抽样【例3】某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况, 需从这600个销售点中抽取一个容量为100的样本, 记这项调查为①;在丙地区中有20个特大型销售点, 要从中抽取7个调查其销售收入和售后服务情况, 记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A .分层抽样法, 系统抽样法B .分层抽样法, 简单随机抽样法C .系统抽样法, 分层抽样法D .简单随机抽样法, 分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样, 采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时, 宜采用分层抽样;当总体中个体较少时, 宜采用随机抽样.【解析】依据题意, 第①项调查应采用分层抽样l 法、第②项调查应采用简单随机抽样法.故选B . 【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定. 举一反三:【变式】甲校有3600名学生, 乙校有5400名学生, 丙校有1800名学生, 为统计三校学生某方面的情况, 计划采用分层抽样法, 抽取一个样本容量为90人的样本, 应在这三校分别抽取学生( )A.30人, 30人, 30人B.30人, 45人, 15人C.20人, 30人, 10人D.30人, 50人, 10人【答案】B ;根据样本容量和总体容量确定抽样比, 最终得到每层中学生人数.【例4】一个地区共有5个乡镇, 人口3万人, 其中人口比例为3:2:5:2:3, 从3万人中抽取一个300人的样本, 分析某种疾病的发病率, 已知这种疾病与不同的地理位置及水土有关, 问应采取什么样的方法?并写出具体过程.【思路点拨】采用分层抽样的方法.【解析】因为疾病与地理位置和水土均有关系, 所以不同乡镇的发病情况差异明显, 因而采用分层抽样的方法, 具体过程如下:(1)将3万人分为5层, 其中一个乡镇为一层. (2)按照样本容量的比例随机抽取各乡镇应抽取的样本.300×3/15=60(人), 300×2/15=40(人), 300×5/15=100(人), 300×2/15=40(人), 300×3/15=60(人), 因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人.(3)将300人组到一起, 即得到一个样本.【总结升华】分层抽样在日常生活中应用广泛, 其抽取样本的步骤尤为重要, 应牢记按照相应的比例去抽取.举一反三:【变式】某单位最近组织了一次健身活动, 活动分为登山组和游泳组, 且每个职工至多参加了其中一组.在参加活动的职工中, 青年人占42.5%, 中年人占47.5%, 老年人占10%.登山组的职工占参加活动总人数的41, 且该组中, 青年人占50%, 中年人占40%, 老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度, 现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定(Ⅰ)游泳组中, 青年人、中年人、老年人分别所占的比例; (Ⅱ)游泳组中, 青年人、中年人、老年人分别应抽取的人数. 【答案】(Ⅰ)设登山组人数为x , 游泳组中, 青年人、中年人、老年人各占比例分别为a 、b 、c,则有40%347.5%410%310%4x xbxx xc x ⋅+⎧=⎪⎪⎨⋅+⎪=⎪⎩, 解得50%10%b c =⎧⎨=⎩故a=100%-50%-10%=40%,即游泳组中, 青年人、中年人、老年人各占比例分别为40%、50%、10%. (Ⅱ)游泳组中, 抽取的青年人数为320040%604⨯⨯=(人);抽取的中年人数为32004⨯⨯50%=75(人); 抽取的老年人数为32004⨯⨯10%=15(人).类型四、用样本估计总体【例4】甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分) 甲组 76 90 84 86 81 87 86 82 85 83乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩, 并判断哪个小组的成绩更整齐一些?【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.【解析】用茎叶图表示两小组的成绩如图:甲茎乙6 7 4 9 97 6 6 5 4 3 2 1 8 0 2 4 5 9 90 9 1由图可知甲组成绩较集中, 即甲组成绩更整齐一些.【总结升华】对各数据是二、三位数, 且数据量不是很大时, 用用茎叶图表示较为方便, 也便于进行统计推断, 否则, 应改用其他方法.举一反三:【变式1】甲、乙两个学习小组各有10名同学, 他们在一次数学测验中成绩的茎叶图如图所示, 则他们在这次测验中成绩较好的是组.【答案】甲小组【变式2】甲、乙两名运动员的5次测试成绩如下图所示, 设12,s s分别表示甲、乙两名运动员测试成绩的标准差,12,x x分别表示甲、乙两名运动员测试成绩的平均数, 则有()A.12x x=,12s s<B.12x x=,12s s>C.12x x>,12s s> D.12x x=,12s s=【答案】B【例5】以下茎叶图记录了甲、乙两组各四名同学在某次数学测验中的成绩, 甲组记录中有一个数据模糊, 无法确认, 在图中以X表示.甲组乙组甲茎乙5 7 16 88 8 2 2 3 6 76 X8 74 1 9 0 0 3(Ⅰ)如果甲组同学与乙组同学的平均成绩一样, 求X 及甲组同学数学成绩的方差;(Ⅱ)如果X=7, 分别从甲、乙两组同学中各随机选取一名, 求这两名同学的数学成绩之和大于180的概率.(注:方差2222121=[()()...()],n s x x x x x x n-+-++-其中12,,...,.n x x x x 为的平均数) 【思路点拨】(Ⅰ)利用平均数的基本概念加以求解。
高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
统计与统计案例PPT课件

走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
高考数学统计与统计案例专题知识汇总解析

上一页
返回导航
下一页
第二部分 专题四 概率与统计
13
解析:根据题意可得每 5 人中抽取一人,所以第九组抽取的号码为(9-5)×5+23 =43,根据分层抽样,40~50 岁年龄段应抽取:40×30%=12 人. 答案:43 12
上一页
返回导航
下一页
第二部分 专题四 概率与统计
14
考点 2 “双图”“五数”估计总体(综合型) [知识整合]
上一页
返回导航
下一页
第二部分 专题四 概率与统计
12
3.200 名职工年龄分布如图所示,从中随机抽取 40 名职工作样本,采用系统抽样 方法,按 1~200 编号分为 40 组,分别为 1~5,6~10,…,196~200,第 5 组抽 取号码为 23,第 9 组抽取号码为________;若采用分层抽样,40~50 岁年龄段应 抽取________人.
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间
的中点值为代表).(精确到 0.01)
附: 74≈8.602.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
17
【解】 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低 于 40%的企业频率为141+007=0.21. 产值负增长的企业频率为1200=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于 40%的企业比例为 21%,产值负增长的企业比例为 2%. (2) y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
高考数学:专题六 第三讲 统计、统计案例课件

特点和实施步骤,其次要熟练掌握系统抽样中被抽个体号码的确定 方法及分层抽样中各层人数的计算方法.
题型与方法
第三讲
变式训练 1 (2011· 湖北)某市有大型超市 200 家、中型超市 400 家、 小型超市 1 400 家,为掌握各类超市的营业情况,现按分层抽样方法
本 讲 栏 目 开 关
抽取一个容量为 100 的样本,应抽取中型超市________家.
考点与考题
第三讲
5.(2012· 湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm) 具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,„,n),用
本 讲 栏 目 开 关
最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不 . 正确的是 .. A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg ( )
18 3
本 讲 栏 目 开 关
31.5,35.5
1235.5,39.5
39.5,43.5
根据样本的频率分布估计,大于或等于 31.5 的数据约占 2 1 1 2 A. B. C. D. 11 3 2 3
解析
( B )
由条件可知,落在大于或等于 31.5 的数据有 12+7+3= 22 1 22(个),故所求概率约为66=3.
^
^
考点与考题
第三讲
4.(2011· 四川)有一个容量为 66 的样本, 数据的分组及各组的频数如下:
11.5,15.5 27.5,31.5
高三数学 统计与统计案例 教学教案 新人教版

舒城中学高三数学专题复习教与学一体化学案课题:统计与统计案例一、有的放矢、复习轻松1.理解用样本估计总体的思想,并会用样本的数字特征对总体进行估计;理解样本平均数和标准差的意义和作用,并会计算数据平均数和标准差。
2.理解独立性检验的基本思想、方法和初步应用。
3.会用简单随机抽样的方法从总体中抽取样本和了解分层抽样方法和系统抽样方法,并了解随机抽样的等可能性。
4.会作“一表三图”,并能利用“一表三图”分析样本的数字特征。
5.了解最小二乘法的思想和利用已知系数公式建立线性回归方程;了解回归分析的基本思想、方法及其简单应用。
二、知识结构,了然于胸三、复习定位,对症下药 1.重点(1)简单随机抽样的基本方法以及操作步骤。
(2)用茎叶图和频率分布直方图分析样本的基本数字特征。
(3)会根据茎叶图计算样本的基本数字特征;会用频率分布直方图估算样本的基本数字特征.2.难点(1)会用茎叶图和频率分布直方图分析样本的基本数字特征。
(2)体会用样本估计总体的思想;会用样本的基本数字特征估计总体的基本数字特征。
四、例题解析,理解深入【例题1】 某省打算对本省现行的高考方案做出优化改革,使之更好的考查考生的能力和素质,为增强改革的有效性,计划向5000名高三学生、3000名高校学生和4000名高中教师发放相关问卷,拟收回1200份做数据分析,请选择恰当的抽样方法收取这1200份问卷。
【解析】 本题适合采用分层抽样方法: 第一步:确定抽样比:1014000300050001200=++==N n k 第二步:确定每一层的子样本容量:4001014000,3001013000,5001015000321=⨯==⨯==⨯=n n n 第三步:在每一层按简单随机抽样的方法或系统抽样方法抽取相应样本。
采集数据处理数据实际应用【例题2】 为了综合分析我市高三理科数学的教学质量,某研究机构从参加“皖西五校联考(理)”的学生中利用电脑随机选择了20名学生成绩作分析,成绩茎叶图如下: 8 6 9 6 8 10 7 9 9 11 0 2 6 7 8 8 8 12 2 4 8 8 13 3 7 14 5(Ⅰ)请由图中给出的数据,求样本的众数、中位数、平均值和方差。
2024年高考数学一轮复习(新高考版)《统计与统计分析》课件ppt

i=1
7
xiyi-7
i=1
所以b^ =
7
x
·y
=452-7×42×8 70+7m+n,
x2i -7 x 2
i=1
123456
^
即 m+n=43-7b,
①
因为经验回归直线恒过点( x , y ),
所以70+7m+n=4b^ +4,
^
即 m+n=28b-42,
②
由①②,得b^ =177,m+n=26,
123456
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归
^^
^
^
方程v=βu+α的斜率和截距的最小二乘估计公式分别为β=
n
n
ui- u vi- v uivi-n u ·v
i=1
n
u
i-
u
2
i=1
i=1
^
^
=
,α= v -β u .
n
u2i -n u 2
月劳动时间(单位:小时),并建立了人均月劳动时间y关于月份x的经验回
^^
归方程 y=bx+4,y与x的原始数据如表所示:
月份x
123 4 5 6 7
人均月劳动时间y 8 9 m 12 n 19 22
7
由于某些原因导致部分数据丢失,但已知 xiyi=452.
i=1
123456
(1)求m,n的值;
n
xiyi-n x ·y
x2i -8 x 2
i=1
^
^
d= t -c x =2.1-0.4×4.5=0.3,
^
所以t=0.4x+0.3,
^
即y=e0.4x+0.3.
高中数学《统计与统计案例》课件

设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用 模型②得到的预测值更可靠.
13
考点整合
1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样, 体现了抽样的公平性,但又各有其特点和适用范围.
位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60
=90,解得 x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计
值为17000=0.7.故选 C.
解 (1)由调查数据,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客对该商场
服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为3500=0.6,因此女顾
客对该商场服务满意的概率的估计值为 0.6.
8
(2)K2 的观测值 k=100×5(0×405×0×207-0×303×010)2≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务 的评价有差异.
^
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿 元).
12
(2)利用模型②得到的预测值更可靠. 理由如下: 从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+ 13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境 基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础
高考数学二轮复习专题六统计与统计案例-教学课件

[例 3] 有甲、乙两个班级进行数学考试,按照大于等于 85 分
为优秀,85 分以下为非优秀统计成绩后,得到如表所示的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计
105
已知在全部 105 人中随机抽取 1 人为优秀的概率为27.
(1)请完成上面的列联表;
(2)根据列联表中的数据,若按 95%的可靠性要求,能否认为
[例1] (2012·山东高考)采用系统抽样方法从960人中抽
取32人做问卷调查,为此将他们随机编号为1,2,…,960,
分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽
到的32人中,编号落入区间[1,450]的人做问卷A,编号落入
区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人
(3)平均数:样本数据的算术平均数,即 x =n1(x1+x2+…+xn). (4)方差与标准差 方差:s2=n1[(x1- x )2+(x2- x )2+…+(xn- x )2]. 标准差:
s=
n1[x1- x 2+x2- x 2+…+xn- x 2].
[考情分析] 从近两年的高考试题来看,分层抽样 是高考的热点,题型既有选择题也有填空题,分值占5 分左右,属容易题.命题时多以现实生活为背景,主要 考查基本概念及简单计算.
[冲关集训]
5.(2011·湖南高考)通过随机询问 110 名性别不同的大学生是否爱
好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由 K2(χ2)=a+bcn+add- ab+cc2b+d算得,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上一页
返回导航
下一页
第二部分 专题四 概率与统计
9
2.(2019·广东省七校联考)假设要考察某公司生产的狂犬疫苗的剂量是否达标,现
用随机数法从 500 支疫苗中抽取 50 支进行检验,利用随机数表抽取样本时,先将
500 支疫苗按 000,001,…,499 进行编号,若从随机数表第 7 行第 8 列的数开始
解析:依题意知,经停该站高铁列车所有车次的平均正点率的估计值为
10×0.97+20×400.98+10×0.99=0.98.
答案:0.98
上一页
返回导航
下一页
第二部分 专题四 概率与统计
4
3.(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女 顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
上一页
返回导航
下一页
第二部分 专题四 概率与统计
5
解:(1)由调查数据知,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客 对该商场服务满意的概率的估计值为 0.8. 女顾客中对该商场服务满意的比率为3500=0.6,因此女顾客对该商场服务满意的概率 的估计值为 0.6. (2)K2=100×5(0×405×0×207-0×303×0 10)2≈4.762. 由于 4.762>3.841,故有 95%的把握认为男、女顾客对该商场服务的评价有差异.
1,2,…,1 000,从这些新生中用系统抽样方法等距抽取 100 名学生进行体质测验.若
46 号学生被抽到,则下面 4 名学生中被抽到的是( )
A.8 号学生
B.200 号学生
C.616 号学生
D.815 号学生
解析:选 C.由系统抽样可知第一组学生的编号为 1~10,第二组学生的编号为 11~
20,…,最后一组学生的编号为 991~1 000.设第一组取到的学生编号为 x,则第二
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间
的中点值为代表).(精确到 0.01)
附: 74≈8.602.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
16
【解】 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低 于 40%的企业频率为141+007=0.21. 产值负增长的企业频率为1200=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于 40%的企业比例为 21%,产值负增长的企业比例为 2%. (2) y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
上一页
返回导航
下一页
第二部分 专题四 概率与统计
11
3.200 名职工年龄分布如图所示,从中随机抽取 40 名职工作样本,采用系统抽样 方法,按 1~200 编号分为 40 组,分别为 1~5,6~10,…,196~200,第 5 组抽 取号码为 23,第 9 组抽取号码为________;若采用分层抽样,40~50 岁年龄段应 抽取________人.
下一页
第二部分 专题四 概率与统计
25
(1)求该考场考生中获语文一等奖的人数; (2)用随机抽样的方法从获得数学和语文二等奖的考生中各抽取 5 人,进行综合素质 测试,将他们的综合得分绘成茎叶图(如图 2 所示),求样本的平均数及方差并进行 比较分析;
上一页
返回导航
下一页
第二部分 专题四 概率与统计
44 39 52 38 79 33 21 12 34 29 78 64 56 07 82
52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
上一页
返回导航
下一页
第二部分 专题四 概率与统计
10
解析:由题意得,从随机数表第 7 行第 8 列的数开始向右读,符合条件的前三个编 号依次是 331,455,068,故抽取的第 3 支疫苗的编号是 068. 答案:068
组取到的学生编号为 x+10,以此类推,所取的学生编号为 10 的倍数加 x.因为 46
号学生被抽到,所以 x=6,所以 616 号学生被抽到,故选 C.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
3
2.(2019·高考全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高 铁列车中,有 10 个车次的正点率为 0.97,有 20 个车次的正点率为 0.98,有 10 个 车次的正点率为 0.99,则经停该站高铁列车所有车次的平均正点率的估计值为 ____________.
第二部分 专题四 概率与统计
21
解析:选 B.由甲组学生成绩的平均数是 88,可得 70+80×3+90×3+(87+4+6+8+2+m+5)=88,解得 m=3.由乙组学生成绩 的中位数是 89,可得 n=9,所以 n-m=6.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
22
2.(2019·江西八所重点中学联考)某地区某村的前 3 年的经济收入(单位:万元)分别 为 100,200,300,其统计数据的中位数为 x,平均数为 y.今年经过政府新农村建 设后,该村经济收入(单位:万元)在上年基础上翻番,则在这 4 年里经济收入的统 计数据中,下列说法正确的是( ) A.中位数为 x,平均数为 1.5y B.中位数为 1.25x,平均数为 y C.中位数为 1.25x,平均数为 1.5y D.中位数为 1.5x,平均数为 2y
第二部分 高考热点 分层突破
专题四 概率与统计 第1讲 统计与统计案例
数学
第二部分 专题四 概率与统计
1
01
做高考真题 明命题趋向
02
研考点考向 破重点难点
03
练典型习题 提数学素养
上一页
返回导航
下一页
第二部分 专题四 概率与统计
2
[做高考真题·明命题趋向]
[做真题—高考怎么考]
1.(2019·高考全国卷Ⅰ)某学校为了解 1 000 名新生的身体素质,将这些学生编号为
上一页
返回导航
下一页
第二部分 专题四 概率与统计
18
■ 规律方法 (1)两类数字特征的意义 ①平均数、中位数、众数描述数据的集中趋势. ②方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大, 越不稳定.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
19
(2)与频率分布直方图有关的问题 ①已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数 据求出样本与整体的关系,利用频率和等于 1 就可求出其他数据. ②众数为频率分布直方图中最高矩形的底边中点的横坐标. ③中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. ④平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标 之积的和.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
6
[明考情—备考如何学] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方 程、独立性检验等. 2.在概率与统计的交汇处命题,以解答题中档难度出现.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
7
[研考点考向·破重点难点]
上一页
返回导航
下一页
第二部分 专题四 概率与统计
23
解析:选 C.由数据 100,200,300 可得,前 3 年统计数据的中位数 x=200,平均 数 y=100+2030+300=200.根据题意得第 4 年该村的经济收入的统计数据为 600, 则由数据 100,200,300,600 可得,这 4 年统计数据的中位数为200+2 300=250 =1.25x,平均数为100+200+4 300+600=300=1.5y,故选 C.
考点 1 抽样方法(基础型)
[知识整合] 1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少. 2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范 围:总体中的个体数较多. 3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几 部分组成. [注意] 无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量 和总体容量的比值.
其余的人做问卷 C,则抽到的人中,做问卷 B 的人数为( )
A.7
B.9
C.10
D.15
解析:选 C.由题意知应将 960 人分成 32 组,每组 30 人.设每组选出的人的号码为
30k+9(k=0,1,…,31).由 451≤30k+9≤750,解得43402≤k≤73401,又 k∈N,故
k=15,16,…,24,共 10 人.
上一页
返回导航
下一页
第二部分 专题四 概率与统计
8
[考法全练]
1.采用系统抽样方法从 960 人中抽取 32 人做问卷调查,为此将他们随机编号为 1,
2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为 9,抽到的 32
人中,编号落入区间[1,450]的人做问卷 A,编号落入区间[451,750]的人做问卷 B,