【精选】高考数学二轮复习专题六概率与统计第1讲统计与统计案例课时规范练文
2020高考数学二轮复习概率与统计.docx
2020 高考数学二轮复习 概率与统计概率内容的新概念 多,相近概念容易混淆,本 就学生易犯 作如下 :型一 “非等可能 ”与 “等可能 ”混同 例 1 两枚骰子,求所得的点数之和 6 的概率.解两枚骰子出 的点数之和2, 3, 4, ⋯ ,12 共 11 种基本事件,所以概率P=111剖析以上 11 种基本事件不是等可能的,如点数和 2 只有 (1, 1),而点数之和6 有 (1, 5)、(2, 4)、 (3, 3)、 (4,2)、 (5, 1)共 5 种.事 上, 两枚骰子共有 36 种基本事件,且是等可能的,所以“所得点数之和6”的概率 P= 5.36型二 “互斥 ”与 “ 立 ”混同例 2把 、黑、白、4 牌随机地分 甲、乙、丙、丁4 个人,每个人分得1 ,事件“甲分得 牌”与“乙分得 牌”是()A . 立事件B .不可能事件C .互斥但不 立事件D .以上均不解A剖析 本 的原因在于把 “互斥 ”与 “ 立”混同,二者的 系与区 主要体 在 :(1)两事件 立,必定互斥,但互斥未必 立; (2) 互斥概念适用于多个事件,但 立概念只适用于两个事件; (3) 两个事件互斥只表明 两个事件不能同 生,即至多只能 生其中一个,但可以都不 生;而两事件 立 表示它 有且 有一个 生.事件 “甲分得 牌 ”与 “乙分得 牌 ”是不能同 生的两个事件,两个事件可能恰有一个 生,一个不 生,可能两个都不 生,所以 C .型三 例 3解“互斥 ”与 “独立 ”混同甲投 命中率 O .8,乙投 命中率 0.7,每人投 3 次,两人恰好都命中 2 次的概率是多少 ?“甲恰好投中两次” 事件 A , “乙恰好投中两次” 事件B , 两人都恰好投中两次事件A+B , P(A+B)=P(A)+P(B): c 32 0.820.2 c 32 0.720.3 0.825剖析本 的原因是把相互独立同 生的事件当成互斥事件来考 , 将两人都恰好投中2 次理解 “甲恰好投中两次”与 “乙恰好投中两次 ”的和.互斥事件是指两个事件不可能同 生;两事件相互独立是指一个事件的 生与否 另一个事件 生与否没有影响,它 然都描 了两个事件 的关系,但所描 的关系是根本不同.解:“甲恰好投中两次 ” 事件 A ,“乙恰好投中两次” 事件 B ,且 A , B 相互独立,两人都恰好投中两次 事件A ·B ,于是 P(A ·B)=P(A) ×P(B)= 0.169类型四例 4错解“条件概率 P(B / A)”与“积事件的概率P(A·B)”混同袋中有 6 个黄色、 4 个白色的乒乓球,作不放回抽样,每次任取一球,取 2 次,求第二次才取到黄色球的概率.记“第一次取到白球”为事件A,“第二次取到黄球”为事件B,”第二次才取到黄球”为事件62C,所以 P(C)=P(B/A)=.93剖析本题错误在于 P(A B)与 P(B/A) 的含义没有弄清 , P(A B) 表示在样本空间S 中 ,A 与 B 同时发生的概率;而P( B/A )表示在缩减的样本空间S A中,作为条件的 A 已经发生的条件下事件 B 发生的概率。
高中数学高考二轮复习概率与统计教案
高中数学高考二轮复习概率与统计教案本专题涉及面广,常以生活中的热点问题为依托,在高考中的考查方式十分灵活,强化“用数据说法,用事实说话”的考查内容。
为了突破这一专题,可以按照“用样本估计总体”、“古典概型与几何概型”、“随机变量及其分布列”、“独立性检验与回归分析”四个方面分类进行引导。
在古典概型问题的求解中,可以采用直接列举、画树状图、逆向思维、活用对称等技巧。
对于特殊古典概型问题,画树状图可以使列举结果不重不漏;对于较复杂的问题,逆向思维可以先求对立事件的概率,再得到所求事件的概率;对于具有对称性的问题,可以利用对称思维快速解决。
几何概型的求解关键在于准确确定度量方式和度量公式,常见的几何度量包括长度、面积、体积、角度等。
在求解概率时,可以采用将所求事件转化为几个彼此互斥的事件的和事件,利用概率加法公式求解概率,或者利用对立事件的概率公式“正难则反”来求“至少”或“至多”型事件的概率。
举例来说,对于一个问题:4位同学各自在周六、周日两天中任选一天参加公益活动,周六、周日都有同学参加公益活动的概率为多少?其中,4名同学各自在周六、周日两天中任选一天参加公益活动的情况有2的4次方等于16种,其中仅在周六或周日参加的各有1种,所以所求概率为1减去(1+1)/16,即7/8.总之,熟练掌握古典概型与几何概型的求解技巧,以及求解概率的常用方法,可以在高考中更好地应对这一专题。
基本事件为取出的第一颗球和第二颗球的颜色,共有10种基本事件,其中第一颗球为白球的有3种情况,第二颗球为黑球的有2种情况,所以第一次为白球、第二次为黑球的概率为3/10,选B。
2)对于函数f(x)=ax+bx+x-3在R上为增函数,即a+b+1>0,所以a+b>-1.因为a,b都是M中的元素,所以a +b的取值有16种,其中a+b>-1的取值有9种,所以函数f(x)在R上为增函数的概率为9/16,选A。
中大于30的有12种,即(3,4),(3,5),(4,5),(2,4),(2,5),(1,4),(1,5),(2,3),(1,3),(1,2)和(4,3),(5,3).故所求概率为12/20=3/5,选项C正确.变式训练2](2017·全国卷Ⅰ)设函数f(x)=ax^2+bx+c,其中a,b,c均为实数,且满足f(1)=2,f(2)=3,f(3)=6,则f(x)在[1,3]上的最小值为()A。
高考数学大二轮复习 第二部分 专题4 概率与统计 第1讲 统计与统计案例课件 文.ppt
A.互联网行业从业人员中 90 后占一半以上 B.互联网行业中从事技术岗位的人数超过总人数的 20% C.互联网行业中从事运营岗位的人数 90 后比 80 前多 D.互联网行业中从事技术岗位的人数 90 后比 80 后多 解析:A 选项,可知 90 后占了 56%,故正确;B 选项,仅 90 后从事技术岗位的人数 占总人数比为 0.56×0.396=0.22176 超过 20%,故正确;C 选项,可知 90 后明显比 80 前多,故正确;D 选项,因为技术所占比例 90 后和 80 后不清楚,所以不一定多,故 错误.故选 D.
5
5
(xi- x )(yi- y )=-19.2, (xi- x )2=1 000,
i=1
i=1
n
xi- x yi- y
i=1
得^b=
=-0.019 2,
5
xi- x 2
i=1
^a= y -^b x =0.976, 所以 y 关于 x 的回归直线方程为 y=-0.019 2x+0.976.
(2)能把保费 x 定为 5 元. 理由如下:若保费 x 定为 5 元,则估计 y=-0.019 2×5+0.976=0.88, 估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为 2 000 000×0.88×5-2 000 000×0.88×0.2%×2 000-1 000×1 000 =0.76×106(元)=76(万元)>70(万元), 所以能把保费 x 定为 5 元.
运员工中有一个编号为 025,那么以下编号中不是幸运员工编号的是( )
A.007
B.106
C.356
D.448
解析:由题意,根据系统抽样,可得抽样间距为45500=9,又由 25+9n=356 无正整数
(通用版)2020版高考数学大二轮复习专题六统计与概率6.3.1统计与统计案例课件理
(通用版)2020版高考数学大二轮复习专题六统计与概率6.3.1统计与统计案例课件理6.3统计与概率大题,-2-,-3-,-4-,-5-,-6-,-7-,1.变量间的相关关系1如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x和y具有线性相关关系.2线性回归方程若变量x与y具有线性相关关系,有n个样本数据xi,yii1,2,,n,则回归方程为,-8-,2.独立性检验对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是,-9-,3.超几何分布在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则PXk,k0,1,2,,m,其中mminM,n,且nN,MN,n,M,NN*.4.二项分布一般地,在n次独立重复试验中,事件A发生的次数为X,设每次试验中事件A发生的概率为p,则PXkpkqn-k,其中0p1,pq1,k0,1,2,,n,称X服从参数为n,p的二项分布,记作XBn,p,且EXnp,DXnp1-p.,-10-,5.正态分布一般地,如果对于任意实数ab,随机变量X满足PaXb,xdx,则称X的分布为正态分布.正态分布完全由参数和确定,因此正态分布常记作N,2.如果随机变量X服从正态分布,则记为XN,2.满足正态分布的三个基本概率的值是P-X0.6826;P-2X20.9544;P-3X30.9974.,-11-,6.离散型随机变量的分布列.期望.方差1设离散型随机变量X 可能取的不同值为x1,x2,,xi,,xn,X取每一个值xii1,2,,n的概率PXxipi,则称下表为离散型随机变量X的分布列.2EXx1p1x2p2xipixnpn为X的均值或数学期望.3DXx1-EX2p1x2-EX2p2xi-EX2pixn-EX2pn叫做随机变量X的方差.4均值与方差的性质EaXbaEXb;EEE;DaXba2DX.,6.3.1统计与统计案例,-13-,考向一,考向二,考向三,考向四,样本的数字特征的应用例1xx全国卷2,文19某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.1分别估计这类企业中产值增长率不低于40的企业比例.产值负增长的企业比例;2求这类企业产值增长率的平均数与标准差的估计值同一组中的数据用该组区间的中点值为代表.精确到0.01,-14-,考向一,考向二,考向三,考向四,-15-,考向一,考向二,考向三,考向四,解题心得1在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断.2平均数反映了数据取值的平均水平,标准差.方差描述了一组数据围绕平均数波动的大小.标准差.方差越大,数据的离散程度越大,越不稳定.,-16-,考向一,考向二,考向三,考向四,对点训练1为迎接即将举行的集体跳绳比赛,高一年级对甲.乙两个代表队各进行了6轮测试,测试成绩单位次/分钟如下表1补全茎叶图,并指出乙队测试成绩的中位数和众数;2试用统计学中的平均数.方差知识对甲.乙两个代表队的测试成绩进行分析.,-17-,考向一,考向二,考向三,考向四,-18-,考向一,考向二,考向三,考向四,利用回归方程进行回归分析例2xx新疆乌鲁木齐二模,理19某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x单位万元和收益y单位万元的数据如表他们分别用两种模型ybxa,yaebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值,-19-,考向一,考向二,考向三,考向四,-20-,考向一,考向二,考向三,考向四,1根据残差图,比较模型,的拟合效果,应选择哪个模型并说明理由;2残差绝对值大于2的数据被认为是异常数据,需要剔除剔除异常数据后求出1中所选模型的回归方程;若广告投入量x18时,该模型收益的预报值是多少,-21-,考向一,考向二,考向三,考向四,-22-,考向一,考向二,考向三,考向四,解题心得在求两变量的回归方程时,由于的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.,-23-,考向一,考向二,考向三,考向四,对点训练2xx山东德州一模,理20改革开放以来,我国经济持续高速增长.如图给出了我国2003年至xx年第二产业增加值与第一产业增加值的差值以下简称为产业差值的折线图,记产业差值为y单位万亿元.1求出y关于年份代码t的线性回归方程;2利用1中的回归方程,分析2003年至xx年我国产业差值的变化情况,并预测我国产业差值在哪一年约为34亿元;3结合折线图,试求出除去xx年产业差值后剩余的9年产业差值的平均值及方差结果精确到0.1.,-24-,考向一,考向二,考向三,考向四,-25-,考向一,考向二,考向三,考向四,-26-,考向一,考向二,考向三,考向四,-27-,考向一,考向二,考向三,考向四,样本的相关系数的应用例3xx四川宜宾二模,理18艾滋病是一种危害性极大的传染病,由感染艾滋病病毒HIV病毒引起,它把人体免疫系统中最重要的CD4T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表,-28-,考向一,考向二,考向三,考向四,1请根据该统计表,画出这八年我国艾滋病病毒感染人数的折线图;2请用相关系数说明能用线性回归模型拟合y 与x的关系;,-29-,考向一,考向二,考向三,考向四,3建立y关于x的回归方程系数精确到0.01,预测xx年我国艾滋病病毒感染人数.,-30-,考向一,考向二,考向三,考向四,解1我国艾滋病病毒感染人数的折线图如图所示.,-31-,考向一,考向二,考向三,考向四,-32-,考向一,考向二,考向三,考向四,-33-,考向一,考向二,考向三,考向四,解题心得对于样本的相关系数的应用的题目,题目一般都给出样本xi,yii1,2,,n的相关系数r的表达式,以及有关的数据,解决这类题的关键是在有关的数据中选择题目需要的数据代入公式即可.,-34-,考向一,考向二,考向三,考向四,对点训练3下图是我国xx年至xx年生活垃圾无害化处理量单位亿吨的折线图.1由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;2建立y关于t的回归方程系数精确到0.01,预测xx年我国生活垃圾无害化处理量.,-35-,考向一,考向二,考向三,考向四,-36-,考向一,考向二,考向三,考向四,-37-,考向一,考向二,考向三,考向四,-38-,考向一,考向二,考向三,考向四,统计图表与独立性检验的综合例4某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间单位min绘制了如下茎叶图,-39-,考向一,考向二,考向三,考向四,1根据茎叶图判断哪种生产方式的效率更高并说明理由;2求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表3根据2中的列联表,能否有99的把握认为两种生产方式的效率有差异,-40-,考向一,考向二,考向三,考向四,解1第二种生产方式的效率更高.理由如下由茎叶图可知用第一种生产方式的工人中,有75的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.由茎叶图可知用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.由茎叶图可知用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.,-41-,考向一,考向二,考向三,考向四,由茎叶图可知用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,学生答出其中任意一种或其他合理理由均可,-42-,考向一,考向二,考向三,考向四,解题心得有关独立性检验的问题解题步骤1作出22列联表;2计算随机变量K2的值;3查临界值,检验作答.,-43-,考向一,考向二,考向三,考向四,对点训练4“共享单车”的出现,为我们提供了一种新型的交通方式.某机构为了调查人们对此种交通方式的满意度,从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20个用户,得到了一个用户满意度评分的样本,并绘制出如图茎叶图.1根据茎叶图,比较两城市满意度评分的平均值的大小及方差的大小不要求计算出具体值,给出结论即可;,-44-,考向一,考向二,考向三,考向四,2若得分不低于80分,则认为该用户对此种交通方式“认可”,否则认为该用户对此种交通方式“不认可”,请根据此样本完成下面22列联表,并据此样本分析是否有95的把握认为城市拥堵与认可共享单车有关;3若从此样本中的A城市和B城市各抽取1人,则在此2人中恰有1人认可的条件下,此人来自B城市的概率是多少,-45-,考向一,考向二,考向三,考向四,解1A 城市评分的平均值小于B城市评分的平均值;A城市评分的方差大于B城市评分的方差.222列联表如下.,。
高考数学二轮复习专题6统计与概率3.1统计与概率大题课件理
-2-
-3-
-4-
-5-
-6-
-7-
-8-
2.独立性检验 对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列 联表是:
-9-
4.二项分布 一般地,在n次独立重复试验中,事件A发生的次数为X,设每次试验 中事件A发生的概率为p,则P(X=k)= pkqn-k,其中 0<p<1,p+q=1,k=0,1,2,…,n,称X服从参数为n,p的二项分布,记作 X~B(n,p),且E(X)=np,D(X)=np(1-p).
-15-
考向一 考向二 考向三 考向四
对点训练 1学校为了了解A,B两个班级学生在本学期前两个月内 观看电视节目的时长,分别从这两个班级中随机抽取10名学生进行 调查,得到他们观看电视节目的时长(单位:小时)如下.
A班:5,5,7,8,9,11,14,20,22,31;B班:3,9,11,12,21,25,26,30,31,35. 将上述数据作为样本. (1)绘制茎叶图,并从所绘制的茎叶图中提取样本数据信息(至少 写出2条); (2)分别求样本中A,B两个班级学生的平均观看时长,并估计哪个 班级的学生平均观看的时间较长; (3)从A班的样本数据中随机抽取一个不超过11的数据记为a,从B 班的样本数据中随机抽取一个不超过11的数据记为b,求a>b的概率.
考向一 考向二 考向三 考向四
根据上表中的数据作出散点图,得知产品研发费的自然对数值z (精确到小数点后第二位)和销售额y具有线性相关关系.
(1)求销售额y关于产品研发费x的回归方程 的计算结果精确到小数点后第二位);
考向一 考向二 考向三 考向四
-20-
考向一 考向二 考向三 考向四
(典型题)高考数学二轮复习知识点总结统计与统计案例.docx
统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等; 有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题, 都属于屮低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成儿层,分层进行抽取,适用范围:总体由差异明显的儿部分组成.2.常用的统计图表(1)频率分布直方图、频率①小长方形的面积=组距X 忒=频率;②各小长方形的面积之和等于1;—频率1③小长方形的高=猛,所有小长方形的高的和为丽.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数一一一(2)方差:『=_[(/]—X )2+(A2—x )2------ (乙一x}2}.n标准崔X\— X 2+ X2— X 2 F X n — X 2]. 4. 变量的相关性与最小二乘法(1) 相关关系的概念、正相关和负相关、相关系数.(2) 最小二乘法:对于给定的一组样本数据(xi, yi ),(丸,乃),…,(尢,%),通过求0=工(yi —a —bx )'最小时,得到线性回归方程尸=加+日的方法叫做最小二乘法. /=15. 独立性检验对于取值分别是3,屈和5, y 』的分类变量尤和『,其样本频数列联表是:71Y2 总计ab a+b X2C d c+d 总计a+cb+dn则心宀 U+c W (•其中心++十为样本容量)•考点一抽样方法.例1. (2012・山东)采用系统抽样方法从960人屮抽取32人做问卷调查,为此将他们随机 编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到 的32人中,编号落入区间[1,450]的人做问卷编号落入区间[451, 750]的人做问卷B, 英余的人做问卷C 则抽到的人中,做问卷〃的人数为()9,39,69, 939.落入区间[451,750]的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有刀项,显然有729 = 459+(/7—1)X30,解得刀=10.所以做 问卷〃的有10人.I 冋=f ■在系统抽样的过程屮,要注意分段间隔,需要抽取儿个个体,样本就需要分 成儿个组,则分段间隔即点N 为样本容量),首先确定在第一组中抽取的个体的号码 n数,再从后面的每组屮按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样 方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的, 都等于样本容量和总体容量的比值.A. 7B. 9 答案CC. 10D. 15解析由系统抽样的特点知:抽取号码的间隔为96032= 30,抽取的号码依次为因(1) (2013 •江西)总体由编号为01,02, 19,20的20个个体组成,利用下而的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A. 08(2)某单位200名职工的年龄分布悄况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1〜200编号,并按编号顺序平均分为40组仃〜5号,6〜10号,196〜200号).若第5组抽出的号码为22,则第8组抽出的号码应是.若用分层抽样方法,则40岁以下年龄段应抽収人.答案(1)D (2)37 20解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08, 02, 14,07,01,所以第5个个体编号为01.(2)由分组可「知,抽号的间隔为5,又因为第5组抽出的号码为22,即第〃组抽取的号码为5/7—3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200X0. 5 = 100,40则应抽取的人数为丽X 100 = 20人.考点二用样本估计总体.例2. (1) (2013・四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为「5将数据分组成[0, 5), [5, 10),…,[30, 35), [35, 40] 时,所作的频率分布直方图是()(2) (2013 •江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:坏),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为_________ .答案(1)A (2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0, 5), [5,10)两组各一人,去掉B,应选A.— 1(2) 一卩==(87 + 91+90 + 89+93)=90,□—— 1x乙==(89 + 90 + 91+88 + 92) =90,b品=占[(87 — 90)?+(91-90)1 2+ (90-90)2+ (89-90)2+ (93-.90)2] =4,5s2=g[(89 —90尸+ (90-90)2+ (91-90)2+ (88-90)2+ (92-90)2] =2.5(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小, 高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(2, 4), (2, 5), (2, 6), (3, 4), (3,5), (3, 6), (4, 5), (4, 6), (5, 6),共15 个,其中至少有一个在1 求参赛总人数和频率分布直方图中[80, 90)之间的矩形的高,并完成直方图;2 若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90, 100]之间的概率.解(1)由茎叶图知,分数在[50, 60)之间的频数为2.由频率分布直方图知,分数在[50, 60)之间的频率为0. 008X10 = 0.0&2所以参赛总人数为両=25 (人).分数在[80, 90)之间的人数为25 — 2 — 7—10 — 2=4(人),4分数在[80,90)Z间的频率为亦=0・16,得频率分布直方图中[80, 90)间矩形的高为晋=0. 016.完成直方图,如图.(2)将[80, 90)之间的4个分数编号为1, 2, 3,4;[90, 100]之间的2个分数编号为5和6.则在[80,100]之间任取两份的基本事件为(1,2), (1,3), (1,4), (1,5), (1,6), (2, 3),[90,100]之间的基本事件为(1,5), (1,6), (2,5), (2, 6), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6),共9 个.9 3故至少有一份分数在[90, 100] Z间的概率考点三统计案例.例3. (2013 •重庆)从某居民区随机抽取10个家庭,获得第,个家庭的月收入农(单位:千10 10 10 10元)与月储蓄匕(单位:千元)的数据资料,算得为上=80,为y,=20,为乂匕=1.84,为¥ /=1 /=12=1 2=1 7=720.(1)求家庭的月储蓄y对月收入/的线性回归方程y=bx+a,(2)判断变量龙与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.n _ _^XiYi—n x yi= I _ _____ _______ ___ 附:线性回归方程y= bx+ a中,b= ----------------- , a= y ~b x ,其中x , y为n __匸2 22^x~n x7=1样本平均值,线性回归方程也可写为y=bx+a.__ | n80解⑴由题意知〃=io, / =-yx=—=8, 刀「10又人=工£一〃^ 2=720-10X82 = 80,2 = 1厶》・=1>必一刀x y =184-10X8X2 = 24, /=i由此得力3,a=~-b T=2-0. 3X8=-0. 4,故所求线性回归方程为y=0. 3^-0. 4.(2)由于变量y的值随x值的增加而增加(方=0. 3>0),故/与F 之间是正相关.(3)将x=l 代入回归方程可以预测该家庭的月储蓄为y=0. 3X7-0. 4 = 1. 7(千元). (1)对具有线性相关关系的两个变量.可以用最小二乘法求线性回归方程,求方是关键,X XL X //— y ^Xiy —n x y■ /=1 J=1 其中b= ----------------------- = ---------------n __ n _ V 1 2 P 2 2 , Xi — x 2^Xi —n x /= i /= i⑵在利用统计•变量航进行独立性检验时,应该注意数值的准确代入和正确汁算, 最后把计算的结杲与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性別有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”⑵已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y=0. 95^+a,则日等于()A. 1.30B. 1.45C. 1.65 0. 1.80EX60X50X60X50〜7.&答案(1)C (2)B解析(1)根据独立性检验的定义,由斤(塔)~7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.—1(2)依题意得,x =^*X (0+1+4 + 5 + 6+8) =4,6—— 1y =-(1. 3 + 1. 8+5. 6 + 6. 1+7. 4 + 9. 3) =5. 25;又直线y=0.95/+自必过样本点中心(匸,~),即点(4, 5. 25),于是有5. 25 = 0. 95X4+日,由此解得曰=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、屮位数及平均数的异同众数、屮位数及平均数都是描述一组数据集屮趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.—1 “①总体期望的估计,计算样本平均值X②总体方差(标准差)的估计:方差=2若](尢一% )2,标准差=7方差,方差(标准差)较小者较稳定.2.线性回归方程y =b x+a过样本点中心(匚,丁),这为求线性回归方程带来很多方便.3.独立性检验⑴作出2X2列联表.(2)计算随机变量#(疋)的值.(3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学屮有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ()A. 6B. 18C. 30D. 54答案C解析 由题意设全班学生为/人,持“喜欢”、“不喜欢”和“一般”态度的学生分别 占全班人数的害、*、所以%(|-|)=12,解得%=54,所以全班持“喜欢”态度的人 数为54X :=30.故选C.2. 某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数) 分成六段[40,50), [50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频 率分布直方图中的信息,估计出本次考试数学成绩的平均分为 _______________ .答案71解析 由频率分布直方图得每一组的频率依次为0. 1, 0. 15, 0. 15, 0. 3, 0. 25, 0. 05,又由 频率分布直方图,得每一组数据的中点值依次为45, 55, 65, 75, 85, 95.所以本次考试数学成绩的平均分为匚=45X0. 1 +55X0. 15 + 65X0. 15 + 75X0.3 +85X0. 25+95X0. 05 = 71.故填71.随机抽取某川学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.(1) 根据茎叶图判断哪个班的平均身高较高; (2) 计算甲班的样本方差;(3) 现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm 的同学被抽屮的概率.解(1)由茎叶图可知:甲班身高集中于160 cm 〜179 cm 之间,而乙班身高集中于170cm 〜180 cm 之间,因此乙班平均身高高于甲班,其中 — 158+162 + 163+168+168+170+171 + 179+179+182 x 甲== 170, —159+162 + 165+168 + 170+173 + 176+178+179+18110= 171. 1.(2)甲班的样本方差为±[(158 — 170)2+(]62_i70)2+ (163- 170)2+ (168~170)2 + (168-170)2+ (170-170)2+(171-170)2+ (179-170)2+ (179-170)2+ (182-170)2]甲班2 18 9 9 10 17 8 83 216 815 3. 10 乙班10 3 6 8 9 2 5 8 9= 57. 2.(3)设身高为176 cm 的同学被抽中的事件为/L从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178, 173)、(178,176)、 (176,173),共10个基本事件,而事件含有4个基本事件,(推荐时间:60分钟)一、选择题1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取L 000根火腿肠进行“瘦 肉精”检测;②从某屮学的15名艺术特长生屮选出3人调查学习负担情况.适合采用 的抽样方法依次为()A. ①用分层抽样,②用简单随机抽样B. ①用系统抽样,②用简单随机抽样C. ①②都用系统抽样D. ①②都用简单随机抽样答案B解析 ①屮总体容量较大,且火腿肠Z 间没有明显差异,故适合采用系统抽样;②屮总 体容量偏小,故适合采用简单随机抽样.2. (2012・四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况, 对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为M 其屮 甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为 12, 21,25, 43,则这四个社区驾驶员的总人数艸为()A. 101B. 808C. 1 212D. 2 012答案B12解析由题意知抽样比为花,而四个社区一共抽取的驾驶员人数为12 + 21+25+43 = 101,故有||=¥,解得/V=808.3. (2013 •福建)某校从高一年级学生中随机抽取部分学生.,将他们的模块测试成绩分成6 组:[40,50), [50, 60), [60,70), [70, 80), [80, 90), [90,100]加以统计,得到如图 所示的频率分布直・・・P(A)=£2方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 588B. 480C. 450D. 120答案B解析少于60分的学生人数600X (0. 05 + 0. 15) = 120(人),・・・不少于60分的学生人数为480人.4.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为匚甲,匚乙,则下列判断正确的是()A.匚甲>7乙;甲比乙成绩稳定甲〉匚乙;乙比甲成绩稳定C. "7甲<7乙;甲比乙成绩稳定乙比甲成绩稳定答案D解析由茎叶图可知—17+16 + 28 + 30 + 34*,1,= 5 斗5,—15 + 28+26 + 28 + 33x乙= z =26,oX甲〈X乙.又昴=g[「(17—25尸+ (16-25)2+ (28-25)2+ (30-25)2+ (34-25)2] =52,s:=£[(15-26)2+ (28-26)2+ (26~26)2+ (28-26)2+ (33-26)2] =35. 6,・・・乙比甲成绩稳定.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{/},若心=8,且越,彷成等比数列,则此样本的平均数和中位数分别是( )A. 13, 12B. 13, 13C. 12, 13D. 13, 14答案B解析设等差数列{/}的公差为〃(件0), $3=8,血戲=£=64, (8 — 2小(8+4小=64, (4 — / (2 +小=& 2〃一扌=0 ,又,故d = 2 ,故样本数据为+ 12 + 14 4,6, & 10, 12, 14, 16, 18,20,22,样本的平均数为------- ----- =13,中位数为一= 13,故选B.6.2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设弘:“这种试剂不能起到检测出塑化剂的作用”,并计算出635)=0. 01.对此,四名同学做出了以下的判断:P:有99%的把握认为“这种试剂能起到检测出塑化的作用”;q:随意抽出一组食品,它有99%的可能性添加了塑化剂;z、:这种试剂能检测出塑化剂的有效率为99%;s:这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是()A. p/\qB.絲pf\qC.(綁门/\繍g)/\ (八/s)D・(pV 1^) A (^J s)答案D解析提出假设拄“这种试剂不能起到检测出塑化剂的作用”,并计算出戶(於26. 635)=0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题刀,厂为真命题,q, s为假命题,依据复合命题的真值表可知D 为真命题.二、填空题7.(2013 •湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1) ________________________ 直方图屮x的值为;(2) ___________________________________________________ 在这些用户中,用电量落在区间[100, 250)内的户数为__________________________________ .答案(1)0.004 4 (2) 70解析(1)(0.002 4+0. 003 6 + 0. 006 0+x+0. 002 4 + 0. 001 2) X50 = l,・・」= 0.004 4.(2)(0. 003 6 + 0. 004 4+0. 006 0)X50X100=70.8.下表提供了某厂节能减排技术改造后在生产/产品过程屮记录的,产量*吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出F 关于x 的线性回归方程为y=0.7%+0.35,那么表中广的 值为 . 答案3解析二•样本点屮心为(4.5,耳勺, ・・・斗二=0. 7X4. 5+0. 35,解得 t='3.9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:9. 0 9. 18.9 9.2 8.8则五位评委给分的方差为 ________ . 答案0.02解析评委给分的平均数为|x (9. 0 + 9. 1 + & 9 + 9. 2 + & 8) =9. 0, □方差为[(9. 0-9. 0)2+ (9. 1 -9. 0)2+ (8. 9-9. 0)2+(9. 2-9. 0)2+ (8. 8-9. 0)2]=50. 1匕~=0. 02. 510. 某校开展“爱我海西、爱我家乡•”摄影比赛,9位评委为参赛作品 A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x)无法看清,若 记分员计算无误,则数字x 应该是 __________ . 答案1"4, •严+ 刖 + 92 + 9吁92 + 9++90 = 9], •I /=1・三、解答题11. (2013 •陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委, 其中从〃组中抽取了 6人.请将其余各组抽取的人数填入下表.解析 当心时,叭叭吗畀92 + 91 + 9、字切,(2)在(1)中,若力,〃两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委屮分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:b\,厶}屮各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的冇Si b\,日厶,,观厶4 9共4种,故所求概率7°=—=^.12.(2012 •辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时I'可的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷” 有10名女性.(1)根据己知条件完成下面的2X2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.0. 050.01 k3. 8416. 635解 ⑴由频率分布直方图可知,在抽収的100人中「体育迷”有25人,从而完成2X2 列联表如下:非体育迷体育迷 合计男 30 15 45 女 45 10 55 合计7525100将2X2列联表中的数据代入公式计算,得100=33 心3. 030.因为3. 030<3. 841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本 事件空间为 Q={@1,戲),仙,3:i) ,(0,辺3),(0,方J , (21, &) , (^2, bl),(臼2, &),(日3, b\),(臼3,Z>2), (bi, &)},其中么表不男性,7 = 1, 2, 3,伤表不女性,j — 1, 2. Q 由10个基本事件组成,而且这些基本事件的出现是等可能的.用ZI 表示“任选2人中,至少有1人是女性”这一事件,则A= {(<<?], Z?l) , (&, bz),(日2, 5),(日2,血),@3, bl) , (t?3, bz) , (Z?l, bl)},事件/7rti 7个基本事件组成,因而P (A )=—附:75X25X45X55。
高考数学二轮复习专题6统计与概率3.1统计与概率大题课件理
轮次
一二三四五六
甲
73 66 82 72 63 76
乙
83 75 62 69 75 68
(1)补全茎叶图,并指出乙队测试成绩的中位数和众数;
(2)试用统计学中的平均数、方差知识对甲、乙两个代表队的测 试成绩进行分析.
-13-
考向一 考向二 考向三 考向四
解: (1)补全茎叶图如下: 乙队测试成绩的中位数为 72,众数为 75. (2)������甲 = 63+66+72+673+76+82=72, ������甲2 = 16[(63-72)2+(66-72)2+(72-72)2+(7372)2+(76-72)2+(82-72)2]=39; ������乙 = 62+68+69+675+75+83=72, ������乙2 = 16[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75-72)2+(8372)2]=44. 因为������甲 = ������乙, ������甲2 < ������乙2 ,所以甲、乙两队水平相当,但甲队发挥较稳 定.
分析、处
全 求二项分布的
分布
国
Ⅰ
概率、数学期望, 求平均值、方差
概率、数学期望,样本 列、数 理数据,
平均数、标准差、方
转换思
学期望
差
想
全 估计概率,进行 2017国 独立性检验,求
Ⅱ 中位数
频率分布直方图、频 独立性 分析、处
率、概率、独立性检 检验 理数据
验、中位数
全 求分布列,求一 国 变量使数学期
高中数学 概率与统计二轮专题 -
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半。
2、(2016·新课标Ⅲ,4)某旅游城市为向游客介绍本地的气温情况,绘
制了一年中各月平均最高气温和平均最低气温的雷达图.图中 A 点表示 十月的平均最高气温约为15 C ,B 点表示四月的平均最低气温约为 5 C .
下面叙述不正确的是( )
二轮专题《概率与统计》 执笔:刘荣锋
7、(2019·怀化模拟)在全国第五个“扶贫日”到来之际,某省开展“精准脱贫,携手同行”的主题活动,某贫 困县调查基层干部走访贫困户数量.A 镇有基层干部 60 人,B 镇有基层干部 60 人,C 镇有基层干部 80 人,每 人走访了不少贫困户.按照分层抽样,从 A,B,C 三镇共选 40 名基层 干部,统计他们走访贫困户的数量,并将走访数量分成 5 组,[5,15), [15,25),[25,35),[35,45),[45,55],绘制成如下频率分布直方图. (1) 求这 40 人中有多少人来自 C 镇,并估计三镇基层干部平均每人走 访多少贫困户.(同一组中的数据用该组区间的中点值作代表); (2) 如果把走访贫困户达到或超过 25 户视为工作出色,以频率估计概 率,从三镇的所有基层干部中随机选取 3 人,记这 3 人中工作出色的 人数为 X,求 X 的分布列及期望.
(2)一天内抽检零件中,如果出现了尺寸在(μ–3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产 过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
(ⅱ)下面是检验员在一天内抽取的 16 个零件的尺寸:
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
二、关注三种统计推断(用样本估计总体、回归分析、独立检验)
高考数学大二轮复习 专题六 统计与概率 6.2.2 统计与概率课件 文
12
第十二页,共三十七页。
考向一
考向二
考向三
考向四
解 (1)由已知,老、中、青员工人数之比为6∶9∶10,由于采用分层抽样的方
法从中抽取25位员工,因此应从老、中、青员工中分别抽取6人,9人,10人.
(2)①从已知的6人中随机抽取2人的所有可能(kěnéng)结果为
{A,B},{A,C},{A,D},{A,E},{A,F},{B,C},{B,D},{B,E},{B,F},{C,D},{C,E},{C,F
样本数据中身长为8.4 cm和8 cm的中国红鲤能被选为种鱼,身长为7.5 cm
以下的中国红鲤不能被选为种鱼,
由于8.3>8,所以该尾中国红鲤能被选为种鱼.
(2)根据分层抽样的原则,抽取中华彩鲤样本数为32尾,所有样本数据平均值为
40×5.1+32×4.875
=5(cm).
40+32
17
第十七页,共三十七页。
机抽取2人接受采访.
11
第十一页,共三十七页。
考向一
考向二
考向三
员工
项目
子女教育
继续教育
大病医疗
住房贷款利息
住房租金
赡养老人
考向四
A
B
C
D
E
F
○
×
×
○
×
○
○
×
×
○
×
○
×
○
×
×
○
×
○
×
○
×
×
×
×
○
×
○
×
×
○
○
×
○
×
高考数学大二轮复习 层级二 专题六 概率与统计 第1讲 统计、统计案例教学案
第1讲 统计、统计案例[考情考向·高考导航]1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小.2.注重知识的交汇渗透,统计与概率,统计案例与概率是近年命题的热点,以解答题中档难度出现.[真题体验]1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ) A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:A [设新农村建设前经济收入为x ,则新农村建设后经济收入为2x ,对于A ,新农村建设前,种植收入为60x 100,新农村建设后,种植收入为37·2x 100=74x 100,种植收入增加,故A 不正确;对于B ,新农村建设前其他收入为4x 100,建设后其他收入为10x100,故B 正确;对于C ,新农村建设前,养殖收入为30x 100,建设后养殖收入为60x100,故C 正确;对于D ,新农村建设后,养殖收入与第三产业收入的总和占经济收入的28%+30%=58%,超过了一半,故D 正确.]2.(2019·全国Ⅱ卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁一列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为____________.解析:平均正点率的估计值为10×0.97+20×0.98+10×0.9940=0.98.答案:0.983.(理)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01) 附:K 2=n ad -bc 2a +bc +d a +cb +d.解:(1)记:“旧养殖法的箱产量低于50 kg”为事件B , “新养殖法的箱产量不低于50 kg”为事件C而P (B )=0.040×5+0.034×5+0.024×5+0.014×5+0.012×5=0.62,P (C )=0.068×5+0.046×5+0.010×5+0.008×5=0.66, P (A )=P (B )P (C )=0.409 2(2)箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466由计算可得K 2的观测值为 K 2=200×62×66-38×342100×100×96×104=15.705,∵15.705>6.635, ∴P (K 2≥6.635)≈0.001∴有99%以上的把握认为箱产量与养殖方法有关.(3)设中位数为x ,则0.004×5+0.020×5+0.044×5+0.068(x -50)=0.5,∴x =52.35.3.(文)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:K 2=n ad -bc 2a +bc +d a +cb +d.解:(1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62 因此事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×62×66-34×38100×100×96×104≈15.705由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[主干整合]1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少 分层抽样:按比例抽样 系统抽样:等距抽样 2.必记公式数据x 1,x 2,…,x n 的数字特征公式 (1)平均数:x =x 1+x 2+…+x nn.(2)方差:s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].(3)标准差:s = 1n[x 1-x2+x 2-x2+…+x n -x2].3.重要性质及结论(1)频率分布直方图的三个结论 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距.(2)回归直线方程:一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).其回归方程y ^=b ^x +a ^,其过样本点中心(x ,y ).(3)独立性检验K 2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d 为样本容量).热点一 抽样方法数据 分析 素养数据分析——随机抽样问题中的核心素养以解决抽样调查问题为背景,考查应用简单随机抽样、系统抽样和分层抽样获取样本,进行数据收集的技巧与能力.1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为不同年龄段客户对其服务的评价有较大差异,所以用分层抽样. 答案:分层抽样 2.(2019·烟台三模)200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为23,第9组抽取号码为________;若采用分层抽样,40~50岁年龄段应抽取________人.解析:根据题意可得每5人中抽取一人,所以第九组抽取的号码为(9-5)×5+23=43,根据分层抽样,40~50岁年龄段应抽取:40×30%=12人.答案:43 12 3.(2019·成都三模)如图是调查某学校高三年级男女学生是否喜欢篮球运动的等高条形图,阴影部分的高表示喜欢该项运动的频率.已知该年级男生女生各500名(假设所有学生都参加了调查),现从所有喜欢篮球运动的同学中按分层抽样的方式抽取32人,则抽取的男生人数为________.解析:由已知得,喜欢篮球运动的女生有 500×0.2=100人,喜欢篮球运动的男生有 500×0.6=300人,共有400人喜欢篮球运动. 按分层抽样的方式抽取32人,抽样比为32400=0.08,则抽取的男生人数为300×0.08=24人.答案:24抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体个体数的比值.热点二用样本估计总体数字特征与茎叶图的应用[例1-1] (2020·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选1人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中根据茎叶图能得到的统计结论的编号为( )A.①②③B.②③④C.①②④ D.①③④[解析] C [由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P1=510=12,女生平均每天锻炼时间超过65分钟的概率P2=410=25,P1>P2,因此④正确.设男生、女生两组数据的平均数分别为x甲,x乙,标准差分别为s甲,s乙.易求x甲=65.2,x乙=61.8,知x甲>x乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s甲<s乙,③错误.因此符合茎叶图所给数据的结论是①②④.]用样本的频率分布估计总体分布[例1-2] (2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[审题指导] (1)由所给的频数分布表确定出相应的频数,再代入频率公式,即可求得相应频率,并以此估计总体.(2)根据平均数,方差的计算公式及题设要求计算即可.[解析] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, =1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.029 6,s =0.029 6=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 1.两类数字特征的意义(1)平均数、中位数、众数描述数据的集中趋势;(2)方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大,越不稳定.2.与频率分布直方图有关的问题(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)众数为频率分布直方图中最高矩形的底边中点的横坐标.(3)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (4)平均数等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标乘积的和.(北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60, 所以样本中分数不小于70的男生人数为60×12=30,所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.热点三 回归分析与独立性检验回归分析及应用[例2-1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[审题指导] 根据给出的两个模型(回归直线方程)求2018年的环境基础设施投资额的预测值,再根据题中给出的折线图进行对照说明.[解析] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5 t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.求回归直线方程的关键及实际应用(1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.独立性检验及应用[例2-2] (2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d.[审题指导] (1)根据2×2列联表确定相应的频率,即为所求的概率. (2)根据2×2列联表计算出K 2的值,并与临界值比较进行判断.[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6(2)K 2的观测值k =100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.独立性检验的关键(1)根据2×2列联表准确计算K 2的观测值k ,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.(1)(2020·广东湛江模拟)某产品的广告费用x (万元)与销售额y (万元)的统计数据如表:广告费用x 2 3 4 5 销售额y26394954根据上表可得线性回归方程y =9.4x +a ,据此模型预测,广告费用为6万元时的销售额为( )A .65.5万元B .66.6万元C .67.7万元D .72万元解析:A [x =2+3+4+54=3.5,y =26+39+49+544=42,代入线性回归方程,得42=9.4×3.5+a ^,解得a ^=9.1,所以线性回归方程为y ^=9.4x +9.1, 当x =6时,y =65.5,故选A.](2)(2019·东营三模)某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:偏爱微信偏爱QQ 合计 30岁以下 4 8 12 30岁以上 16 2 18 合计201030附表:P (K 2≥k 0)0.01 0.005 0.001 k 06.6357.87910.828A .在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B .在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C .在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D .在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关 解析:A [K 2=30×4×2-16×8220×10×12×18=10,由于7.879<10<10.828,可以认为在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,故选A.]限时45分钟 满分74分一、选择题(本大题共7小题,每小题5分,共35分)1.(2020·福州模拟)某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:学历 年龄 35岁以下35~50岁50岁以上本科 8030 20研究生x 20y35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为539,则xy的值为( )A.32 B .4 C.83D .8解析:D [由题意得10N =539,解得N =78.∴35~50岁中被抽取的人数为78-48-10=20. ∴4880+x =2050=1020+y,解得x =40,y =5. ∴x y=8.]2.(2019·全国Ⅱ卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A .中位数B .平均数C .方差D .极差解析:A [去掉1个最高分,1个最低分,不变的数字特征为中位数.]3.(2020·吉林省长春市高三监测)如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A .深圳的变化幅度最小,北京的平均价格最高B .深圳和厦门的春运期间往返机票价格同去年相比有所下降C .平均价格从高到低居于前三位的城市为北京、深圳、广州D .平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:D [由题图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由题图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由题图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由题图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误.选D.]4.(2020·广州调研)将某校100名学生的数学测试成绩(单位:分)按照[90,100),[100,110),[110,120),[120,130),[130,140),[140,150]分成6组,制成的频率分布直方图如图所示,若分数不低于a 为优秀,如果优秀的人数为25,则a 的值是( )A .130B .140C .133D .137解析:A [由题意可知,成绩在[90,100)内的频率为0.005×10=0.05,频数为5,成绩在[100,110)内的频率为0.018×10=0.18,频数为18,成绩在[110,120)内的频率为0.030×10=0.3,频数为30,成绩在[120,130)内的频率为0.022×10=0.22,频数为22,成绩在[130,140)内的频率为0.015×10=0.15,频数为15,成绩在[140,150]内的频率为0.010×10=0.1,频数为10,而优秀的人数为25,成绩在[140,150]内的有10人,成绩在[130,140)内的有15人,所以成绩在[130,150]内的共25人,所以分数不低于130为优秀,故a =130,选A.]5.(2020·重庆六校联考)某老师任教高三A 班、高三B 班两个班,两个班各有50个学生,如图反映的是两个班在某学期5次数学测试中的班级平均分,根据图表,下列结论不正确的是( )A .A 班的数学成绩平均水平高于B 班B .B 班的数学成绩没有A 班稳定C .下次考试B 班的数学成绩平均分要高于A 班D .在第1次考试中,A ,B 两个班的总平均分为98分解析:C [A 班的数学成绩平均值为101+98+101+100+1055=101(分),B 班的数学成绩平均值为95+100+96+105+1005=99.2(分),即A 正确;A 班平均成绩的方差为15×(0+9+0+1+16)=5.2,B 班平均成绩的方差为15×(4.22+0.64+3.22+5.82+0.64)=12.56,即B 正确;在第1次考试中,A ,B 两个班的总平均分为101+952=98(分),即D 正确;无法根据图表知道下次考试成绩的情况,C 不正确,故选C.]6.(2020·苏州模拟)气象意义上从春季进入夏季的标志为:“连续5天的日平均温度均不低于22℃”.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数):①甲地:5个数据的中位数为24,众数为22;②乙地:5个数据的中位数为27,总体均值为24;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.则肯定进入夏季的地区有( )A .①②③B .①③C .②③D .①解析:B [①甲地:5个数据的中位数为24,众数为22,可知5个数据均不低于22,①符合题意;②乙地:5个数据的中位数为27,总体均值为24,当中有可能某一天的气温低于22℃,故不符合题意;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8,若有某一天的气温低于22℃,则总体方差就大于10.8,故满足题意.则肯定进入夏季的地区有甲地、丙地.故选B.]7.(2019·宁波三模)第十八届亚运会在印尼·雅加达举办,在篮球比赛中,某参赛队中甲、乙两名篮球运动员在13场比赛中的得分情况用茎叶图表示如下:根据上图,对这两名运动员的成绩进行比较,下列四个结论中不正确的是( )A .甲运动员得分的极差大于乙运动员得分的极差B .甲运动员得分的中位数大于乙运动员得分的中位数C .甲运动员得分的平均值大于乙运动员得分的平均值D .甲运动员的成绩比乙运动员的成绩稳定解析:D [根据茎叶图可知,甲运动员的得分为19,18,18,26,21,20,35,33,32,30,47,41,40;乙运动员的得分为17,17,19,19,22,25,26,27,29,29,30,32,33,对于A ,由图中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的极差为33-17=16,故甲运动员得分的极差大于乙运动员得分的极差,因此A 正确;对于B ,甲运动员得分的数据从小到大排列:18,18,19,20,21,26,30,32,33,35,40,41,47,位于中间的数是30,所以甲运动员得分的中位数是30分,同理得乙运动员得分的中位数是26分,因此甲运动员得分的中位数大于乙运动员得分的中位数,故B 正确;对于C ,不难得出甲运动员得分的平均值约为29.2分,乙运动员得分的平均值为25.0分,因此甲运动员得分的平均值大于乙运动员得分的平均值,故C 正确;对于D ,甲的方差s 2甲≈113×[(19-29.5)2+(18-29.2)2+…+(40-29.9)2]≈88.18,同理,得乙的方差s 2乙≈29.54,乙的方差小于甲的方差,所以乙运动员的成绩比甲运动员的成绩稳定,故D 不正确,故选D.]二、填空题(本大题共3小题,每小题5分,共15分)8.《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).解析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×180560+350+180=1656109≈17(钱). 答案:179.(2019·青岛三模)某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.解析:由题图知,(0.04+0.12+x +0.14+0.05)×2=1,解得x =0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58,所求人数为100×0.58=58.答案:5810.(双空填空题)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由图分析,乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中,语文成绩名次比其总成绩名次靠前的是乙.(2)根据丙在这两个图中对应的点的横坐标相同,找出丙在第一个图中对应的点.观察易得,丙同学成绩名次更靠前的科目是数学.答案:(1)乙 (2)数学三、解答题(本大题共2小题,每小题12分,共24分)11.(2020·陕西质检)2018年12月,针对国内天然气供应紧张的问题,某市政府及时安排部署,加气站采取了紧急限气措施,全市居民打响了节约能源的攻坚战.某研究人员为了了解天然气的需求状况,对该地区某些年份天然气需求量进行了统计,并绘制了相应的折线图.(1)由折线图可以看出,可用线性回归模型拟合年度天然气需求量y (单位:千万立方米)与年份x (单位:年)之间的关系.并且已知y 关于x 的线性回归方程是y ^=6.5x +a ^,试确定a ^的值,并预测2018年该地区的天然气需求量.(2)政府部门为节约能源出台了《购置新能源汽车补贴方案》,该方案对新能源汽车的续航里程做出了严格规定,根据续航里程的不同,将补贴金额划分为三类,A 类:每车补贴1万元,B 类:每车补贴2.5万元,C 类:每车补贴3.4万元.某出租车公司对该公司60辆新能源汽车的补贴情况进行了统计,结果如下表:汽车的补贴情况,在该出租车公司的60辆车中抽取6辆车作为样本,再从6辆车中抽取2辆车进一步跟踪调查,求恰好有1辆车享受3.4万元补贴的概率.解析:(1)由折线图数据可知x =2008+2010+2012+2014+20165=2012, y =236+246+257+276+2865=260.2 代入线性回归方程y ^=6.5x +a ^可得a ^=-12817.8.将x =2018代入方程可得y ^=299.2千万立方米.(2)根据分层抽样可知A 类,B 类,C 类抽取辆数分别为1辆,2辆,3辆分别编号为A ,B 1,B 2,C 1,C 2,C 3.基本事件有(A ,B 1)(A ,B 2)(A ,C 1)(A ,C 2)(A ,C 3)(B 1,B 2),(B 1,C 1)(B 1,C 2)(B 1,C 3)(B 2,C 1)(B 2,C 2)(B 2,C 3)(C 1,C 2)(C 1,C 3)(C 2,C 3)共15种,设“恰好有1辆车享受3.4万元补贴”为事件D ,则P (D )=35. 12.(2019·全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A 、B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同,摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解析:本题考查频率分布直方图和平均数,属于基础题.。
(全国通用)2020版高考数学二轮复习 提升专题 统计与概率教案讲义汇编全集
第1讲 统计、统计案例[例1] (1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A.7B.9C.10D.15[解析] (1)因为抽样比为10020000=1200,所以每类人中应抽选的人数分别为4800×1200=24,7200×1200=36,6400×1200=32,1600×1200=8.故选D. (2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k +9(k =0,1,…,31).由451≤30k +9≤750,解得44230≤k ≤74130,又k ∈N ,故k =15,16, (24)共10人.[答案] (1)D (2)C[解题方略] 系统抽样和分层抽样中的计算 (1)系统抽样①总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn个(有零头时要先去掉). ②若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n -1)N n.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[跟踪训练]1.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )A.8号学生B.200号学生C.616号学生D.815号学生解析:选C 根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.2.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )A.12B.15C.20D.21解析:选 A 因为抽样比为213000×70%=1100,所以从初中生中抽取的男生人数为2000×60%×1100=12.故选A.[例2] (2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100 i =15n i (y i -y )2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.0296,s =0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.[解题方略] 1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算. (2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大. 2.从频率分布直方图中得出有关数据的方法[跟踪训练]1.(2019·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是( )A.23,22B.23,22.5C.21,22D.21,22.5解析:选D 由茎叶图可得甲的成绩的平均数为10+11+14+21+23+23+32+348=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22+232=22.5.2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.(1)求图中a 的值;(2)估计这种植物果实重量的平均数x 和方差s 2(同一组中的数据用该组区间的中点值作代表).解:(1)由5×(0.020+0.040+0.075+a +0.015)=1,得a =0.050. (2)各组中点值和相应的频率依次为中点值 30 35 40 45 50 频率0.10.20.3750.250.075x =30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,s 2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.考点三统计案例题型一 回归分析在实际问题中的应用[例3] 某省的一个气象站观测点在连续4天里记录的AQI 指数M 与当天的空气水平可见度y (单位:cm)的情况如表1:M 900 700 300 100 y0.53.56.59.5该省某市2019年11月份AQI 指数频数分布如表2:M[0,200)[200,400)[400,600)[600,800)[800,1000]频数(天) 361263(1)设x =M100,若x 与y 之间是线性关系,试根据表1的数据求出y 关于x 的线性回归方程.(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI 指数存在相关关系如表3:M[0,200)[200,400)[400,600)[600,800)[800,1000]日均收入(元) -2000-1000200060008000根据表3估计小李的洗车店2019年11月份每天的平均收入.附参考公式:y ^=b ^x +a ^,其中b ^=,a ^=y -b ^x .[解] (1)x =14(9+7+3+1)=5,y =14(0.5+3.5+6.5+9.5)=5,∑4,i =1x i y i =9×0.5+7×3.5+3×6.5+1×9.5=58. ∑4,i =1x 2i =92+72+32+12=140,所以b ^=58-4×5×5140-4×52=-2120,a ^=5-⎝ ⎛⎭⎪⎫-2120×5=414, 所以y 关于x 的线性回归方程为y ^=-2120x +414.(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2019年11月份每天的平均收入为130×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).[解题方略] 求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y ^=b ^x +a ^必经过样本点的中心(x ,y )快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二 独立性检验在实际问题中的应用[例4] (2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k )0.050 0.010 0.001[解] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.[解题方略] 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )计算出K2的观测值;(3)比较K 2的观测值与临界值的大小,作出统计推断.[跟踪训练]1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为( ) A.0.1% B.0.5% C.99.5%D.99.9%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:选C 因为K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.2.2019年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y 的数据如下表:根据前五个年级的数据,利用最小二乘法求出y 关于x 的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘法估计公式分别为得b ^=2.76-2.2555-45=0.051,a ^=0.15-0.051×3=-0.003,得线性回归方程为y ^=0.051x -0.003.当x =6时,代入得y ^=0.051×6-0.003=0.303, 所以六年级学生的近视率在0.303左右.数学建模——回归分析问题的求解[典例] (2019·合肥市第二次质量检测)为了了解A 地区足球特色学校的发展状况,某调查机构统计得到如下数据:(1)根据表中数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关性强弱(已知:0.75≤|r |≤1,则认为y 与x 线性相关性很强;0.3≤|r |<0.75,则认为y 与x 线性相关性一般;|r |≤0.25,则认为y 与x 线性相关性较弱);(2)求y 关于x 的线性回归方程,并预测A 地区2019年足球特色学校的个数(精确到个).[解] (1)x =2016,y =1,r =i =15(x i -x )(y i -y )i =15(x i -x )2i =15(y i -y )2=(-2)×(-0.7)+(-1)×(-0.4)+1×0.4+2×0.710× 1.3= 3.63.6056=0.9984>0.75, ∴y 与x 线性相关性很强.a ^=y -b ^x =1-0.36×2016=-724.76,∴y 关于x 的线性回归方程是y ^=0.36x -724.76. 当x =2019时,y ^=0.36×2019-724.76=2.08, 即A 地区2019年足球特色学校约有208个. [素养通路]本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.[专题过关检测]A 组——“6+3+3”考点落实练一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A.73B.78C.77D.76解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归方程:y ^=-2x +60,则a 的值为( ) A.48 B.62 C.64D.68解析:选C 由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a=64,故选C.4.如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误,选D.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A.13,12B.13,13C.12,13D.13,14解析:选B 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,即2d -d 2=0,又d ≠0,故d =2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为(4+22)×510=13,中位数为12+142=13.6.(2019·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数; ②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;③从最近五场比赛的得分看,乙比甲更稳定; ④从最近五场比赛的得分看,甲比乙更稳定. 其中所有正确结论的编号为( ) A.①③ B.①④ C.②③D.②④解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误; 对于②,甲得分的平均数为15×(25+28+29+31+32)=29,乙得分的平均数为15×(28+29+30+31+32)=30,正确;对于③,甲得分的方差为15×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=15×(16+1+0+4+9)=6,乙得分的方差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=15×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.二、填空题7.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.解析:x =10×0.97+20×0.98+10×0.9910+20+10=0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98. 答案:0.988.(2019·安徽五校联盟第二次质检)数据a 1,a 2,a 3,…,a n 的方差为σ2,则数据2a 1,2a 2,2a 3,…,2a n 的方差为________.解析:设a 1,a 2,a 3,…,a n 的平均数为a ,则2a 1,2a 2,2a 3,…,2a n 的平均数为2a , σ2=(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n.则2a 1,2a 2,2a 3,…,2a n 的方差为(2a 1-2a )2+(2a 2-2a )2+(2a 3-2a )2+…+(2a n -2a )2n=4×(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n=4σ2.答案:4σ29.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:⎝ ⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d解析:分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99% 三、解答题10.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a +0.20+0.15,故a =0.35.b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?解:(1)由频率分布直方图可知,(0.010+0.015+0.015+a +0.025+0.005)×10=1,所以a =0.03. 所以参加高中数学竞赛的考生的成绩的平均数为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71, 成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x ,则0.1+0.15+0.15+(x -70)×0.03=0.5,解得x ≈73.3, 所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为2060=13,所以各分数段抽取人数依次为2,3,3,6,5,1.12.(2019·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差. (2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.B 组——大题专攻强化练1.(2019·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y (万元)与该月产量x (万件)之间有如下一组数据:(1)通过画散点图,发现可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明. (2)①建立月总成本y 与月产量x 之间的回归方程;②通过建立的y 关于x 的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)附注:①参考数据:错误!i =27.31,∑i =110x 2i -10x 2≈0.850,∑i =110y 2i -10y 2≈1.042,b ^≈1.223. ②参考公式:相关系数回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为:解:(1)由已知条件得,r =b ^·∑i =110x 2i -10x 2∑i =110y 2i -10y 2,∴r =1.223×0.8501.042≈0.998,这说明y 与x 正相关,且相关性很强. (2)①由已知求得x =1.445,y =2.731, a ^=y -b ^x =2.731-1.223×1.445≈0.964,∴所求回归直线方程为y ^=1.223x +0.964.②当x =1.98时,y =1.223×1.98+0.964≈3.386(万元), 此时产品的总成本约为3.386万元.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)估计旧养殖法的箱产量低于50kg的概率并估计新养殖法的箱产量的平均值;(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.(2)根据箱产量的频率分布直方图得2×2列联表如下:由表中数据得K 2=200×(62×66-34×38)2100×100×96×104≈15.705,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.3.(2019·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:他们用两种模型①y =bx +a ,②y =a e bx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由. (2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x =15×(7×6-6)=7.2, y =15×(30×6-31.8)=29.64.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:(1)请根据统计的最后三组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;(3)若100颗小麦种子的发芽数为n 颗,则记n %的发芽率,当发芽率为n %时,平均每亩地的收益为10n 元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.附:在线性回归方程y ^=b ^x +a ^中,b ^=解:(1)∵x =11+13+123=12,y =85+90+863=87,∴b ^=11×85+13×90+12×86-3×12×87112+132+122-3×122=52, 由b ^x +a ^=y ,即52×12+a ^=87,得a ^=57,∴线性回归方程为y ^=52x +57.(2)当x =8时,y ^=52×8+57=77,与实际值79比较,误差没有超过两颗;当x =10时,y ^=52×10+57=82,与实际值81比较,误差也没有超过两颗.所以(1)中得到的线性回归方程y ^=52x +57是可靠的.(3)由y ^=52x +57得,当x =9时,y ^=79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7950万元.第2讲 概 率[例1] (1)(2019·全国卷Ⅱ)生物实验室有5只兔子,其中只有3只测量过某项指标.若从这5只兔子中随机取出3只,则恰有2只测量过该指标的概率为( )A.23 B.35 C.25D.15(2)某教师让学生从3.1415926的小数点之后的七个数字1,4,1,5,9,2,6中随机选取两个数字,整数部分3不变,那么得到的数大于3.14的概率为( )A.2831B.1921C.2231D.1721[解析] (1)设5只兔子中测量过某项指标的3只为a 1,a 2,a 3,未测量过这项指标的2只为b 1,b 2,则从5只兔子中随机取出3只的所有可能情况为(a 1,a 2,a 3),(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 3,b 1),(a 1,a 3,b 2),(a 1,b 1,b 2),(a 2,a 3,b 1),(a 2,a 3,b 2),(a 2,b 1,b 2),(a 3,b 1,b 2),共10种可能.其中恰有2只测量过该指标的情况为(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 3,b 1),(a 1,a 3,b 2),(a 2,a 3,b 1),(a 2,a 3,b 2),共6种可能.故恰有2只测量过该指标的概率为610=35.故选B.(2)从1,4,1,5,9,2,6这7位数字中任选两位数字的不同情况有:14,11,15,19,12,16,41,45,49,42,46,59,52,56,92,96,26,51,91,21,61,54,94,24,64,95,25,65,29,69,62,共31种,其中使得到的数字不大于3.14的情况有3种,故所得到的数字大于3.14的概率P =1-331=2831.[答案] (1)B (2)A [解题方略]1.求古典概型概率的两个关键点(1)会利用枚举法、列表法等,求样本空间所含的基本事件数n 以及事件A 所含的基本事件数m ;(2)会运用古典概型的概率计算公式P (A )=m n求事件A 发生的概率. 2.互斥事件、对立事件概率的求法解决此类问题,首先应根据互斥事件和对立事件的定义分析出是不是互斥事件或对立事件,再选择概率公式进行计算.其方法有直接法和间接法.[跟踪训练]1.已知a ∈{-2,0,1,2,3},b ∈{3,5},则函数f (x )=(a 2-2)e x+b 为减函数的概率是( )A.310B.35C.25D.15解析:选C 函数f (x )=(a 2-2)e x+b 为减函数,则a 2-2<0,-2<a <2,且与b无关.又a ∈{-2,0,1,2,3},故只有a =0,a =1满足题意,所以函数f (x )=(a 2-2)e x+b 为减函数的概率是25.故选C.2.如图是由1个圆、1个三角形和1个长方形构成的组合体,现用红、蓝2种颜色为其涂色,每个图形只能涂1种颜色,则3个图形颜色不全相同的概率为________.解析:设事件M 为“3个图形颜色不全相同”,则其对立事件M 为“3个图形颜色全相同”,用红、蓝2种颜色为3个图形涂色,每个图形有2种选择,共有2×2×2=8种情况.其中颜色全部相同的有2种,即全部用红色或蓝色,所以P (M )=28=14,所以P (M )=1-P (M )=1-14=34.答案:343.某校拟从高二年级2名文科生和4名理科生中选出4名同学代表学校参加知识竞赛,其中每个人被选中的可能性均相等.(1)求被选中的4名同学中恰有2名文科生的概率; (2)求被选中的4名同学中至少有1名文科生的概率.解:将2名文科生和4名理科生依次编号为1,2,3,4,5,6,从2名文科生和4名理科生中选出4名同学记为(a ,b ,c ,d ),其结果有(1,2,3,4),(1,2,3,5),(1,2,3,6),(1,2,4,5),(1,2,4,6),(1,2,5,6),(1,3,4,5),(1,3,4,6),(1,3,5,6),(1,4,5,6),(2,3,4,5),(2,3,4,6),(2,3,5,6),(2,4,5,6),(3,4,5,6),共15种.(1)被选中的4名同学中恰有2名文科生的结果有(1,2,3,4),(1,2,3,5),(1,2,3,6),(1,2,4,5),(1,2,4,6),(1,2,5,6),共6种.记“被选中的4名同学中恰有2名文科生”为事件A , 则P (A )=615=25.(2)记“被选中的4名同学中至少有1名文科生”为事件B ,则事件B 包含有1名文科生或者2名文科生这两种情况.其对立事件为“被选中的4名同学中没有文科生”,只有一种结果(3,4,5,6).所以P (B )=115,所以P (B )=1-P (B )=1-115=1415.考点二几何概型[例2] (1)设集合A =⎩⎨⎧x ⎪⎪⎪⎭⎬⎫14<2x <16,B ={x |y =ln(x 2-3x )},从集合A 中任取一个元素,则这个元素也是集合B 中元素的概率是________.(2)(2019·江淮十校联考)七巧板是我国古代劳动人民的发明之一,被誉为“东方魔板”,它是由五块等腰直角三角形、一块小正方形和一块平行四边形共七块板组成的.如图是一个用七巧板拼成的大正方形,若在此正方形中任取一点,则此点取自阴影部分的概率为________.[解析] (1)因为集合A =⎩⎨⎧⎭⎬⎫x ⎪⎪⎪14<2x <16=(-2,4),B ={x |y =ln(x 2-3x )}=(-∞,0)∪(3,+∞),所以A ∩B ={x |3<x <4或-2<x <0},所以所求事件的概率是4-3+0+24+2=12.(2)设大正方形的边长为2,则该正方形的面积为4,阴影部分的面积为12×1×2+1×12=32,所以在大正方形中任取一点,此点取自阴影部分的概率为324=38. [答案] (1)12 (2)38[解题方略] 公式法求解几何概型的关键(1)定型,即判断事件的属性——等可能性与无限性,确定所求概率模型为几何概型. (2)定类,即确定所求事件的几何属性及其度量方式,确定其度量的类别——长度、角度、面积或体积等.(3)求量,根据平面几何、立体几何的相关知识求出基本事件空间Ω度量及事件A 的几何度量.(4)求值,把所求的两个几何度量值代入几何概型的计算公式求值.[跟踪训练]1.(2019·福建五校第二次联考)在区间[0,2]上随机取一个数x ,使sin π2x ≥32的概率为( )A.13B.12C.23D.34解析:选A 当x ∈[0,2]时,0≤π2x ≤π,所以sin π2x ≥32⇔π3≤π2x ≤2π3⇔23≤x≤43.故由几何概型的知识可知所求概率P =43-232=13.故选A. 2.(2019·湖南省五市十校联考)一只蚂蚁在三边长分别为6,8,10的三角形内自由爬行,某时刻该蚂蚁距离三角形的任意一个顶点的距离不超过1的概率为( )A.π24 B.π48C.112D.18解析:选 B 由题意,可得三角形为直角三角形,其面积为12×6×8=24,三角形内距离三角形的任意一个顶点的距离不大于1的区域如图中阴影部分所示,它的面积为半径为1的半圆面积,即S =12π×12=π2,所以所求概率P =π224=π48,故选B.3.已知在四棱锥P ABCD 中,PA ⊥底面ABCD ,底面ABCD 是正方形,PA =AB =2,现在该四棱锥内部或表面任取一点O ,则四棱锥O ABCD 的体积不小于23的概率为________.解析:当四棱锥O ABCD 的体积为23时,设O 到平面ABCD 的距离为h ,则有13×22×h =23,解得h =12.如图所示,在四棱锥P ABCD 内作平面EFGH 平行于底面ABCD ,且平面EFGH 与底面ABCD 的距离为12.因为PA ⊥底面ABCD ,且PA =2,所以PH PA =34,又四棱锥P ABCD 与四棱锥P EFGH 相似,所以四棱锥O ABCD 的体积不小于23的概率为P =V 四棱锥P EFGH V 四棱锥P ABCD =⎝ ⎛⎭⎪⎫PH PA 3=⎝ ⎛⎭⎪⎫343=2764.答案:2764。
高考数学大二轮 专题6 第1课时概率与统计课件 文
2.明确直方图的三个结论 频率
(1)小长方形的面积=组距×组距=频率. (2)各小长方形的面积之和等于 1. (3)小长方形的高=频 组率 距,所有小长方形高的和为组1距.
3.把握统计中的四个数据特征 (1)众数:在样本数据中,出现次数最多的那个数据. (2)中位数:样本数据中,将数据按大小排列,位于最中 间的数据.如果数据的个数为偶数,就取中间两个数据的平 均数作为中位数. (3)平均数:样本数据的算术平均数,即 x =1n(x1+x2+…+xn).
(4)利用几何概型求概率时,关键是构成试验的全部结果的区 域和事件发生的区域的寻找,有时需要设出变量,在坐标系 中表示所需要的区域.
[提醒] 当直接求解有困难时,可考虑其对立事件的概率.
1.(1)从
x2 m
-
y2 n
=1(其中m,n∈{-1,2,3})所表示的圆锥
曲线(椭圆、双曲线、抛物线)方程中任取一个,则此方程是
x2 m
-
y2 n
=1
表示椭圆、双曲线、抛物线等圆锥曲线的(m,n)有(2,-
1),(3,-1),(2,2),(3,2),(2,3),(3,3),(-1,-1),共7
种,其中表示焦点在x轴上的双曲线时,则m>0,n>0,有
(2,2),(3,2),(2,3),(3,3),共4种,所以所求概率P=47. (2)设这两个数分别为x,y,则由条件知0<x<2,0<y<
第1课时 概率与统计
高频考点
考情解读
随机事件的概率
常考查古典概型、几何概型及互斥事件的 概率求法.
抽样方法
抽样方法中分层抽样是高考的热点,题型 既有选择题也有填空题,属容易题.命题 时多以现实生活为背景,主要考查基本概 念及简单计算.
近年高考数学二轮复习专题六概率与统计第1讲统计与统计案例课时规范练文(2021学年)
2018高考数学二轮复习专题六概率与统计第1讲统计与统计案例课时规范练文编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018高考数学二轮复习专题六概率与统计第1讲统计与统计案例课时规范练文)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018高考数学二轮复习专题六概率与统计第1讲统计与统计案例课时规范练文的全部内容。
第1讲统计与统计案例一、选择题1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.答案:A2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )A.7 B.9 C.10 D.15解析:抽取号码的间隔为错误!=30,从而区间[451,750]包含的段数为错误!-错误!=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.答案:C3.(2017·汉中模拟)已知两个随机变量x,y的相关数据如表所示:x-4-2124y-5-3-1-0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1讲 统计与统计案例一、选择题1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A .月接待游客量逐月增加B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:由题图可知,2014年8月到9月的月接待游客量在减少,则A 选项错误.答案:A2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15解析:抽取号码的间隔为96032=30,从而区间[451,750]包含的段数为75030-45030=10,则编号落入区间[451,750]的人数为10人,即做问卷B 的人数为10.答案:C3.(2017·汉中模拟)已知两个随机变量x ,y 的相关数据如表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0D.a ^<0,b ^<0解析:样本平均数x -=0.2,y -=-1.7,所以b ^==28-5×0.2×(-1.7)41-5×0.22=29.740.8>0,则a ^=-1.7-29.740.8×0.2≈-1.85<0,或作出散点图,画出回归直线直观判定b ^>0,a ^<0.答案:C4.(2016·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )(导学号 55410134)A .56B .60C .120D .140解析:设所求的人数为n ,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,所以n =0.7×200=140.答案:D5.2016年某市地铁正式开工建设,地铁时代的到来能否缓解某市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:附:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )A.有95%B .有95%的把握认为“对能否缓解交通拥堵的认识与性别无关” C .有99%的把握认为“对能否缓解交通拥堵的认识与性别有关” D .有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析:由2×2列联表,可求K 2的观测值,k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20)≈5.288>3.841. 由统计表P (K 2≥3.841)=0.05,所以有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.答案:A 二、填空题6.某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:由题意知,男生人数=900-400=500, 又抽样比为45900=120, 所以应抽取男生为500×120=25(人). 答案:257.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x (单位:吨)与生产能耗y (单位:吨)的对应数据如表:根据最小二乘法求得回归方程为y =0.65x +a ,当产量为80吨时,预计需要生产能耗为________吨.解析:由题意,x -=45,y -=36.25,代入 y ^=0.65x +a ^,可得a ^=7,所以当产量为80吨时,预计需要生产能耗为0.65×80+7=59吨.答案:598.(2017·石家庄质检)为比较甲、乙两地14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号正确的是_______.(填上所有正确的编号)解析:x -甲=26+28+29+31+315=29,x -乙=28+29+30+31+325=30,则x -甲<x -乙,①正确.由茎叶图知,乙地的气温比较集中,甲地气温较离散. 所以甲地该月的标准差大于乙地该月的标准差,④正确.答案:①④ 三、解答题9.(2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;(2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.解:(1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为2+16+3690=0.6.所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.(2)当这种酸奶一天的进货量为450瓶时,若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;若最高气温不低于25,则Y=450×(6-4)=900,所以,利润Y的所有可能值为-100,300,900.Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为36+25+7+490=0.8.因此Y大于零的概率的估计值为0.8. 10.(2017·菏泽二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?解:(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76.(2)2(0.04+a+0.14+2×0.12)=1,解得a=0.08.由题设条件得列联表:所以K 2=(a +b )(c +d )(a +c )(b +d )=100(38×20-30×12)250×50×68×32≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关.11.(2017·唐山一模)某市春节期间7家超市的广告费支出x i (单位:万元)和销售额y i (单位:万元)数据如下:44(2)用对数回归模型拟合y 与x 的关系,可得回归方程y ^=12ln x +22,经计算得出线性回归模型和对数模型的R 2分别约为0.75和0.97,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.解:因此a ^=y --b ^x -=42-1.7×8=28.4.所以,y 关于x 的线性回归方程是y ^=1.7x +28.4.(2)因为0.75<0.97,所以对数回归模型更合适.当x =8时,y ^=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元.所以广告费支出8万元时,预测A 超市销售额为47.2元.。