专题五 第1讲 统计与统计案例
2021年高考理科数学二轮复习专题五计数原理、统计与概率
2021年高考理科数学二轮复习专题五计数原理、统计与概率(一)、计数原理一、排列数与组合数1、排列数:计算公式:2、组合数:①计算公式:()()()()()()121!1221!!mm nn mmn n n n mA nCA m m m m n m---+===--⋅-②组合数的性质:性质1:;性质2:(连续两个组合数的和)二、排列组合与两个基本原理的应用(一)、排列问题1、位置限制:解法:①先考虑限制元素,再考虑无限制的元素(加法原理)②多种限制:用二分法或枚举法2、排队限制:元素间排队的方式有限制①相邻:捆绑法(勿忘内部的排列);②互不相邻:插板法(先排无关元素再插入限制元素)③注意分类讨论以及正难则反(二)、组合问题1、分配问题: k个对象所得元素确定,即将n个不同的元素按不同数量分别分给则共有2、分组问题:将元素按一定数量方案分成k组,注意用除法,即,(t为数量一样的堆数)3、先分组再分配问题:k对象所得元素不确定,注意用乘法。
即。
(分给k个人)【典例1】①将6本书分给甲2本,乙3本,丙1本:(分配问题)②将6本书分成3堆,每堆2本:(分组问题)③将6本书分给甲乙丙,一个人4本,其他两人各一本:(先分组再分配)三、二项式定理(一)基本特征1、展开有n+1项,每项中a、b的指数和为n。
2、通项公式:第r+1项(二)常见题型1、求指定项(有理项、常数项等):通项公式2、求所以项二项式系数..的和:①二项式系数;奇数项与偶数项二项式系数之和相等。
.....、系数②系数:常用特值带入法(令x=0或1或-1)3、系数最值问题:①二项式系数:越中间,二项式系数越大。
(n为奇数,展开有偶数个项,中间两项二项式系数最大、n为偶数,展开有奇数个项,中间项二项式系数最大)②系数:写出通项,列出不等式组4、三项式展开式求指定项:组合的应用:每个括号里必须且只能选一个,根据组合得到答案。
5、求余数:将目标数写出接近除数的和或差的形式,然后计算【典例2】设已知均为整数(),若和被除所得的余数相同,则称和对模同余,记为,若,且a≡b(mod10),则b的值可以是(A)A.2011 B.2012 C .xx D.xx(二)、概率一、概率的基本性质与运算1、互斥事件与对立事件:①A 、B 为互斥事件是A 、B 为对立事件的必要不充分条件②若A 、B 为互斥事件则;③若A 、B 为对立事件则()()()()()1,1P A B P A P B P A P B ⋃==+=-即(正难则反)2、独立事件: A 、B 为独立事件,则3、条件概率:在A 事件发生的情况下,B 事件发生的概率为4、几何概型与古典概型:①古典概型:②几何概型:()()()A m P A n ==构成事件的区域的长度角度、面积、体积全部事件构成的区域的长度角度、面积、体积(常与线性规划结合) 二、随机变量及其分布列1、数学期望与方差的计算方法:①数学期望:;方差:②数学期望与方差的性质:;2、常见随机变量的概率分布:(三)、统计一、抽样方法二、用样本估计总体——统计数据的分析与应用1、茎叶图:①图像特征(读图):中间列为数据的十位数,两边为各组数据的个位数②优点:便于看出中位数以及集中程度2、频率分布直方图:①特征:纵轴:;柱形面积:对应的频率;所有柱形面积=1②频率分布直方图中数据信息的获取:A 、众数:最高柱形的中点横坐标B 、中位数:将所有柱形面积平分成一半的点的横坐标C 、平均数:每条柱形的中点×对应柱形的面积(频率)D 、方差:()()2×-每条柱形中点平均数对应柱形面积频率三、统计案例1、连续型随机变量——正态分布①正态分布表示:::数学期望;②图像特征:A 、关于直线对称;B 、越大(小),数据越分散(集中),图像越矮胖(高瘦) ③应用:利用对称性或查表获得对应概率。
高三一轮复习专题训练:统计、统计案例(最新题,14页)
2 分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问
------ 珍贵文档 ! 值得收藏! ------
------ 精品文档 ! 值得拥有! ------
题需先求出抽样比 —— 样本容量与总体容量的比, 则各层所抽取的样本容量等于该层个体总 数与抽样比的乘积 .
三、预测押题不能少
解析: 由题意知, 0.15(x+ 1)+ 0.2- 0.15 x- 0.2= 0.15. 答案: 0.15
统计与概率的交汇
统计与统计案例的主要内容是随机抽样、 样本估计总体、 变量的相关性、 回归分析和独 立性检验, 该部分内容在高考中占有一定的位置, 近两年高考中由单纯考查统计及统计案例 转化为与概率交汇命题且背景贴近生活,角度新颖,试题多为解答题,难度中档.
D. b^<b′, a^<a′
[解析 ] 由 (1,0), (2,2) 求 b′ , a′,则
2- 0 b′ = = 2,a′ = 0-2× 1=- 2.
2- 1 由上表数据求 b^, a^,
6
xiyi= 0+ 4+ 3+12+ 15+24= 58,
i=1
13 x = 3.5, y = 6 ,
6
x2i = 1+Βιβλιοθήκη 4+ 9+ 16+ 25+ 36= 91,
3n 60= 260,解得 n=13.
(2)将某班的 60 名学生编号为: 01,02,…, 60,采用系统抽样方法抽取一个容量为 5 的 样本,且随机抽得的一个号码为 04,则剩下的四个号码依次是 ________.
解析: 依据系统抽样方法的定义知,将这 60 名学生依次按编号每 12 人作为一组,即
1. (1) 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为
8-1统计与统计案例
专题8 第1讲统计与统计案例一、选择题1.(2011·湛江测试)某学校进行问卷调查,将全校4200名同学分为100组,每组42人按1~42随机编号,每组的第34号同学参与调查,这种抽样方法是() A.简单随机抽样B.分层抽样C.系统抽样D.分组抽样[答案] C[解析]一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.2.(文)(2011·重庆文,4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):12512012210513011411695120134则样本数据落在[114.5,124.5)内的频率为()A.0.2 B.0.3C.0.4 D.0.5[答案] C[解析]在[114.5,124.5]范围内的频数m=4,样本容量n=10,∴所求频率410=0.4. (理)(2011·四川理,1)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5) 4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12[35.5,39.5)7[39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16B.13C.12D.23[答案] B[解析]因为[31.5,35.5)12[35.5,39.5)7[39.5,43.5)3故[31.5,43.5)的概率为12+7+366=13,故选B.3.(2011·山东理,7)某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额大约为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 依题意:x =3.5,y =42, 又b ^=9.4,∴42=9.4×3.5+a ^. 而a ^=9.1,∴y ^=9.4x +9.1, 当x =6时,y ^=65.5,故选B.4.(2011·大连模拟)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.5.(文)(2011·江西文,7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x[答案] D[解析] 由图可以不难发现众数为5.中位数为5+62=5.5,平均值x =2×3+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930(理)(2011·江西理,6)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0 B. 0<r 2<r 1 C. r 2<0<r 1 D .r 2=r 1[答案] C[解析] 对于第一组数据x -=10+11.3+11.8+12.5+135=11.75,y -=1+2+3+4+55=3.∑i =15(x i -x -)(y i -y -)=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)…(x 5-x -)(y 5-y -)=1.75×(-2)+(-0.45)×(-1)+0.05×0+0.75×1+1.25×2=0.2. ∑i =15(x i -x -)2=(x 1-x -)2+(x 2-x -)2+…+(x 5-x -)2=1.752+(-0.45)2+0.052+0.752+1.252=5.3925.∑i =15(y i -y -)2=(y 1-y -)2+(y 2-y -)2+…+(y 5-y -)2=(-2)2+(-1)2+02+12+22=10, 代入公式中有r 1=0.25.3925×10=0.27.09≈0.0282.同理r 2中∑i =15(x i -x -)(y i -y -)=-4.36<0,故r 2<0,∴r 2<0<r 1,故选C.6.(2011·湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” [答案] C[解析] ∵6.635<K 2=7.8<10.828,∴我们有99%的把握认为二者有关,或者说在犯错的概率不超过1%的前提下二者有关. 7.(2011·合肥二检)甲、乙两名学生的六次数学测验成绩(百分制)的茎叶图如图所示.①甲同学成绩的中位数大于乙同学成绩的中位数; ②甲同学的平均分比乙同学的平均分高; ③甲同学的平均分比乙同学的平均分低;④甲同学成绩的方差小于乙同学成绩的方差. 上面说法正确的是( ) A .③④ B .①②④ C .②④ D .①③④[答案] A[解析] 由茎叶图知甲同学的成绩为72,76,80,82,86,90;乙同学的成绩为69,78,87,88,92,96.故甲同学成绩的中位数小于乙同学成绩的中位数,①错;计算得甲同学的平均分为81,乙同学的平均分为85,故甲同学的平均分比乙同学的平均分低,因此②错、③对;计算得甲同学成绩的方差小于乙同学成绩的方差,故④对.所以说法正确的是③④,选A.8.(2011·东北四市联考)在2011年5月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +a (参考公式:回归方程y ^=bx +a ,a =y --b x -),则a =( )A .-24B .35.6C .40.5D .40[答案] D[解析] 价格的平均数是x -=9+9.5+10+10.5+115=10,销售量的平均数是y -=11+10+8+6+55=8,由y ^=-3.2x +a 知b =-3.2,所以a =y --b x -=8+3.2×10=40,故选D.二、填空题9.(2011·湖北文,11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.[答案] 20[解析] 属简单题,关键是清楚每一层的抽取比例都一样是n N.由于所有超市共计200+400+1400=2000家,需抽取100家,则抽取比例为1002000所以中型超市抽取400×1002000=20家.10.(文)(2011·广东文,13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.[答案] 0.5 0.53[解析] 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53.(理)(2011·广东理,13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185[解析] 设儿子身高y 与父亲身高x 有关系,列表如下:∵x =13(173+170+176)=173,y =13+176+182)=176,∑i =13x i y i =173×170+170×176+176×182=91362,∑i =13x 2i =1732+1702+1762=89805, ∴b ^=91362-3×173×17689805-3×1732=1,a ^=y -b ^x =176-173=3 ∴回归直线方程为y ^=x +3, ∴x =182时,y ^=182+3=185(cm).11.(文)(2011·西城抽样)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有________名.[答案] 40[解析] 由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.(理)(2011·福州二检)若样本a 1,a 2,a 3,a 4,a 5的方差是3,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的方差是________.[答案] 12[解析] 若a -表示样本a 1,a 2,a 3,a 4,a 5的均值,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的均值为2a -+3.又15∑i =15 (a i -a -)2=3,∴15∑i =15[(2a i +3)-(2a -+3)]2=15∑i =15 (2a i -2a -)2=12. 12.把容量为1000的某个样本数据分为10组,并填写频率分布表.若前3组的频率依次构成公差为0.05的等差数列,且后7组的频率之和是0.79.则前3组中频率最小的一组的频数是________.[答案] 20[解析] 设前3组中频率最小的一组的频率是x .由题意得前3组的频率之和是1-0.79=0.21,则x +(x +0.05)+(x +0.05×2)=0.21,由此解得x =0.02,即前3组中频率最小的一组的频率是0.02,相应的频数是0.02×1000=20.三、解答题13.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a1,a2,大于40岁的为b1,b2,b3,从中随机取2名,基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共十个,设恰有一名观众年龄在20至40岁为事件A,则A中含有基本事件6个:(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),∴P(A)=610=3 5.14.(文)(2011·郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K2=(a+b)(c+d)(a+c)(b+d),[解析] 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(50×50×55×45=99≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·广东广州)某校高三(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:(1)求全班人数;(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高; (3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.[解析] (1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以,全班人数为20.08=25(人).(2)分数在[80,90)之间的人数为25-2-7-10-2=4人,分数在[80,90)之间的频率为425=0.16,所以频率分布直方图中[80,90)间的矩形的高为0.1610=0.016.(3)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5,6. 则在[80,100)之间的试卷中任取两份的基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15个,其中至少有一个在[90,100]之间的基本事件有(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6)共9个,故至少有一份分数在[90,100]之间的概率是915=35.15.(2011·安徽文,20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.[解析] 由所给数据分析,年需求量与年份之间近似直线上升,可对数据进行预处理如下表对预处理后的数据,容易算出x =0,y =3.2∑i =15x i y i =-4×(-21)+(-2)×(-11)+2×19+4×29=260∑i =15x 2i =16+4+0+4+16=40∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=26040=6.5,∴a ^=y -b ^x =3.2 ∴所求回归直线方程y -257=6.5(x -2006)+3.2即y =6.5(x -2006)+260.2(2)当x =2012时,y =6.5(2012-2006)+260.2=299.2万吨=300万吨 故预测2012年粮食需求量约为300万吨.。
2019年高考数学(文科)一轮分层演练:第10章概率、统计和统计案例第1讲(含答案解析)
[学生用书P273(单独成册)]一、选择题1.设事件A ,B ,已知P (A )=15,P (B )=13,P (A ∪B )=815,则A ,B 之间的关系一定为( )A .两个任意事件B .互斥事件C .非互斥事件D .对立事件解析:选B .因为P (A )+P (B )=15+13=815=P (A ∪B ),所以A ,B 之间的关系一定为互斥事件.故选B .2.某产品分甲、乙、丙三级,其中乙、丙两级均属次品,在正常生产情况下,出现乙级品和丙级品的概率分别是5%和3%,则抽检一件是正品(甲级)的概率为( )A .0.95B .0.97C .0.92D .0.08解析:选C .记抽检的产品是甲级品为事件A ,是乙级品为事件B ,是丙级品为事件C ,这三个事件彼此互斥,因而所求概率为P (A )=1-P (B )-P (C )=1-5%-3%=92%=0.92.3.从3个红球、2个白球中随机取出2个球,则取出的2个球不全是红球的概率是( ) A .110B .310C .710D .35解析:选C .“取出的2个球全是红球”记为事件A ,则P (A )=310.因为“取出的2个球不全是红球”为事件A 的对立事件,所以其概率为P (A )=1-P (A )=1-310=710.4.“微信抢红包”自2015年以来异常火爆,在某个微信群某次进行的抢红包活动中,若所发红包的总金额为9元,被随机分配为1.49元,1.31元,2.19 元,3.40元,0.61元,共5份,供甲、乙等5人抢,每人只能抢一次, 则甲、乙二人抢到的金额之和不低于4元的概率是( )A .12B .25C .34D .56解析:选B .设事件A 为“甲、乙二人抢到的金额之和不低于4元”,甲、乙两人抢到红包的所有结果为{1.49,1.31},{1.49,2.19},{1.49,3.40},{1.49,0.61},{1.31,2.19},{1.31,3.40},{1.31,0.61},{2.19,3.40},{2.19,0.61},{3.40,0.61},共10种情况.其中事件A 的结果一共有4种情况,根据古典概型概率计算公式,得P (A )=410=25,即甲、乙二人抢到的金额之和不低于4元的概率是25.故选B .5.在正六边形的6个顶点中随机选择4个顶点,则构成的四边形是梯形的概率为( ) A .15B .25C .16D .18解析:选B .如图,在正六边形ABCDEF 的6个顶点中随机选择4个顶点,共有15种选法,其中构成的四边形是梯形的有ABEF ,BCDE ,ABCF ,CDEF ,ABCD ,ADEF ,共6种情况,故构成的四边形是梯形的概率P =615=25.6.已知集合M ={1,2,3,4},N ={(a ,b )|a ∈M ,b ∈M },A 是集合N 中任意一点,O 为坐标原点,则直线OA 与y =x 2+1有交点的概率是( )A .12B .13C .14D .18解析:选C .易知过点(0,0)与y =x 2+1相切的直线为y =2x (斜率小于0的无需考虑),集合N 中共有16个元素,其中使OA 斜率不小于2的有(1,2),(1,3),(1,4),(2,4),共4个,由古典概型知概率为416=14.二、填空题7.某城市2017年的空气质量状况如下表所示:轻微污染,则该城市2017年空气质量达到良或优的概率为________.解析:由题意可知2017年空气质量达到良或优的概率为P =110+16+13=35.答案:358.口袋内装有一些除颜色不同之外其他均相同的红球、白球和黑球,从中摸出1个球,摸出红球的概率是0.42,摸出白球的概率是0.28,若红球有21个,则黑球有________个.解析:摸到黑球的概率为1-0.42-0.28=0.3.设黑球有n 个,则0.4221=0.3n ,故n =15.答案:159.从2名男生和2名女生中,任意选择两人在星期六、星期日参加某公益活动,每天一人,则星期六安排一名男生,星期日安排一名女生的概率为________.解析:将2名男生记为A 1,A 2,2名女生记为B 1,B 2,任意选择两人在星期六、星期日参加某公益活动有A 1A 2,A 1B 1,A 1B 2,A 2B 1,A 2B 2,B 1B 2,B 1A 1,B 2A 1,B 1A 2,B 2A 2,B 2B 1,A 2A 1共12种情况,而星期六安排一名男生,星期日安排一名女生共有A 1B 1,A 1B 2,A 2B 1,A 2B 2这4种情况,则其发生的概率为412=13.答案:1310.现有7名数理化成绩优秀者,分别用A 1,A 2,A 3,B 1,B 2,C 1,C 2表示,其中A 1,A 2,A 3的数学成绩优秀,B 1,B 2的物理成绩优秀,C 1,C 2的化学成绩优秀.从中选出数学、物理、化学成绩优秀者各1名,组成一个小组代表学校参加竞赛,则A 1和B 1不全被选中的概率为________.解析:从这7人中选出数学、物理、化学成绩优秀者各1名,所有可能的结果组成的12个基本事件为:(A 1,B 1,C 1),(A 1,B 1,C 2),(A 1,B 2,C 1),(A 1,B 2,C 2),(A 2,B 1,C 1),(A 2,B 1,C 2),(A 2,B 2,C 1),(A 2,B 2,C 2),(A 3,B 1,C 1),(A 3,B 1,C 2),(A 3,B 2,C 1),(A 3,B 2,C 2).设“A 1和B 1不全被选中”为事件N ,则其对立事件N -表示“A 1和B 1全被选中”,由于N -={(A 1,B 1,C 1),(A 1,B 1,C 2)},所以P (N -)=212=16,由对立事件的概率计算公式得P (N )=1-P (N -)=1-16=56.答案:56三、解答题11.如图,从A 地到火车站共有两条路径L 1和L 2,现随机抽取100位从A 地到达火车站的人进行调查,调查结果如下:所用时间(分钟) 10~20 20~30 30~40 40~50 50~60 选择L 1的人数 6 12 18 12 12 选择L 2的人数416164(1)试估计(2)分别求通过路径L 1和L 2所用时间落在上表中各时间段内的频率;(3)现甲、乙两人分别有40分钟和50分钟时间用于赶往火车站,为了尽最大可能在允许的时间内赶到火车站,试通过计算说明,他们应如何选择各自的路径.解:(1)由已知共调查了100人,其中40分钟内不能赶到火车站的有12+12+16+4=44(人), 所以用频率估计相应的概率为44÷100=0.44. (2)选择L 1的有60人,选择L 2的有40人,故由调查结果得频率为(3)设A 1,A 2121,B 2L 1和L 2时,在50分钟内赶到火车站.由(2)知P (A 1)=0.1+0.2+0.3=0.6,P (A 2)=0.1+0.4=0.5,因为P (A 1)>P (A 2),所以甲应选择L 1 . 同理,P (B 1)=0.1+0.2+0.3+0.2=0.8, P (B 2)=0.1+0.4+0.4=0.9, 因为P (B 1)<P (B 2),所以乙应选择L 2.12.根据我国颁布的《环境空气质量指数(AQI)技术规定》:空气质量指数划分为0~50、51~100、101~150、151~200、201~300和大于300六级,对应空气质量指数的六个级别,指数越大,级别越高,说明污染越严重,对人体健康的影响也越明显.专家建议:当空气质量指数小于等于150时,可以进行户外运动;空气质量指数为151及以上时,不适合进行旅游等户外活动,下表是济南市2017年10月上旬的空气质量指数情况:(1)(2)一外地游客在10月上旬来济南旅游,想连续游玩两天,求适合连续旅游两天的概率. 解:(1)该试验的基本事件空间Ω={1,2,3,4,5,6,7,8,9,10},基本事件总数n =10. 设事件A 为“市民不适合进行户外活动”,则A ={3,4,9,10},包含基本事件数m =4.所以P (A )=410=25, 即10月上旬市民不适合进行户外活动的概率为25.(2)该试验的基本事件空间Ω={(1,2),(2,3),(3,4),(4,5),(5,6),(6,7),(7,8),(8,9),(9,10)},基本事件总数n =9,设事件B 为“适合连续旅游两天的日期”,则B ={(1,2),(5,6),(6,7),(7,8)},包含基本事件数m =4, 所以P (B )=49,所以适合连续旅游两天的概率为49.1.某超市随机选取1 000位顾客,记录了他们购买甲、乙、丙、丁四种商品的情况,整理成如下统计表,其中“√”表示购买,“”表示未购买.(1)(2)估计顾客在甲、乙、丙、丁中同时购买3种商品的概率;(3)如果顾客购买了甲,则该顾客同时购买乙、丙、丁中哪种商品的可能性最大?解:(1)从统计表可以看出,在这1 000位顾客中有200位顾客同时购买了乙和丙,所以顾客同时购买乙和丙的概率可以估计为2001 000=0.2.(2)从统计表可以看出,在这1 000位顾客中,有100位顾客同时购买了甲、丙、丁,另有200位顾客同时购买了甲、乙、丙,其他顾客最多购买了2种商品,所以顾客在甲、乙、丙、丁中同时购买3种商品的概率可以估计为100+2001 000=0.3.(3)与(1)同理,可得:顾客同时购买甲和乙的概率可以估计为2001 000=0.2,顾客同时购买甲和丙的概率可以估计为100+200+3001 000=0.6,顾客同时购买甲和丁的概率可以估计为1001 000=0.1,所以,如果顾客购买了甲,则该顾客同时购买丙的可能性最大.2.以青蒿素类药物为主的联合疗法已经成为世界卫生组织推荐的抗疟疾标准疗法,目前,国内青蒿人工种植发展迅速,调查表明,人工种植的青蒿的长势与海拔高度、土壤酸碱度、空气湿度的指标有极强的相关性,现将这三项的指标分别记为x ,y ,z ,并对它们进行量化:0表示不合格,1表示临界合格,2表示合格,再用综合指标ω=x +y +z 评定人工种植的青蒿的长势等级:若ω≥4,则长势为一级;若2≤ω≤3,则长势为二级;若0≤ω≤1,则长势为三级.为了了解目前人工种植的青蒿的长势情况,研究人员随机抽取了10个青蒿人工种植地,得到如下结果:(2)从长势等级为一级的青蒿人工种植地中随机抽取2个,求这2个人工种植地的综合指标ω均为4的概率.解:(1)计算10个青蒿人工种植地的综合指标,可得下表:编号A1A2A3A4A5A6A7A8A9A10综合指标1446245353由上表可知,长势等级为三级的种植地只有A1一个,其频率为110,用样本的频率估计总体的频率,可估计这些种植地中长势等级为三级的个数约为180×110=18.(2)由(1)可知,长势等级是一级的青蒿人工种植地有A2,A3,A4,A6,A7,A9,共6个,从中随机抽取2个,所有的可能结果为(A2,A3),(A2,A4),(A2,A6),(A2,A7),(A2,A9),(A3,A4),(A3,A6),(A3,A7),(A3,A9),(A4,A6),(A4,A7),(A4,A9),(A6,A7),(A6,A9),(A7,A9),共计15个,综合指标ω=4的有A2,A3,A6,共3个,则符合题意的可能结果为(A2,A3),(A2,A6),(A3,A6),共3个,故所求概率P=315=1 5.。
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
高中数学【统计与统计案例】专题练习
高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。
2019届一轮复习人教A版 统计与统计案例 课件
第一部分 专题突破——破译命题密码
高考·题型突破
高考·专题集训
高考·题型突破
第一部分 专题突破——破译命题密码
高考·题型突破
高考·专题集训
题型一 抽样方法 抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法 各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是 相等的,都等于样本容量和总体容量的比值.
第一部分 专题突破——破译命题密码
高考·题型突破
高考·专题集训
1.众数、中位数、平均数与直方图的关系 (1)众数为频率分布直方图中最高矩形的底边中点的横坐标. (2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐 标. (3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横 坐标之积的和.
抽取次序 9
10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
第一部分 专题突破——破译命题密码
高考·题型突破
ቤተ መጻሕፍቲ ባይዱ
高考·专题集训
经
计
算
得
x
=
1 16
16
x
i=1
i
=
9.97
,
s
=
1 16
16i=1
xi- x 2 =
第一部分 专题突破——破译命题密码
高考·题型突破
高考·专题集训
3.(2017·成都市第二次诊断性检测)在一个容量为 5 的样本中,数据均为整 数,已测出其平均数为 10,但墨水污损了两个数据,其中一个数据的十位数字 1 未被污损,即 9,10,11,1 ,那么这组数据的方差 s2 可能的最大值是________.
《统计统计案例》PPT课件
类型二 抽样方法
【例 2】 某校高三年级有男生 500 人,女生 400 人,
=110×310=31(cm),
∴ x 甲< x 乙,即乙种玉米的苗长得高.
(2)s
2
甲
=
1 10
×[(25
-
30)2
+
(41
-
30)2
+
(40
-
30)2
+
(37
-
30)2 + (22 - 30)2 + (14 - 30)2 + (19 - 30)2 + (39 - 30)2 + (21 -
30)2+(42-30)2]
=110×(16+225+169+16+169+225+81+81+225+ 81)
=110×1288=128.8(cm2). ∴s2甲<s乙2 ,即甲种玉米的苗长得整齐.
[点评] (1)平均数与方差都是重要的数字特征数,是对 总体的一种简明的描述.它们所反映的情况有着重要的实际 意义,所以不仅要掌握其计算公式和方法,还要学会通过这 些数据分析其含义,从而为正确决策提供依据.
[解] (1)2×2 列联表如下:
性别休闲方式 看电视 运动 总计
女 男 总计
43 27 70 21 33 54 64 60 124
(2)假设“休闲方式与性别无关”, 计算 K2=124×70×435×4×336-4×276×0212≈6.201, 因为 K2>5.024,所以有理由认为假设“休闲方式与性 别无关”是不合理的, 即有 97.5%的把握认为“休闲方式与性别有关”.
统计与统计案例35752
第七页,共二十八页。
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
(3)平均数 样本数据的平均数-x =1n(x1+x2+…+xn). (4)方差与标准差 方差 s2=1n[(x1--x )2+(x2--x )2+…+(xn--x )2]. 标准差 s= 1n[x1--x 2+x2--x 2+…+xn--x 2].
所以平均每周上网时间少于 4 小时的学生所占比例为 P+ 3P=0.4,即人数为 0.4×100=40.
第二十一页,共二十八页。
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
(2)由题意可知,利用分层抽样的方法抽取上网时间在 0~ 2 小时内的学生 1 名(记为 A),抽取上网时间在 2~4 小时内的 学生 3 名(分别记为 B1,B2,B3),从这 4 名学生中随机抽取 2 名学生有(A,B1),(A,B2),(A,B3),(B1,B2),(B2,B3),(B1, B3),共 6 种结果,
第二十六页,共二十八页。
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
4.方差越大,数据的波动程度越大,越不稳定. 5.准确理解给出图表及已知条件中数据的含义是解决统 计问题的关键.
第二十七页,共二十八页。
专题七 第一讲
内容(nèiróng)总结
走向(zǒuxiàng)高考·数学。[答案] B
第二十页,共二十八页。
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] (1)设频率分布直方图中从左到右前 3 个小矩形的 面积分别为 P,3P,5P.
由频率分布直方图可知,最后 2 个小矩形的面积之和为 (0.015+0.035)×2=0.1.
(新课标)山东省2013高考数学二轮复习
(新课标)山东省2013高考数学二轮复习(研热点聚焦突破+析典型预测高考+巧演练素能提升)第一部分专题五概率与统计1-5-2第二讲统计、统计案例理一、选择题1.某中学有学生270人,其中一年级108人,二、三年级各81人,现要从该中学抽取一个容量为10的样本,将学生按一、二、三年级依次编号为1,2,…,270,如果抽得号码有下列四种情况:①5,9,100,107,111,121,180,195,200,265;②7,34,61,88,115,142,169,196,223,250;③30,57,84,111,138,165,192,219,246;④11,38,60,90,119,146,173,200,227,254.以上四组号码中可能是由分层抽样得到,而不可能是由系统抽样得到的是( )A.①②B.②③C.①③ D.①④解析:通过分析四种情况可知,①、④是分层抽样,②、③是系统抽样,故选D.答案:D2.(2012年高考湖北卷)容量为20的样本数据,分组后的频数如下表:则样本数据落在区间[10,40)的频率为( )A.0.35 B.0.45C.0.55 D.0.65解析:根据频率的定义求解.由表知[10,40)的频数为2+3+4=9,所以样本数据落在区间[10,40)的频率为920=0.45.答案:B3.一农场在同一块稻田中种植一种水稻,其连续8年的产量(单位:kg)如下:450,430,460,440,450,440,470,460,则该组数据的方差为( )A.120 B.80C.15 D.150解析:根据题意知,该组数据的平均数为450+430+460+440+450+440+470+4608=450,所以该组数据的方差为18×(02+202+102+102+02+102+202+102)=150.答案:D4.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+bx ,若∑10i =1x i =17,∑10i =1y i =4,则b 的值为( )A .2B .1C .-2D .-1解析:依题意知,x -=1710=1.7,y -=410=0.4,而直线y ^=-3+bx 一定经过点(x -,y -),所以-3+b ×1.7=0.4,解得b =2.答案:A5.(2012年高考安徽卷)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差解析:由条形统计图得到相关数据,然后利用平均数、中位数、方差、极差的概念求解. 由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8; 乙射靶5次的成绩分别为:5,5,5,6,9,所以x -甲=4+5+6+7+85=6;x -乙=5+5+5+6+95=6. 所以x -甲=x -乙.故A 不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B 不正确.s 2甲=15[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=15×10=2,s 2乙=15[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=15×12=125,因为2<125,所以s 2甲<s 2乙.故C 正确.甲的成绩的极差为:8-4=4, 乙的成绩的极差为:9-5=4, 故D 不正确.故选C. 答案:C 二、填空题6.(2012年大同模拟)将容量为n 的样本中的数据分为6组,绘制频率分布直方图,若第一组至第六组的数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和为27,则n =________.解析:依题意得,前三组的频率总和为2+3+42+3+4+6+4+1=920,因此有27n =920,即n =60.答案:607.(2012年唐山质检)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm.解析:根据回归方程y ^=1.197x -3.660.将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm.答案:56.198.(2012年海淀模拟)甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如下,根据茎叶图可知,两城市中平均温度较高的城市是________,气温波动较大的城市是________.解析:根据茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙 三、解答题9.以下是某地最新搜集到的二手楼房的销售价格y (单位:万元)和房屋面积x (单位:m 2)的一组数据:若销售价格y 和房屋面积x 具有线性相关关系. (1)求销售价格y 和房屋面积x 的回归直线方程;(2)根据(1)的结果估计当房屋面积为150 m 2时的销售价格.解析:(1)由题意知,x -=80+105+110+115+1355=109,y -=18.4+22+21.6+24.8+29.25=23.2.设所求回归直线方程为y ^=bx +a ,则b =∑10i =1(x i -109)(y i -23.2)∑ni =1(x i -109)2=3081 570≈0.196 2,a =y --bx -=23.2-0.196 2×109=1.814 2,故回归直线方程为y ^=0.196 2x +1.814 2.(2)由(1)知,当x =150时,估计房屋的销售价格为y ^=0.196 2×150+1.814 2=31.244 2(万元).10.(2012年长春模拟)对某校高一年级学生参加社区服务次数进行统计,随机抽取M 名学生作为样本,得到这M 名学生参加社区服务的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:(1)求出表中M 、p 及图中a 的值;(2)若该校高一学生有360人,试估计他们参加社区服务的次数在区间[15,20)内的人数;(3)在所取样本中,从参加社区服务的次数不少于20次的学生中任选2人,求至多1人参加社区服务次数在区间[20,25)内的概率.解析:(1)由题可知10M =0.25,25M =n ,m M =p ,2M=0.05.又10+25+m +2=M ,解得M =40,n =0.625,m =3,p =0.075. 则[15,20)组的频率与组距之比a 为0.125.(2)参加社区服务的次数在区间[15,20)内的人数为360×0.625=225.(3)在样本中,处于[20,25)内的人数为3,可分别记为A ,B ,C ,处于[25,30)内的人数为2,可分别记为a ,b .从该5名学生中取出2人的取法有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(A ,B ),(A ,C ),(B ,C ),(a ,b ),共10种;至多1人在[20,25)内的情况有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b )共7种,所以至多1人参加社区服务次数在区间[20,25)内的概率为710.11.2012年元旦、春节前夕,各个物流公司都出现了爆仓现象,直接原因就是网上疯狂的购物.事实上,现在网上购物已经成为人们购物的一种新方式,正所谓“不上街并不是不逛街”,利用网络,人们可以足不出户地选购自己所需的商品,方便快捷,但也有一些隐患,比如网络欺骗、所得商品与网上宣传的有差距等.某商家针对人们在网上购物的态度在某城市进行了一次调查,共调查了124人,其中女性70人,男性54人.女性中有43人对网上购物持赞成态度,另外27人持反对态度;男性中有21人赞成网上购物,另外33人持反对态度.(1)估计该地区对网上购物持赞成态度的比例;(2)有多大的把握认为该地区对网上购物持赞成态度与性别有关;(3)根据以上结论,能否有更好的调查方式来估计该地区对网上购物持赞成态度的比例,并说明理由.附: 表1K 2=n (ad -bc )2(a +c )(b +d )(a +b )(c +d )解析:(1)接受调查的124人中,有64人对网上购物持赞成态度,所以该地区对网上购物持赞成态度的估计值为64124=1632.(2)2×2列联表: 表2K 2=124×(43×33-27×21)270×54×64×60≈6.201,因为6.201>3.841,所以有95%的把握认为该地区对网上购物持赞成态度与性别有关.(3)该项调查是在某城市进行的,具有一定的局限性,所以应该先确定该地区城市人口、农村人口的比例,在此基础上进一步确定城市人口、农村人口中的性别比例;然后利用分层抽样的方法抽取样本,最后进行统计,这样得到的结果会更加可靠.。
《统计》大班数学课件
为决策提供依据
提高工作效率
通过统计方法,我们可以对数据进行 整理和分析,从而更好地提高工作效 率。
政府和企业可以通过统计数据来制定 政策和决策,从而更好地指导实践。
CHAPTER
02
统计的基础知识
统计图表
01
02
03
04
柱状图
用于比较不同类别数据的大小 。
折线图
用于表示数据随时间变化的趋 势。
饼图
CHAPTER
04
统计案例分析
人口普查的统计
总结词
了解人口数量、结构、分布等基本情况,为国家制定政策提供依据。
详细描述
人口普查是国家为了掌握全国人口数量、构成、地区分布、教育程度、就业状况 等基本情况而进行的一项全面调查。统计数据可以帮助政府了解国家的人口现状 和发展趋势,为制定经济、社会、教育等政策提供科学依据。
提高统计素养的方法
掌握统计学基础知识
了解统计学的基本概念、原理和方法 ,包括概率论、பைடு நூலகம்述性统计、推断性 统计等。
培养数据分析和可视化能力
掌握数据分析和可视化工具,如 Excel、Python等,能够进行数据清 洗、整理、分析和呈现。
实践应用与案例分析
通过实践应用和案例分析,加深对统 计学的理解,提高解决实际问题的能 力。
对收集到的数据进行分类、排序、 筛选等处理,使其更加有序、易于 分析。
数据表示
使用统计图表、统计量等工具将数 据以直观的方式呈现出来,便于理 解。
CHAPTER
03
统计的实际应用
在日常生活中的应用
健康管理
通过统计方法记录和监测 个人或群体的健康状况, 如体重、心率、血压等, 以制定合理的健康计划。
2015届高三数学(文理通用)二轮专项复习课件:专题7_第1讲_统计与统计案例
• 3.样本的数字特征 • (1)众数 • 在样本数据中,频率分布最大值所对应的样 本数据(或出现次数最多的那个数据). • (2)中位数 • 样本数据中,将数据按大小排列,位于最中 间的数据.如果数据的个数为偶数,就取当 中两个数据的平均数作为中位数.
(3)平均数与方差 1 - 样本数据的平均数 x =n(x1+x2+„+xn). 1 方差s =n[(x1-- x )2+(x2-- x )2+„+(xn-- x )2].
• (1)求m,n的值, • (2)记表2中分组在(60,70]中的2名女生为A、 B,(90,100]中的4名女生为C、D、E、F, 现从表2中(60,70]的女生中抽取1人,从 (90,100]的女生中抽取2人做专题发言,求 (60,70]中的女生A和(90,100]中的女生C同时 被抽到的概率是多少?
[ 解析] 25人,
250 (1)由抽样方法知抽取的男生人数为:45× 450 =
200 抽取的女生人数为:45×450=20. 所以m=25-(3+8+6)=8,n=20-(2+5+4)=9, 故m=8,n=9.
(2)满足题意的所有抽法共有12种,情况如下: (A,C,D),(A,C,E),(A,C,F),(A,D,E),(A, D,F),(A,E,F),(B,C,D),(B,C,E),(B,C,F), (B,D,E),(B,D,F),(B,E,F). 其中A和C同时被抽中的情况有3种如下所示:(A,C, D),(A,C,E),(A,C,F). 3 1 所以A和C同时被抽中的概率为P=12=4.
.
注意:回归直线一定经过样本的中心点( - x ,- y ),据此性 质可以解决有关的计算问题.
5.回归分析 x yi-- y xi--
i= 1 n
名师伴你行届高考理科数学二轮复习专题突破题能专训第讲统计与统计案例公开课一等奖优质课大赛微课获奖课件
y2 b d b+d
总计 a+b c+d a+b+c+d
热点盘点
[二轮备考讲义] 第二部分 专题五 第2讲第11页 第11页
基础记忆
名师伴你行 ·高考二轮复习 ·数学(理)
构造一个随机变量 K2=a+bcn+add-ab+cc2b+d,其中 n=a
+b+c+d.
P(K2≥k) 0.100 0.050 0.025 0.010 0.001
名师伴你行 ·高考二轮复习 ·数学(理)
专项五 概率与统计
[二轮备考讲义] 第二部分 专题五 第2讲第3页 第3页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
第二讲 统计与统计案例
[二轮备考讲义] 第二部分 专题五 第2讲第4页 第4页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
基础记忆
名师伴你行 ·高考二轮复习 ·数学(理)
分组
频数 频率
(40,45]
n1
f1
(45,50]
n2
f2
(1)确定样本频率分布表中 n1,n2,f1 和 f2 的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
提能专训
热点盘点
[二轮备考讲义] 第二部分 专题五 第2讲第18页 第18页
基础记忆
[二轮备考讲义] 第二部分 专题五 第2讲第10页 第10页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
3.独立性检验
假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称 2×2 列联表)为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1讲 统计与统计案例[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例1 (1)(2020·玉林模拟)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭2020年全年的收入与2016年全年的收入相比增加了一倍,实现翻番.同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:则下列结论中正确的是()A.该家庭2020年食品的消费额是2016年食品的消费额的一半B.该家庭2020年教育医疗的消费额与2016年教育医疗的消费额相等C.该家庭2020年休闲旅游的消费额是2016年休闲旅游的消费额的五倍D.该家庭2020年生活用品的消费额是2016年生活用品的消费额的两倍答案 C解析选项A中,2020年食品消费占0.2,2016年食品消费占0.4,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以两年的食品消费额相等,故A项错误;选项B中,2020年教育医疗消费占0.2,2016年教育医疗消费占0.2,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年教育医疗消费额是2016年的两倍,故B项错误;选项C中,2020年休闲旅游消费占0.25,2016年休闲旅游消费占0.1,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年休闲旅游消费额是2016年的五倍,故C项正确;选项D中,2020年生活用品消费占0.3,2016年生活用品消费占0.15,因为2020年全年的收入与2016年全年的收入相比增加了一倍,所以2020年生活用品消费额是2016年的四倍,故D项错误.(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是()A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸答案 A解析根据频率分布直方图可列下表:阅读时间[0,10)[10,20)[20,30)[30,40)[40,50)[50,60](分钟) 抽样人数(名)10182225205抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸. 易错提醒 (1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂. (2)频率分布直方图中纵坐标不要误以为频率.跟踪演练1 (1)某数学教师为了解A ,B 两个班级学生的数学竞赛成绩,将两个班级参加数学竞赛的学生的成绩绘制成茎叶图,如图所示,设A ,B 两班的平均成绩分别为x A ,x B ,中位数分别为m A ,m B ,则( )A.x A >x B ,m A >m BB.x A <x B ,m A >m BC.x A >x B ,m A <m BD.x A <x B ,m A <m B答案 B解析 由茎叶图可知,x A =110×(51+57+62+63+74+76+81+84+86+98)=73.2,m A =74+762=75,x B =110×(58+64+69+71+71+75+83+85+91+92)=75.9,m B =71+752=73,可得x A <x B ,m A >m B .(2)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温不低于20 ℃的月份有5个 答案 D解析 由题中雷达图易知A ,C 正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B 正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.考点二 回归分析 核心提炼在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y )2=9 000,∑i =120 (x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y )2,2≈1.414.解 (1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000. (2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2,反映样本数据的相关程度,|r |越大,则相关性越强.跟踪演练2 (1)(2020·柳州模拟)某种产品的广告费支出x 与销售额y 之间有如下对应数据(单位:百万元),根据下表求出y 关于x 的线性回归方程为y ^=6.5x +17.5,则表中a 的值为( )A.50 B.54 C.56.5 D.64答案 B解析根据规律知道回归直线一定过样本点中心,故得到x=5,y=196+a5=50,得到a的值为54.(2)有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法正确的是()A.残差平方和变小B.相关系数r变小C.相关指数R2变小D.解释变量x与预报变量y的相关性变弱答案 A解析∵从散点图可分析得出:只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,∴相关系数变大,相关指数变大,残差平方和变小,故选A.考点三独立性检验核心提炼假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).例3为了调查一款手机的使用时间,研究人员对该款手机进行了相应的测试,将得到的数据统计如图所示:并对不同年龄层的市民对这款手机的购买意愿作出调查,得到的数据如下表所示:愿意购买该款手机不愿意购买该款手机总计40岁以下60040岁以上800 1 000总计 1 200(1)根据图中的数据,试估计该款手机的平均使用时间;(2)请将表格中的数据补充完整,并根据表中数据,判断是否有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828解(1)4×0.05×2+4×0.09×6+4×0.07×10+4×0.03×14+4×0.01×18=7.76,该款手机的平均使用时间为7.76年.(2)愿意购买该款手机不愿意购买该款手机总计40岁以下400600 1 000 40岁以上800200 1 000K 2=2 000×(400×200-600×800)21 200×800×1 000×1 000≈333.3>10.828.可知有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关. 规律方法 独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表. (2)K 2的观测值k 越大,对应的假设H 0成立的概率越小,H 0不成立的概率越大.跟踪演练3 随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 由题意知,K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.专题强化练一、选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x-y|的值为()A.4 B.3 C.2 D.1答案 A解析依题意有x+y+10+11+95=10,(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x=8,y=12或x=12,y=8,故|x-y|=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0.5 B.0.6 C.0.7 D.0.8答案 C解析根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计()A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D.乙生产的零件质量比甲生产的零件质量好答案 D解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.4.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y =a +bx B .y =a +bx 2 C .y =a +b e x D .y =a +b ln x答案 D解析 由散点图可以看出,点大致分布在对数型函数的图象附近.5.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×2列联表,由计算可得K 2≈8.806.P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是( )A .有99.5%以上的把握认为“爱好该项运动与性别无关”B .有99.5%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关” 答案 B解析 由于计算得K 2≈8.806>7.879,根据独立性检验的知识可知有99.5%以上的把握认为“爱好该项运动与性别有关”.6.为了研究某班学生的脚长x (单位:cm)和身高y (单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24 cm ,据此估计其身高为( ) A .160 cm B .163 cm C .166 cm D .170 cm 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i=22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1y i=160. 又b ^ =4,∴a ^ =y -b ^x =160-4×22.5=70. ∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^ =4×24+70=166.7.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65 答案 D解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确; 得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D错误.8.(2020·遵义市绥阳县模拟)为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标测验(指标值满分为5分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达图,则下面叙述正确的是()A.乙的数据分析素养优于甲B.乙的数学建模素养优于数学抽象素养C.甲的六大素养整体水平优于乙D.甲的六大素养中数据分析最差答案 C解析根据雷达图得到如下数据:数学抽象逻辑推理数学建模直观想象数学运算数据分析甲45454 5乙34335 4综合分析可知,C选项正确.二、填空题9.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)(单位:t)范围内的居民有________人.答案25解析依题意知,月均用水量在[2,2.5)范围内的频率为0.50×0.5=0.25,故所求居民人数为100×0.25=25.10.某赛季甲、乙两名篮球运动员每场比赛得分数据用茎叶图表示,如图所示,从茎叶图的分布情况看,________运动员的发挥更稳定.答案乙解析从茎叶图可以看出,乙的数据分布更加集中,所以乙运动员的发挥更稳定.11.(2020·成都模拟)下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)答案①②③解析由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号) ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 三、解答题13.(2020·贵阳模拟)某水果种植基地引进一种新水果品种,经研究发现该水果每株的产量y (单位:kg)和与它“相近”的株数x 具有线性相关关系(两株作物“相近”是指它们的直线距离不超过1 m),并分别记录了相近株数为0,1,2,3,4时每株产量的相关数量如下:(1)求出该种水果每株的产量y 关于它“相近”株数x 的回归方程;(2)该种植基地在如图所示的长方形地块的每个格点(横、纵直线的交点)处都种了一株该种水果,其中每个小正方形的面积都为1 m 2,现从所种的该水果中随机选取一株,试根据(1)中的回归方程,预测它的产量的平均数.附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘法估计公式分别为b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a^=y -b ^x . 解 (1)由题意得,x =15×(0+1+2+3+4)=2,y =15×(15+12+11+9+8)=11,∑i =15(x i -x )(y i -y )=(-2)×4+(-1)×1+0×0+1×(-2)+2×(-3)=-17,∑i =15(x i -x )2=(-2)2+(-1)2+02+12+22=10,所以b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=-1710,a ^=y -b ^x =11-⎝⎛⎭⎫-1710×2=725, 所以y ^=725-1710x . (2)由回归方程得当x =2时,y ^=11,当x =3时,y ^=9310,当x =4时,y ^=385,故平均数为4×11+10×9310+6×38520=9.13,所以一株产量的平均数为9.13 kg.14.目前,新冠病毒引发的肺炎疫情在全球肆虐,为了解新冠肺炎传播途径,采取有效防控措施,某医院组织专家统计了该地区500名患者新冠病毒潜伏期的相关信息,数据经过汇总整理得到如图所示的频率分布直方图(用频率作为概率).潜伏期不高于平均数的患者,称为“短潜伏者”,潜伏期高于平均数的患者,称为“长潜伏者”.(1)求这500名患者潜伏期的平均数(同一组中的数据用该组区间的中点值作代表),并计算出这500名患者中“长潜伏者”的人数;(2)为研究潜伏期与患者年龄的关系,以潜伏期是否高于平均数为标准进行分层抽样,从上述500名患者中抽取300人,得到如下列联表,请将列联表补充完整,并根据列联表判断是否有97.5%的把握认为潜伏期长短与患者年龄有关.短潜伏者长潜伏者总计60岁及以上9060岁以下140总计300附表及公式:P(K2≥k0)0.150.100.050.0250.0100.0050.001 k0 2.072 2.706 3.841 5.024 6.6357.87910.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解(1)平均数为(0.02×1+0.08×3+0.15×5+0.18×7+0.03×9+0.03×11+0.01×13)×2=6.“长潜伏者”即潜伏期时间高于6天的频率为0.5,所以500人中“长潜伏者”的人数为500×0.5=250.(2)由题意补充后的列联表如下:短潜伏者长潜伏者总计60岁及以上907016060岁以下6080140所以K 2的观测值k =300×(90×80-60×70)2150×150×160×140=7514≈5.357>5.024,所以有97.5%的把握认为潜伏期长短与患者年龄有关.。