高考文科数学二轮复习统计与统计案例

合集下载

高考数学二轮复习第2部分 统计与统计案例

高考数学二轮复习第2部分  统计与统计案例
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
查了100个企业,得到这些企业第一季度相对于前一年第一季度产
值增长率y的频数分布表.
y 的分组 [-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80)
2
24
53
14
7
企业数
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产
值负增长的企业比例;
乙离子残留百分比直方图
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图
得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值.(同一组中的数据
用该组区间的中点值为代表)
-5命题热点一
命题热点二
命题热点三
命题热点四
解 (1)由已知得0.70=a+0.20+0.15,故a=0.35.
验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲
离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、
摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠
体内离子的百分比.根据试验数据分别得到如下直方图:
-4命题热点一

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

第2讲 统计案例 高考数学(文科)二轮复习

第2讲 统计案例 高考数学(文科)二轮复习

第2讲统计案例[选题明细表]知识点、方法题号回归分析1,3独立性检验 2统计案例综合 41.(2019·广东省茂名市二调)中石化集团获得了某地深海油田块的开采权,集团在该地区随机初步勘探了部分几口井,取得了地质资料.进入全面勘探时期后,集团进行全面勘探.由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用,勘探初期数据资料见下表: 井号I 1 2 3 4 5 6 坐标(x,y)(2,30) (4,40) (5,60) (6,50) (8,70) (1,y) (km)钻探深度2 4 5 6 8 10(km)出油量(L) 40 70 110 90 160 205 (1)1~6号旧井位置线性分布,借助前5组数据求得回归直线方程为y=6.5x+a,求a,并估计y的预报值;(2)现准备勘探新井7(1,25),若通过1,3,5,7号井计算出的,的值(,精确到0.01)与(1)中b,a的值差不超过10%,则使用位置最接近的已有旧井6(1,y),否则在新位置打开,请判断可否使用旧井?(参考公式和计算结果:=,=-, =94,x 2i-1y2i-1=945)解:(1)利用前5组数据得到=(2+4+5+6+8)=5,=(30+40+60+50+70)=50,因为y=6.5x+a,所以a=50-6.5×5=17.5,所以回归直线方程为y=6.5x+17.5,当x=1时,y=6.5+17.5=24,所以y的预报值为24.(2)因为=4,=46.25,=94,x 2i-1y2i-1=945,所以==≈6.83,所以=46.25-6.83×4=18.93,即=6.83,=18.93,b=6.5,a=17.5,≈5%,≈8%,均不超过10%,所以可使用位置最接近的已有旧井6(1,24).2.(2018·湖北省八校联考)我们经常听到这种说法:“如果数学学得好,物理就没有什么大的问题了”,为了验证这句话的科学性,某班甲、乙两位同学根据高中所学的统计知识,用两种不同的方案对班上学生的数学和物理成绩进行了统计和分析,请补充完成他们的工作. (1)甲调查了班上6名同学某次考试的数学和物理成绩,得到下面的表格:1 2 3 4 5 6数学成绩x 130 120 109 95 90 80 物理成绩y 91 85 76 68 63 55 甲通过画出散点图和计算相关系数发现,y与x有一定的线性相关关系,并设回归直线方程为=x+,且根据表中数据求得=0.714,求的值;若从参与调查数学成绩不低于90分的同学中随机抽取2名,则他们的物理成绩均超过70分的概率为多少?(2)乙同学统计全班60名学生的数学和物理成绩情况,了解到班上数学成绩好的同学有36人,物理成绩好的有30人,数学和物理都好的有24人,填写下列2×2列联表,并判断有没有99%的把握认为物理成绩好与否和数学成绩有关.物理成绩好物理成绩不好总计数学成绩好数学成绩不好总计解:(1)通过计算易得=104,=73,回归直线=x+一定经过点(,),又=0.714,代入可得=-1.256.参与调查的6名同学中有5名数学成绩不低于90分,随机抽取2名有10种情况,而同时物理成绩均超过70分共有3种情况,故所求概率为.(2)填表如下:物理成绩好物理成绩不好总计数学成绩好24 12 36 数学成绩不好 6 18 24 总计30 30 60 由公式可得K2的观测值k==10>6.635,故有99%的把握认为物理成绩好与否和数学成绩有关.3.(2018·山西省八校第一次联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量 y(万台)的数据如下:年份2011 2012 2013 2014 2015 2016 2017 广告费1 2 4 6 11 13 19 支出x销售1.9 3.2 4.0 4.4 5.2 5.3 5.4量y(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:①广告费x=20时,销售量及利润的预报值是多少?②广告费x为何值时,利润的预报值最大?(精确到 0.01)参考公式:回归直线=+x的斜率和截距的最小二乘估计分别为==,=-.参考数据:≈2.24.解:(1)因为=8,=4.2,x i y i=279.4,=708,所以===0.17,=-=4.2-0.17×8=2.84,所以y关于x的线性回归方程为=0.17x+2.84.(2)因为0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,所以选用=1.63+0.99更好.(3)由(2)知,①当x=20时,销售量的预报值=1.63+0.99≈6.07(万台),利润的预报值z=200×(1.63+0.99)-20≈1 193.04(万元).②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326= -(-99)2+10 127,所以当=99,即x=9 801时,利润的预报值最大,故广告费为9 801万元时,利润的预报值最大.4.(2019·甘肃省张掖市质检)某城市随机抽取一年(365天)内100天的空气质量指数API的监测数据,结果统计如下:API[0,50] (50,100](100,150](150,200](200,250](250,300]>300空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数 4 13 18 30 9 11 15 记某企业每天由空气污染造成的经济损失为S(单位:元),空气质量指数API为ω.在区间[0,100]对企业没有造成经济损失;在区间(100,300]对企业造成经济损失呈直线模型(当API为150时造成的经济损失为500元,当API为200时,造成的经济损失为700元);当API 大于300时造成的经济损失为2 000元.(1)试写出S(ω)的表达式:(2)试估计在本年内随机抽取一天,该天经济损失S大于200元且不超过600元的概率;(3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判断能否有95%的把握认为该市本年度空气重度污染与供暖有关?附:P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.82 K2=,其中n=a+b+c+d.非重度污染重度污染合计供暖季非供暖季合计100 解:(1)根据在区间[0,100]对企业没有造成经济损失;在区间(100,300]对企业造成经济损失呈直线模型(当API为150时造成的经济损失为500元,当API为200时,造成的经济损失为700元);当API 大于300时造成的经济损失为2 000元,可得S(ω)=(2)设“在本年内随机抽取一天,该天经济损失S大于200元且不超过600元”为事件A;由200<S≤600,得100<ω≤175,频数为33,所以P(A)=.(3)根据以上数据得到如表:非重度污染重度污染合计供暖季22 8 30 非供暖季63 7 70 合计85 15 100 K2的观测值k=≈4.575>3.84,所以有95%的把握认为该市本年度空气重度污染与供暖有关.。

高考数学文科二轮复习专题六第1讲统计与统计案例案

高考数学文科二轮复习专题六第1讲统计与统计案例案

第 1 讲统计与统计事例高考定位 1.抽方法、本的数字特色、表、回剖析与独立性主要以、填空形式命,度小; 2.侧重知的交浸透,与概率,回剖析与概率是近来几年命的点, 2015 年, 2016 年和 2017 年在解答中均有考 .真感悟( 1.(2017 全·国Ⅰ卷 )估一种作物的栽种成效,了n 地作田 .n 地的量位: kg)分 x1,x2,⋯,x n,下边出的指中能够用来估种作物量定程度的是 ()A. x1, x2,⋯, x n的均匀数B. x1, x2,⋯, x n的准差C.x1, x2,⋯, x n的最大D. x1, x2,⋯, x n的中位数分析刻画估种作物量定程度的指是准差.答案B2.(2016全·国Ⅲ卷)某旅行城市向旅客介当地的气温状况,制了一年中各月均匀最高气温15 ℃,B 点表示四月的均匀和均匀最低气温的雷达.中 A 点表示十月的均匀最高气温最低气温 5 ℃ .下边表达不正确的选项是()A. 各月的均匀最低气温都在0 ℃以上B.七月的均匀温差比一月的均匀温差大C.三月和十一月的均匀最高气温基真相同D. 均匀最高气温高于20 ℃的月份有 5 个分析依据雷达可知整年最低气温都在0 ℃以上,故 A 正确;一月均匀最高气温是6℃左右,均匀最低气温2℃左右,七月均匀最高气温22℃左右,均匀最低气温13 ℃左右,所以七月的均匀温差比一月的均匀温差大, B 正确;三月和十一月的均匀最高气温都是 10 ℃,三月和十一月的均匀最高气温基真相同, C 正确;均匀最高气温高于 20 ℃的有七月和八月,D 不正确.答案 D3.(2017 山·东卷 ) 为了研究某班学生的脚长 x(单位:厘米 )和身高 y(单位:厘米 )的关系,从该班 随机抽取10 名学生,依据丈量数据的散点图能够看出y 与 x 之间有线性有关关系,设其回归^ ^ ^1010 ^直线方程为 y = bx + a.已知 ∑x i = 225, ∑y i = 1 600,b = 4.该班某学生的脚长为 24,据此估计其i =1i =1身高为 ( )A.160B.163C.166D.170- -= 160,分析 由已知得 x = 22.5, y∵回归直线方程过样本点中心- -^( x , y ),且 b = 4,^ ^∴ 160=4×22.5+a ,解得 a =70.∴回归直线方程为 ^ ^y =4x + 70,当 x = 24 时, y = 166.答案C4.(2017抽取了全·国Ⅱ卷 )海水养殖场进行某水产品的新、 旧网箱养殖方法的产量对照, 100 个网箱,丈量各箱水产品的产量 (单位: kg) ,其频次散布直方图以下:收获时各随机(1) 记 A 表示事件 “旧养殖法的箱产量低于 50 kg ”,估计 A 的概率;(2) 填写下边列联表,并依据列联表判断能否有99%的掌握以为箱产量与养殖方法有关:箱产量 <50 kg箱产量 ≥ 50 kg旧养殖法新养殖法(3) 依据箱产量的频次散布直方图,对这两种养殖方法的好坏进行比较.附:P( K 2≥k)0.050 0.010 0.001k3.8416.63510.8282n ( ad - bc ) 2K = (a + b )( c +d )( a +c )( b + d )解 (1)由 率散布直方 知,旧养殖法的箱 量低于 50 kg 的 率 (0.012+ 0.014+ 0.024+0.034+0.040) 5×= 0.62, 事件 A 的概率估 0.62.(2) 列 表以下:箱 量 <50 kg箱 量 ≥ 50 kg旧养殖法 62 38 新养殖法34662∴ K 2=200×(62×66-38×34)≈15.705>6.635,100 ×100 ×104 ×96∴有 99%的掌握 箱 量与养殖方法有关 .(3) 由箱 量的 率散布直方 可知, 旧养殖法的箱 量均匀 ( 或中位数 ) 在 45~ 50 kg 之 ,新养殖法的箱 量均匀 (或中位数 ) 在 50~ 55 kg 之 ,且新养殖法的箱 量散布集中程度旧养殖法散布集中程度高,可知新养殖法的箱 量高且 定,进而新养殖法 于旧养殖法.考点整合1.抽 方法抽 方法包含 随机抽 、系 抽 、分 抽 ,三种抽 方法都是等概率抽 ,体 了抽 的公正性,但又各有其特色和合用范.2. 中的四个数据特色(1) 众数:在 本数据中,出 次数最多的那个数据.(2) 中位数: 本数据中,将数据按大小摆列,位于最中 的数据 .假如数据的个数 偶数,就取中 两个数据的均匀数作 中位数.(3) 均匀数: 本数据的算 均匀数,即- 1x = (x 1 +x 2+⋯ + x n ).n(4) 方差与 准差 .21 -2 - 2- 2s = [( x 1- x ) + (x 2- x ) + ⋯ + (x n - x ) ] ,n1- 2- 2-2s =n [( x 1- x ) +( x 2- x ) + ⋯+( x n - x) ].3.直方 的两个率(1) 小 方形的面 = 距 ×= 率 . 距(2) 各小 方形的面 之和等于1. 4.回 剖析与独立性- -(1) 回 直 y^ = b^ x + a^ 本点的中心点 ( x , y ),若 x 取某一个 代入回 直 方程 y^ = b^ x + a^ 中,可求出 y 的估 .(2) 独立性对于取值分别是 { x1, x2} 和 { y1, y2} 的分类变量X 和 Y,其样本频数列联表是:y1y2总计x1a b a+bx2c d c+ d总计a+ c b+ d nn( ad- bc)22(此中n=a+b+c+d为样本容量).则 K =( a+ b)( c+ d)( a+ c)( b+ d)热门一抽样方法【例 1】(1)(2015 ·京卷北)某校老年、中年和青年教师的人数见下表,采纳分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320 人,则该样本中的老年教师人数为 ()类型人数老年教师900中年教师 1 800青年教师 1 600总计 4 300A.90B.100C.180D.300(2)(2017 长·沙雅礼中学质检)在一次马拉松竞赛中, 35 名运动员的成绩 (单位:分钟 )的茎叶图以下图若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7 人,则此中成绩在区间 [139 ,151] 上的运动员人数是 ________.分析 (1) 设该样本中的老年教师人数为x,由题意及分层抽样的特色得x=320,故 x= 180.900 1 600(2)依题意,可将编号为 1~ 35 号的 35 个数据分红 7 组,每组有 5 个数据 .在区间 [139, 151] 上共有20 个数据,分在 4 个小组内,每组抽取 1 人,共抽取 4 人 .答案(1)C(2)4研究提升 1.解决此类题目的要点是深刻理解各样抽样方法的特色和合用范围.但不论哪一种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与整体容量的比值.2.在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分红n 个组,则分N段间隔即为n( N 为样本容量 ),第一确立在第一组中抽取的个体的号码数,再从后边的每组中按规则抽取每个个体 .【训练1】 (1)(2017 ·郑州模拟 )为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查 .抽到的班级一共有 52 名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4 的样本,已知 7 号、 33 号、 46 号同学在样本中,那么样本中还有一位同学的编号应是()A.13B.19C.20D.51(2)(2017 江·苏卷 )某工厂生产甲、乙、丙、丁四种不一样型号的产品,产量分别为200,400,300,100 件,为查验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60 件进行查验,则应从丙种型号的产品中抽取________件 .分析(1) 由系统抽样的原理知,抽样的间隔为52÷4= 13,故抽取的样本的编号分别为7, 7+13, 7+ 13×2, 7+ 13×3,即 7 号, 20 号, 33 号, 46 号 .∴样本中还有一位同学的编号为20 号.n =60(2) 因为样本容量 n= 60,样本整体 N= 200+ 400+ 300+ 100= 1 000,所以抽取比率为N1000=350.所以应从丙种型号的产品中抽取300×3= 18(件 ). 50答案(1)C(2)18热门二用样本估计整体命题角度 1数字特色与茎叶图的应用【例 2- 1】(2017 ·北京东城质检 )某班男女生各 10 名同学近来一周均匀每日的锻炼时间(单位:分钟 ) 用茎叶图记录以下:假定每名同学近来一周均匀每日的锻炼时间是相互独立的 . ①男生每日锻炼的时间差异小,女生每日锻炼的时间差异大;②从均匀值剖析,男生每日锻炼的时间比女生多;③男生均匀每日锻炼时间的标准差大于女生均匀每日锻炼时间的标准差;④从 10 个男生中任选一人,均匀每日的锻炼时间超出 65 分钟的概率比相同条件下女生锻炼时间超出 65 分钟的概率大 .此中切合茎叶所数据的是()A. ①②③B. ②③④C.①②④D. ①③④分析由茎叶知,男生每日差小,女生差大,①正确.男生均匀每日超65 分的概率P1=105= 12,女生均匀每日超65 分的42概率 P2==,P1>P2,所以④正确.男生、女生两数据的均匀数分--s 甲,s 乙. x 甲, x 乙,准差分----易求 x甲= 65.2, x乙= 61.8,知 x 甲 > x 乙,②正确 .又依据茎叶,男生集中,女生分别,∴s 甲<s 乙,③ ,所以切合茎叶所数据的是①②④.答案C命角度2用本的率散布估体散布【例2- 2】(2016 ·四川卷 )我国是世界上重缺水的国家,某市了拟订合理的水方案,居民用水状况行了.通抽,得了某年100 位居民每人的月均用水量(位:吨将数据依据 [0, 0.5), [0.5, 1),⋯, [4,4.5] 分红 9 ,制成了如所示的率散布直方.),(1)求直方中 a 的;(2)市有 30 万居民,估全市居民中月均用水量不低于 3 吨的人数,明原因;(3)估居民月均用水量的中位数 .解(1)由率散布直方可知,月均用水量在[0, 0.5)内的率 0.08 ×0.5=0.04.同理,在 [0.5 ,1),[1.5 ,2),[2,2.5),[3,3.5),[3.5,4), [4,4.5] 的率分0.08,0.21,0.25, 0.06, 0.04, 0.02.由 1- (0.04+ 0.08+ 0.21+ 0.25+ 0.06+ 0.04+ 0.02) =0.5 ×a+ 0.5×a,解得 a=0.30.(2) 由(1) 知,市100 位居民中月均用水量不低于 3 吨的率0.06+ 0.04+ 0.02= 0.12.由以上本的率散布,能够估30 万居民中月均用水量不低于 3 吨的人数300 000×0.12= 36 000.(3)中位数 x 吨 .因前 5 的率之和0.04+ 0.08+ 0.15+0.21+ 0.25= 0.73>0.5.又前 4 的率之和0.04+ 0.08+0.15+ 0.21= 0.48<0.5.所以 2≤x<2.5.由 0.50 ×(x-2) =0.5- 0.48,解得 x=2.04.故可估居民月均用水量的中位数 2.04 吨 .研究提升 1.均匀数与方差都是重要的数字特色,是数据的一种明描绘,它所反应的情况有侧重要的意.均匀数、中位数、众数描绘数据的集中,方差和准差描绘数据的波大小 .2.在本例2- 2 中,抓住率散布直方各小方形的面之和1,是求解的关;本易混杂率散布条形和率散布直方,把率散布直方的几何意当作率,致本数据的率求.【2】(2017 ·北京卷 )某大学400 名学生参加某次,依据男女学生人数比率,使用分抽的方法从中随机抽取了100 名学生,他的分数,将数据分红7 : [20,30), [30 , 40),⋯ [80, 90],并整理获得以下率散布直方:(1)从体的 400 名学生中随机抽取一人,估其分数小于70 的概率;(2)已知本中分数小于 40 的学生有 5 人,估体中分数在区[40,50)内的人数;(3)已知本中有一半男生的分数不小于70,且本中分数不小于70 的男女生人数相等.估体中男生和女生人数的比率.解 (1)依据率散布直方可知,本中分数不小于70 的率 (0.02+0.04) ×10= 0.6,所以本中分数小于70 的率1- 0.6= 0.4.所以从体的 400 名学生中随机抽取一人,其分数小于70 的概率估 0.4.(2) 依据意,本中分数不小于50 的率(0.01+ 0.02+ 0.04+ 0.02) 10×= 0.9,分数在区 [40 , 50)内的人数 100- 100×0. 9- 5= 5.所以体中分数在区[40 , 50)内的人数估 400×5=20. 100(3) 由意可知,本中分数不小于70 的学生人数(0.02+ 0.04) 10××100= 60,所以本中分数不小于170 的男生人数 60×= 30.2所以样本中的男生人数为30×2= 60,女生人数为100- 60= 40,男生和女生人数的比率为60∶ 40= 3∶ 2.所以依据分层抽样原理,整体中男生和女生人数的比率估计为3∶2.热门三回归剖析与独立性查验【例 3】(1) 某新闻媒体为了认识观众对央视《开门大吉》节目的喜欢与性别能否有关系,随机检查了观看该节目的观众110 名,获得以下的列联表:女男总计喜欢402060不喜欢203050总计6050110试依据样本估计整体的思想,估计约有________的掌握以为“喜欢该节目与否和性别有关”.参照附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.8282n( ad- bc)2,此中(参照公式: K =( a+b)( c+ d)( a+ c)( b+ d)n= a+b+ c+ d)(2)(2016 全·国Ⅲ卷 )如图是我国2008 年至 2014 年生活垃圾无害化办理量(单位:亿吨 )的折线图 .注:年份代码1~7 分别对应年份2008~ 2014.①由折线图看出,可用线性回归模型拟合y 与 t 的关系,请用有关系数加以说明;②成立 y 对于 t 的回归方程 (系数精准到0.01),展望 2016 年我国生活垃圾无害化办理量.附注:^ ^^回归方程 y=a+ bt 中斜率和截距的最小二乘估计公式分别为:(1)分析剖析列联表中数据,可得 K 2的一个观察值k=110 ×( 40×30-20×20)299%的掌握以为“喜欢《开门大吉》节目与60×50×60×50≈ 7.822> 6.635,所以有否和性别有关”.答案99%(2) 解①由折线图中的数据和附注中参照数据得-= 4,t因为 y 与 t 的有关系数近似为 0.99,说明 y 与 t 的线性有关程度相当高,进而能够用线性回归模型拟合 y 与 t 的关系 .^ -^-a= y -b t ≈ 1.331- 0.103 × 4≈ 0.92.^所以, y 对于 t 的回归方程为 y= 0.92+0.10t.^+ 0.10 ×9= 1.82.将 2016 年对应的 t= 9 代入回归方程得: y=0.92所以展望2016 年我国生活垃圾无害化办理量约为 1.82 亿吨 .研究提升 1.求回归直线方程的要点及实质应用(1) 要点:正确理解计算^ ^b, a的公式和正确地计算 .(2)实质应用:在剖析实质中两个变量的有关关系时,可依据样本数据作出散点图来确立两个变量之间能否拥有有关关系,若拥有线性有关关系,则可经过线性回归方程估计和展望变量的值 .2.独立性查验的要点(1) 依据 2×2 列联表正确计算K 2,若 2×2 列联表没有列出来,要先列出此表.(2)K2的观察值 k 越大,对应假定事件 H0成立 ( 两类变量相互独立 )的概率越小, H 0不可立的概率越大 .【训练 3】 (1)(2017 ·贵阳调研 )某医疗研究所为了查验某种血清能起到预防感冒的作用,把 500名使用血清的人与此外500 名未使用血清的人一年中的感冒记录作比较,利用2×2 列联表计算得 K2的观察值 k≈3.918.附表:P(K2≥k0)0.150.100.050.0250.0100.0050.001 k0 2.072 2.706 3.841 5.024 6.6357.87910.828则作出“这类血清能起到预防感冒的作用”犯错的可能性不超出()A.95%B.5%C.97.5%D.2.5%(2)(2017 唐·山一模 )某市春节时期7 家商场的广告费支出 x i (万元 )和销售额 y i(万元 )数据以下:商场A B C D E F G广告费支出 x i1246111319销售额 y i①若用线性回归模型拟合y 与 x 的关系,求 y 对于 x 的线性回归方程;②用对数回归模型拟合^y 与 x 的关系,可得回归方程 y=12ln x+ 22,经计算得出线性回归模型和对数模型的 R2分别约为 0.75 和 0.97,请用 R2说明选择哪个回归模型更适合,并用此模型预测 A 商场广告费支出为8 万元时的销售额 .( 1)分析∵ k≈3.918>3.841,且P( K 2≥k0= 3.841)= 0.05,依据独立性查验思想“这类血清能起到预防感冒的作用”犯错的可能性不超出5%.答案B^ -^-所以 a= y - b x = 42- 1.7 ×8=28.4.所以, y 对于 x 的线性回归方程是^y= 1.7x+28.4.②∵ 0.75<0.97 ,∴对数回归模型更适合.^当 x = 8 , y = 12ln 8 + 22= 36ln 2 + 22= 36×0.7+22= 47.2 万元 .∴广告 支出8 万元 , A 商场 售 47.2 万元 .1.用 本估 体是 的基本思想.用 本 率散布来估 体散布的要点是 率散布表和 率散布直方 的 制及用 本 率散布估 体散布; 点是 率散布表和 率散布直方 的理解及 用.2.(1)众数、中位数及均匀数都是描绘一 数据集中 的量,均匀数是最重要的量,与每个本数占有关, 是中位数、众数所不拥有的性.(2) 准差、方差描绘了一 数据 均匀数波 的大小. 准差、方差越大,数据的失散程度就越大 .3.茎叶 、 率散布表和 率散布直方 都可直 描绘 本数据的散布 律.在 率散布直方 中,可剖析 本数据的散布状况,大概判断均匀数的范 ,并利用数据的波 性大小反应方差 ( 准差 )的大小 .率注意: 率散布直方 的 刻度是 ,而不是 率,每个小直方 的面 才是相 区 距的 率 .4.回 剖析是 拥有有关关系的两个 量 行 剖析的方法,只有在散点 大概呈 性 ,求出的 性回 方程才有 意 ,否 ,求出的 性回 方程毫无心.依据回 方程 行, 是一个 ,而不是真 生的.一、1.采纳系 抽 方法从960 人中抽取 32 人做 卷 , 此将他 随机 号1,2,⋯ ,960,分 后在第一 采纳 随机抽 的方法抽到的号 9.抽到的 32人中, 号落入区 [1,450] 的人做 卷 A , 号落入区 [451 ,750] 的人做 卷 B ,其他的人做 卷 C. 抽到的人中,做 卷 B 的人数 ( )A.7B.9C.10D.15分析 抽取号 的 隔960= 30,进而区 [451 , 750] 包含的段数750- 450= 10, 号323030落入区 [451 , 750] 的人数 10 人,即做 卷 B 的人数 10.答案 C2.(2017 全·国Ⅲ卷 )某城市 认识旅客人数的 化 律, 提升旅行服 量, 采集并整理了 2014年 1 月至 2016 年 12 月期 月招待旅客量( 位:万人 )的数据, 制了下边的折.依据该折线图,以下结论错误的选项是()A.月招待旅客量逐月增添B.年招待旅客量逐年增添C.各年的月招待旅客量顶峰期大概在7,8 月D. 各年1 月至 6 月的月招待旅客量相对于7 月至12 月,颠簸性更小,变化比较安稳分析由题图可知,2014 年8 月到9 月的月招待旅客量在减少,则 A 选项错误.答案A3.(2017 山·东卷 ) 以下图的茎叶图记录了甲乙两组各两组数据的中位数相等,且均匀值也相等,则x 和5 名工人某日的产量数据y 的值分别为 ()(单位:件 ).若这A.3, 5B.5 ,5C.3, 7D.5,7解析由茎叶图知甲组数据中位数为 65 ,所以 y = 5 ,此时乙组平均值为66.56+65+ 62+74+ 70+x=66,解得x=3.5答案A4.(2017 汉·中模拟 )已知两个随机变量x, y 之间的有关关系如表所示:x- 4- 2124y- 5- 3- 1- 0.51依据上述数据获得的回归方程为^ ^^) y= bx+ a,则大概能够判断 (^^^^ A. a>0, b>0 B. a>0, b<0^^^^ C.a<0, b>0 D.a<0, b<0分析作出散点图,画出回归直线直观判断^^ b>0, a<0.答案C5.(2017 济·南调研 )2016 年济南地铁正式动工建设,地铁时代的到来可否缓解济南的交通拥挤状况呢?某社团进行社会检查,获得的数据以下表:男性市民女性市民以为能缓解交通拥挤4830以为不可以缓解交通拥挤1220则以下结论正确的选项是()2n( ad- bc)2附:K =( a+ b)( a+ c)( b+ d)( c+ d)P(K 2≥k)0.050.0100.0050.001k 3.841 6.6357.87910.828A. 有 95%的掌握以为“对可否缓解交通拥挤的认识与性别有关”B. 有 95%的掌握以为“对可否缓解交通拥挤的认识与性别没关”C.有 99%的掌握以为“对可否缓解交通拥挤的认识与性别有关”D.有 99%的掌握以为“对可否缓解交通拥挤的认识与性别没关”分析由 2×2 列联表,可求K 2的观察值,(48+ 30+ 12+ 20)( 20×48- 12×30)2k=( 48+30)( 48+ 12)( 12+ 20)( 30+ 20)≈5.288>3.841.由统计表P(K 2≥ 3.841)= 0.05,∴有 95%的掌握以为“可否缓解交通拥挤的认识与性别有关”.答案 A二、填空题6.(2017 石·家庄质检 )为比较甲、乙两地 14时的气温状况,随机选用该月中的 5 天,将这 5 天中 14 时的气温数据 (单位:℃ )制成以下图的茎叶图 .考虑以下结论:①甲地该月 14 时的均匀气温低于乙地该月14 时的均匀气温;②甲地该月 14 时的均匀气温高于乙地该月14 时的均匀气温;③甲地该月 14 时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月 14 时的气温的标准差大于乙地该月14时的气温的标准差 .此中依据茎叶图能获得的统计结论的编号正确的选项是________.分析-+29+ 31+31=29,x甲=26+ 285-28+ 29+ 30+31+--x 乙=32= 30,则 x 甲< x 乙,①正确 .5由茎叶图知,乙地的气温相对照较集中,甲地的气温相对照较失散.所以甲地该月的标准差大于乙地该月的标准差,④正确.答案①④7.(2017 泉·州模拟 )某厂在生产甲产品的过程中,产量x(吨 )与生产能耗 y(吨 )的对应数据如表:x30405060y25354045依据最小二乘法求得回归方程为^^80 吨时,估计需要生产能耗为 ________ y= 0.65x+a,当产量为吨 .--^^^分析由题意, x = 45, y = 36.25,代入 y= 0.65x+ a,得 a= 7,∴当产量为 80 吨时,估计需要生产能耗为 0.65 ×80+ 7= 59.答案 598.(2016 山·东卷改编 )某高校检查了200 名学生每周的自习时间 (单位:小时 ),制成了以下图的频次散布直方图,此中自习时间的范围是[17.5 ,30],样本数据分组为 [17.5 ,20),[20,22.5),[22.5 , 25), [25 ,27.5), [27.5 , 30].依据直方图,这200 名学生中每周的自习时间许多于22.5小时的人数是 ________.分析设所求的人数为 n,由频次散布直方图,自习时间许多于22.5 小时的频次为 (0.04+ 0.08+0.16) ×2.5= 0.7,∴ n= 0.7 ×200= 140.答案 140三、解答题9.(2017 全·国Ⅲ卷 )某商场计划按月订购一种酸奶,每日进货量相同,进货成本每瓶 4 元,售价每瓶 6 元,未售出的酸奶降价办理,以每瓶 2 元的价钱当日所有办理完.依据早年销售经验,每日需求量与当日最高气温(单位:℃ )有关 .假如最高气温不低于25,需求量为500 瓶;假如最高气温位于区间 [20, 25),需求量为300 瓶;假如最高气温低于20,需求量为200 瓶 .为了确立六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下边的频数散布表:最高气温[10 ,15)[15 , 20)[20, 25)[25,30)[30 , 35)[35 , 40)天数216362574以最高气温位于各区间的频次估计最高气温位于该区间的概率.(1) 估计六月份这类酸奶一天的需求量不超出300 瓶的概率;(2) 设六月份一天销售这类酸奶的收益为Y(单位:元 ) ,当六月份这类酸奶一天的进货量为450瓶时,写出 Y 的所有可能值,并估计Y 大于零的概率 .解 (1)这类酸奶一天的需求量不超出300 瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25 的频次为2+16+36= 0.6.90所以这类酸奶一天的需求量不超出300 瓶的概率的估计值为0.6.(2) 当这类酸奶一天的进货量为450 瓶时,若最高气温低于20,则 Y= 200×6+ (450- 200) ×2- 450×4=- 100;若最高气温位于区间[20 , 25),则 Y= 300×6+ (450-300) ×2- 450×4= 300;若最高气温不低于25,则 Y= 450×(6- 4)= 900,所以,收益Y 的所有可能值为-100, 300, 900.Y 大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20 的频次为36+ 25+ 7+ 4=0.8.90所以 Y 大于零的概率的估计值为 0.8.10.(2017 赤·峰二模 )微信是腾讯企业推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至浮现出一批在微信的朋友圈内销售商品的人(被称为微商 ).为了检查每日微信誉户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各 50 名,将男性、女性使用微信的时间分红 5 组: (0, 2],(2, 4],(4, 6], (6,8],(8, 10]分别加以统计,获得以下图的频次散布直方图.(1)依据女性频次散布直方图估计女性使用微信的均匀时间;(2)若每日玩微信超出 4 小时的用户列为“微信控”,不然称其为“非微信控”,请你依据已知条件达成 2×2 的列联表,并判断能否有 90%的掌握以为“微信控”与“性别有关”?解 (1)女性均匀使用微信的时间为:0.16 ×1+0.24 ×3+0.28 ×5+0.2 ×7+ 0.12 ×9= 4.76(小时 ).(2) 由已知得: 2(0.04+ a+0.14+ 2×0.12)= 1,解得 a= 0.08.由题设条件得列联表微信控非微信控总计男性381250女性302050总计68321002∴K 2=n( ad-bc)( a+ b)( c+d)( a+c)( b+ d)100( 38×20- 30×12)2=≈ 2.941>2.706.50×50×68×32所以有 90% 的掌握“微信控”与“性”有关 .11.(2017 全·国Ⅰ卷 )了控某种部件的一条生的生程,每隔30 min 从生上随机抽取一个部件,并量其尺寸(位: cm). 下边是在一天内挨次抽取的16 个零件的尽寸:抽取序次12345678部件尺寸9.9510.129.969.9610.019.929.9810.04抽取序次910111213141516部件尺寸10.269.9110.1310.029.2210.0410.059.95( 1)求( x i,i )( i= 1, 2,⋯, 16)的有关系数r,并回答能否能够一天生的部件尺寸不随生程的行而系地大或小(若|r |<0.25,能够部件的尺寸不随生程的行而系地大或小).( 2)一天内抽部件中,假如出了尺寸在(--x- 3s, x +3s)以外的部件,就条生在一天的生程可能出了异样状况,需当日的生程行.①从一天抽的果看,能否需当日的生程行?--②在( x - 3s, x + 3s)以外的数据称离群,剔除离群,估条生当日生的部件尺寸的均与准差.(精准到0.01)解 (1)由本数据得 (x i, i)(i =1, 2,⋯,16)的有关系数因为 |r |<0.25,所以能够以为这天生产的部件尺寸不随生产过程的进行而系统地变大或变小.-= 9.97,s≈0.212,由样本数据能够看出抽取的第13 个部件的尺寸在--+(2) ①因为 x( x- 3s, x 3s)以外 .所以需对当日的生产过程进行检查.②剔除离群值,即第13 个数据,剩下数据的均匀数为115(16×9.97-9.22) = 10.02,这条生产线当日生产的部件尺寸的均值的估计值为10.02.162+ 16×9.9722≈ 16× 0.212≈ 1 591.134,xi= 1剔除第 13 个数据,剩下数据的样本方差为1(1 591.134- 9.222- 15×10.022) ≈ 0.008,15这条生产线当日生产的部件尺寸的标准差的估计值为0.008≈0.09.。

第1讲 统计与统计案例教案(有解析) 高三数学(文科)二轮复习

第1讲 统计与统计案例教案(有解析) 高三数学(文科)二轮复习

第1讲 统计与统计案例1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1 (1)(2017·山东省实验中学一模)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是( )A .5B .6C .7D .8答案 C解析 设第一组中抽出的号码是x ,列方程有x +30020×15=232⇒x =7, 即第一组中抽出的号码是7.故选C.(2)某高级中学高一、高二、高三年级的学生人数分别为600,700,700,为了解不同年级学生的眼睛近视情况,现用分层抽样的方法抽取了容量为100的样本,则高三年级应抽取的学生人数为________. 答案 35解析 由题意结合抽样比可得,高三年级应抽取的学生人数为100×700600+700+700=35. 思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的.(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1 (1)(2017·葫芦岛协作体模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行、第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )A.12 B .33C .06D .16答案 C解析 被选中的红色球号码依次为17,12,33,06,所以第四个被选中的红色球号码为06,故选C.(2)(2017届江西重点中学协作体联考)高三某班有学生36人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、23号、32号学生在样本中,则样本中还有一个学生的编号为( )A .13B .14C .18D .26答案 B解析 ∵高三某班有学生36人,用系统抽样的方法,抽取一个容量为4的样本,∴样本组距为36÷4=9,则5+9=14,即样本中还有一个学生的编号为14,故选B.热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. 2.频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)(2017·全国Ⅰ)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数答案 B解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.(2)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图可知,这200名学生中每周的自习时间不足22.5小时的人数是________.。

(典型题)高考数学二轮复习-知识点总结-统计与统计案例

(典型题)高考数学二轮复习-知识点总结-统计与统计案例

统计与统计案例1。

该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成.2.常用的统计图表(1)频率分布直方图①小长方形的面积=组距×错误!=频率;②各小长方形的面积之和等于1;③小长方形的高=错误!,所有小长方形的高的和为错误!.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数数字特征样本数据频率分布直方图众数出现次数最多的数据取最高的小长方形底边中点的横坐标中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和s2x12x22x n2标准差:s=错误!。

4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),…,(x n,y n),通过求Q =错误!(y i-a-bx i)2最小时,得到线性回归方程错误!=错误!x+错误!的方法叫做最小二乘法.5.独立性检验对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d n则K2=错误!(其中n=a+b+c+d为样本容量).考点一抽样方法例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9。

高考复习课件高考二轮文科数学专题3第6讲统计与统计案例

高考复习课件高考二轮文科数学专题3第6讲统计与统计案例

B.4
C.5
D.6
【解析】选 B
对数据进行分组,在区间[139,151]上,有几组就有
几个运动员.
35÷7=5,因此可将编号为 1~35 的 35 个数据分成
7 组,每组有 5 个数据,在区间[139,151]上共有 20 个数
据,分在 4 个小组中,每组取一人,共取 4 人.
【命题立意】本题主要考查茎叶图、系统抽样等.
c.|r|≤1,且|r|越接近于 0,相关程度越低.
(2)相关性检验的步骤 ①作统计假设,假设 x 与 y 不具有线性相关关系; ②根据检验水平 0.05 查出 r 的一个临界值 r0.05; ③根据样本相关系数计算公式计算 r 的值; ④作统计推断.如果|r|>r0.05,表明有 95%的把握 认为 x 与 y 之间具有线性相关关系;如果|r|≤r0.05,则 没有理由拒绝原来的假设,这时寻找线性回归方程是
的用户分别有 15 户、10 户、5 户,故抽取比例为25+151+1 10+5=51,
∴ 从月平均用电量在[220,240)的用户中应抽取 25×51=5(户).
【命题立意】本题主要考查频率分布直方图、样本的数字特征 和分层抽样.
1.抽样方法(三种抽样方法比较)
类别
共同 点
各自特点
相互联系
简单随
(2)茎叶图 ① 茎叶图:当数据有两位有效数字时,用中间的 数字表示十位数,即第一个有效数字,两边的数字表 示个位数,即第二个有效数字,它的中间部分像植物 的茎,两边部分像植物茎上长出来的叶子,因此,通 常把这样的图叫做茎叶图. ② 用茎叶图表示数据有两个优点: 一是统计图上没有原始数据信息的损失,所有数 据信息都可以从茎叶图中得到; 二是茎叶图中的数据可以随时记录,随时添加, 方便记录与表示.

高考数学文科二轮复习练习(全国通用):第一篇第19练统计与统计案例

高考数学文科二轮复习练习(全国通用):第一篇第19练统计与统计案例

第 19 练统计与统计事例[明考情 ]统计中的抽样方法、统计图表、样本估计整体,少量年份观察,形式为选择、填空题,中低档难度 .[知考向 ]1.随机抽样 .2.统计图表和样本数字特色.3.统计事例 .考点一随机抽样重点重组简单随机抽样的特色是逐一抽取,合用于整体个数较少状况;系统抽样也称等距抽样,合用整体个数许多状况;分层抽样必定要注意按比率抽取,整体由差别显然的几部分组成 .1.某学校有男学生400 名,女学生600 名 .为认识男、女学生在学习兴趣与业余喜好方面能否存在明显差别,拟从全体学生中抽取男学生40 名,女学生60 名进行检查,则这类抽样方法是 ()A. 抽签法B.随机数法C.系统抽样法D.分层抽样法答案 D分析由题意知,样本和整体中男、女生的比率都是2∶ 3,所以这类抽样方法为分层抽样. 2.采纳系统抽样方法从 960 人中抽取 32 人做问卷检查,为此将他们随机编号为1,2,,960,分组后在第一组采纳简单随机抽样的方法抽到的号码为9.抽到的 32 人中,编号落入区间 [1,450] 的人做问卷 A,编号落入区间 [451 ,750] 的人做问卷 B,其他的人做问卷C,则抽到的人中,做问卷 B 的人数为 ()答案 D分析按系统抽样的规则应把整体分红32 组,每组30 人,即抽样的间隔为30.因为450= 15,30所以做问卷 A 的有 15 人;因为750= 25,所以做问卷 B 的有 25- 15= 10(人 ).应选 D. 303.(2017 长·沙模拟 )某林场有树苗30000 棵,此中松树苗4000 棵,为检查树苗的生长状况,采用分层抽样的方法抽取一个容量为150 的样本,则样本中松树苗的数目为()答案 A分析依据分层抽样的定义可得样本中松树苗的数目为4000× 150= 20.300004.(2017 烟·台模拟 )用 0,1,2,, 299 给 300 名学生编号,并用系统抽样的方法从中抽取15名学生的数学成绩进行质量剖析,若从第一组抽取的学生的编号为8,则从第三组抽取的学生编号为 ()答案 D分析∵是从 300 名学生中抽取15 个样本,∴组距是 20,∵第一组抽取的学生的编号为8,∴第三组抽取的学生编号为8+ 40=48.5.(2017 江·苏 ) 某工厂生产甲、乙、丙、丁四种不一样型号的产品,产量分别为200,400,300,100 件,为查验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60 件进行查验,则应从丙型号的产品中抽取________件 .答案 18样本容量603分析∵整体个数=200+400+ 300+ 100=50.∴ 应从丙型号的产品中抽取3× 300= 18(件 ). 50考点二统计图表和样本数字特色方法技巧1.由频次散布直方图进行有关计算时,需掌握关系式:频数=频次,此关系式的变形为样本容量频数=样本容量,样本容量×频次=频数.频次2.整体估计的方法:用样本的数字特色估计整体的数字特色.3.图表判断法:若依据统计图表比较样本数据的大小,可依据数据的散布状况直观剖析,大致判断均匀数的范围,并利用数据的颠簸性大小比较方差(标准差 )的大小 .6.某中学初中部共有110 名教师,高中部共有150 名教师,其性别比比以下图,则该校女教师的人数为()答案 B分析由题干扇形统计图可得该校女教师人数为110× 70%+150× (1- 60%) = 137.应选 B.7.从朝阳小区抽取100 户居民进行月用电量检查,为拟订阶梯电价供给数据,发现其用电量都在 50 到 350 度之间,制作频次散布直方图的工作人员马马虎虎,地点t 处未注明数据,你以为t 等于 ()答案 D分析由题意得, 50× (0.006+ t +0.0036+ 0.0024× 2+0.0012) = 1,t= 0.0044.8.(2017山·东 ) 以下图的茎叶图记录了甲、乙两组各5 名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且均匀值也相等,则x 和y 的值分别为()A.3 , 5B.5, 5C.3, 7D.5, 7答案 A分析甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y= 5.又甲、乙两组数据的均匀值相等,∴1× (56+ 65+ 62+ 74+ 70+ x) =1× (59+ 61+67+ 65+ 78),55∴x= 3.应选 A.9.对某同学的 6 次物理测试成绩 (满分 100 分 )进行统计,作出的茎叶图以下图,给出对于该同学物理成绩的以下说法:①中位数为 84;②众数为 85;③均匀数为 85;④极差为 12.此中,正确说法的序号是 ________.答案①③分析将图中各数从小到大摆列为78, 83, 83,85,90,91,所以中位数为83+85=84,众数2为 83,均匀数为1× (78+ 83+ 83+ 85+90+ 91)= 85,极差为 91- 78= 13,故①③正确 . 610.学校依据某班的期中考试成绩绘制了频次散布直方图(以下图 ),依据图中所给的数据可知 a+b= ________.答案 0.06分析由题意得,依据频次散布直方图中各个矩形的面积和为 1,则 (0.01 +0.012+ 0.018+ a+ b)×10=1,所以 a+ b= 0.06.考点三统计事例方法技巧(1) 线性回归方程问题的两个重点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值 .(2)独立性查验的重点在于正确求出K2值,而后对照临界值表中的数据,而后下结论.11.(2017 宁·德一模 )从某大学随机抽取的 5 名女大学生的身高x(厘米 )和体重 y(公斤 )数据如表:x165160175155170y5852624360^^^依据上表可得线性回归方程为y= 0.92x+ a,则 a等于 ()A. -C.-答案A分析由表中数据可得x = 165,y = 55,^^∵ ( x , y )必定在线性回归方程y= 0.92x+ a上,^∴ 55=0.92× 165+ a,^解得 a=- 96.8.^12.已知变量 x,y 呈线性有关关系,回归方程为y= 1-2x,则变量 x, y 是 ()A. 线性正有关关系B. 由回归方程没法判断其正负有关关系C.线性负有关关系D.不存在线性有关关系答案 C^分析依据变量x, y 的线性回归方程是y= 1- 2x,^回归系数所以变量b=- 2< 0,x, y 是线性负有关关系.13.(2017南·昌一模)设某中学的高中女生体重y(单位: kg)与身高x( 单位: cm) 拥有线性有关关^系,依据一组样本数据(x i,y i)(i = 1, 2,3,, n),用最小二乘法近似获得线性回归方程为y=0.85x- 85.71,则以下结论中不正确的选项是() A. y 与 x 拥有正的线性有关关系B. 回归直线过样本点的中心( x , y )C.若该中学某高中女生身高增添1cm,则其体重约增添0.85kgD.若该中学某高中女生身高为160cm,则可判定其体重必为50.29kg答案 D分析因为线性回归方程中 x 的系数为 0.85,所以 y 与 x 拥有正的线性有关关系, A 正确;由线性回归方程必过样本点中心( x , y )知, B 正确;由线性回归方程中系数的意义知,x 每增添 1cm,其体重约增添 0.85kg, C 正确;当某女生的身高为160cm 时,其体重估计值是50.29kg ,而不是详细值,所以 D 错误 .应选D.14.经过随机咨询110 名学生能否喜好打篮球,获得以下的2× 2 列联表:男女总计喜好402060不喜好203050总计60501102n ad- bc2附:K =,此中 n= a+ b+ c+ d.a+ b c+ d a+ c b+ dP(K 2≥ k0)0.0500.0100.001k0 3.841 6.63510.828参照附表,正确的结论是()A. 在出错误的概率不超出0.1%的前提下,以为“喜好打篮球与性别没关”B. 在出错误的概率不超出0.1%的前提下,以为“喜好打篮球与性别有关”C.有 99%以上的掌握以为“喜好打篮球与性别没关”D.有 99%以上的掌握以为“喜好打篮球与性别有关”答案 D2110× 40× 30- 20×2021%的前提分析因为 K =60× 50×60× 50≈ 7.8> 6.635,所以在出错误的概率不超出下,即有99%以上的掌握以为“ 喜好打篮球与性别有关”.15.在西非暴虐的“埃博拉病毒”的流传速度很快,这已经成为全世界性的威迫.为了观察某种埃博拉病毒疫苗的成效,现随机抽取100 只小鼠进行试验,获得以以下联表:感染未感染总计服用104050未服用203050总计3070100附表:P(K2≥ k0)0.100.050.025k0 2.706 3.841 5.024参照附表,在出错误的概率不超出________(填百分比 )的前提下,以为“小鼠能否被感染与服用疫苗有关” .答案 5%分析K2=100 10×30-20×402≈ 4.762> 3.841,所以在出错误的概率不超出5%的前提下,30×70× 50×50以为“小鼠能否被感染与服用疫苗有关” .1.为了保证乘客的安全,某市要对该市出租车司机的年纪进行检查,现从中随机抽出 100 司机,已知抽到的司机年纪都在 [20 , 45)岁之间,依据检查结果,得出司机年纪状况的残破名的频次散布直方图以下图,利用这个残破的频次散布直方图估计该市出租车司机年纪的中位数大概是 ()答案 C分析 依据直方图的性质, [25,30)岁对应的频次为 1- (0.01× 5+ 0.07× 5+ 0.06× 5+ 0.02× 5)= 0.2.∵ 中位数处左右频次各占0.5,易知中位数在 30~ 35 之间,设中位数为 x ,则 0.25+ 0.07(x - 30)= 0.5,∴ x ≈ 33.6, ∴ 中位数大概是 34.2.如图是某汽车 4S 店 10 个月销售某豪华汽车数目(单位:台 )的茎叶图,若 m 是 2 与 12 的等差中项,则数据落在区间[19, 29)内的概率为 ()答案 C分析 因为 m 是 2 与 12 的等差中项,所以m = 2+ 12=7,2所以 10 个数据中落在区间[19 ,29)内的数占有19,21,22,22,27,共 5 个,所以,样本中的数据落在区间[19 , 29)内的频次为 105=0.5,所以数据落在区间 [19 , 29)内的概率为 0.5,应选 C.解题秘笈 (1) 在频次散布直方图中:①最高的小长方形底边中点的横坐标即是众数;②中位数左侧和右侧的小长方形的面积和是相等的;③均匀数是频次散布直方图的“重心”,等于频次散布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.(2)茎叶图的特色是保存了完好的原始数据,依据茎叶图就能够获得数据的所有数字特色.求解茎叶图问题需注意:重复出现的数字应当按原次数写入叶子部位,不可以只写入一次.1.对一个容量为 N 的整体抽取容量为 n 的样本,当选用简单随机抽样、系统抽样和分层抽样三种不一样方法抽取样本时,整体中每个个体被抽中的概率分别为p 1, p 2, p 3,则 ()A. p 1=p 2<p 3B. p 2= p 3<p 1C.p 1=p 3<p 2D. p 1= p 2= p 3答案 D分析 因为采纳简单随机抽样、系统抽样和分层抽样抽取样本时,整体中每个个体被抽中的概率相等,应选 D.2.(2017 中·卫二模 )某市教育主管部门为了全面认识 2017 届高三学生的学习状况, 决定对该市参加 2017 年高三第一次全国大联考统考 ( 后称统考 )的 32 所学校进行抽样检查,将参加统考的 32 所学校进行编号,挨次为1 到 32,现用系统抽样法,抽取8 所学校进行检查,若抽到的最大编号为 31,则最小的编号是 ()答案 D32分析 依据系统抽样法,整体分红8 组,组距为 8 = 4,若抽到的最大编号为 31,则最小的编号为 3.3.交通管理部门为认识灵活车驾驶员(简称驾驶员 )对某新法例的了解状况,对甲、乙、丙、丁四个社区做分层抽样检查 .假定四个社区驾驶员的总人数为 N ,此中甲社区有驾驶员96 人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为 12, 21, 25, 43,则这四个社区驾驶员的总人数 N 为 ()答案 B1212+ 21+ 25+43= 101,分析 由题意知,抽样比为 96,而四个社区一共抽取的驾驶员人数为 故有 12=101,解得 N =808.96N4.某学校教务处采纳系统抽样方法,从学校高三年级全体 1000 名学生中抽 50 名学生做学习状况问卷检查 .现将 1000 名学生从1 到 1000 进行编号, 求得间隔数 k = 20,即分 50 组,每组20 人 .在第 1 组中随机抽取一个号,假如抽到的是17 号,则第 8 组中应抽取的号码是()答案 B分析 依据系统抽样法的特色, 可知抽取的号码为首项为 17,公差为 20 的等差数列, 所以第 8组应抽取的号码是17+ (8-1)×20= 157.5.某市 8 所中学学生参加竞赛的得分茎叶图以下图,此中茎为十位数,叶为个位数,则这组数据的均匀数和方差分别是()A.91 , 5.5B.91 ,5C.92, 5.5D.92 ,5答案 A分析把茎叶图中的数据按由小到大的次序摆列,以下:87, 88, 90, 91, 92, 93, 93, 94.均匀数是18× (87+88+ 90+ 91+ 92+ 93+ 93+ 94)=91,212222s =× [(87 - 91) + (88- 91) + (90- 91) ++ (94- 91) ] = 5.5.6.(2016 全·国Ⅲ) 某旅行城市为向旅客介绍当地的气温状况,绘制了一年中各月均匀最高气温和均匀最低气温的雷达图.图中 A 点表示十月的均匀最高气温约为最低气温约为5℃ .下边表达不正确的选项是()15℃,B 点表示四月的均匀A. 各月的均匀最低气温都在0℃以上B.七月的均匀温差比一月的均匀温差大C.三月和十一月的均匀最高气温基真同样D.均匀最高气温高于20℃的月份有 5 个答案 D分析由题意知,均匀最高气温高于20℃的有七月,八月,应选 D.7.从某小学随机抽取100 名同学,将他们的身高(单位:厘米 )数据绘制成频次散布直方图,图所示,由图中数据可知,身高在[120 , 130) 内的学生人数为()如答案 C分析由图可知, (0.035+ a+0.020+ 0.010+ 0.005)×10= 1,解得 a= 0.03,所以身高在[120,130)内的学生人数在样本中的频次为0.03× 10= 0.3,所以身高在 [120 , 130)内的学生人数为0.3× 100= 30.应选 C.8.以下图的茎叶图是某班学生在一次数学测试中的成绩:依据茎叶图,得出该班男、女生数学成绩的四个统计结论,此中错误的一项为哪一项()A.15名女生成绩的均匀分为78B.17名男生成绩的均匀分为77C.女生成绩和男生成绩的中位数分别为82, 80D.男生中的高分段和低分段均比女生多,对比较而言,男生两极分化比较严重答案 C1分析 15 名女生成绩的均匀分为15× (90+ 93+ 80+ 80+ 82+ 82+83+ 83+85+ 70+71+73+75+ 66+ 57)= 78,故 A 正确;选项 B,17 名男生成绩的均匀分为1× (93+ 93+ 96+ 80+82 17+83+86+ 86+88+ 71+74+ 75+ 62+ 62+ 68+ 53+57)= 77,故 B 正确;选项 D ,察看茎叶图,对男生、女生成绩进行比较,可知男生两极分化比较严重,故 D 正确;选项 C,依据女生和男生成绩数据剖析可得,两组数据的中位数均为 80,故 C 错误 .综上,选 C.9.(2017 永·州二模 )实验测得四组数对 ( x, y)的值为 (1, 2), (2, 5),(4, 7), (5,10),则 y 与 x 之间的线性回归方程可能是()^^A. y= x+ 3B.y= x+ 4^^C.y= 2x+ 3D. y= 2x+ 4答案 A分析由题意可知,x = 3, y =6,线性回归方程经过点(3, 6).代当选项, A 切合 .10.(2017 宜·春二模 )某公司节能降耗技术改造后,在生产某产品过程中的产量x( 吨)与相应的生产能耗 y(吨 )的几组对应数据如表所示:x3456y 2.534 4.5^^若依据表中数据得出y 对于x 的线性回归方程为y= 0.7x+a,若生产7 吨产品,估计相应的生产能耗为 ()A.5.25 吨B.5.15 吨C.5.5 吨D.9.5 吨答案 A分析由表中数据,计算得x =14× (3+4+ 5+ 6)= 4.5,1y =4× (2.5+ 3+ 4+4.5) =3.5,^^且线性回归方程y= 0.7x+a过样本点中心( x , y ),^即 3.5= 0.7× 4.5+ a,^解得 a= 0.35,^∴ x, y 的线性回归方程是y= 0.7x+ 0.35.^将 x=7 代入,得 y= 5.25.11.在一次百米测试中,某年级120名学生成绩所有介于13 秒与 18 秒之间 .将测试结果分红5组: [13 , 14), [14, 15), [15 , 16), [16, 17), [17 , 18],获得以下图的频次散布直方图.假如从左到右的 5 个小矩形的面积之比为1∶3∶ 7∶ 6∶ 3,那么成绩在 [16 ,18]的学生人数是________.答案 54分析成绩在 [16, 18] 的学生人数所占比率为6+ 3=9,所以成绩在[16 , 18]的学生1+3+7+6+3209人数为 120×20= 54.12.某校为了研究学生的性别和对待某一活动的态度( 支持和不支持两种态度)的关系,运用2× 2 列联表进行独立性查验,经计算K2= 7.069,则所获得的统计学结论是:有________的掌握以为“学生性别与支持该活动有关系.”附:P(K2≥ k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828答案 99%分析因为 7.069> 6.635,所以获得的统计学结论是:有 1- 0.010= 0.99= 99%的掌握以为“学生性别与支持该活动有关系” .。

高考数学大二轮复习 7.2 统计与统计案例学案 文-人教版高三全册数学学案

高考数学大二轮复习 7.2 统计与统计案例学案 文-人教版高三全册数学学案

第2讲统计与统计案例考点1 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[例1] (1)[2019·全国卷Ⅰ]某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )A.8号学生B.200号学生C.616号学生D.815号学生(2)[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )A.0.5 B.0.6C.0.7 D.0.8【解析】(1)本题考查系统抽样;考查了数据处理能力;考查的核心素养为数据分析.将1 000名学生分成100组,每组10人,则每组抽取的号码构成公差为10的等差数列{a n},由题意知a5=46,则a n=a5+(n-5)×10=10n-4,n∈N*,易知只有C选项满足题意.故选C.(2)本题主要考查用样本估计总体;考查学生对实际问题的处理能力和数据分析能力;考查了数据分析的核心素养.在样本中,仅阅读过《西游记》的学生人数为90-80=10,又由既阅读过《西游记》又阅读过《红楼梦》的学生人数为60,得阅读过《西游记》的学生人数为10+60=70,所以在样本中阅读过《西游记》的学生人数所占的比例为70100=0.7,即为该校阅读过《西游记》的学生人数与该校学生总数比值的估计值.【答案】 (1)C (2)C(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的; (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.『对接训练』1.[2019·河北枣强中学期末]总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为( )21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06 91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26 A .12 B .07 C .15 D .16解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.答案:C2.[2019·惠州市高三第二次调研]某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点2 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[例2] (1)[2018·江苏卷]已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________;(2)[2017·全国卷Ⅰ]为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,xn ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,xn 的平均数B .x 1,x 2,…,xn 的标准差C .x 1,x 2,…,xn 的最大值D .x 1,x 2,…,xn 的中位数【解析】 (1)这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为89+89+90+91+915=90.(2)因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.【答案】 (1)90 (2)B众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.『对接训练』3.[2019·河北石家庄模拟]已知甲、乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25解析:由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确.故选D.答案:D4.[2019·河北衡水中学五调]某“跑团”为了解团队每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是( )A .月跑步平均里程的中位数为6月份对应的平均里程数B .月跑步平均里程逐月增加C .月跑步平均里程高峰期大致在8月和9月D .1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳 解析:由折线图知,月跑步平均里程的中位数为5月份对应的平均里程数,A 错;月跑步平均里程不是逐月增加的,B 错;月跑步平均里程高峰期大致在9月和10月,C 错.故选D.答案:D考点3 变量的相关性与统计案例1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x-y-∑i =1nx 2i -n x -2,a ^=y --b ^x -;(x -,y -)称为样本中心点.2.随机变量K 2(χ2)=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ),若K 2(χ2)>3.841,则有95%的把握说两个事件有关; 若K 2(χ2)>6.635,则有99%的把握说两个事件有关.[例3] [2019·全国卷Ⅰ]某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解析】 象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键①根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表. ②K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.『对接训练』5.[2019·湖南长沙长郡中学调研]长沙某公司对其主推产品在过去5个月的月广告投入x i (万元)和相应的销售额y i (万元)进行了统计,其中i =1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些数据如下:∑i =15x i =6.8,∑i =15w i =10.3,∑i =15y i =15.8,∑i =15x i y i =22.76,∑i =15w i y i =34.15,∑i =15(x i -x )2=0.46,∑i =15(w i -w )2=3.56,其中w i =x 2i ,i =1,2,3,4,5.(1)根据散点图判断y =bx +a 与y =cx 2+d 哪一个适宜作为月销售额y 关于月广告投入x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及题中所给数据,建立y 关于x 的回归方程,并据此估计月广告投入220万元时的月销售额.附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=解析:(1)根据散点图可知,y =cx 2+d 适宜作为月销售额y 关于月广告投入x 的回归方程类型.(2)由题意知,=34.15-5×10.35×15.853.56=0.45,d ^=y --0.45×w -=15.85-0.45×10.35=2.233,故回归方程为y ^=0.45x 2+2.233,当月广告投入为220万元时,月销售额y ^=0.45×2202+2.233=21 782.233(万元). 故选择y =cx 2+d 作为回归方程模型,当月广告投入为220万元时,月销售额约为21 782.233万元.课时作业 17 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.39 B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是( )A.①③都可能为分层抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据( )A.一样稳定B.变得稳定C.变得不稳定D.稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C .答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A .95B .96C .97D .98解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C .答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为3:4:7,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7x n ,解得n =70,故选C .答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额658347利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3根据表中数据,下列说法正确的是( )A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A .答案:A7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y ^=b ^x +9,则b ^=( )x 4 5 6 7 8 y54321A .2B .1C .0D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y ^=b ^x +9且回归直线过点(6,3),所以3=6b ^+9,解得b ^=-1,故选D .答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.P(K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关”解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B .答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D .答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定; ③两个变量的线性相关性越强,则相关系数r 的值越接近于1; ④对A ,B ,C 三种个体按 3:1:2的比例进行分层抽样调查,若抽取的A 种个体有15个,则样本容量为30.则正确的个数是( )A .3B .2C .1D .0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C .答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为k :5:4,抽取的样本中高一年级的学生有120人,则实数k 的值为________.解析:由题意可得,120300=kk +5+4,解得k =6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x(%)与成本y(元/t )的线性回归方程为y ^=105.492+42.569x.当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品.答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有 1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8, 第3组应抽取的人数为0.09×4×25=9, 第4组应抽取的人数为0.03×4×25=3, 第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A 1,A 2,A 3;第5组有3人,记这3人分别为B 1,B 2,B 3.从这6人中随机选取2名,所有的基本事件为A 1A 2,A 1A 3,A 1B 1,A 1B 2,A 1B 3,A 2A 3,A 2B 1,A 2B 2,A 2B 3,A 3B 1,A 3B 2,A 3B 3,B 1B 2,B 1B 3,B 2B 3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个, 故所求概率P =615=25.16.[2019·四川德阳一诊]某市工业部门计划对所辖中、小型企业推行节能降耗技术改造,下面是对所辖企业是否支持技术改造进行的问卷调查的结果(不完整):已知从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47.(1)能否在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关?(2)从支持技术改造的中、小型企业中按分层抽样的方法抽出8家企业,再从这8家企业中选出2家进行奖励:中型企业奖励20万元,小型企业奖励10万元.求奖励总金额为20万元的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析:(1)由从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47可知,支持技术改造的企业共有320家,故列联表为支持 不支持 合计 中型企业 80 40 120 小型企业 240 200 440 合计320240560所以K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=560×(80×200-40×240)2120×440×320×240≈5.657>5.024.故能在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关.(2)由(1)可知,从支持技术改造的中、小型企业中,按分层抽样的方法抽出8家企业,其中有2家中型企业,分别用x ,y 表示,6家小型企业,分别用1,2,3,4,5,6表示.则从中选取2家企业的所有可能情况为xy ,x1,x2,x3,x4,x5,x6,y1,y2,y3,y4,y5,y6,12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共28种,其中奖励总金额为20万元的有12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共15种.所以奖励总金额为20万元的概率为1528.17.[2019·河南南阳期末联考]某网购平台为了解某市居民在该平台的消费情况,从该市使用该平台且平均每周消费金额超过100元的人员中随机抽取了100名,并绘制如图所示的频率分布直方图,已知中间三组的人数可构成等差数列.(1)求m ,n 的值.(2)分析人员对这100名调查对象的性别进行统计,发现平均每周消费金额不低于300元的男性有20人,低于300元的男性有25人,请根据统计数据完成下列2×2列联表,并判断是否有99%的把握认为平均每周消费金额与性别有关?男性 女性 合计 平均每周消费金额≥300(3)线性相关,得到的回归方程为y ^=-5x +a ^.已知这100名调查对象的平均年龄为38岁,试估算一名年龄为25岁的年轻人平均每周的消费金额.(同一组数据用该区间的中点值作代表)2×2列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析:(1)=0.006, 由题意可知m +0.001 5=2n , 解得m =0.003 5,n =0.002 5.(2)平均每周消费金额不低于300元的频率为(0.003 5+0.001 5+0.001)×100=0.6,因此这100名调查对象中,平均每周消费金额不低于300元的人数为100×0.6=60(人).所以2×2列联表为K 2=100×(45×55×60×40≈8.249>6.635,所以有99%的把握认为平均每周消费金额与性别有关.(3)调查对象的平均每周消费金额为0.15×150+0.25×250+0.35×350+0.15×450+0.10×550=330(元),由题意得330=-5×38+a ^,解得a ^=520. y ^=-5×25+520=395(元).故一名年龄为25岁的年轻人平均每周的消费金额约为395元.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据: 序号x 12345678时间2017年 1月2017年 2月2017年 3月2017年 4月2017年 5月2017年 6月2017年 7月2017年8月消费者信心指数y 107.2108.6108.4109.2112.6111113.4112910111213141516172017年 9月 2017年 10月 2017年 11月 2017年 12月 2018年 1月 2018年 2月 2018年 3月 2018年 4月 2018年 5月 113.3114.6114.7118.6123.9121.3122.6122.3124(1)①求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数); ②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a ^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i =1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得≈1.16,a ^=y --b ^x -=104.56,∴线性回归方程为y ^=1.16x +104.56. 当x =18时,y ^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第2讲统计与统计案例[做小题——激活思维]s1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为()A.10B.12C.18D.28[答案]B2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为()A.81 B.152 C.182 D.202[答案]C3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为________m/s,方差为________.[答案]3347 34.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i 次试验零件个数x i (单位:个)与加工零件所花费时间y i (单位:小时)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i =184,∑10i =1x 2i =720,那么加工零件所花费时间y 对零件个数x 的线性回归方程为________.y ^=0.3x -0.4 [由题意知n =10,x =1n ∑n i =1x i =8010=8,y =1n ∑n i =1y i =2010=2,又∑ni =1x 2i -n x 2=720-10×82=80,∑ni =1x i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求回归方程为y ^=0.3x -0.4.]5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染与服用疫苗有关”.0.05 [由题意算得,K 2=100×(10×30-20×40)250×50×30×70≈4.762>3.841,参照附表,可得:在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.][扣要点——查缺补漏]1.随机抽样简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如T 1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T 2.2.统计图表和样本数字特征(1)由频率分布直方图进行相关计算时,需掌握关系式:频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.(2)总体估计的方法:用样本的数字特征估计总体的数字特征.(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.如T 3.3.统计案例(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值.如T 4.(2)独立性检验的关键在于准确求出K 2值,然后对比临界值表中的数据,最后下结论.如T 5.抽样方法(5年2考)[高考解读]全国卷对抽样方法的要求较低,很少单独命题考查.1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.切入点:不同年龄段客户对其服务的评价有较大差异.关键点:正确掌握三种抽样方法的特点及适用条件.分层抽样[因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.] 2.(2019·全国卷Ⅰ)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生切入点:①系统抽样;②46号学生被抽到.关键点:正确掌握系统抽样的概念.C[根据题意,系统抽样是等距抽样,所以抽样间隔为1 000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.]1.(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是()A.10B.11C.12 D.16D[从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.]2.(分层抽样)某商场有四类食品,食品类别和种数见下表:取样本,则抽取的植物油类与果蔬类食品种数之和为________.6[因为粮食类种数∶植物油类种数∶动物性食品类种数∶果蔬类种数=40∶10∶30∶20=4∶1∶3∶2,所以根据分层抽样的定义可知,抽取的植物油类食品种数为110×20=2,抽取的果蔬类食品种数为210×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]3.(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为________.字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.]4.(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.800[设样本的总容量为x,则x3 000×1 300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为3 000300×80=800.]用样本估计总体(5年10考)倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半切入点:①建设前经济收入构成比例;②建设后经济收入构成比例.关键点:从图表中正确提取有用信息.A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D 正确.]2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳切入点:2014年1月至2016年12月期间月接待游客量的数据.关键点:从折线图中准确提取信息.A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.]3.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602. 切入点:频数分布表.关键点:正确应用平均数与标准差的计算方法.[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100∑5i =1n i (y i -y )2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.029 6,s =0.029 6=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是()A.100B.110C.115D.120C[众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.]2.(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()A.200 B.240 C.400 D.480C[设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,人数为0.4×1 000=400.]3.(茎叶图、平均数、方差)甲、乙两名学生在5次数学考试中的成绩统计如图所示,若x甲,x乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x甲>x乙,乙比甲稳定B.x甲>x乙,甲比乙稳定C.x甲<x乙,乙比甲稳定D.x甲<x乙,甲比乙稳定A[因为x甲=15×(74+82+88+91+95)=86,x乙=15×(77+77+78+86+92)=82,所以x甲>x乙.因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,s2乙=15×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s2甲>s2乙,故乙比甲稳定.故选A.]4.(频率分布直方图、均值的应用)为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248 256 232 243 188 268 278 266 289 312274 296 288 302 295 228 287 217 329 283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障持续使用时限不低于280小时.(3)由频率分布直方图可知x=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.统计案例(5年6考)1.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:≈0.212,∑16i=1(i-8.5)2≈18.439,i=1(x i-x)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2,0.008≈0.09.切入点:相关系数r和标准差s的计算公式.关键点:题意的理解及数据的准确计算.[解](1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数r=∑16i=1(x i-x)(i-8.5)∑16i=1(x i-x)2∑16i=1(i-8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于x=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i=1x2i≈16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.角度二:独立性检验的应用2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),关键点:根据茎叶图中的数据的集中程度作出效率高低的判断;通过茎叶图确定中位数,并完成2×2列联表,将数据代入公式计算.[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.1.(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);(3)根据y关于x的回归方程,预测第5年的销售量.参考公式:回归直线的斜率和截距的最小二乘法估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2=∑n i =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x .[解] (1)作出的散点图如图:(2)根据散点图观察,可以用线性回归模型拟合y 与x 的关系.观察散点图可知各点大致分布在一条直线附近,列出表格:可得x =52,y =692,所以b ^=∑4i =1x i y i -4x y∑4i =1x 2i -4x2=418-4×52×69230-4×⎝ ⎛⎭⎪⎫522=735,a ^=y -b ^x =692-735×52=-2. 故回归直线方程为y ^=735x -2.(3)当x =5时,y ^=735×5-2=71. 故预测第5年的销售量为71万件.2.(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量; (2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .0.1.所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm). (2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.。

相关文档
最新文档