36统计与统计案例(高2019届理科数学总复习讲义)
2019-2020学年度高三理科数学二轮复习:专题六第三讲 正态分布、统计与统计案例-含解析
——教学资料参考参考范本——2019-2020学年度高三理科数学二轮复习:专题六第三讲正态分布、统计与统计案例-含解析______年______月______日____________________部门20xx最新高三理科数学二轮复习:专题六第三讲正态分布、统计与统计案例-含解析第三讲正态分布、统计与统计案例高考导航1.考查正态曲线的性质及正态分布的概率计算.2.考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验.3.与概率知识交汇进行综合考查.1.(20xx·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了20xx年1月至20xx年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳[解析] 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B说法正确;折线图中每年的高峰出现在每年的7,8月,故C说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D说法正确.[答案] A2.(20xx·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知i=225,i=1600,=4.该班某学生的脚长为24,据此估计其身高为( )A.160 B.163C.166 D.170[解析] 由题意可得=22.5,=160,∴=160-4×22.5=70,即=4x+70.当x=24时,=4×24+70=166,故选C.[答案] C3.(20xx·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.[解析] 从丙种型号的产品中抽取的件数为60×=18.[答案] 184.(20xx·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg 箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828K2=.[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).考点一正态分布1.正态曲线的性质(1)曲线位于x轴上方,与x轴不相交;曲线关于直线x=μ对称,且在x=μ处达到峰值.(2)曲线与x轴之间的面积为1.(3)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.2.正态分布X~N(μ,σ2)的三个常用数据(1)P(μ-σ<X≤μ+σ)=0.6826;(2)P(μ-2σ<X≤μ+2σ)=0.9544;(2)P(μ-3σ<X≤μ+3σ)=0.9974.[思维流程][解] (1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X ~B(16,0.0026).因此P(X≥1)=1-P(X =0)=1-0.997416≈0.0408.X 的数学期望为E(X)=16×0.0026=0.0416.(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.剔除(-3,+3)之外的数据9.22,剩下数据的平均数为 115×(16×9.97-9.22)=10.02, 因此μ的估计值为10.02.i =116x2i =16×0.2122+16×9.972≈1591.134, 剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008,因此σ的估计值为≈0.09.正态分布应关注的两点(1)利用P(μ-σ<X≤μ+σ),P(μ-2σ<X≤μ+2σ),P(μ-3σ<X≤μ+3σ)的值直接求解.(2)充分利用正态曲线的对称性和曲线与x轴之间的面积为1来求解.[对点训练]1.(20xx·兰州检测)设X~N(μ1,σ),Y~N(μ2,σ),这两个正态分布密度曲线如图所示,下列结论中正确的是( )A.P(Y≥μ2)≥P(Y≥μ1)B.P(X≤σ2)≤P(X≤σ1)C.对任意正数t,P(X≥t)≥P(Y≥t)D.对任意正数t,P(X≤t)≥P(Y≤t)[解析] 由题图可知μ1<0<μ2,σ1<σ2,∴P(Y≥μ2)<P(Y≥μ1),故A错;P(X≤σ2)>P(X≤σ1),故B错;当t为任意正数时,由题图可知P(X≤t)≥P(Y≤t),而P(X≤t)=1-P(X≥t),P(Y≤t)=1-P(Y≥t),∴P(X≥t)≤P(Y≥t),故C正确,D错.[答案] C 2.某校组织了“20xx年第15届希望杯数学竞赛(第一试)”,已知此次选拔赛的数学成绩X服从正态分布N(72,121)(单位:分),此次考生共有500人,估计数学成绩在72分到83分之间的人数约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)=0.9544.)( )B.170A.238D.477C.340 [解析] 因为X~N(72,121),所以μ=72,σ=11,又P(μ-σ<X<μ+σ)=0.6826,所以P(61<X<83)=0.6826,因为该正态曲线关于直线x=72对称,所以P(72<X<83)=P(61<X<83)=×0.6826=0.3413,所以0.3413×500=170.65,从而可得在72分到83分之间的人数约为170,故选B.[答案] B考点二抽样方法、用样本估计总体1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样.2.频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.(2)频率分布直方图中各小长方形的面积之和为1.3.方差公式s2=[(x1-)2+(x2-)2+…+(xn-)2][对点训练]1.(20xx·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为( )B.26A.27D.24C.25 [解析] 根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27,故选A.[答案] A 2.(20xx·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )B.60A.56D.140C.120 [解析] 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.[答案] D 3.(20xx·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是( )A .甲的平均数大于乙的平均数B .甲的中位数大于乙的中位数C .甲的方差大于乙的方差D .甲的平均数等于乙的中位数[解析] 由茎叶图,知:甲=(59+45+32+38+24+26+11+12+14)=29,x -乙=(51+43+30+34+20+25+27+28+12)=30,s =[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s =[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,甲的中位数为:26,乙的中位数为:28,∴甲的方差大于乙的方差.故选C.[答案] C4.(20xx·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.[解析] 由图可知,平均数=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x =124.[答案] 125 124统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数.(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.考点三 线性回归分析、独立性检验1.线性回归方程方程=x +称为线性回归方程,其中=,=-;(,)称为样本中心点.2.独立性检验K2=(其中n =a +b +c +d 为样本容量).角度1:线性回归方程的求解及应用【例2-1】 (20xx·全国卷Ⅲ)下图是我国20xx 年至20xx 年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份20xx ~20xx. [解] (1)由折线图中数据和附注中参考数据得t =4,(ti -)2=28,=0.55,i =17 (ti -)(yi -)=iyi -i =40.17-4×9.32=2.89,r≈≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由=≈1.331及(1)得==≈0.103,a ^=-≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为=0.92+0.10t.将20xx 年对应的t =9代入回归方程得=0.92+0.10×9=1.82. 所以预测20xx 年我国生活垃圾无害化处理量约为1.82亿吨.角度2:独立性检验的应用[解] (1)优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K2=≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩是否优秀与班级有关系”.(1)求回归直线方程的关键①正确理解计算,的公式和准确的计算,其中线性回归方程必过样本中心点(,).②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.[对点训练]1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:年份x20xx20xx20xx20xx20xx储蓄存款y/千亿元567810为了研究计算的方便,工作人员将上表的数据进行了处理,令t=x-20xx,z=y-5得到下表:时间代号t12345z01235(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程=x +,其中=,=-) [解] (1)令z 关于t 的线性回归方程为=t +,∵=3,=2.2,izi =45,=55,b ^==1.2,=-=2.2-3×1.2=-1.4,∴=1.2t -1.4.(2)将t =x -20xx ,z =y -5,代入=1.2t -1.4, 得-5=1.2(x -20xx)-1.4,即=1.2x -2408.4.(3)∵=1.2×2020-2408.4=15.6(千亿元),∴预测到2020年年底,该地储蓄存款额可达15.6千亿元.2.[角度2](20xx·××市高三第一次调研)近年来,随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力的企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设30多个分支机构,需要国内公司外派大量70后、80后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方法从70后和80后的员工中随机调查了100位,得到数据如表:愿意被外派不愿意被外派 合计 70后 20 20 40 80后402060合计6040100(1)根据调查的数据,是否有90%以上的把握认为“是否愿意被外派与年龄有关”,并说明理由;(2)该公司举行参观驻海外分支机构的交流体验活动,拟安排6名参与调查的70后、80后员工参加.70后员工中有愿意被外派的3人和不愿意被外派的3人报名参加,从中随机选出3人,记选到愿意被外派的人数为x;80后员工中有愿意被外派的4人和不愿意被外派的2人报名参加,从中随机选出3人,记选到愿意被外派的人数为y.求x<y的概率.参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k0 2.072 2.706 3.841 5.024 6.6357.879参考公式:K2=,其中n=a+b+c+d. [解] (1)有90%以上的把握认为“是否愿意被外派与年龄有关”,理由如下:K2=错误!=错误!=≈2.778>2.706,所以有90%以上的把握认为“是否愿意被外派与年龄有关”.(2)“x<y”包含“x=0,y=1”、“x=0,y=2”、“x=0,y=3”、“x=1,y=2”、“x=1,y=3”、“x=2,y=3”六个事件,且P(x=0,y=1)=×=,P(x=0,y=2)=×=,P(x=0,y=3)=×=,P(x=1,y=2)=×=,P(x=1,y=3)=×=,P(x=2,y=3)=×=,所以P(x<y)===.即x<y的概率为.热点课题23 统计知识的实际应用[感悟体验](20xx·山西吕梁二模)某校某次N名学生的学科能力测评成绩(满分120分)的频率分布直方图如下,已知分数在100~110的学生数有21人.(1)求总人数N和分数在110~115分的人数n;(2)现准备从分数在110~115的n名学生(女生占)中选3位分配给A老师进行指导,求选出的3位学生中有1位女生的概率;(3)为了分析某个学生的学习状态,对其下一阶段的学习提供指导建议,对他前7次考试的数学成绩x、物理成绩y进行分析,该生7次考试成绩如表数学(x)888311792108100112物理(y)949110896104101106已知该生的物理成绩y与数学成绩x是线性相关的,求出y关于x的线性回归方程=x+.若该生的数学成绩达到130分,请你估计他的物理成绩大约是多少?附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为=,=-.[解] (1)分数在100~110内的学生的频率为P1=(0.04+0.03)×5=0.35,所以该班总人数为N ==60,分数在110~115内的学生的频率为P2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.1,分数在110~115内的人数为n =60×0.1=6.(2)由题意分数在110~115内有6名学生,其中女生有2名,从6名学生中选出3人,有1位女生的概率为P ==.(3)计算=×(88+83+117+92+108+100+112)=100,y -=×(94+91+108+96+104+101+106)=100;由于x 与y 之间具有线性相关关系, 根据回归系数公式得到===0.5,a ^=-=100-0.5×100=50, ∴线性回归方程为=0.5x +50,∴当x =130时,=0.5×130+50=115.。
2019届高考数学总复习6.3.1统计与统计案例课件理
-3-
卷 解题思想 设问特点 涉及知识点 题目类型 别 方法 据散点图选函数 全 整体代 模型拟合,求回 散点图、回归方 国 回归分析 换、 换元 归方程,求预报 程 Ⅰ 法 值 2015 用茎叶图比较平 茎叶图、平均值、 全 均值及分散程 求独立事件 独立事件、互斥 分析、 抽 国 度,求独立事件 及互斥事件 事件、频率、概 象、 概括 Ⅱ 及互斥事件的概 的概率 率 率 年份
(xi,yi)(i=1,2,…,n),则回归方程为������ = b x+������,其中������ = ������ − ������ ������.
^
^
^
^
^
������ =1 ������
∑ ������ ������ ������ ������ -������������ ������
-6-
卷 年份 设问特点 涉及知识点 题目类型 别 求二项分布的概 全 二项分布的概 率、最大值、二 国 率、极值、二项 二项分布 项分布的数学期 Ⅰ 分布的数学期望 望并做出决策 全 由回归模型求预 2018 国 测值,判断回归 回归分析 回归分析 Ⅱ 模型的可靠性
解题思想 方法 函数思 想、 处理 数据 分析、 处 理数据
附:������ =
^
������ =1
∑ (������ ������ -������ )(������ ������ -������ )
������ =1
������
∑ (������ ������ -������ )
������
2
=
������ =1 ������
∑ ������ ������ ������ ������ -������������ ������
(完整版)高中数学统计、统计案例知识点总结和典例
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
2019版高考数学(北师大版理科)一轮复习课件:第11章 统计与统计案例 第3讲
2.回归分析 相关关系 的两个变量进行统计分析的方法叫回归分 对具有 ___________
析.其基本步骤是: (ⅰ)画散点图;(ⅱ)求 回归直线方程 ;(ⅲ)用回归直线方程作 预报. (1) 回 归 直 线 : 如 果 散 点 图 中 点 的 分 布 从 整 体 上 看 大 致 在 一条直线 附近,就称这两个变量之间具有线性相关关系,这 __________ 条直线叫做回归直线. (2)回归直线方程的求法——最小二乘法. 设具有线性相关关系的两个变量 x,y 的一组观察值为(xi,yi)(i =1,2,…,n),则回归直线方程 y=a+bx 的系数为:
n n x i y i - n x y xi- x yi- y i= 1 i =1 = b= n n 2 2 - n x x2 xi- x i i=1 i= 1 a= y -b x .
1n 1n 中心 其中 x =n xi,y=n yi,( x , y )称为样本点的__________. i=1 i=1
解析 只有χ2 ≥6.635才能有99%的把握认为该电
视栏目是否优秀与改革有关系,而既使K2≥6.635
也只是对“该电视栏目是否优秀与改革有关系 ” 这个论断成立的可能性大小的结论,与是否有 99%的人等无关.故只有D正确. 答案 D
4.(2015· 福建卷)为了解某社区居民的家庭年收入与年支出的
小,所以z随x的增大而减小,x与z负相关,故选C.
答案 C
3.为了评价某个电视栏目的改革效果,在改革前后分别从居 民点抽取了 100 位居民进行调查,经过计算 χ2 ≈ 0.99 ,根 据这一数据分析,下列说法正确的是( )
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系
2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例
9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。
统计与统计案例-年新高考数学自主复习PPT演示课件
目录
第1节 随机事件的概率和古典概型
第2节 离散型随机变量及其分布列、 数学期望与方差
第3节 条件概率、独立重复试验、 二项分布与正态分布
第4节 随机抽样与用样本估计总体
第5节 统计与统计案例
第5节 统计与统计案例
真题自测 考向速览 必备知识 整合提升 考点精析 考法突破
第5节 统计与统计案例
利用散点图识别两个变量之间的关系 ①如果所有的样本点都落在某一直线附近,两变量之间就有线性相关关系, 如图(1). ②如果所有的样本点都落在某一函数曲线(不是一条直线)附近,两变量之间 就有非线性相关关系,如图(2). ③如果散点图中的点的分布几乎没有什么规则,这两个变量之间就不具有相 关关系,即两个变量之间是相互独立的,如图(3).
【解析】由线性相关系数r1=0.785 9>0知x与y正相关.由线性相关系数r2=-0.956 8<0 知u与v负相关.又|r1|<|r2|,所以变量u与v的线性相关性比x与y的线性相关性强.
【答案】C
第5节 统计与统计案例
考点2 回归分析
1.线性回归分析
(1)求回归方程:利用公式,求出回归系数 , ,或者利用回归直线一定经过样本点的
4.5,6,比较接近y=
,故选D.
【答案】D
第5节 统计与统计案例
[陕西2019第三次联考]某工厂某产品近几年的产量统计如下表:
(1)根据表中数据,求y关于t的线性回归方程 (2)若近几年该产品每千克的价格v(单位:元)与年产量y满足的函数关系式为v=4.5-0.3y,且 每年该产品都能售完.
第5节 统计与统计案例
第5节 统计与统计案例
956 8,则下列判断正确的是( ) 第5节 统计与统计案例 第5节 统计与统计案例 (3)线性回归方程中:b>0时,正相关; 利用随机变量________来确定在多大程度上可以认为“两个分类变量________”的方法称为两个分类变量的独立性检验. 第5节 统计与统计案例 【解】(1)由样本数据可得2×2列联表如下: 第1节 随机事件的概率和古典概型 第5节 统计与统计案例 (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线 (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线 ③如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. (3)独立性检验的基本步骤 【解】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 56},计算得当y=7. 判定两个变量相关性的方法 (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.
2019高考数学(理)(全国通用版)大一轮复习课件 第九篇 统计与统计案例(必修3、选修2-3)第2节 用样本
集合、常用逻辑用语、函数与导数、不等式
第2节 用样本估计总体
栏目 导引
最新考纲
1.了解分布的意义和作用,能根据频
率分布表画频率分布直方图、频率 折线图、茎叶图,体会它们各自的 特点. 2.理解样本数据标准差的意义和作 用,会计算数据标准差. 3.能从样本数据中提取基本的数字
理的解释. 4.会用样本的频率分布估计总 体分布,会用样本的基本数字特 征估计总体的基本数字特征,理
166+203 119,153,157,164,166,203,268,268,335,407, 中位数为中间 2
答案:184.5
两数的平均数,即
=184.5.
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
1.频率分布直方图提供了样本数据的哪些信息? 提示:各组数据的频率. 2.茎叶图提供了样本数据的哪些信息? 提示:全部的原始数据.
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
知识梳理
1.作频率分布直方图的步骤
2.频率分布折线图和总体密度曲线 中点 (1)频率分布折线图:连接频率分布直方图中各小长方形上端 的 ,就得频率分布折线图. (2)总体密度曲线:随着样本容量 的增加,作图时所分的组数增加 , 组距 减小,相应的频率折线图会越来越接近于一条光滑曲线,即总 体密度曲线.
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
3.茎叶图
定义
是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是 从茎的旁边生长出来的数 对于样本数据较少,且分布较为集中的一组数据:若数据是两位 整数,则将十位数字作茎,个位数字作叶;若数据是三位整数, 则将百位、十位数字作茎,个位数字作叶.样本数据为小数时做 类似处理. 对于样本数据较少,且分布较为集中的两组数据,关键是找到两 组数据共有的茎 用茎叶图表示数据的优点是(1)所有的信息都可以从茎叶图中 得到;(2)便于记录和读取,能够展示数据的分布情况.缺点是 当样本数据较多或数据位数较多时,茎叶图就显得不太方便
2019届高三数学(理)二轮专题复习课件:专题四 第1讲 统计与统计案例 .pdf
第1讲 统计与统计案例高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.答案 A2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.答案 分层抽样3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.(2)利用模型②得到的预测值更可靠.理由如下:考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.2.统计中的四个数据特征3.直方图的两个结论4.回归分析与独立性检验y1Y2总计x1a b a+b x2c d c+d 总计a+c b+d n热点一 抽样方法【例1】 (1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n=( )A.860B.720C.1 020D.1 040(2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案 (1)D (2)4【训练1】 (1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A.13B.19C.20D.51(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.∴样本中还有一位同学的编号为20号.答案 (1)C (2)18热点二 用样本估计总体考法1 数字特征与茎叶图的应用【例2-1】(2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③B.②③④C.①②④D.①③④。
2019高考数学(理)(全国通用版)大一轮复习课件 第九篇 统计与统计案例(必修3、选修2-3)第3节 变量的
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
对点自测
1.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由 这些样本点通过最小二乘法得到的(如图),以下结论中正确的 C 是( ) (A)x和y正相关 (B)x和y的相关系数为直线l的斜率 (C)x和y的相关系数在-1到0之间 (D)当n为偶数时,分布在l两侧的样本点的个数一定相同 解析:根据回归直线可知变量x,y负相关,且由l的斜率知相关 系数在 (-1,0)之间.故选C.
ˆ =x+2.8 (C) y ˆ =-x+2.8 (D) y
D )
解析:负相关,且过样本点的中心(0,2.8),可知为选项D中方 程.故选D.
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
3.某车间为了规定工时定额 ,需要确定加工零件所花费的时间 ,为此进行了 5
②2×2列联表 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称为2×2列联表)为
y1 x1 x2 总计 a c a+c
n ad bc
2
y2 b d b+d
总计 a+b c+d a+b+c+d
(2)独立性检验
2 b= d其中 aK c d a c b ( 利用随机变量 n=a+b+c+d为样本容量)
x y nx y
n i 1 n i i 2 x i nx i 1 2
,
②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),„,(xn,yn) 中, x =
2019高考数学(理)(全国通用版)大一轮复习课件 第九篇 统计与统计案例(必修3、选修2-3)第1节 随机抽
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
4.从20件不同商品中,随机抽取5件,商品甲被抽到的概率 是 .
5 20 1 4
1 4
解析: = .
答案:
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
考点专项突破
考点一 简单随机抽样
在讲练中理 解知识
【例1】 (1) 导学号 18702531 总体由编号为01,02,…,19,20 的20个个体组成.利用随机数表选取5个个体,选取方法是从随 机数表第1行的第5列和第6列数字开始由左到右依次选取两 个数字,则选出来的第5个个体的编号为( )
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
4.三种抽样方法的比较
类别 共同点 各自特点 相互联系 适用范围
简单随 机抽样
系统 抽样 均为不放回 抽样,且抽样 过程中每个 个体被抽取 的机会相等
从总体中逐 个抽取
是后两种方法 的基础
总体中的个 体数较少
总体中的个 体数较多 总体由差异 明显的几部 分组成
专题一
集合、常用逻辑用语、函数与导数、不等式
第九篇 统计与统计案例(必修3、选修2-3)
栏目 导引
专题一
集合、常用逻辑用语、函数与导数、不等式
六年新课标全国卷试题分析
高考考点、示例分布图 命题特点
1.本篇在高考中的分值在12分左 右,主要题型是选择题、解答题. 2.随机抽样、样本估计总体、独 立性检验多在解答题中作为问题 的一部分出现. 3.越来越注重回归分析的考查, 2014,2015,2016均有回归分析 试题. 4.统计与概率、随机变量及其分 布的综合特点明显.
2019版高考数学(理科)一轮复习通用版:第十八单元 统计与统计案例
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法三种抽样方法类别共同点各自特点相互联系适用范围简单随机抽样是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等从总体中逐个抽取总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则,在各部分抽取在起始部分抽样时,采用简单随机抽样总体中的个数比较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为()A.10 B.12C.18 D.24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN . 2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图 1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn=________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:38样本的数字特征1.众数、中位数、平均数(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( ) A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:学生 1号 2号 3号 4号 5号 甲班 6 7 7 8 7 乙班6767922解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1n x 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:x 0 1 4 5 6 y1.3m3m5.67.4画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P 2根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:x 2 3 4 5 6 7 y4.12.5-0.50.5-2.0-3.0得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h 的汽车的辆数为( )A .56B .61C .70D .77解析:选D 由图知,时速超过50 km/h 的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h 的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙; 又m 甲=22+252=23.5,m 乙=23,即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):零件数x /个 10 20 30 40 50 加工时间y /分钟6268758189由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ), ∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:年份 2011 2012 2013 2014 2015 2016 2017 年份代号x 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m的值及中位数n;(2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为p i和x i,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由x i=200×p i,可得x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课(一)随机抽样[全国卷5年命题分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择[典例]采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9[解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此A 营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此B 营区被抽中的人数是42-25=17,故C 营区被抽中的人数为50-25-17=8.[答案] B [方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.角度一:与频率分布直方图相结合问题1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个. 故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2. 即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样 B.按性别分层抽样 C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B 和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数 老年教师 900 中年教师 1 800 青年教师 1 600 合计4 300A.90 C .180D .300解析:选C 设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18 D.19解析:选C设第一组抽取的号码为x,根据题意可得抽样间隔为1 00040=25,则x+25×(18-1)=443,解得x=18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()。
2019届高考数学(理科)一轮复习通用版:第十八单元 统计与统计案例
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为()A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN .2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图[过双基]1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn =________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:381.众数、中位数、平均数2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( ) A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P 根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h的汽车的辆数为()A.56 B.61C.70 D.77解析:选D由图知,时速超过50 km/h的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),得K2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙; 又m 甲=22+252=23.5,m 乙=23, 即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ),∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m 名学生进行体育测试.根据体育测试得到了这m 名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m 的值及中位数n ;(2)若该校学生测试平均成绩小于n ,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为p i和x i,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由x i=200×p i,可得x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课(一)随机抽样[全国卷5年命题分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择系统抽样[典例]采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为()A.26,16,8B.25,17,8C.25,16,9 D.24,17,9[解析]依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤103 4,因此A营区被抽中的人数是25;令300<3+12(k-1)≤495,得1034<k≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.[答案] B[方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个. 故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)在所有参与调查的人中,用分层抽样的方法抽取n 个人,已知从持“支持”态度的人中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2. 即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样 B.按性别分层抽样 C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90C.180 D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3 B.4C.5 D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C 设第一组抽取的号码为x ,根据题意可得抽样间隔为1 00040=25,则x +25×(18-1)=443,解得x =18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )A .2B .4C .5D .6解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为1040×16=4.4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为( )。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高2019届理科数学总复习讲义
第三十六讲 统计与统计案例
一、知识提要
1、随机抽样:从个体数为N 的总体中抽取一个容量为n 的样本,那么每个个体被抽到的概率等于
n
N。
常用的随机抽样方法有:
(1)简单随机抽样:抽签法 和 随机数表示法
(2)系统抽样:将总体分成均匀的n 个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
(3)分层抽样:将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,其中所分成各部分叫做层。
2、频率分布直方图:
(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的分布
另一种是用 样本的数字特征估计总体的数字特征。
(2)在频率分布直方图中,纵轴表示 频率
组距,数据落在各小组内的频率用各小长方形的面积表示.
各小长方形的面积总和等于1.
(3)连结频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着 样本容量的增
加,作图时所分的组数增加,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线.它能够更加精细的反映出总体在各个范围内取值的百分比,
(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以
随时记录,给数据的记录和表示都带来方便. 3、用样本的数字特征估计总体的数字特征
(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)
叫做这组数据的中位数. (3)平均数:样本数据的算术平均数.即 121
()n x x x x n
=
++⋅⋅⋅+ 在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(4)标准差
它是反映总体波动大小的特征数,样本方差是标准差的平方,.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.
4、两个变量的线性相关: (1)正相关: 在散点图中,点散布在从左下角到右上角的区域,对于两个变量
的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线: 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(4)回归方程:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. 回归方程:方程y bx
a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),,(,)n n x y x y x y ⋅⋅⋅的回归方程,其中,
b a 是待定参数.
(n
x x ++-()()
n
i
i
x x y y --∑n
i i
x y nx y
-=
∑
(5)相关系数:r =
5、独立性检验
(1)列联表:列出两个变量的频数表,称为列联表.假设有两个变量X 和Y ,它们的可能取值分别为{12,x x }和{12,y y },其样本频数列联表(称为2×2列联表)为
构造一个随机变量 = ,其中n=a b c d +++为样本容量.
(2)独立性检验:利用随机变量 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
二、典型例题
例1、某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本 . 若样本中的青年职工为7人,则样本容量为( ) A 7 B 15 C 25 D 35
例2、将参加夏令营的600名学生编号为:001,002,……600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495住在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( ) A .26, 16, 8, B .25,17,8 C .25,16,9 D .24,17,9
例3、一个总体中有100个个体,随机编号为0,1,2,···,99,编号顺序平均分成10个小组,组号依次
为1,2,···,10,现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m+k 的个位数相同,若m=6,则在第7组中抽取的号码是________。
例4、某地有居民100 000户,其中普通家庭99 000户,高收入家庭1 000户.从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取l00户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收人家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是 .
例5、一个容量为n 的样本,分成若干小组,已知某组的频数和频率分别为40,0.125,n 的值为 A. 640 B. 320 C. 240 D. 160 ( ) 例6、为了解某校高三学生的视力情况,随机地抽查
2
()()()()()
n ad bc a b c d a c b d -++++2
χ2χ
了该校100名高三学生的视力情况,得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a, b的值分别为()
A.0.27, 78 B.0.27, 83
C.2.7, 78 D.2.7, 83
例7、某中学举行的电脑知识竞赛,满分100分,80分以上为优良,现将高一两个班参赛学生的成绩进行整理后分成五组,绘制如右图的频率分布直方图(如图),已知图中从左到右的第一,第三,第四,第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40,则参赛的人数和成绩优良的概率分别是()
A.100,0.15
B.100,0.30
C.80,0.15
D.80,0.30
例8、将容量为n的样本中的数据分成6组,绘制频率分布直方图。
若第一组至第六组数据的频率之比为
2:3:4:6:4:1,且前三组数据的频数之和等于27,则n等于。
例9、从某自动包装机包装的食盐中,随机抽取20袋,测得各袋的质量分别为(单位:g):
492 496 494 495 498 497 501 502 504 496
497 503 506 508 507 492 496 500 501 499
根据频率分布估计总体分布的原理,该自动包装机包装的袋装食盐质量在497.5g~501.5g之间的概率约为_____.
例10、如图所示的茎叶图中,甲、乙两组数据的中位数分别
是、
例11、某项体育比赛中,七位裁判为一选手打出的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A 92, 2
B 92 , 2.8
C 93 , 2
D 93 , 2.8
例12、本中共有5个个体, 其值分别为a,0,1,2,3, 若该样本的平均值为1, 则样本方差为( )
A.6
5
B.
6
5
C.2
D.2
例13、某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1:2:1,用分层抽样方法(每个分厂的产品为一层)从3个分厂生产的电子产品中共取100件作使用寿命的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为980h,1020h,1032h,则抽取的100件产品的使用寿命的平均值为h.
例14、为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组。
每组100只,其中一组注射药物A,另一组注射药物B。
下表1和表2分别是注射药物A
和药物B后的实验结果。
(疱疹面积单位:2
mm)
(Ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;
(Ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的
疱疹面积有差异”。
疱疹面积小于270mm
疱疹面积不小于270mm
合计 注射药物A a =
b =
注射药物B
c =
d =
合计
n =。