2020届高三数学复习《统计案例》学案
2019-2020学年高中数学 第3章统计案例章末复习提升课学案 新人教B版2-3

章末复习提升课1.2×2列联表2×2列联表如表所示:B B合计A n11n12n1+A n21n22n2+合计n+1n+2n其中n=n11+n12+n21+n22为样本容量.2.χ2检验常用χ2=错误!来检验两个变量是否有关系.3.对于一组数据(x i,y i),i=1,2,…,n,如果它们线性相关,则回归直线方程为错误!=错误!x+错误!,=错误!-错误!错误!1.独立性检验的两个注意点(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测.(2)2×2列联表中,当数据n11,n12,n21,n22都不小于5时,才可以用χ2检验.2.回归分析的两个关注点(1)回归分析是建立在两个具有相关性的变量之间的一种模拟分析,因此先判断其是否具有相关性.(2)并非只有线性相关关系,还可能存在非线性相关关系.独立性检验[学生用书P50]一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值:A和A,Ⅱ也有两类取值:B和B,我们得到下表中的抽样数据,这个表格称为2×2列联表.B错误!合计A n11n12n1+n21n22n2+错误!n+n+2n合计1表中:n+1=n11+n21,n+2=n12+n22,n1+=n11+n12,n2+=n21+n22,n =n11+n21+n12+n22.(1)如果χ2>6。
635,就有99%的把握认为“X与Y有关系”;(2)如果χ2>3.841,就有95%的把握认为“X与Y有关系”;(3)如果χ2≤3.841,则认为“X与Y无关”.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷不冷合漠漠计多看6842110电视少看203858电视合计8880168试问:多看电视与人变冷漠有关吗?【解】由公式得χ2=错误!≈11.377>6.635,所以我们有99%的把握说多看电视与人变冷漠有关.【点评】在掌握了独立性检验的基本思想后我们一般先计算出χ2的值,然后比较χ2值与临界值的大小来较精确地给出“两个分类变量”的可靠程度.线性回归分析[学生用书P50](1)分析两个变量线性相关的常用方法.①散点图法,该法主要是用来直观地分析两变量间是否存在相关关系.②相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.其中相关系数.要分析学生初中升学的数学成绩对高中一年级数学学习有什么影响,在高中一年级学生中随机抽选10名学生,分析他们入学的数学成绩(x)和高中一年级期末数学考试成绩(Y)(如表):编12345678910号x63674588817152995876Y65785282928973985675(1(2)计算入学数学成绩(x)与高一期末数学考试成绩(Y)的相关系数;(3)对变量x与Y进行相关性检验,如果x与Y之间具有线性相关关系,求出回归直线方程;(4)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.【解】(1)画出入学成绩(x)与高一期末考试成绩(Y)两组变量的散点图,如图,从散点图看,这两组变量具有线性相关关系.(2)因为x=错误!(63+67+…+76)=70,y=错误!(65+78+…+75)=76。
2020版高考数学一轮复习第9章统计与统计案例第1讲学案理解析版

第9章统计与统计案例第1讲A组基础关1.(1)某学校为了了解2017年高考数学学科的考试成绩,在高考后对1200名学生进行抽样调查,其中文科400名考生,理科600名考生,艺术和体育类考生共200名,从中抽取120名考生作为样本.(2)从30名家长中抽取5名参加座谈会.Ⅰ.简单随机抽样法'Ⅱ.系统抽样法'Ⅲ.分层抽样法问题与方法配对正确的是( )A.(1)Ⅲ,(2)Ⅰ B.(1)Ⅰ,(2)ⅡC.(1)Ⅱ,(2)Ⅲ D.(1)Ⅲ,(2)Ⅱ答案 A解析(1)是分层抽样,(2)是简单随机抽样.2.(2018·福建福州模拟)为了调查某班级的作业完成情况,将该班级的52名学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知5号,18号,44号同学在样本中,那么样本中还有一位同学的编号应该是( )A.23 B.27 C.31 D.33答案 C解析因为5号,18号,44号同学在样本中,18-5=13,44-18=26,所以抽样间隔为13,样本中还有一位同学的编号应该是18+13=31.故选C.3.某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号:001,002,…,699,700.从中抽取70个样本,如下提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )32 21 18 34 29' 78 64 54 07 32' 52 42 06 44 38' 12 23 43 56 77' 35 78 90 56 4284 42 12 53 31' 34 57 86 07 36' 25 30 07 32 86' 23 45 78 89 07' 23 68 96 08 0432 56 78 08 43' 67 89 53 55 77' 34 89 94 83 75' 22 53 55 78 32' 45 77 89 23 45A.623 B.328 C.253 D.007答案 A解析从表中第5行第6列开始向右读取数据,得到的前6个编号分别是:253,313,457,007,328,623,则得到的第6个样本编号是623.故选A.4.某工厂甲、乙、丙、丁四个车间生产了同一种产品共计2800件,现要用分层抽样的方法从中抽取140件进行质量检测,且从甲、丙两个车间总共抽取的产品数量为60件,则乙、丁两车间生产的产品总共有( )A.1000件 B.1200件 C.1400件 D.1600件答案 D解析2800140=20,∵从甲、丙两个车间总共抽取的产品数量为60件,∴甲、丙两个车间生产的产品数量为60×20=1200件,∴乙、丁两车间生产的产品总共有2800-1200=1600件.5.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )A .12B .15C .20D .21答案 A解析 由扇形图得:中学有高中生3000人,其中男生3000×30%=900,女生3000×70%=2100,初中生2000人,其中男生2000×60%=1200,女生2000×40%=800,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取女生21人,则n 5000=212100,解得n =50,∴从初中生中抽取的男生人数是:50×12005000=12. 6.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽取容量为n 的样本,其中甲种产品有18件,则样本容量n =________.答案 90解析 依题意得33+5+7×n=18,解得n =90,即样本容量为90. 7.用系统抽样法从160名学生中抽取容量为20的样本,将学生随机地从1~160编号,按编号顺序平均分成20组(1~8,9~16,…,153~160).若第16组得到的号码为126,则第1组中用抽签的方法确定的号码是________.答案 6解析 设第1组抽出的号码为x ,则第16组应抽出的号码是8×15+x =126,∴x=6.8.某商场有四类食品,食品类别和种数见下表:现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.答案 6解析 因为总体的个数为40+10+30+20=100,所以根据分层抽样的定义可知,抽取的植物油类食品种数为10100×20=2,抽取的果蔬类食品种数为20100×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.B 组 能力关1.某市为最大限度的吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策.随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取n 名市民,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共200户,所占比例为13,二居室住户占16.如图2是用分层抽样的方法从所有调查的市民的满意度问卷中,抽取10%的调查结果绘制成的统计图,则下列说法正确的是( )A .样本容量为70B .样本中三居室住户共抽取了25户C .根据样本可估计对四居室满意的住户有70户D .样本中对三居室满意的有15户答案 D解析 可先根据题图1求出总体数量及样本容量,再根据分层抽样及题图2确定样本中三居室户数及满意人数.2.(2018·河北衡水模拟)在高三某次数学测试中,40名学生的成绩如图所示.若将成绩由低到高编为1~40号,再用系统抽样的方法从中抽取8人,则其中成绩在区间[123,134]上的学生人数为________.答案 3解析 根据茎叶图,成绩在区间[123,134]上的数据有15个, 所以用系统抽样的方法从所有的40人中抽取8人, 成绩在区间[123,134]上的学生人数为8×1540=3.。
中学高三美术班数学模块六统计统计案例教案

中学高三美术班数学模块六<统计统计案例>教案12020—2020学年第一学期 2月18日王振梅一.课前预习1.关于简单随机抽样,每次抽到的概率(填相等或不相等或无法确信)2.从参加运算机水平测试的5000名学生的成绩中抽取200名学生的成绩进行统计分析。
在那个问题中,200名学生成绩的全部是。
3.为了了解某次数学竞赛中1000名学生的成绩,从中抽出一容量为100的样本,那么每一个样本被抽到的概率为。
4.以下抽样中不是系统抽样的是。
①从标本1—15号的15个球中,任选3个样本,按从小号到大号排序,随机选起点i0。
以后i0+5,i0+10(超过15那么从1再数起)号入样。
②工厂生产的产品,用传送带将产品送入包装车间前,查验人员从传送带上每隔5分钟抽一件产品进行查验。
③弄一市场调查,规定在商场门口随机抽一个人进行询问调查,直到调查到事前规定的调查人数为止。
④电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下座谈。
5.某企业三月中旬生产A、B、C三种产品共3000件,依照分层抽样的结果,企业统计员制作了如下的统计表格:产品类别A B C产品数量(件)9001300800样本容量90130由于不警惕,表格中A、C产品的有关数据已被污染看不清楚,统计员只记得A产品的样本容量比C产品的样本容量多10,请你依照以上信息填补表格中的数据。
二.例题精析题型一简单随机抽样1.生1200人,为了调查某种情形,打算抽取一个容量为50的样本,问此样本采纳简单随机抽样将如何取得?题型二系统抽样2.一批产品中,有一级品100个,二级品60个,三级品40个,别离用系统抽样和分层抽样的方式,从这批产品中抽取一容量为20的样本。
3.某工厂有1003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施。
三.随堂练习4.某次考试有70000名学生参加,为了了解这70000名考生的数学成绩,从中抽取1000名考生的数学成绩进行统计分析,在那个问题中,有以下四种说法:①1000名考生是整体的一个样本;②1000名考生数学成绩的平均数是整体平均数;③70000名考生是整体;④样本容量是1000。
2020版新高考复习理科数学教学案:统计与统计案例、分布列及期望与方差含答案

教课资料范本2020版新高考复习理科数学教教案:统计与统计事例、散布列及希望与方差含答案编辑: __________________时间: __________________7讲统计与统计事例、散布列及希望与方差调研一统计与统计事例■备考工具——————————————1.分层抽样和系统抽样的计算(1)系统抽样:整体容量为 N.样本容量为 n.则要将整体均分红 n组.N每组n个(有零头时要先去掉 ).若第一组抽到编号为 k的个体 .则此后各组中抽取的个体编号依N N次为 k+n..k+(n-1)n.(2)分层抽样:按比率抽样 .计算的主要依照是:各层抽取的数目之比=整体中各层的数目之比.2.提取频次散布直方图中的数据(1)组距、频次:频次散布直方图中每个矩形的宽表示的组距.高频次表示组距 .面积表示该组数据的频次.各个矩形的面积之和为 1;(2)众数:最高小长方形底边中心的横坐标;(3)中位数:均分频次散布直方图面积且垂直于横轴的直线与横轴交点的横坐标;(4)均匀数:频次散布直方图中每个小长方形的面积乘小长方形底边中心的横坐标之和;(5)参数:若纵轴上存在参数.则依据全部小长方形的面积之和为1.列方程即可求得参数值.3.回归直线方程nx i- x y i- y^^^^i =1^^y=bx+a.此中 b=.a=y-bnx i- x 2i= 1x .( x . y )称为样本点的中心.nx i- x y i- yi =1.4.有关系数: r=n n i- y 2x i- x 2yi= 1i=1主要用于有关量的明显性查验.以权衡它们之间的线性有关程度.当r>0时.表示两个变量正有关;当r<0时.表示两个变量负有关.|r | 越靠近1.表示两个变量的线性有关性越强;当|r|靠近0时 .表示两个变量间几乎不存在线性有关关系.5.列联表列出两个分类变量的频数表.称为列联表.假定有两个分类变量X和Y.它们的可能取值分别为{ x1.x2} 和{ y1.y2}. 其样本频数列联表 (称为2×2列联表 )为:y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d可结构一个随机变量n ad-bc 2K2=a+b c+d a+c b+d .此中 n=a+b+c+d为样本容量.6.独立性查验的方法(1)结构 2×2列联表;(2)计算 K2;(3)查表确立有多大的掌握判断两个变量有关系.注意:查表时不是查最大同意值.而是先依据题目要求的百分比找到第一行对应的数值.再将该数值对应的k 值与求得的 K2对比较.此外 .表中第一行数据表示两个变量没有关系的可能性p.所以其有关系的可能性为1-p.^ ^7.(1)残差: e i =y i -yni 称为相应于点 (x i i的残差 残差平方和为^ 2(y -y) ..y ) .i =1n^ 2y i -y(2)有关指数 R 2i =1.R 2越大 .说明残差平方和越小 .即=1-ny i - y2i = 1模型的拟合成效越好; R 2越小计 .残差平方和越大 .即模型的拟合成效越差.在线性回归模型中 .R 2表示解说变量对于预告变量变化的贡献率.R 2越靠近于 1.表示回归的成效越好.8.与平方数和方差有关的结论(1)若x 1.x 2. .x n 的均匀数为 x .那么 mx 1+a.mx 2+a. .mx n +a 的平均数为 m x +a ;(2)数据 x 1.x 2. .x n 与数据 x ′1=x 1+a.x ′2=x 2+a. .x ′n =x n +a 的方差相等 .即数据经过平移后方差不变;(3)若x 1.x 2. .x n 的方差为 s 2.那么 ax 1+b.ax 2+b. .ax n +b 的方差为a 2s 2;1n1n(4)s 2=n (x i - x )2=n x2i - xi =1 i =12.即各数平方的均匀数减去均匀数的平方.■自测自评 ——————————————1.[20xx ·全国卷Ⅱ]演讲竞赛共有 9位评委分别给出某选手的原始评分 .评定该选手的成绩时 .从9个原始评分中去掉 1个最高分、 1个最低分 .获得 7个有效评 分.7个有效评分与 9个原始评分对比 .不变的数字特点是 ()A .中位数B .均匀数4/13分析:记 9 个原始评分分别为 a.b.c.d.e.f.g.h.i(按从小到大的次序摆列 ).易知 e 为 7 个有效评分与 9 个原始评分的中位数 .故不变的数字特点是中位数 .应选 A.答案: A2.[20xx ·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学珍宝 .并称为中国古典小说四大名著.某中学为认识本校学生阅读四大名著的状况 .随机检查了 100位学生 .此中阅读过《西游记》或《红楼梦》的学生共有 90位.阅读过《红楼梦》的学生共有 80位.阅读过《西游记》且阅读过《红楼梦》的学生共有 60位.则该检阅读过《西游记》的学生人数与该校学生总数比值的预计值为()A .0.5B.0.6C. 0.7D.0.8分析:依据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示以下:所以该检阅读过《西游记》的学生人数与该学校总数比值的估70计值为100=0.7.答案: C3.[20xx ·全国卷Ⅱ]某地域经过一年的新乡村建设 .乡村的经济收入增添了一倍 .实现翻番.为更好地认识该地域乡村的经济收入变化状况 .统计了该地域新乡村建设前后乡村的经济收入组成比率 .获得以下饼图:则下边结论中不正确的选项是()5/13B.新乡村建设后 .其余收入增添了一倍以上C.新乡村建设后 .养殖收入增添了一倍D.新乡村建设后 .养殖收入与第三家产收入的总和超出了经济收入的一半分析:通解:设建设前经济收入为 a.则建设后经济收入为 2a.则由饼图可得建设前栽种收入为 0.6a.其余收入为 0.04a.养殖收入为0.3a.建设后栽种收入为 0.74a.其余收入为 0.1a.养殖收入为 0.6a.养殖收入与第三家产收入的总和为 1.16a.所以新乡村建设后 .栽种收入减少是错误的.应选 A.优解:由于 0.6<0.37×2.所以新乡村建设后 .栽种收入增添 .而不是减少 .所以 A 是错误的.应选 A.答案: A4.[20xx ·山西八校联考]以下图的折线图表示某商场一年中各月的收入、支出状况.则下列说法中错误的选项是 ()A .整年收入 1至2月份增速最快B.整年中 2月份支出最高C.四个季度中第二季度的月均匀支出最低D.收益最低的月份是 5月份 (收益=收入-支出 )分析:从折线图看出1 至2 月份收入数据的连线斜向上 .且最陡 . 故 A 正确;由折线图能够看出支出的最高点在 2 月份 .故 B 正确;由折线图可看出第二季度的总支出最低 .故第二季度的月均匀支出最低 . 故 C 正确; 5 月份的收益为 30-10=20(万元 ).8 月份的收益为 50-40=10(万元 ).20>10.故 D 错误.答案: D5.[20xx ·石家庄质检]甲、乙两人 8次测评成绩的茎叶图如图 .由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是 ()A.23,22B.23,22.5C. 21,22D.21,22.5分析:由茎叶图可得甲的成绩的均匀数为10+11+14+21+23+23+32+34=21.将乙的成绩按从小到大的顺8序摆列 .中间的两个成绩分别是22,23.所以乙的成绩的中位数为22+23=22.5.2答案: D6.[20xx ·长沙、南昌联考]某工厂经过技术改造 .降低了能源耗费 .职能部门从某车间抽取部分工人进行检查 .发现他们一天的能源耗费指数均在 50~350之间 .按照[50,100).[100,150).[150,200).[200,250).[250,300).[300,350]分组 .获得频次散布直方图以下图.若采纳分层抽样的方法从能源耗费指数在[50,200)内的工人中抽取 10人进行业务指导 .则应从能源耗费指数在[100,150)内选用的人数为 ()A .5B.3C. 2D.4分析:由题意可得 .(0.002 4+0.0036+x+0.004 4+0.002 4+0.001 2)×50= 1.解得 x=0.006 0.所从前三组的人数之比为0.002 4∶0.003 6∶0.006 0=2∶3∶5.故应从 [100,150)内抽取的人数为310×2+3+5=3.应选 B.答案: B7.[20xx ·合肥质检一]某检查机构对全国互联网行业进行检查统计 .获得整个互联网行业从业者年纪散布的饼状图 .90后从事互联网行业岗位散布条形图 .则下列结论中不必定正确的选项是()注: 90 后指 1990 年 1 月 1 日至 19xx 年 12 月 31 日出生的人 .80 后指 1980 年 1 月 1 日至 1989 年 12 月 31 日出生的人 .80 前指 1979 年 12 月 31 日及从前出生的人.A .互联网行业从业人员中90后占一半以上B.互联网行业中从事技术岗位的人数超出总人数的 20%C.互联网行业中从事营运岗位的人数 90后比 80前多D.互联网行业中从事技术岗位的人数90后比 80后多分析:对于 A:由整个互联网行业从业者年纪散布的饼状图可知.互联网行业从业者中 90 后占了 56%.所以 A 正确;对于 B:由两个统计图知 .互联网行业从事技术岗位的 90 后代数占总人数的56%×39.6%=21.176%.已经高出了 20%.所以整个互联网行业从事技术岗位的人数必定会超出总人数的 20%.所以 B 正确;对于 C:由两个统计图知 .互联网行业从事营运岗位的人数 90 后占总人数的56%×17%= 9.52%.超出了 80 前互联网行业从业者人数 .所以 C 正确;对于 D:由两个统计图知互联网行业 80 后的人数占 41%.但没有 80 后的岗位散布图 .所以没法判断互联网行业中从事技术岗位的人数 90 后与 80 后谁多谁少 .故 D 错误 .选 D.答案: D8.[20xx ·辽宁五校联考 ]以下命题:①在线性回归模型中 .有关指数 R2表示解说变量 x对于预告变量 y的贡献率.R2越靠近于 1.表示回归成效越好;②两个变量有关性越强 .则有关系数的绝对值就越靠近于1;③^在回归方程 y=-0.5x+2中.当解说变量x每增添一个单位时 .预告变量y均匀减少0. 5个单位;④若对分类变量 X与Y.它们的随机变量 K2的观察值 k来说 .k越小 .“X与Y 有关系”的掌握程度越大.此中正确的命题个数是()A .1B.2C. 3D.4分析:由有关指数的性质可知①正确;由有关系数的性质可知②正确;由线性回归方程截距的几何意义可得③正确;对分别变量X 与 Y.它们的随机变量 K2的观察值 k 来说 .k 越小 .“X 与 Y 有关系”的掌握程度越小 .k 越大 .“X 与 Y 有关系”的掌握程度越大 .④错误 .所以正确命题的个数是 3.应选 C.答案: C调研二散布列及希望与方差、正态散布■备考工具——————————————1.二项散布在 n次独立重复试验中 .设事件 A发生的次数为 X.在每次试验中事件A发生的概率为 p.那么在 n次独立重复试验中 .事件 A恰巧发生 k次的概率为 P(X=k)=Cknp k(1-p)n-k(k=0,1,2. .n).此时称随机变量 X听从二项散布 .记作 X~B( n.p).2.正态散布(1)正态散布的定义及表示:9/13假如对于任何实数 a.b(a<b).随机变量 X知足 P(a<X≤b)=b aφμ.σ(x)dx(即x=a.x=b.正态曲线及x轴围成的曲线梯形的面积).则称随机变量 X听从正态散布 .记作 X~ N(μ.σ2).(2)正态散布的三个常用数据:①P(μ-σ<X≤μ+σ)=0.682 6;② P(μ-2σ<X≤μ+2σ)=0.954 4;③ P(μ-3σ<X≤μ+3σ)=0.997 4.3.超几何散布在含有 M件次品的 N件产品中 .任取 n件.此中恰有 X件次品 .则P(X=k)=CkMCnN-Mk=此中=且≤N.M ≤CnN.k0,1,2..m.m min{ M.n}.n∈N* .此时称随机变量 X听从超几何散布.超几何散布的模型是不放回抽样.4.希望与方差n(1)称D(X)=i=1(x i-E(X))2p i为随机变量 X的方差 .它刻画了随机变量 X与其均值 E(X)的均匀偏离程度 .其算术平方根 D X 为随机变量 X的标准差 .记作σ(X).(2)均值与方差的性质:①E(aX+b)=aE(X)+b(a.b为常数 );② D(aX+b)= a2D(X)(a.b为常数 ).(3)两点散布与二项散布的均值与方差:①若随机变量 X听从两点散布 .则E(X)=p.D(X)=p(1-p).②若随机变量 X~ B(n.p).则E(X)=np.D(X)=np(1-p).5.方差和标准差方差和标准差反应了数据颠簸程度的大小.1(1)方差: s2=n[(x1-x )2+(x2-x )2++ (x n-x )2];10/13(2)标准差:s=12++ xn- x 2].[ x1- x 2+ x2- xn性质:标准差 (或方差 )越小 .说明数据颠簸越小 .越稳固;标准差 (或方差 )越大 .说明数据越分别 .越不稳固.■自测自评——————————————1.[20xx ·浙江卷 ] 设0<a<1.随机变量 X的散布列是X0a1P 111 333则当 a在(0,1)内增大时 .()A .D(X)增大B. D(X)减小C. D(X)先增大后减小D.D(X)先减小后增大1+21-2a2a1分析:由题意可得 .E(X)=3(a+1).所以 D(X)=27+27-226a2-6a+6 213=9a-22+4 .所以当 a 在(0,1)内增大+27=27时.D(X)先减小后增大.应选 D.答案: D2.[20xx ·全国卷Ⅲ]某集体中的每位成员使用挪动支付的概率都为p.各成员的支付方式互相独立.设 X为该集体的 10位成员中使用挪动支付的人数 .D(X)=2.4.P(X=4)<P(X=6).则p=()A .0.7B.0.6C. 0.4D.0.3分析:由题意知 .该集体的 10 位成员使用挪动支付的概率散布切合二项散布 .所以 D(X)=10p(1-p)=2.4.所以 p=0.6 或 p=0.4.由P(X=4)<P(X=6).得 C410p4(1-p)6<C610p6(1-p)4.即(1-p)2<p2.所以p>0.5.所以 p=0.6.11/13答案: B3.[20xx ·唐山摸底]随机变量ξ听从正态散布 N(μ.σ2).若P(ξ<2)=0.2.P(2<ξ<6)=0.6.则μ=()A .6B.5C. 4D.3分析:由题意可知 .P(ξ<6)=P(ξ<2)+P(2<ξ<6)=0.2+0.6=0.8.∴P(ξ>6)=1-0.8=0.2.2+6∴P(ξ<2)=P(ξ>6).∴μ=2=4.应选 C.答案: C4.某篮球队队员进行查核 .规则是:①每人进行 3个轮次的投篮;②每个轮次每人投篮 2次.若起码投中 1次.则本轮经过 .不然不经过.已2知队员甲投篮 1次投中的概率为3.假如甲各次投篮投中与否互不影响.那么甲 3个轮次经过的次数 X的希望是 ()8A .3 B.35C. 2 D.31 1 1分析:每个轮次甲不可以经过的概率为3×3=9.经过的概率为1-1 889=9.由于甲 3 个轮次经过的次数X 听从二项散布 B 3,9 .所以 X 的88数学希望为 3×9=3.答案: B5.有 8名学生 .此中有 5名男生.从中选出 4名代表 .选出的代表中男生人数为 X.则其数学希望为 E(X)=()A .2B.2.5C. 3D.3.512/13Ck5C43-k 分析:随机变量 X 的全部可能取值为 1,2,3,4.P(X=k)=C48=所以随机变量X 的数学希望E(X)=×1+2×3+3×3(k1,2,3,4).114771 5+4×14=2.应选 B.答案: B6.甲、乙两类水果的质量(单位: kg)分别听从正态散布 N(μ1.σ21) .N(μ2.σ2).其正态散布的密度曲线以下图.则以下说法错误的选项是 ( )A .甲类水果的均匀质量为0.4 kgB.甲类水果的质量散布比乙类水果的质量散布更集中于均匀值左右C.甲类水果的均匀质量比乙类水果的均匀质量小D.乙类水果的质量听从的正态散布的参数σ2=1.99分析:由图象可知甲的正态曲线对于直线x=0.4 对称 .乙的正态曲线对于直线 x=0.8 对称 .所以μ=0.4.μ=0.8.故 A 正确 .C 正确.由12图可知甲类水果的质量散布比乙类水果的质量散布更集中于均匀值1左右 .故 B 正确.由于乙的正态曲线的最大值为 1.99.即=2πσ 21.99.故 D 错误 .选 D.答案: D13/13。
高三数学专题复习7.3统计、统计案例教案(第2课时)

100
将 2×2列联表中的数据代入公式计算,得
n ad- bc 2
-
2
k= a+ b c+ d a+ c b+ d = 75×25×45×55
课题
统计、统计案例
课 时 共 3 课时
本节第 2 课时
选用教材 教学目标 重点 难点 关键
教学方法 及课前准备
专题七 知识模块
概率与统计
课型
熟练掌握频率分布直方图等图和回归分析独立性检验
熟练掌握频率分布直方图等图和回归分析独立性检验 熟练掌握频率分布直方图等图和回归分析独立性检验 熟练掌握频率分布直方图等图和回归分析独立性检验
1
1n
80
解
(1) 由题意
n= 10,
x
=
ni
=
x
1
i
=
= 10
8,
1 10
20
y
=
ni
=
y
1
i
=
10=
2,
n
又 x2i - n x 2= 720-10×82= 80.
i =1
n
xiyi-n x
i =1
y = 184-10×8×2= 24.
10
xi yi - 10 x y
^
i =1
由此得 b =
10
单价 x( 元 )
8
8.2
8.4
8.6
8.8
9
销量 y( 件 )
90
84
83
80
75
68
2
^
^
^
^
^
^
(1) 求回归直线方程 y =b x+ a ,其中 b =- 20, a = y - b x ;
2020版高考数学一轮复习第十章统计与统计案例学案理

第十章统计与统计案例第一节统计本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.突破点(一) 随机抽样[基本知识]1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样均为不放回抽样,且抽样过程中每个个体被抽取的机会相等从总体中逐个抽取是后两种方法的基础总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分中抽取在起始部分抽样时采用简单随机抽样元素个数很多且均衡的总体抽样分层抽样将总体分成几层,分层按比例进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成[基本能力]1.判断题(1)简单随机抽样是一种不放回抽样.( )(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( )(3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( ) 答案:(1)√ (2)× (3)√ (4)× (5)× 2.填空题(1)利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是________.解析:总体个数为N =8,样本容量为M =4,则每一个个体被抽到的概率为P =M N =48=12.答案:12(2)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是________.解析:因为抽取学号是以5为公差的等差数列,故采用的抽样方法应是系统抽样. 答案:系统抽样(3)某公司共有1 000名员工,下设若干部门,现采用分层抽样方法,从全体员工中抽取一个样本容量为80的样本,已告知广告部门被抽取了4个员工,则广告部门的员工人数为________.解析:1 00080=x 4,x =50.答案:50(4)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.解析:设应从高二年级抽取x 名学生,则x 50=310.解得x =15. 答案:15[全析考法]简单随机抽样1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1] (1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481C.02 D.01(2)下列抽取样本的方式不属于简单随机抽样的有________.①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.[解析] (1)由题意知前5个个体的编号为08,02,14,07,01.(2)①不是简单随机抽样.因为不满足总体的有限性.②不是简单随机抽样.因为它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.[答案] (1)D (2)①②③④系统抽样系统抽样的步骤[例2] (1)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20(2)将高一(九)班参加社会实践编号为1,2,3,…,48的48名学生,采用系统抽样的方法抽取一个容量为4的样本,已知5号,29号,41号学生在样本中,则样本中还有一名学生的编号是________.[解析] (1)由系统抽样的定义知,分段间隔为1 00040=25.故选C.(2)根据系统抽样的概念,所抽取的4个样本的编号应成等差数列,因为在这组数中的间距为41-29=12,所以所求的编号为5+12=17.[答案] (1)C (2)17 [易错提醒]用系统抽样法抽取样本,当Nn不为整数时,取k =⎣⎢⎡⎦⎥⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3] (1)(2018·南昌模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200 人、高三n 人中,抽取81人进行问卷调查.已知高二被抽取的人数为30,那么n =( )A .860B .720C .1 020D .1 040(2)(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________.[解析] (1)根据分层抽样方法,得 1 2001 000+1 200+n ×81=30,解得n =1 040.故选D.(2)本题考查分层抽样方法及用样本估计总体.从丙种型号的产品中抽取的件数为60×300200+400+300+100=18.(3)由题意知1245+15=3045+15+30+10+a +20,解得a =30.[答案] (1)D (2)18 (3)30 [方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同. (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样. (4)抽样比=样本容量总体容量=各层样本数量各层个体数量.[全练题点]1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法:①1,2,3,...,100; ②001,002,...,100; ③00,01,02,...,99; ④01,02,03, (100)其中正确的序号是( )A.②③④B.③④C.②③D.①②解析:选C 根据随机数法编号可知,①④编号位数不统一.2.[考点一、二、三]对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( ) A.10 B.11C.12 D.16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽取55人,其中从高一年级学生中抽取20人,则从高三年级学生中抽取的人数为________.解析:设从高二年级学生中抽取x人,由题意得x360=20400,解得x=18,则从高三年级学生中抽取的人数为55-20-18=17人.答案:175.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二) 用样本估计总体[基本知识]1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图总体密度曲线随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数据中重复出现次数最多的数众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,…,x n,那么这n个数的平均数x-=x1+x2+…+x nn平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1 n [x1-x-2+x2-x-2+…+x n-x-2].②方差:标准差的平方s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x -是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x -,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ,方差为m 2s 2.[基本能力]1.判断题(1)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) (2)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )(5)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (6)一组数据的众数可以是一个或几个,中位数也具有相同的结论.( ) 答案:(1)√ (2)× (3)√ (4)× (5)√ (6)× 2.填空题(1)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).答案:48(2)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:①[25,30)年龄组对应小矩形的高度为________;②据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.解析:设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.则志愿者年龄在[25,35)年龄组的频率为5(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.答案:①0.04 ②440(3)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是____________.解析:由题意知各数为12,15,20,22,23,23,31,32,34,34,38,39,45,45,45,47,47,48,48,49,50,50,51,51,54,57,59 ,61,67,68,中位数是46,众数是45,最大数为68,最小数为12,极差为68-12=56.答案:46,45,56(4)一组数据分别为:12,16,20,23,20,15,28,23,则这组数据的中位数是________.解析:这组数据从小到大排列为:12,15,16,20,20,23,23,28,∴这组数据的中位数是20+202=20.答案:20(5)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.解析:5个数的平均数x=4.7+4.8+5.1+5.4+5.55=5.1,所以它们的方差s2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.答案:0.1[全析考法]频率分布直方图[例1] (2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.[解] (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9, 故样本中分数小于50的频率为0.1,故分数在区间[40,50)内的人数为100×0.1-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60, 女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.[方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率. 2.与频率分布直方图计算有关的两个关系式(1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数. 茎叶图(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B 药的20位患者日平均增加的睡眠时间:3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.41.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?[解] (1)设A 药观测数据的平均数为x -,B 药观测数据的平均数为y -.由观测结果可得x -=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y -=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x ->y -,因此可看出A 药的疗效更好.(2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A 药疗效的试验结果有710的叶集中在茎2,3上,而B 药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A 药的疗效更好.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.(2)若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一) 与频率分布直方图交汇命题[例3] 某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230. ∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 与茎叶图交汇命题[例4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )A.7,8 B .5,7C .8,5D .7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为 3×10+20+9+6+6+x +95=17.4,解得x =7. (2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优化决策问题交汇命题[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁 平均环数x8.3 8.8 8.8 8.7 方差s 2 3.5 3.6 2.2 5.4)A .甲B .乙C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C[方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[全练题点]1.[考点二]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( ) A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝ ⎛⎭⎪⎫1-x 80,解得x =16. 2.[考点二](2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5B .5,5C .3,7D .5,7解析:选A 由两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等,所以15×[56+62+65+74+(70+x )]=15×(59+61+67+65+78),解得x =3. 3.[考点一]为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第1小组的频数为6,则报考飞行员的学生人数是( )A .36B .40C .48D .50解析:选C 由题知,题图中从左到右的前3个小组的频率之和为1-(0.037+0.013)×5=0.75.又图中从左到右的前3个小组的频率之比为1∶2∶3,所以第1小组的频率为0.75×11+2+3=0.125,所以报考飞行员的学生人数是60.125=48. 4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6. 5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环): 甲10 8 9 9 9 乙 10 10 7 9 9.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定. 答案:甲6.[考点三·考法(一)](2017·安徽黄山二模)全世界越来越关注环境保护问题,某监测站点于2017年1月某日起连续n 天监测空气质量指数(AQI),数据统计如下表:空气质量指数(μg/m 3)[0,50] (50,100] (100,150] (150,200] (200,250] 空气质量等级优 良 轻度污染 中度污染 重度污染 天数20 40 m10 5 (1)根据所给统计表和频率分布直方图中的信息求出n ,m 的值,并完成频率分布直方图;(2)由频率分布直方图,求该组数据的平均数与中位数.解:(1)∵0.004×50=20n ,∴n =100,∵20+40+m +10+5=100,∴m =25.40100×50=0.008;25100×50=0.005;10100×50=0.002;5100×50=0.001.由此完成频率分布直方图,如图:(2)由频率分布直方图得该组数据的平均数为25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,∵[0,50)的频率为0.004×50=0.2,[50,100)的频率为0.008×50=0.4,∴中位数为50+0.5-0.20.4×50=87.5. [全国卷5年真题集中演练——明规律]1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数解析:选B 标准差能反映一组数据的稳定程度.故选B.2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:选A 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.3.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;故D错误.4.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( ) A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,。
2020高考一轮复习数学教案第十章统计与统计案例

第1讲 随机抽样1.以选择题或填空题的形式考查随机抽样方法以及有关的计算.特别是对分层抽样的考查,几乎每年都出现在高考试题中.2.在解答题中与概率统计的有关问题相结合进行综合考查.【复习指导】1.本讲复习时,应准确理解三种抽样方法的定义,搞清它们之间的联系与区别,灵活选择恰当的抽样方法抽取样本.2.新课标高考近几年常将抽样方法与频率分布直方图、概率等相结合进行综合考查,因此,要加强这方面的训练.基础梳理1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)编号:先将总体的N 个个体编号;(2)分段:确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k=N n ;(3)确定首个个体:在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)获取样本:按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.分层抽样的步骤(1)分层:将总体按某种特征分成若干部分;(2)确定比例:计算各层的个体数与总体的个体数的比;(3)确定各层应抽取的样本容量;(4)在每一层进行抽样(各层分别按简单随机抽样或系统抽样的方法抽取),综合每层抽样,组成样本.一条规律三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每个个体被抽到的概率都是n N.三个特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽出的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.双基自测1.(人教A版教材习题改编)某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为().A.33人,34人,33人B.25人,56人,19人C.30人,40人,30人D.30人,50人,20人解析因为125∶280∶95=25∶56∶19,所以抽取人数分别为:25人,56人,19人.答案 B2.(2012·福州质检)为了了解全校240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是().A.总体是240 B.个体是每一个学生C.样本是40名学生D.样本容量是40解析总体容量是240,总体是240名学生的身高;个体是每名学生的身高;样本是40名学生的身高;样本容量是40.答案 D3.(2012·昆明调研)下列说法中正确说法的个数是().①总体中的个体数不多时宜用简单随机抽样法;②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样;③百货商场的抓奖活动是抽签法;④整个抽样过程中,每个个体被抽取的概率相等(有剔除时例外).A.1 B.2 C.3 D.4解析①②③显然正确,系统抽样无论有无剔除都是等概率抽样;④不正确.答案 C4.老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是().A.随机抽样B.分层抽样C.系统抽样D.以上都不是解析因为所抽取学生的学号成等差数列,即为等距离抽样,属于系统抽样.答案 C5.(2011·天津)一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为________.解析抽取的男运动员的人数为2148+36×48=12.答案12考向一简单随机抽样【例1】►某车间工人加工一种轴承100件,为了了解这种轴承的直径,要从中抽取10件轴承在同一条件下测量,如何采用简单随机抽样的方法抽取样本?[审题视点] 考虑到总体中个体数较少,利用抽签法或随机数表法均可容易获取样本.须按这两种抽样方法的操作步骤进行.抽签法应“编号、制签、搅匀、抽取”;随机数表法应“编号、确定起始数、读数、取得样本”.解法一(抽签法)将100件轴承编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,然后测量这10个号签对应的轴的直径.法二(随机数表法)将100件轴承编号为00,01,02,…,99,在随机数表中选定一个起始位置,如取第21行(见随机数表)第1个数开始,选取10个为68,34,30,13,70,55,74,30,77,40,这10件即为所要抽取的样本.(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表中共随机出现0,1,2,…,9十个数字,也就是说,在表中的每个位置上出现各个数字的机会都是相等的.在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或每四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.【训练1】福利彩票的中奖号码是在1~36个号码中,选出7个号码来按规则确定中奖情况,这种从36个号码中选7个号的适宜的抽样方法是________.答案抽签法考向二系统抽样【例2】►用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为123,则第2组中应抽出个体的号码是________.[审题视点] 根据系统抽样的特点,确定组数和每组的样本数,写出每组抽取号码的表达式,确定第一组所抽取的号码数,代入公式即可求得第2组抽取样本的号码.解析由题意可知,系统抽样的组数为20,间隔为8,设第1组抽出的号码为x,则由系统抽样的法则可知,第n组抽出个体的号码应该为x+(n-1)×8,所以第16组应抽出的号码为x+(16-1)×8=123,解得x=3,所以第2组中应抽出个体的号码为3+(2-1)×8=11.答案11(1)系统抽样的特点——机械抽样,又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.(2)系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.【训练2】从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是().A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32解析间隔距离为10,故可能编号是3,13,23,33,43.答案 B考向三分层抽样【例3】►某市电视台在因特网上征集电视节目的现场参与观众,报名的共有 1 2000人,分别来自4个城区,其中东城区2 400人,西城区4 600人,南城区3 800人,北城区1 200人,从中抽取60人参加现场节目,应当如何抽取?[审题视点] 因为地域有名显的差异,故采用分层抽样.解因为:60∶1 2000=1∶200,所以2 400200=12,4 600200=23,3 800200=19,1 200200=6.故从东城区中抽取12人,从西城中抽23人,从南城中抽19人,从北城区中抽6人.在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i∶N i=n∶N.【训练3】(2010·重庆)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为().A.7 B.15C.25 D.35解析由题意知,青年职工人数∶中年职工人数∶老年职工人数=350∶250∶150=7∶5∶3.由样本中青年职工为7人得样本容量为15.答案B难点突破22——高考中抽样方法问题从近两年新课标高考试题可以看出高考主要是以选择题或填空题的形式考查抽样方法,难度并不大.其中重点考查分层抽样,其次是系统抽样.计算时应注意:分层抽样是按比例抽样,系统抽样首先是对总体分段的计算,注意分段时可能要排除一些个体,各段的间距是一样的.【示例1】►(2011·福建)某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为().【示例2】►(2011·山东)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为________.【示例3】►(2010.湖北)将参加夏令营的600名学生编号为:001,002, (600)采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为().A.26,16,8 B.25,17,8C.25,16,9 D.24,17,9第2讲用样本估计总体1.考查样本的频率分布(分布表、直方图、茎叶图)中的有关计算,样本特征数(众数、中位数、平均数、标准差)的计算.主要以选择题、填空题为主.2.考查以样本的分布估计总体的分布(以样本的频率估计总体的频率、以样本的特征数估计总体的特征数).【复习指导】1.由于高考对统计考查的覆盖面广,几乎对所有的统计考点都有所涉及,其中频率分布直方图、均值与方差、茎叶图是核心考点,需要好好掌握.复习时,对于统计的任何环节都不能遗漏,最主要的是掌握好统计的基础知识,适度的题量练习.2.高考对频率分布直方图或茎叶图与概率相结合的题目考查日益频繁.因此,复习时要加强这方面的训练,弄清图表中有关量的含义,并从中提炼出有用的信息,为后面的概率计算打好基础.基础梳理1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种:一种是用样本的频率分布估计总体的分布;另一种是用样本的数字特征估计总体的数字特征.(2)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差).②决定组距与组数.③将数据分组.④列频率分布表.⑤画频率分布直方图.(3)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积总和等于1.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.3.茎叶图的优点用茎叶图表示数据有两个突出的优点:一是统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.4.样本方差与标准差设样本的元素为x1,x2,…,x n,样本的平均数为x,(1)样本方差:s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].(2)样本标准差:s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].两个异同(1)众数、中位数与平均数的异同①众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.②由于平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变,这是中位数、众数都不具有的性质.③众数考查各数据出现的频率,其大小只与这组数据中的部分数据有关.当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题.④某些数据的变动对中位数可能没有影响.中位数可能出现在所给数据中,也可能不在所给数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.(2)标准差与方差的异同标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大;标准差、方差越小,数据的离散程度则越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.三个特征利用频率分布直方图估计样本的数字特征:(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.(3)众数:最高的矩形的中点的横坐标.双基自测1.(人教A版教材习题改编)某工厂生产滚珠,从某批产品中随机抽取8粒,量得直径分别为(单位:mm):14.7,14.6,15.1,15.0,14.8,15.1,15.0,14.9,则估计该厂生产的滚珠直径的平均数为().A.14.8 mm B.14.9 mmC.15.0 mm D.15.1 mm解析平均数x=18(14.7+14.6+15.1+15.0+14.8+15.1+15.0+14.9)=14.9(mm).答案 B2.(2012·合肥月考)一个容量为100的样本,其数据的分组与各组的频数如下:组别(0,10](10,20](20,30](30,40](40,50](50,60](60,70] 频数1213241516137则样本数据落在(10,40]上的频率为().A.0.13 B.0.39C.0.52 D.0.64解析由列表可知样本数据落在(10,40]上的频数为52,故其频率为0.52.答案 C3.(人教A版教材习题改编)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,19,17,16,14,12,则这一天10名工人生产的零件的中位数是().A .14B .16C .15D .17解析 将这组数据从小到大排列得10,12,14,14,15,15,16,17,17,19.故中位数为15+152=15. 答案 C 4.某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚,如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有( ). A .30辆 B .40辆 C .60辆 D .80辆解析 由题图可知,车速大于或等于70 km/h 的汽车的频率为0.02×10=0.2,则将被处罚的汽车大约有200×0.2=40(辆). 答案 B5.(2011·江苏)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s 2=________.解析 平均数x =10+6+8+5+65=7.∴s 2=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+ (6-7)2]=15×(9+1+1+4+1)=3.2. 答案 3.2考向一 频率分布直方图的绘制与应用【例1】►某校从参加高一年级期中考试的学生中随机抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的频率分布直方图,观察图形的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全这个频率分布直方图;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试中的平均分.[审题视点] 利用各小长方形的面积和等于1求[70,80)内的频率.解(1)设分数在[70,80)内的频率为x,根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x=1,可得x=0.3,所以频率分布直方图如图所示.(2)平均分为:x=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71(分).频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布.根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法.【训练1】(2011·湖北)有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12)内的频数为().A.18 B.36C.54 D.72解析样本数据落在区间[10,12)内的频率1-(0.19+0.15+0.05+0.02)×2=0.18,所以数据落在此区间的频数为200×0.18=36.答案 B考向二茎叶图的应用【例2】►如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1、a2,则一定有().A.a1>a2B.a2>a1C.a1=a2D.a1,a2的大小与m的值有关[审题视点] 去掉的最低分和最高分就是第一行和第三行的数据,剩下的数我们只要计算其叶上数字之和,即可对问题作出结论.解析去掉一个最高分和一个最低分后,甲选手叶上的数字之和是20,乙选手叶上的数字之和是25,故a2>a1.故选B.答案 B由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表试题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断,这类试题往往伴随着对数据组的平均值或者是方差的计算等.【训练2】在一项大西瓜品种的实验中,共收获甲种大西瓜13个、乙种大西瓜11个,并把这些大西瓜的重量(单位:斤,1斤=500克)制成了茎叶图,如图所示,据此茎叶图写出对甲乙两种大西瓜重量的两条统计结论是:(1)__________________________________________;(2)__________________________________________.解析从这个茎叶图可以看出,甲种大西瓜的重量大致对称,平均重量、众数及中位数都是30多斤;乙种大西瓜的重量除了一个51斤外,也大致对称,平均重量、众数及中位数都是20多斤,但甲种大西瓜的产量比乙种稳定,总体情况比乙好.答案(1)甲种大西瓜的平均重量大于乙种大西瓜(2)甲种大西瓜的产量比乙种大西瓜稳定考向三用样本的数字特征估计总体的数字特征【例3】►甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.[审题视点] (1)先通过图象统计出甲、乙二人的成绩;(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价.解(1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.x甲=10+13+12+14+165=13,x乙=13+14+12+12+145=13,s2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s2甲>s2乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.【训练3】甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.解析x甲=x乙=9环,s2甲=15[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=2 5,s2乙=15[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s2甲,故甲更稳定,故填甲.答案甲规范解答19——怎样解答茎叶图与概率的综合性问题【问题研究】 茎叶图是一个将数据分成主、次两部分,把主要部分当做茎、次要部分当作叶表达数据的一个图,它是一种常用的统计图.因此考题常将茎叶图作为载体来考查平均数、方差以及概率问题.【解决方案】 首先对茎叶图中的数据全面分析,然后再根据茎叶图的数据解决其它问题.【示例】►(本题满分12分)(2011·北京)以下茎叶图记录了甲、乙两组各四名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X 表示.(1)如果X =8,求乙组同学植树棵数的平均数和方差;(2)如果X =9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数为19的概率.(注:方差s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n的平均数)第(1)问直接套入公式求值;第(2)问利用古典概型的知识解决.[解答示范] (1)当X =8时,由茎叶图可知,乙组同学的植树棵数是:8,8,9,10,所以平均数为x =8+8+9+104=354.(2分)方差为s 2=14⎣⎢⎡⎦⎥⎤⎝ ⎛⎭⎪⎫8-3542+⎝ ⎛⎭⎪⎫8-3542+⎝ ⎛⎭⎪⎫9-3542+⎝ ⎛⎭⎪⎫10-3542=1116.(5分)(2)记甲组四名同学为A 1,A 2,A 3,A 4,他们植树的棵数依次为9,9,11,11;乙组四名同学为B 1,B 2,B 3,B 4,他们植树的棵数依次为9,8,9,10.分别从甲、乙两组中随机选取一名同学,所有可能的结果有16个,它们是:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),(9分)用C 表示:“选出的两名同学的植树总棵数为19”这一事件,则C 中的结果有4个,它们是:(A 1,B 4),(A 2,B 4),(A 3,B 2),(A 4,B 2).故所求概率为P (C )=416=14.(12分)茎叶图一般记录两组的数据,它最直观、最清晰,但利用茎叶图解决概率问题时对重复出现的数据要重复记录,不能遗漏.第3讲 变量间的相关关系与统计案例以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.基础梳理1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b^x +a ^,则⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i-x )2=∑i =1nx i y i-n xy∑i =1nx 2i-n x2,a^=y -b ^ x .其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n (x i -x )2∑i =1n(y i -y )2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差. (2)相关指数用相关指数R 2来刻画回归的效果,其计算公式是:R 2= ,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2越接近于1,表示回归效果越好. 6.独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.(2)列出的两个分类变量的频数表,称为列联表.(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d)(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.三个注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.。
2020版高考数学一轮复习 10.3统计案例精品学案 新人教版

2020版高考数学一轮复习精品学案:第十章 统计、统计案例10.3统计案例 【高考新动向】 一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用. 二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题. 【考纲全景透析】 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y L 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑②当0r >时,表明两个变量正相关; 当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性. 2.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异µ()i i y y -是随机误差的效应,称µµii i e y y =-为残差. (3)残差平方和µ21()niii y y =-∑.(4)相关指数µ22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为1y2y总计1x a b a b + 2xcdc d +总计a c +b d + a bcd +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量. (3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值. 【热点难点精析】(一)线性回归分析 ※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程$$y bx a =+$.(1)线性回归方程中的截距$a 和斜率b $都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程$$y bx a =+$中的b $表示x 增加1个单位时$y 的变化量为b $.(3)可以利用回归方程$$y bx a =+$预报在x 取某一个值时y 的估计值.3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱. 4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程$$y bx a =+$).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值. ※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用分工求出回归方程进行回归分析. 解答:(1)1010102222111101101022221166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,10(4479444622.4)(44941.93449.3.4)661(10)(10)iii i i i i i ii i i i i x y x y x y x y x y x yr x x y y =========≈===-==----∑∑∑∑∑∑0.804.1.5764≈所以y x 与之间具有很强的线性相关关系.(2)设回归方程为$$y bx a =+$.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i ii i i x y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.a y bx =-=-⨯≈故所求的回归方程为:ˆ0.464635.97y x =+.(3)当x=73时, ˆ0.46467335.9769.9y =⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a =+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n n x y x y x y L ,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b ==%%和,其中a b 和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i i i i Q y y Q y y ===-=-∑∑和;(3)若(1)ˆQ <(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果不如的好.※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e =的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,z x =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643iiii i ey y ===-=∑∑,621ˆ()iii y y=-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效? 思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000,a b c d a b c d a c b d n====+=+=+=+==代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
高中数学复习课统计案例教学案人教2

高中数学复习课统计案例教学案人教2一、引言统计学是一门研究数据收集、整理、分析和解释的学科。
在高中数学复习课中,统计学是一个重要的内容。
通过统计学的学习,学生可以掌握数据的收集和整理方法,了解统计量的计算和解释,培养数据分析和判断能力。
本教学案以人教版高中数学教材第二册中的统计学内容为基础,设计了一堂案例教学课,旨在帮助学生深入理解统计学的概念和方法,并能够灵活运用于实际问题中。
二、教学目标1. 知识目标:a. 了解统计学的基本概念和方法;b. 掌握数据收集和整理的技巧;c. 理解统计量的计算和解释;d. 能够应用统计学知识解决实际问题。
2. 能力目标:a. 培养学生的数据分析和判断能力;b. 提高学生的问题解决能力;c. 培养学生的团队合作和表达能力。
三、教学内容本堂课的教学内容主要包括以下几个部分:1. 统计学的基本概念和方法;2. 数据的收集和整理;3. 统计量的计算和解释;4. 统计学在实际问题中的应用。
四、教学过程1. 导入(5分钟)教师通过引入一个实际问题,引发学生对统计学的兴趣,并提出问题:在班级中,男生和女生的身高有什么差异?2. 知识讲解(15分钟)a. 教师通过讲解,介绍统计学的基本概念和方法,如样本、总体、频数、频率等;b. 教师讲解数据的收集和整理方法,如问卷调查、实地观察等;c. 教师讲解统计量的计算和解释,如平均数、中位数、众数等;d. 教师讲解统计学在实际问题中的应用,如调查报告、数据分析等。
3. 案例分析(30分钟)a. 学生分成小组,每个小组选择一个感兴趣的实际问题,并进行数据收集和整理;b. 学生利用所学的统计学知识,计算相应的统计量,并解释结果;c. 学生通过小组讨论,分析问题的原因和解决方法,形成调查报告。
4. 展示和讨论(20分钟)a. 每个小组派代表上台展示调查报告,并分享自己的思考和发现;b. 学生之间进行互动和讨论,提出问题和建议,促进思维碰撞和知识交流。
高三数学理科复习教案:统计案例复习教学案

高三数学理科复习教案:统计案例复习教学案【】欢迎来到查字典数学网高三数学教案栏目,教案逻辑思路清晰,符合认识规律,培养学生自主学习适应和能力。
因此小编在此为您编辑了此文:高三数学理科复习教案:统计案例复习教学案期望能为您的提供到关心。
本文题目:高三数学理科复习教案:统计案例复习教学案高考导航考试要求重难点击命题展望1.明白得随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样方法.2.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、茎叶图,明白得它们各自的特点,明白得样本数据标准差的意义和作用,会运算数据标准差,能从样本数据中提取差不多的数字特点(如平均数、标准差),并作出合理的说明,会用样本的频率分布估量总体分布,会用样本的差不多数字特点估量总体的差不多数字特点,明白得用样本估量总体的思想,会用随机抽样的差不多方法和样本估量总体的思想解决一些简单的实际问题.3.会作两个有关联变量的散点图,会利用散点图认识变量间的相关关系,了解最小二乘法的思想,能依照给出的线性回来方程系数公式建立线性回来方程,了解回来的差不多思想、方法及其简单应用.4.了解独立性检验(只要求22列联表)的差不多思想、方法及其简单应用. 本章重点:1.三种抽样方法的区别、联系及操作步骤.2.样本频率分布直方图和茎叶图.3.用样本估量总体的思想.本章难点:回来直线方程与独立性检验. 统计多数以选择题和填空题形式考查,大题只在个别省的考题中显现过.难度属于基础题和中档题.考点往往集中表达在抽样方法、频率分布图表这两个方面.另外,应注意统计题反映出来的综合性与应用性,如与数列、概率等的综合,用统计方法提供决策、制定方案等,以此考查学生搜集处理信息及分析解决问题的能力.知识网络13.1 抽样方法与用样本估量总体典例精析题型一抽样方法【例1】某校有教师200人,男学生1 200人,女学生1 000人,用分层抽样的方法从所有师生中抽取一个容量为n的样本,已知女学生抽取的人数为80人,则n的值为.【解析】依照分层抽样的意义,n200+1 200+1 000=801 000,解得n=192.【点拨】现实中正确的分层抽样一样有三个步骤:第一,辨明突出的统计特点和分类.其次,确定每个分层在总体上的比例.利用那个比例,可运算出样本中每组(层)应抽取的人数.最后,必须从每层中抽取独立简单随机样本.【变式训练1】从某厂生产的802辆轿车中随机抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.【解析】第一步,将802辆轿车用随机方式编号.第二步,从总体中剔除2辆(剔除方法可用随机数表法),将剩余的800辆轿车重新编号(分别为001,002,003,,800),并分成80段.第三步,在第一段001,002,,010这十个编号中用简单随机抽样抽出一个(如005)作为起始号码.第四步,将编号为005,015,025,,795的个体抽出,组成样本.题型二频率分布直方图【例2】(2 010湖南)如图是某都市通过抽样得到的居民某年的月均用水量(单位:吨)的频率分布直方图.(1)求直方图中x的值;(2)若将频率视为概率,从那个都市随机抽取3位居民(看作有放回的抽样),求月均用水量在3至4吨的居民数X的分布列和数学期望.【解析】(1)依题意及频率分布直方图知0 .02+0.1+x+0.37+0.39=1,解得x=0.12.(2)由题意知X~B(3,0.1),因此P(X=0)=C030.93=0.729,P(X=1)=C130.10.92=0.243,P(X=2)=C230.120.9 =0.027,P(X=3)=C330.13=0.001,故随机变量X的分布列为X 0 1 2 3P 0.729 0.243 0.027 0. 001X的数学期望为E(X)=30.1=0.3.(或E(X)=10.243+20.027+30.001=0.3)【点拨】从频率分布直方图读取数据时,要专门重视组距,纵坐标是频率除以组距,故长方形的面积之和为1.【变式训练2】如图是容量为100的样本的频率分布直方图,试依照数据填空:(1)样本数据落在[10,14)内的频数为;(2)样本数据落在[6,10)内的频率为;(3)总体落在[2,6)内的频率为.【解析】(1)样本落在[10,14)内的频数为0.094100=36.(2)样本落在[6,10)内的频率为0.084=0.32.(3)样本落在[2,6)内的频率为0.024=0.08,因此总体落在[2,6)内的频率约为0.08.题型三平均数、方差的运算【例3】甲、乙两人在相同条件下各射靶10次,每次命中环数如下:甲4 7 10 9 5 6 8 6 8 8乙7 8 6 8 6 7 8 7 5 9试问谁10次射靶的情形较稳固?【解析】本题要运算两样本的方差,当样本平均数不是整数,且样本数据不大时,可用简化公式运算方差.=110(4+7++8)=7.1,=110(7+8++9)=7.1,s2甲=110(42+72++82-107.12)=3.09,s2乙=110(72+82++92-107.12)=1.29,因为s2甲s2乙,因此乙10次射靶比甲10次射靶情形稳固.【点拨】平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度就越大,越不稳固;标准差、方差越小,数据的离散程度越小,越稳固.【变式训练3】(2021北京市东城区)在一次数学统考后,某班随机抽取10名同学的成绩进行样本分析,获得成绩数据的茎叶图如右图.(1)运算此样本的平均成绩及方差;(2)现从此样本中随机抽出2名学生的成绩,设抽出分数为90分以上的人数为X,求随机变量X的分布列和均值.【解析】(1)样本的平均成绩=80;方差为s2=110[(92-80)2+(98-80)2+(98-80)2+(85-80)2+(85-80)2+(74-80)2 +(74-80)2+(74-80)2 +(60-80)2+(60-80)2]=175.(2)由题意,随机变量X=0,1,2.P(X=0)=C27C210=715,P(X=1)=C13C17C210=715,P(X=2)=115.随机变量X的分布列为X 0 1 2PE(X)=0715+1715+2115=35.总结提高1.统计的差不多思想是用样本估量总体.这就要求样本具有专门好的代表性,而样本良好客观的代表性,则完全依靠抽样方法.2.三种抽样方法中简单随机抽样是最差不多的抽样方法,是其他两种方法的基础,它们的共同点差不多上等概率抽样.适用范畴不同,要依照总体的具体情形选用不同的方法.3.关于总体分布,总是用样本的频率分布对它进行估量.4.用样本估量总体,一样分成以下几个步骤:先求样本数据中的最大值和最小值(称为极值),再确定合适的组数和组距,确定分点(每个分点只属于一组,故一样采纳半开半闭区间),然后列出频率分布表(准确,查数据容易),画频率分布直方图.13.2 两变量间的相关性、回来分析和独立性检验典例精析题型一求回来直线方程【例1】下表是关于某设备的使用年限(年)和所需要的修理费用(万元)的几组统计数据:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0(1)若y对x呈线性相关关系,求出y关于x的线性回来方程y= x+ ;(2)估量使用年限为10年时,修理费用为多少?【解析】(1)因为xiyi=112.3,x2i=4+9+16+25+36=90,且=4,=5,n =5,因此=112.3-54590-516=12.310=1.23,=5-1.234=0.08,因此回来直线方程为y=1.23x+0.08.(2)当x=10时,y=1.2310+0.08=12.38,因此估量当使用10年时,修理费用约为12.38万元.【点拨】当x与y呈线性相关关系时,可直截了当求出回来直线方程,再利用回来直线方程进行运算和推测.【变式训练1】某工厂通过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据.x 3 4 5 6y 2.5 3 4 4.5据相关性检验,y与x具有线性相关关系,通过线性回来分析,求得回来直线的斜率为0.7,那么y关于x的回来直线方程是.【解析】先求得=4.5,=3.5,由=0.7x+a过点( ,),则a=0.35,因此回来直线方程是=0.7x+0.35.题型二独立性检验【例2】研究小麦种子经灭菌与否跟发生黑穗病的关系,经试验观看,得到数据如下表所示:种子灭菌种子未灭菌合计黑穗病26 184 210无黑穗病50 200 250合计76 384 460试按照原试验目的作统计分析推断.【解析】由列联表得:a=26,b=1 84,c=50,d=200,a+b=210,c+d=250,a+c=76,b+d=384,n=460.因此K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=460(26200-18450)22102507638 44.804,由于K24.8043.841,因此有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.【变式训练2】(2021东北三省三校模拟)某研究小组为了研究中学生的躯体发育情形,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成22的列联表,依照列联表的数据,能够有%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重不超重合计偏高4 1 5不偏高3 12 15合计7 13 20附:独立性检验临界值表P(K2k0) 0.025 0.010 0.005 0.001k0 5.024 6.635 7.879 10.828(独立性检验随机变量K2值的运算公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b +d))【解析】由表可得a+b=5,c+d=1 5,a+c=7,b+d=13,ad=48,bc=3,n=20,运用独立性检验随机变量K2值的运算公式得K2=20(48-3)2515713= 540915.934,由于K25.9345.024,因此有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.总结提高1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.观看内容的选择,我本着先静后动,由近及远的原则,有目的、有打算的先安排与幼儿生活接近的,能明白得的观看内容。
专题10 统计与统计案例-2020届高三数学一轮复习导学案教师用书打包下载

专题十统计与统计案例第一节统计【基本知识通关】1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较总体中4.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k 次;第五步,将总体中与抽取的号签的编号一致的k 个个体取出. 5.随机数法的步骤 第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.6.系统抽样的步骤7.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解: (1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.【知识应用通关】1.某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法:①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( ) A .②③④ B .③④ C .②③ D .①②【答案】C【解析】根据随机数法编号可知,①④编号位数不统一.2.对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3【答案】D【解析】由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.3.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是()A.10 B.11C.12 D.16【答案】D【解析】从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.某校高一年级有学生400人,高二年级有学生360人,现采用分层抽样的方法从全校学生中抽取55人,其中从高一年级学生中抽取20人,则从高三年级学生中抽取的人数为________.【答案】175.为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.【答案】57【解析】由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.考点(二)用样本估计总体【基本知识通关】1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便. 2.样本的数字特征 (1)众数、中位数、平均数(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].②方差:标准差的平方s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x -是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x -,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ,方差为m 2s 2.3.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.4.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率;(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.5.茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.6.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等. 7.茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况. 8.样本的数字特征(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.(2)若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.9.频率分布直方图与众数、中位数、平均数的关系 (1)最高的小长方形底边中点的横坐标为众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.【基本知识通关】1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16【答案】D【解析】设中间一组的频数为x ,依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16. 2.如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5 B .5,5 C .3,7 D .5,7【答案】A3.为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第1小组的频数为6,则报考飞行员的学生人数是( )A .36B .40C .48D .50【答案】C4.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4【答案】C【解析】依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):如果甲、乙两人中只有1人入选,则入选的最佳人选应是________. 【答案】甲【解析】x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定.6.全世界越来越关注环境保护问题,某监测站点于2017年1月某日起连续n 天监测空气质量指数(AQI ),数据统计如下表:(1)根据所给统计表和频率分布直方图中的信息求出n ,m 的值,并完成频率分布直方图;(2)由频率分布直方图,求该组数据的平均数与中位数.(2)由频率分布直方图得该组数据的平均数为25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001×50=95,∵[0,50)的频率为0.004×50=0.2,[50,100)的频率为0.008×50=0.4,∴中位数为50+0.5-0.20.4×50=87.5.第二节 统计案例 考点(一) 回归分析 【基本知识通关】1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.两个变量的线性相关|大于【基本知识通关】1.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1相关性越强. 2.求回归直线方程的步骤3.利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.进行预测时,把自变量代入回归直线方程即可对因变量进行估计. 4.回归直线方程中系数的两种求法(1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x -,y -)求系数. 5.回归分析的两种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b ^.【知识应用通关】1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②【答案】D2.根据如下样本数据得到的回归方程为y ^=bx +a ,若a =5.4,则x 每增加1个单位,y 就( )A.增加0.9个单位 B .减少0.9个单位 C .增加1个单位 D .减少1个单位【答案】B3.若一函数模型为y =sin 2 α+2sin α+1,为将y 转化为t 的回归直线方程,则需作变换t =( ) A .sin 2 α B .(sin α+1)2 C.⎝⎛⎭⎫sin α+122 D .以上都不对【答案】B【解析】y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =(sin α+1)2,若令t =(sin α+1)2,则可得y 与t 的函数关系式为y =t ,此时变量y 与变量t 是线性相关关系.4.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 【答案】D【解析】正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④. 5.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y ^-b ^x -.y -=15×(3+3.5+4+6.5+8)=5.b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2考点(二)独立性检验【基本知识通关】1.分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“X与Y的关系”.【知识应用通关】1.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的2×2列联表:由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 【答案】A2.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”? 【答案】(1)60 (2)见解析。
2020版高考数学一轮复习第9章统计与统计案例第1节随机抽样教学案含解析理20190627356

第一节 随机抽样[考纲传真] 1.理解随机抽样的必要性和重要性.2.会用简单随机抽样方法从总体中抽取样本.3.了解分层抽样和系统抽样的方法.1.简单随机抽样(1)抽取方式:逐个不放回抽取;(2)每个个体被抽到的概率相等;(3)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围 当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)先将总体的N 个个体编号;(2)确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =N n; (3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[常用结论]1.三种抽样方法的共性:等概率抽样,不放回抽样,逐个抽取,总体确定.2.系统抽样是等距抽样,入样个体的编号相差N n的整数倍. 3.分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)简单随机抽样中每个个体被抽到的机会不一样,与先后有关. ( )(2)系统抽样在起始部分抽样时采用简单随机抽样. ( )(3)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平. ( )(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )[答案](1)×(2)√(3)×(4)×2.(教材改编)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A.总体B.个体C.样本的容量D.从总体中抽取的一个样本A[从5 000名居民某天的阅读时间中抽取200名居民的阅读时间,样本容量是200,抽取的200名居民的阅读时间是一个样本,每名居民的阅读时间就是一个个体,5 000名居民的阅读时间的全体是总体.]3.(教材改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是C[因为抽取学号是以5为公差的等差数列,故采用的抽样方法应是系统抽样.]4.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20B[因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19.]5.利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是________.1 2[总体个数为N=8,样本容量为M=4,则每一个个体被抽到的概率为P=MN=48=12.]1A.从某厂生产的5 000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D .从某厂生产的5 000件产品中抽取10件进行质量检验B [因为A ,D 中总体的个体数较大,不适合用抽签法;C 中甲、乙两厂生产的产品质量可能差别较大,因此未达到搅拌均匀的条件,也不适合用抽签法;B 中总体容量和样本容量都较小,且同厂生产的产品可视为搅拌均匀了.]2.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )D [从第1行第5列和第6列组成的数65开始由左到右依次选出的数为08,02,14,07,01,所以第5个个体编号为01.]抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;抽签法.【例】 001,002,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为009,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15C [从960人中用系统抽样方法抽取32人,则将整体分成32组,每组30人,因为第一组抽到的号码为009,则第二组抽到的号码为039,第n 组抽到的号码为a n =9+30·(n -1)=30n -21,由451≤30n -21≤750,得23615≤n ≤25710,所以n =016,017,…,025,共有25-16+1=10(人).][拓展探究] 若本例中条件变为“若第5组抽到的号码为129”,求第1组抽到的号码.[解] 设第1组抽到的号码为x ,则第5组抽到的号码为x +(5-1)×30,由x +(5-1)×30=129,解得x =9,因此第1组抽到的号码为009.适用于元素个数较多且均衡的总体各个个体被抽到的机会均等总体分组后,在起始部分抽样时采用的是简单随机抽样如果总体容量整除,则抽样间隔为.(1)人按001,002,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为 ( )A .11B .12C .13D .14(2)中央电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.(1)B (2)2 10 [(1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为720-48020=12. (2)把502名观众平均分成50组,由于502除以50的商为10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法步骤如下:第一步,先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈.第二步,将剩下的500名观众编号为001,002,003,…,500,并均匀分成50段,每段分50050=10(个)个体.]1.3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n 等于( )A .54B .90C .45D .126B [依题意得33+5+7×n =18,解得n =90,即样本容量为90.] 2.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.18 [∵样本容量总体个数=60200+400+300+100=350, ∴应从丙种型号的产品中抽取350×300=18(件).]3.已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.图1 图2200,20[该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20.]求某层应抽个体数量:按该层所占总体的比例计算已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况。
2020届高三数学二轮复习 专题六 第3讲 统计与统计案例教案

第3讲统计、统计案例自主学习导引真题感悟1.(2020·福建)一支田径队有男女运动员98人,其中男运动员有56人,按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取的女运动员人数是________.解析利用分层抽样的特点,按比例抽样去分析.依题意,女运动员有98-56=42(人).设应抽取女运动员x人,根据分层抽样特点,得x42=2898,解得x=12.答案122.(2020·湖北)容量为20的样本数据,分组后的频数如下表:分组[10,20) [20,30) [30,40) [40,50) [50,60) [60,70] 频数 2 3 4 5 4 2则样本数据落在区间[10,40)的频率为A.0.35 B.0.45C.0.55 D.0.65解析根据频率的定义求解.由表知[10,40)的频数为2+3+4=9,所以样本数据落在区间[10.40)的频率为920=0.45.答案 B考题分析统计与统计案例部分的高考试题难度一般不大,考查的内容多为抽样方法,用样本估计总体、线性回归分析、独立性检验等,这类题目作为解答题出现时,往往与概率结合命题.网络构建高频考点突破考点一:抽样方法【例1】(2020·中山模拟)某校共有学生2 000名,各年级男、女学生人数如图表示,已知在全校学生中随机抽取1名,抽到高二级女生的概率是0.19,现用分层抽样的方法(按年级分层)在全校学生中抽取100人,则应在高三级中抽取的学生人数为________.高一级 高二级高三级女生 385 xy 男生375360z[审题导引] 据题意求出字母的值,按照分层抽样的规则计算.[规范解答] 据题意得x =2 000×0.19=380,∴高三级的学生人数为y +z =2 000-385-375-380-360=500, ∴在高三级中抽取的学生人数为500×1002 000=25.[答案] 25 【规律总结】抽样方法的选取注意分层抽样与系统抽样的计算方法,分层抽样是按比例抽样,比例的性质、方程的方法起主要作用;系统抽样首先是对总体分段的计算,注意分段时可能要排除一些个体,各段的间隔距离是一样的,但各段中抽取的个体就可有不同的规则,要根据这些规则通过计算确立抽取的个体. 【变式训练】1.某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号.若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生. 解析 由于组距为5,所以所抽号码为(8-3)×5+12=37. 答案 37考点二:用样本估计总体 【例2】 (1)(2020·西城二模)下图是1、2两组各7名同学体重(单位:kg)数据的茎叶图.设1、2两组数据的平均数依次为1和2,标准差依次为s 1和s 2,那么(注:标准差s =1n[x 1-x-2+x 2-x-2+…+x n -x-2],其中x -为x 1,x 2,…,x n 的平均数) A.x -1>x -2,s 1>s 2 B.x -1>x -2,s 1<s 2 C.x -1<x -2,s 1<s 2D.x -1<x -2,s 1>s 2(2)(2020·徐州模拟)某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩在[16,18]的学生人数是________.[审题导引] (1)根据茎叶图中的数据分别计算x -1,x -2,s 21,s 22,然后比较大小; (2)根据直方图中各小矩形的面积和为1计算出成绩在[16,18]的频率,然后计算成绩在[16,18]的学生人数.[规范解答] (1)由茎叶图知 x -1=58+57+56+53+61+72+707=61.s 21=17[(58-61)2+(57-61)2+(56-61)2+(53-61)2+(61-61)2+(72-61)2+(70-61)2]=2997,同理x -2=64,s 22=3907,所以x -1<x -2,s 1<s 2.(2)由频率分布直方图可知成绩在[16,18]的学生的频率为6+31+3+7+6+3=920,所以成绩在[16,18]的学生人数为920×120=54.[答案] (1)C (2)54 【规律总结】用样本估计总体时应注意的问题(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想;(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图,要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数; (3)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据计算样本数据的均值和方差对实际问题做出解释;(4)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.【变式训练】2.(2020·义乌模拟)在如图所示的茎叶图中,乙组数据的中位数是________;若从甲、乙两组数据中分别去掉一个最大数和一个最小数后,两组数据的平均数中较大的一组是________组.解析 把乙组数据从小到大排, 得79,84,84,84,86,87,93,故中位数是84,x -甲=84,x -乙=85, ∴x -乙>x -甲.答案 84 乙3.(2020·杭州二模)将容量为n 的样本中的数据分成6组,若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n 的值为 A .70 B .60 C .50 D .40解析 据题意知2+3+42+3+4+6+4+1=27n,∴n =60.答案 B考点三:线性回归分析【例3】某种设备的使用年限x 和维修费用y (万元)有以下的统计数据,如表所示x 3 4 5 6 y2.5344.5(1)画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ∧=bx +a ; (3)估计使用年限为10年,维修费用是多少?[审题导引] (1)根据对应值组成点的坐标,画出各点即可; (2)直接套用求回归直线系数的公式,求出b ,a ;(3)根据求出的回归直线方程,求当x =10时对应的y 值,即使用年限为10年时,维修费用的估计值.[规范解答] (1)作出散点图如图所示.(2)∑4i =1x i y i =66.5,∑4i =1x 2i =32+42+52+62=86, x -=4.5,y -=3.5,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a =y --b x -=3.5-0.7×4.5=0.35,所以所求的回归方程为y ∧=0.7x +0.35.(3)当x =10时,y ∧=0.7×10+0.35=7.35,所以使用年限为10年,维修费用的估计值是7.35万元.【规律总结】求线性回归分析问题的方法(1)画出两个变量的散点图; (2)求回归直线方程;(3)用回归直线方程进行预报.其中求回归直线方程是关键.而求回归直线方程的最好方法是“最小二乘法”,即对于线性回归模型y ∧=a +bx 来说,估计模型中的未知参数a 和b 的最好方法就是用最小二乘法,其计算公式为b =∑n i =1 x i -x -y i -y -∑ni =1 x i -x -2=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a =y --b x -. [易错提示] 虽然由任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.线性相关系数可以是正、负或零,线性相关系数为正时是正相关,为负时是负相关,反之也成立. 【变式训练】4.(2020·深圳模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ∧=0.67x +54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析 由表知x -=30,设模糊不清的数据为y ,则y -=15(62+y +75+81+89)=307+y 5,∵y -=0.67 x -+54.9, 即307+y5=0.67×30+54.9, 解得y =68.答案 68考点四:独立性检验【例4】有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下列联表.优秀 非优秀 总计甲班 10乙班 30合计105已知在全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表.(2)根据列联表中的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”? (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.[审题导引] 第(1)问由题易知成绩优秀的概率是27,则成绩优秀的学生数是30,成绩非优秀的学生数是75,据此即可以完成列联表;第(2)问按照独立性检验的原理进行判断;第(3)问列举基本事件个数和随机事件含有的基本事件个数,按照古典概型的概率公式进行计算. [规范解答] (1)列联表如表所示 优秀 非优秀 总计 甲班 10 45 55 乙班 20 30 50 合计 3075105(2)根据列联表中的数据,得到k =105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ).所有的基本事件有(1,1),(1,2),…(6,6),共36个.事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,故P (A )=836=29.【规律总结】独立性检验的一般步骤(1)根据样本数据列出2×2列联表,假设两个变量无关系; (2)根据公式K 2=n ad -bc 2a +bc +d a +cb +d计算K 2的值;(3)比较K 2与临界值的大小关系作统计推断.【变式训练】5.(2020·南京模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有________%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重 不超重 合计 偏高 4 1 5 不偏高 3 12 15 合计71320独立性检验临界值表:P (K 2≥k 0)0.025 0.010 0.005 0.001k 05.0246.6357.879 10.828独立性检验随机变量K 2值的计算公式:K 2=n ad -bc 2a +bc +d a +cb +d.解析 k =204×12-3×125×15×7×13=5.934,根据临界值表可知有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.答案 97.5名师押题高考【押题1】根据下面频率分布直方图(如图所示)估计样本数据的中位数、众数分别为A .12.5,12.5B .13,12.5C .12.5,13D .14,12.5解析 中位数是位于中间的数,故中位数是13,众数是12.5,中位数把图形的面积一分为二. 答案 B[押题依据] 高考要求考生能通过样本的分布估计总体的分布;根据样本的特征数估计总体的特征数,考查考生的读图能力、概括能力,故押此题.【押题2】某高校从参加今年自主招生考试的学生中随机抽取50名学生的成绩作为样本,得频率分布表如下:组号 分组 频数频率 第一组 [230,235)0.16 第二组 [235,240) ① 0.24 第三组 [240,245) 15 ② 第四组 [245,250) 10 0.20 第五组 [250,255]5 0.10 合计50 1.00(1)写出表中位置①②处的数据;(2)为了选拔更优秀的学生,高校决定在第三、四、五组中用分层抽样法抽取6名学生进行第二轮考核,分别求出第三、四、五组参加考核的人数;(3)在(2)的前提下,高校决定在这6名学生中录取2名学生,求2人中至少有1人在第四组中的概率.解析 (1)由题知位置①的数据是50×0.24=12,位置②的数据是1550=0.30.(2)第三组参加考核的人数为1530×6=3; 第四组参加考核的人数为1030×6=2;第五组参加考核的人数为530×6=1.(3)设第三组的3名学生为A 、B 、C ,第四组的2名学生为D 、E ,第五组的1名学生为F ,则从这6名学生中录取2名学生的方法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种,而至少有1人是第四组的有AD ,AE ,BD ,BE ,CD ,CE ,DE ,DF ,EF ,共9种.故所求的概率P =915=35.[押题依据] 概率与统计相结合的解答题是高考的一个热点题型.本题考查了频率分布表、抽样方法、古典概型,突出了知识和能力的考查,故押此题.。
2020高考数学二轮复习 专题三 概率与统计 第2讲 统计与统计案例学案 文

第2讲 统计与统计案例[考情考向分析] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体平均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多. 3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1 (1)(2018·绵阳诊断)为了解某高校高中学生的数学运算能力,从编号为0001,0002,…,2000的2 000名学生中采用系统抽样的方法抽取一个容量为50的样本,并把样本编号从小到大排列,已知抽取的第一个样本编号为0003,则最后一个样本编号是( ) A .0047 B .1663 C .1960 D .1963 答案 D解析 2 000÷50=40,故最后一个样本编号为3+49×40=1963.(2)(2018·东莞统考)某机构对某镇的学生的身体素质状况按年级段进行分层抽样调查,得到了如下表所示的数据,则xyz=________.年级段 小学 初中高中总人数 800 xy 样本中人数1615z答案 37 500解析 由分层抽样的特点,得80016=x 15=y z ,即x =750,y z =50,则xyz =37 500.思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的. (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1 (1)(2018·福州检测)为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) A .简单随机抽样 B .按性别分层抽样 C .按年龄段分层抽样 D .系统抽样答案 C解析 我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.了解某地区的“微信健步走”活动情况,按年龄段分层抽样,这种方式具有代表性,比较合理.(2)(2018·江西省重点中学盟校联考)要从已编号(1~70)的70枚最新研制的某型导弹中随机抽取7枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的7枚导弹的编号可能是( ) A .5,10,15,20,25,30,35 B .3,13,23,33,43,53,63 C .1,2,3,4,5,6,7 D .1,8,15,22,29,36,43答案 B解析 根据系统抽样的定义可知,编号间距为70÷7=10, 则满足条件的可能是3,13,23,33,43,53,63. 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中: (1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( ) A .-11 B .3 C .9 D .17 答案 C解析 设没记清的数为x ,若x ≤2,则这列数为x ,2,2,2,4,5,10,平均数为25+x7,中位数为2,众数为2,所以2×2=25+x 7+2,得x =-11;若2<x ≤4,则这列数为2,2,2,x,4,5,10,则平均数为25+x 7,中位数为x ,众数为2,所以2x =25+x 7+2,得x =3;若x ≥5,则这列数为 2,2,2,4,5,x,10或2,2,2,4,5,10,x ,则平均数为25+x7,中位数为4,众数为2,所以2×4=25+x7+2,得x =17,所以-11+3+17=9.(2)(2018·龙岩质检)党的十八大以来,脱贫攻坚取得显著成绩.2013年至2016年4年间,累计脱贫5 564万人,2017年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3 000户家庭的2017年年收入情况调查统计,所得年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[80,100],则年收入不超过6万的家庭大约为( )A .900户B .600户C .300户D .150户 答案 A解析 由频率分布直方图可得年收入不超过6万的家庭的概率为(0.005+0.01)×20=0.3, 所以年收入不超过6万的家庭大约为 3 000×0.3=900(户).思维升华 (1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的平均数、众数、中位数和方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.跟踪演练 2 (1)(2018·北京朝阳区模拟)某商场对一个月内每天的顾客人数进行统计得到如图所示的样本茎叶图,则该样本的中位数和众数分别是( )A .46,45B .45,46C .46,47D .47,45 答案 A解析 由茎叶图可知,出现次数最多的是45,将所有数从小到大排列后,中间两数为45,47,故中位数为46. (2)(2018·河南省六市模拟)为了解学生在课外活动方面的支出情况,抽取了n 个同学进行调查,结果显示这些学生的支出金额(单位:元)都在[]10,50内,其中支出金额在[]30,50内的学生有117人,频率分布直方图如图所示,则n 等于( )A .180B .160C .150D .200 答案 A 解析[]30,50对应的概率为1-()0.01+0.025×10=0.65,所以n =1170.65=180. 热点三 统计案例 1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y -b ^x ,(x ,y )称为样本点的中心.2.随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .例3 (2018·广东省省际名校联考)某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x 与物理成绩y 如下表:数据表明y 与x 之间有较强的线性关系. (1)求y 关于x 的线性回归方程;(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩;(3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人.能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?参考数据:回归直线的系数b ^=∑i =1n()x i -x ()y i -y ∑i =1n()x i-x 2,a ^=y -b ^x .K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .P ()K 2≥6.635=0.01,P ()K 2≥10.828=0.001.解 (1)由题意可知x =120,y =90,∑i =15(x i -x )(y i -y )=(145-120)(110-90)+(130-120)×(90-90)+(120-120)(102-90)+(105-120)(78-90)+(100-120)(70-90) =500+0+0+180+400=1 080,∑i =15(x i -x )2=(145-120)2+(130-120)2+(120-120)2+(105-120)2+(100-120)2=625+100+0+225+400=1 350,故b ^=1 0801 350=45=0.8.a ^=90-120×0.8=-6,故线性回归方程为y ^=0.8x -6.(2)将x =110代入上述方程,得y ^=0.8×110-6=82.(3)由题意可知,该班数学优秀人数及物理优秀人数分别为30,36. 抽出的5人中,数学优秀但物理不优秀的共1人, 故全班数学优秀但物理不优秀的共6人. 于是可以得到如下2×2列联表:于是K 2=60×()24×18-12×6230×30×36×24=10>6.635,因此在犯错误的概率不超过0.01的前提下,可以认为数学优秀与物理优秀有关.思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(x ,y ),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K 2即可.跟踪演练3 (2018·河南省中原名校质检)下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份-2013.(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额; (2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)由题意得x =2.5,y =200,∑4i =1x 2i =30,∑4i =1x i y i =2 355,所以b ^=∑4i =1x i y i-4x y∑4i =1x 2i-4x 2=2 355-4×2.5×20030-4×2.52=3555=71, 所以a ^=y -b ^x =200-71×2.5=22.5,所以y 关于x 的线性回归方程为y ^=71x +22.5. 由于2 019-2 013=6,所以当x =6时,y ^=71×6+22.5=448.5,所以预测2019年该百货零售企业的线下销售额为448.5万元. (2)由题意可得2×2列联表如下:持乐观态度持不乐观态度总计 男顾客 10 45 55 女顾客 20 30 50 总计3075105故K 2的观测值k =105×()10×30-45×20255×50×30×75≈6.109,由于6.109>5.024,所以可以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.真题体验1.(2017·山东改编)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为________.答案 3,5解析 甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y =5. 又甲、乙两组数据的平均值相等,∴15×(56+65+62+74+70+x )=15×(59+61+67+65+78),∴x =3. 2.(2017·山东改编)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i=225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为________. 答案 166解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5. ∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.3.(2016·全国Ⅲ改编)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下列叙述不正确的是________.(填序号)①各月的平均最低气温都在0 ℃以上; ②七月的平均温差比一月的平均温差大; ③三月和十一月的平均最高气温基本相同; ④平均最高气温高于20 ℃的月份有5个. 答案 ④解析 由题意知,平均最高气温高于20 ℃的有七月,八月,故④不正确.4.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件. 答案 18解析 ∵样本容量总体个数=60200+400+300+100=350,∴应从丙种型号的产品中抽取350×300=18(件).押题预测1.某公司为了解用户对其产品的满意度,从甲、乙两地分别随机调查了10个用户,将满意度的分数绘成茎叶图,如图所示.设甲、乙两地的满意度分数的平均数分别为x 甲,x 乙,中位数分别为m 甲,m 乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲>x 乙,m 甲>m 乙C.x 甲>x 乙,m 甲<m 乙D.x 甲<x 乙,m 甲<m 乙押题依据 从茎叶图中提取数字的特征(如平均数、众数、中位数等)是高考命题的热点题型. 答案 B解析 甲地用户的平均满意度分数为x 甲=53+62+64+73+74+76+81+85+92+9510=75.5,乙地用户的平均满意度分数为x 乙=51+56+62+64+73+73+81+82+83+9110=71.6,所以x 甲>x 乙.中位数分别为m 甲=74+762=75,m 乙=73+732=73,所以m 甲>m 乙.2.某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.押题依据 频率分布直方图多以现实生活中的实际问题为背景,对图形的理解应用可以考查学生的基本分析能力,是高考的热点. 答案 58解析 由题图知,(0.04+0.12+x +0.14+0.05)×2=1,解得x =0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58, 所求人数为100×0.58=58.3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件大约需要多少小时?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )押题依据 线性回归分析在生活中具有很强的应用价值,是高考的一个重要考点. 解 (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,∴b ^ =52.5-4×3.5×3.554-4×3.52=0.7, a ^=3.5-0.7×3.5=1.05,∴y ^=0.7x +1.05,回归直线如图所示.(3)将x =10代入线性回归方程,得y ^=0.7×10+1.05=8.05,故预测加工10个零件大约需要8.05小时.A 组 专题通关1.(2018·北京师范大学附中模拟)已知甲、乙两组数据的茎叶图如图所示,若它们的中位数相同,则甲组数据的平均数为( )A .30B .31C .32D .33 答案 B解析 阅读茎叶图可知,乙组的中位数为32+342=33,结合题意可知,甲组的中位数为33,即m =3, 则甲组数据的平均数为24+33+363=31.2.(2018·衡水金卷信息卷)A 地的天气预报显示,A 地在今后的三天中,每一天有强浓雾的概率为30%,现用随机模拟的方法估计这三天中至少有两天有强浓雾的概率:先利用计算器产生0~9之间整数值的随机数,并用0,1,2,3,4,5,6表示没有强浓雾,用7,8,9表示有强浓雾,再以每3个随机数作为一组,代表三天的天气情况,产生了如下20组随机数:402 978 191 925 273 842 812 479 569 683 231 357 394 027 506 588 730 113 537 779 则这三天中至少有两天有强浓雾的概率近似值为( ) A.14 B.25 C.710 D.15 答案 D解析 由随机数表可知,满足题意的数据为978,479,588,779,据此可知,这三天中至少有两天有强浓雾的概率近似为P =420=15.3.(2018·黄山模拟)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( ) A .若K 2的观测值k =6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B .由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C .若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D .以上三种说法都不正确 答案 C解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.结合所给选项可得若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.4.(2018·吉林省长春市名校联盟)下列命题:①在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,R 2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( )A .1B .2C .3D .4 答案 C解析 对于①,在回归分析模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,R 2越接近于1,表示回归效果越好,正确,因为相关指数R 2越大,则残差平方和越小,模型的拟合效果越好,①正确; 对于②,两个变量相关性越强,则相关系数的绝对值就越接近于1;对于③,在线性回归方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位,正确;对于④,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大,错误,因为在对分类变量X 与Y 进行独立性检验时,随机变量K 2的观测值k 越大,则“X 与Y 相关”的可信程度越大,故④错误.故选C.5.(2018·辽宁省部分重点中学协作体模拟)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是27,则男运动员应抽取________人.答案 16解析 由题意得男运动员的人数为98-42=56. 因为每名运动员被抽到的概率都是27,所以男运动员应抽取56×27=16(人).6.(2018·重庆调研)某公司对一批产品的质量进行检测,现采用系统抽样的方法从100件产品中抽取5件进行检测,对这100件产品随机编号后分成5组,第一组1~20号,第二组21~40号,…,第五组81~100号,若在第二组中抽取的编号为24,则在第四组中抽取的编号为________. 答案 64解析 设在第一组中抽取的号码为a 1,则在各组中抽取的号码满足首项为a 1,公差为20的等差数列,即a n =a 1+(n -1)×20,又在第二组抽取的号码为24,即a 1+20=24, 所以a 1=4,所以在第四组抽取的号码为4+(4-1)×20=64.7.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.答案 30解析 由题意可得40×(0.015+0.030+0.025+0.005)×10=30, 则成绩不低于60分的人数为30.8.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:使用年数x (单位:年) 2 3 4 5 6 维修总费用y (单位:万元)1.54.55.56.57.5根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年. 答案 8解析 因为x =2+3+4+5+65=4,y =1.5+4.5+5.5+6.5+7.55=5.1,故代入线性回归方程可得a ^=5.1-1.4×4=-0.5,所以线性回归方程为y ^=1.4x -0.5, 当y =12时,解得x ≈8.9.9.(2018·全国Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表;超过m 不超过m总计 第一种生产方式 第二种生产方式总计(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)第二种生产方式的效率更高. 理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min ;用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min ;用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于80 min ;用第二种生产方式的工人完成生产任务平均所需时间低于80 min.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. (2)由茎叶图知m =79+812=80.列联表如下:(3)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.B 组 能力提高10.某公司有30名男职员和20名女职员,公司进行了一次全员参与的职业能力测试,现随机询问了该公司5名男职员和5名女职员在测试中的成绩(满分为30分),可知这5名男职员的测试成绩分别为16,24,18,22,20,5名女职员的测试成绩分别为18,23,23,18,23,则下列说法一定正确的是( ) A .这种抽样方法是分层抽样 B .这种抽样方法是系统抽样C .这5名男职员的测试成绩的方差大于这5名女职员的测试成绩的方差D .该测试中公司男职员的测试成绩的平均数小于女职员的测试成绩的平均数答案 C解析 根据抽样方法的特点,可知这种抽样既不是分层抽样,也不是系统抽样,故A ,B 是错误的;由这5名男职员和5名女职员的测试成绩得不出该公司男职员和女职员的测试成绩的平均数,故D 是错误的;根据公式,可以求得这5名男职员的测试成绩的方差为s 21=8,5名女职员的测试成绩的方差为s 22=6,所以C 正确.故选C. 11.某青少年成长关爱机构为了调查所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l .根据图中数据,下列对该样本描述错误的是( )A .据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线l 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l 上 答案 D解析 在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A 正确;用样本数据估计总体可得平均数大约是145 cm ,故B 正确;根据直线斜率的意义可知,斜率的值近似等于样本中青少年平均身高每年的增量,故C 正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D 错误.12.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得线性回归方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.天数x 3 4 5 6 7繁殖数量y (千个)2.5344.5c答案 6解析 x =3+4+5+6+75=5,y =2.5+3+4+4.5+c 5=14+c 5,代入线性回归方程,得14+c5=0.85×5-0.25,解得c =6.13.(2018·咸阳模拟)某校为调查高一、高二学生周日在家学习用时情况,随机抽取了高一、高二各20人,对他们的学习时间进行了统计,分别得到了高一学生学习时间(单位:小时)的频数分布表和高二学生学习时间的频率分布直方图.高一学生学习时间的频数分布表(学习时间均在区间[]0,6内):学习时间 [)0,1 [)1,2错误! [)3,4 [)4,5 []5,6频数318422高二学生学习时间的频率分布直方图:(1)求高二学生学习时间在[)3,5内的人数;(2)利用分层抽样的方法,从高一学生学习时间在[)2,3,[)3,4的两组里抽取6人,再从这6人中随机抽取2人,求学习时间在[)3,4这一组中恰有1人被抽中的概率;(3)若周日学习时间不少于4小时为学习投入时间较多,否则为学习投入时间较少,依据上述样本研究学习投入时间与学生所在年级是否有关,完成下列2×2列联表,并判断是否有99%的把握认为学习投入时间多少与学生所在年级有关.年级 学习投入时间较多学习投入时间较少总计 高一 高二 总计K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879解 (1)高二学生学习时间在[)3,5内的人数为20×(0.25+0.30)=11.(2)根据分层抽样,从高一学生学习时间在[)2,3中抽取4人,从高一学生学习时间在[)3,4中抽取2人. 设从高一学生学习时间在[)2,3中抽的4人分别为A ,B ,C ,D ,在[)3,4中抽的2人分别为a ,b ,则在6人中任抽2人的所有情况有(A ,B ),(A ,C ),(A ,D ),(A ,a ),(A ,b ),(B ,C ),(B ,D ),(B ,a ),(B ,b ),(C ,D ),(C ,a ),(C ,b ),(D ,a ),(D ,b ),(a ,b ),共有15种,其中[)3,4这一组中恰有1人被抽中的情况包含(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(D ,a ),(D ,b ),共有8种,因此学习时间在[3,4)这一组中恰有1人被抽中的概率为815.(3)2×2列联表如下:年级学习投入时间较多学习投入时间较少总计K 2=40(4×11-16×9)220×20×13×27≈2.849<6.635,所以没有99%的把握认为学习投入时间多少与学生所在年级有关.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020届高三数学《统计案例》复习学案
回归教材
1. (选修1-2P19A组第3题)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.能否在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生的时间有关系?
2. (选修1-2P19A组第2题)假设美国10家工业公司提供了以下数据(单位:百万美元):
(1) 作出销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;
(3) 计算R2,你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由.
举题固法
目标1回归分析
两个具有相关关系的变量之间可以由散点图直观看出是否具有较好的线性相关关系,定量的方法就是计算
相关系数,相关系数的绝对值越接近1,其线性相关关系越强.
例1:(2019·武汉调研)一个工厂在某年里连续10个月每月产品的总成本y (单位:万元)与该月产量x (单位:万件)之间有如下一组数据:
x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
(1) 通过画散点图,发现可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明; (2) ①建立月总成本y 与月产量x 之间的回归方程;
②通过建立的y 关于x 的回归方程,估计某月产量为 1.98万件时产品的总成本为多少万元.(均精确到0.001)
参考数据:∑i =110x i =14.45,∑i =1
10
y i =27.31,
∑i =1
10
x 2i -10x 2=0.850, ∑i =1
10
y 2i -10y 2
=1.042, =1.222;
参考公式:相关系数
r =
∑i =1
n
x i y i -n x y
⎝ ⎛⎭⎪⎫∑i =1n x 2i -n x 2⎝ ⎛⎭
⎪⎫∑i =1n y 2i -n y 2
,
回归方程=x +
中斜率和截距的最小二乘估计公式分别为=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x
2
,
=y -x .
变式1:(2019·怀化二模)某市房产中心数据研究显示,2018年该市新建住宅销售均价如下表,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月份开始出台了相关限购政策,10月份开始房价得到了很好的抑制.
均价(万元/m 2)
0.95 0.98 1.11 1.12 1.20 1.22 1.32 1.34 1.16 1.06 月份
3
4
5
6
7
8
9
10
11
12
宅销售均价;
(2) 试用相关系数说明3月至7月各月均价y (万元/m 2)与月份x 之间可用线性回归模型拟合(保留小数点后2位).
参考数据:∑i =1
5x i =25,∑i =1
5y i =5.36,∑i =1
5 (x i -x )(y i -y )=0.64,
∑i =1
5
y 2i ≈5.789,y 2
≈1.149,0.44≈0.663.
回归方程斜率和截距的最小二乘法估计公式分别为=
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
,
=y -x ;
相关系数r =
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2∑i =1
n
(y i -y )2
.
变式2:近期某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:
x 1 2 3 4 5 6 7 y 60 110 210 340 660 1 010 1 960
(1) 根据散点图判断在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由);
(2) 根据(1)的判断结果及下表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
y v ∑
i=1
7
x i y i∑
i=1
7
x i v i100.54
621 2.54 25 350 78.12 3.47 参考公式:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线的斜率和截距的最小二乘估计公式分别为
目标2独立性检验
独立性检验类似于反证法,即在假设两个分类变量无关的情况下,得出假设成立为小概率事件,从而否定该假设,得出两个分类变量有关,进而得出原结论成立的概率.例2:(2019·芜湖三模)随着科技的发展,近年看电子书的国人越来越多,所以近期有许多人呼吁“回归纸质书”,目前出版物阅读中纸质书占比出现上升.现随机选出200人进行采访,经统计这200人中看纸质书的人数占总人数的
4
5.将这200人按年龄分成五组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],其中统计看纸质书的人得到的频率分布直方图如图所示.
(1) 求a的值及看纸质书的人的平均年龄;
(2) 按年龄划分,把年龄在[15,45)的称为青壮年组,年龄在[45,65]的称为中老年组,若选出的200人中看电子书的中老年人有10人,请完成下面2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下认为看书方式与年龄层有关.
看电子书看纸质书合计
青壮年
中老年
合计
附:K2=
n(ad-bc)
(a+b)(c+d)(a+c)(b+d)
(其中n=a+b+c+d).
P(K2≥k)0.100.050.0250.0100.0050.001
k 2.706 3.841 5.024 6.6357.87910.828
变式1:为探索课堂教学改革,某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如图所示的茎叶图.记成绩不低于70分者为“成绩优良”.
(1) 请大致判断哪种教学方式的教学效果更佳,并说明理由;
(2) 构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.
附:K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d.
P(K2≥k)0.100.050.0250.010 k 2.706 3.841 5.024 6.635
(2019·济南期末)某企业生产了一种新产品,在推广期邀请了100位客户试用该产品,每人一台,试用一个月之后进行回访,由客户先对产品性能作出“满意”或“不满意”的评价,再让客户决定是否购买该试用产品(不购买则可以免费退货,购买则仅需付成本价).经统计,决定退货的客户人数占总人数的一半,“对性能满
意”的客户比“对性能不满意”的客户多10人,“对性能不满意”的客户中恰有2
3选择了退货.
(1) 请完成下面的2×2列联表,并判断是否有99%的把握认为“客户购买产品与对产品性能满意之间有关”;
对性能满意对性能不满意合计
购买产品
不购买产品
(2) 6位客户进行座谈.座谈后安排了抽奖环节,共有4张奖券,奖券上分别印有200元、400元、600元和800元字样,抽到奖券可获得相应奖金,6位客户有放回的进行抽取,每人随机抽取一张奖券,求6位客户中购买产品的客户人均所得奖金不少于500元的概率.
附:K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d.。