高考一轮复习新课标数学(理)配套教材:12.4 统计案例
高考数学课标通用(理科)一轮复习配套教师用书:第十章统计与统计案例10.3变量间的相关关系、统计案
§ 10.3变量间的有关关系、统计事例考纲展现 ?1.会作两个有关变量的散点图,会利用散点图认识变量之间的有关关系.2.认识最小二乘法的思想,能依据给出的线性回归系数公式成立线性回归方程.3.认识独立性查验( 只需求 2×2列联表 ) 的基本思想、方法及其简单应用.4.认识回归剖析的基本思想、方法及其简单应用.考点 1变量间的有关关系1. 常有的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不一样, ________是一种非确立性关系.答案:有关关系有关关系2.从散点图上看,点分布在从左下角到右上角的地区内,两个变量的这种有关关系称为________,点分布在左上角到右下角的地区内,两个变量的有关关系为________.答案:正有关负有关对回归系数的理解:解说变量;预告变量.某工厂工人月薪资y(元)依劳动产值 x(万元)变化的回归直线方程为^y=900x+600,以下判断正确的选项是 __________.①劳动产值为 10 000 元时,薪资为 500 元;②劳动产值提升10 000 元时,薪资提升 1 500元;③劳动产值提升10 000 元时,薪资提升900 元;④劳动产值为 10 000 元时,薪资为 900 元.答案:③^个单位,预告变量均匀增添 b 个单位.分析:回归系数 b的意义为:解说变量每增添1[ 典题 1] (1) 以下四个散点图中,变量x 与 y 之间拥有负的线性有关关系的是()A BC D[ 答案]D[ 分析]察看散点图可知,只有 D 选项的散点图表示的是变量x与y之间拥有负的线性有关关系.(2) 四名同学依据各自的样本数据研究变量x, y 之间的有关关系,并求得回归直线方程,分别获得以下四个结论:^①y 与 x 负有关且 y=2.347 x-6.423;^②y 与 x 负有关且 y=-3.476 x+5.648;^③y 与 x 正有关且 y=5.437 x+8.493;^④y 与 x 正有关且 y=-4.326 x-4.578.此中必定不正确的结论的序号是()A.①② B .②③C.③④ D .①④[ 答案]D[ 分析]^ ^^^^时, y 与 x 负有关,由回归方程 y= bx+ a知,当 b>0时, y 与 x 正有关,当 b<0∴①④必定错误.[ 画龙点睛 ]有关关系的直观判断方法就是作出散点图,若散点图呈带状且地区较窄,说明两个变量有必定的线性有关性,若呈曲线型也是有有关性,若呈图形地区且分布较乱则不具备有关性.考点 2线性回归剖析1. 回归剖析对拥有________的两个变量进行统计剖析的方法叫回归剖析.其基本步骤是:(ⅰ)画散点图; ( ⅱ ) 求 ________; ( ⅲ ) 用回归直线方程作预告.答案:有关关系回归直线方程2.回归直线假如散点图中点的分布从整体上看大概在________邻近,就称这两个变量之间拥有线性有关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设拥有线性有关关系的两个变量x,y的一组察看值为 (x,y)(i= 1,2 ,, ) ,则回归i inx i- x y i- yi=1^^ ^ ^b=n=, 1 n直线方程 y= bx+a的系数为:i = 1x i- x2此中x=n i=1x^=y -^,a b x1 ni ,y=n i=1y i ,(x , y )称为样本点的________.nx i y i- n x yi=1答案:中心n2- n x 2x ii =14.有关系数当r >0时,表示两个变量________;当 r <0时,表示两个变量________.r的绝对值越靠近于1,表示两个变量的线性有关性________.r的绝对值越靠近于0,表示两个变量之间几乎不存在线性有关关系.往常| r | 大于0.75时,以为两个变量有很强的线性有关性.答案:正有关负有关越强[ 教材习题改编 ] 已知回归直线的斜率的预计值为 1.23 ,样本点的中心为(4,5) ,则回归直线方程为 __________ .^答案: y=1.23 x+0.08分析:设回归直线方程为^^y=1.23 x+a,因为回归直线必过样本点的中心( x,y) ,将点 (4,5) 代入回归直线方程得^a=0.08,^x+0.08.所以所求方程为 y=1.23变量的有关关系:散点图;回归直线过(x , y ).某工厂经过技术改造后,生产某种产品的产量x(吨)与相应的生产能耗y(吨标准煤)犹如下几组样本数据 .x3456y 2.534 4.5据有关性查验,y 与 x 拥有线性有关关系,经过线性回归剖析,求得回归直线的斜率为0.7 ,那么当产量x=10吨时,预计相应的生产能耗为__________吨标准煤.答案: 7.35分析:先求得 x =^^^,4.5 ,y= 3.5 ,由y= 0.7 x+a过点 ( x,y ) ,得a= 0.35 ^所以回归直线方程是y=0.7 x+0.35.^当 x=10吨时, y=7+0.35=7.35(吨标准煤).[典题 2](1) 已知x,y的取值以下表,从散点图能够看出y 与 x 线性有关,且回归方程^^^为 y=0.95 x+ a,则 a=()x0134y 2.2 4.3 4.8 6.7A.3.25 B.2.6C.2.2 D .0[ 答案]B[ 分析]由已知得x=2,y=4.5,因为回归方程经过点(x,y) ,^所以 a=4.5-0.95×2=2.6.(2) 由某种设施的使用年限x i(年)与所支出的维修费y i(万元)的数据资料算得以下结果,55552=90,x i y i=112,x i=20,y i=25.x ii = 1i = 1i = 1i = 1①求所支出的维修费^ ^ ^ y 对使用年限 x 的线性回归方程 y= bx+a;②( ⅰ ) 判断变量x与y之间是正有关仍是负有关;( ⅱ) 当使用年限为 8 年时,试预计支出的维修费是多少.nx i y i- nx y^ ^^i = 1^^附:在线性回归方程^x , y 为样y= bx+ a中, b=, a= y- b x ,此中n22x i- nxi =1本均匀值.55[ 解] ①∵x i= 20,y i=25,i = 1i = 11 5 1 5∴x=5i=1xi i= 5,= 4,y=5i=1y5x i y i-5 x yi = 1112-5×4×5 ^∴b== 2 =1.2,590-5×422x i-5 xi = 1^^= 5-1.2 ×4= 0.2.a= y- b x^∴线性回归方程为 y=1.2 x+0.2.^②( ⅰ ) 由①知,b= 1.2>0 ,∴变量 x 与 y 之间是正有关.( ⅱ) 由①知,当x=^,即便用年限为8 年时,支出维修费约是9.8 万元.8 时,y= 9.8[ 画龙点睛 ] 1. 正确理解计算^,^的公式和正确的计算是求线性回归方程的重点.b a^ ^^2.回归直线方程y= bx+ a必过样本点的中心( x,y ) .3.在剖析两个变量的有关关系时,可依据样本数据作出散点图来确立两个变量之间能否拥有有关关系,若拥有线性有关关系,则可经过线性回归方程来预计和展望.某地近来十年粮食需求量逐年上涨,下表是部分统计数据:年份20062008201020122014需求量 (万吨 )236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程^ ^^y=bx+ a;(2)利用 (1) 中所求出的回归直线方程展望该地2016 年的粮食需求量.解:(1) 由所给数据看出,年需求量与年份之间是近似直线上涨,下边来配回归直线方程,为此对数据预办理以下:年份- 2 010-4- 2024需求量- 257-21- 1101929对预办理后的数据,简单算得,x =0, y =3.2,^--+--+2×19+4×29-5×0×3.2b=-2+-2+ 22+ 42-5×02260^^=40=6.5 ,a=y-b x= 3.2.由上述计算结果知,所求回归直线方程为^^^y-257= b( x-2 010)+ a=6.5( x- 2 010) + 3.2 ,^即y=6.5×(x-2 010)+260.2.(2) 利用 (1) 中所求回归直线方程,可展望2016 年的粮食需求量为 6.5 ×(2 016 - 2 010)+260.2 =6.5 ×6+ 260.2 = 299.2( 万吨 ) .考点 3独立性查验1.分类变量:变量的不一样“值”表示个体所属的不一样类型,像这种变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假定有两个分类变量X和 Y,它们的可能取值分别为{ x1,x2 } 和{ y1,y2},其样本频数列联表( 称为 2×2列联表 ) 为2×2列联表:1y 2总计yx1a b a+ b x2c d c+ d总计+c +a+++da b d b c2-bc2 n adK =a+ b a+ c b+ d c+ d( 此中n= ________为样本容量 ) ,则利用独立性查验判断表来判断“X 与 Y的关系”.答案: a+ b+ c+ d(1)[ 教材习题改编] 为检查中学生的近视状况,测得某校150 名男生中有80 名近视, 140名女生中有70 名近视.在查验这些学生眼睛近视能否与性别有关时,最有说服力的方法是________. ( 填序号 )①回归剖析;②希望与方差;③独立性查验;④概率.答案:③分析:“近视”与“性别”是两个分类变量,其能否有关,应当用独立性查验来判断.(2)[教材习题改编] 在研究抽烟与患肺癌的关系中,经过采集数据、整理剖析数据得出“抽烟与患肺癌有关”的结论,而且有99%以上的掌握以为这个结论是成立的,有以下四种说法:① 100 个抽烟者中起码有99 人患有肺癌;② 1 个人抽烟,那么此人有99%的概率患有肺癌;③在 100 个抽烟者中必定有患肺癌的人;④在100个抽烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性查验的理解:K2的计算;对P( K2≥ k0)的解说.[2017 ·湖南张家界模拟] 某高校教“统计初步”课程的教师随机检查了选该课程的一些学生的状况,详细数据以下表:专业非统计专业统计专业性别男1310女720为了判断主修统计专业能否与性别有关系,依据表中的数据,获得K2的观察值k =-2≈4.844.23×27×20×30因为 k>3.841,所以判断主修统计专业与性别有关系,那么这种判断犯错的可能性为________.附表:P( K2≥k0)0.0500.0100.001k0 3.841 6.63510.828答案: 5%分析:∵ k>3.841,查临界值表,得 P( K2≥3.841)= 0.05 ,故这种判断犯错的可能性为5%.[典题 3](1) 为了判断高中三年级学生选修文理科能否与性别有关,现随机抽取50 名学生,获得 2×2列联表:理科文科总计男131023女72027总计203050已知 (2≥3.841) ≈ 0.05,P KP( K2≥5.024)≈0.025.-2依据表中数据,获得K2=≈4.844 ,则以为选修文理科与性别有23×27×20×30关系犯错的可能性约为________.[ 答案]5%[ 分析]由 K2≈4.844>3.841.故以为选修文理科与性别有关系犯错的可能性约为5%.(2)[2017·江西九江模拟] 某校数学课外兴趣小组为研究数学成绩能否与性别有关,先统计本校高三年级每个学生一学期数学成绩均匀分( 采纳百分制 ) ,剔除均匀分在40 分以下的学生后,共有男生 300 名,女生200 名.现采纳分层抽样的方法,从中抽取了100 名学生,按性别分为两组,并将两组学生的成绩分为 6 组,获得以下所示的频数分布表 .分数段[40 ,[50 ,[60 ,[70 ,[80 ,[90 ,50)60)70)80)90)100]男39181569女64510132①预计男、女生各自的均匀分( 同一组数据用该组区间中点值作代表) ,从计算结果看,数学成绩与性别能否有关;②规定 80 分以上为优分 ( 含 80 分 ) ,请你依据已知条件作出2×2列联表,并判断能否有90%以上的掌握以为“数学成绩与性别有关”.优分非优分总计男生女生总计100附表及公式:P( K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828n ad- bc22b+ d .K =a+ b c+ d a+ c[ 解] ①x男=45×0.05 +55×0.15 +65×0.3 +75×0.25 +85×0.1 +95×0.15 =71.5 ,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5 ,从男、女生各自的均匀分来看,其实不可以判断数学成绩与性别有关.②由频数分布表可知,在抽取的100 名学生中,“男生组”中的优分有15 人,“女生组”中的优分有15 人,据此可得 2×2列联表以下:优分非优分总计男生154560女生152540总计3070100-2可得 K2=≈1.79 ,60×40×30×70因为 1.79<2.706,所以没有90%以上的掌握以为“数学成绩与性别有关”.[ 画龙点睛 ] 1.独立性查验的重点是正确列出2×2列联表,并计算出K2的值.2.弄清判断两变量有关的掌握性与犯错误概率的关系,依据题目要求作出正确的回答. [2017 ·广西玉林、贵港联考] 某市地铁马上于2015 年 6 月开始营运,为此召开了一个价格听证会,拟订价钱后又进行了一次检查,随机抽查了50 人,他们的收入与态度以下;月收入[15 ,[25 ,[35 ,[45 ,[55 ,[65 ,( 单位:25)35)45)55)65)75]百元 )同意定123534价者人数以为价格偏高4812521者人数(1)若以区间的中点值为该区间内的人均月收入,求参加检查的人员中“同意订价者”与“以为价钱偏高者”的月均匀收入的差距是多少( 结果保存2 位小数 );(2) 由以上统计数据填写下边的2×2列联表剖析能否有99%的掌握以为“月收入以55 百元为分界点对地铁订价的态度有差别”.月收入低于月收入不低于总计55 百元的人数55 百元的人数以为价格偏高者同意订价者总计2-2n ad bcb+ d.附:K=a+b c+ d a+ cP( K2≥k0)0.050.01k0 3.841 6.635解: (1) “同意订价者”的月均匀收入为20×1+30×2+40×3+50×5+60×3+70×4x 1=1+ 2+ 3+ 5+3+ 4≈50.56.“以为价钱偏高者”的月均匀收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+ 8+ 12+ 5+2+ 1=38.75 ,∴“同意订价者”与“以为价钱偏高者”的月均匀收入的差距是x 1- x 2=50.56-38.75 =11.81( 百元 ) .(2)依据条件可得 2×2列联表以下:月收入低于月收入不低于 55总计55 百元的人数百元的人数以为价钱29332偏高者同意11718订价者总计401050-2K2=≈6.27<6.635 ,10×40×18×32∴没有 99%的掌握以为“月收入以55 百元为分界点对地铁订价的态度有差别”.[ 方法技巧 ] 1. 求回归方程,重点在于正确求出系数^ ^^ ^a, b,因为 a, b的计算量大,计算^时应认真慎重,分层进行,防止因计算而产生错误.( 注意线性回归方程中一次项系数为b,常数项为^a,这与一次函数的习惯表示不一样.)2.回归剖析是办理变量有关关系的一种数学方法.主要解决:(1) 确立特定量之间能否有有关关系,假如有就找出它们之间切近的数学表达式;(2) 依据一组察看值,展望变量的取值及判断变量取值的变化趋向;(3) 求出线性回归方程.[ 易错防备 ] 1. 回归剖析是对拥有有关关系的两个变量进行统计剖析的方法,只有在散点图大概呈线性时,求出的线性回归方程才有实质意义,不然,求出的线性回归方程毫无心义.依据回归方程进行预告,仅是一个预告值,而不是真切发生的值.2.独立性查验中统计量K2的观察值 k 的计算公式很复杂,在解题中易混杂一些数据的意义,代入公式时犯错,而致使整个计算结果犯错.真题操练集训1.[2015 ·福建卷 ] 为认识某社区居民的家庭年收入与年支出的关系,随机检查了该社区5户家庭,获得以下统计数据表:收入 x(万元)8.28.610.011.311.9支出 y(万元) 6.27.58.08.59.8依据上表可得回归直线方程^=^+^,此中^=0.76 ,^=--^. 据此预计,该社区一y bx a b a y b x 户年收入为15 万元家庭的年支出为()A.11.4万元 B . 11.8 万元C.12.0 万元 D . 12.2 万元答案: B分析:由题意知,8.2 + 8.6 + 10.0 + 11.3 + 11.9x == 10,56.2 +7.5 +8.0+ 8.5 +9.8y =5= 8,^×10= 0.4 ,∴a=8-0.76^∴当 x=15时, y=0.76×15+0.4=11.8(万元).2.[2016 ·新课标全国卷Ⅲ] 以下图是我国2008 年至 2014 年生活垃圾无害化办理量( 单位:亿吨 ) 的折线图.注:年份代码1- 7 分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与 t 的关系,请用有关系数加以说明;(2)成立 y 对于 t 的回归方程(系数精准到0.01) ,展望 2016 年我国生活垃圾无害化办理量.7772附注:参照数据:y i=9.32,t i y i=40.17,y i- y=0.55, 7≈2.646.i =1i =1i =1nt i- t y i- yi= 1参照公式:有关系数 r =,回归方程^^ ^n n y= bt + a中斜率t i- t2y i- y2 i = 1i = 1nt i- t y i- y^i = 1^^和截距的最小二乘预计公式分别为=,=y -.b a b tn2t i- ti= 1解: (1) 由折线图中数据和附注中参照数据,得77t = 4,( t i - t ) 2= 28,y i - y2=0.55 ,i =1i = 17 7 72.89( t i - t )( y i - y ) = t i y i - ty i =40.17-4×9.32 = 2.89 , r ≈0.55 ×2×2.646i = 1i = 1i = 1≈ 0.99.因为 y 与 t 的有关系数近似为0.99 ,说明 y 与 t 的线性有关程度相当高,进而能够用线性回归模型拟合 y 与 t 的关系.9.32(2) 由 y = 7≈1.331 及 (1) ,得7t i - ty i - yi = 12.89^b =72= 28 ≈0.103 ,t i - ti=1^ ^a = y -b t ≈1.331 -0.103 ×4≈0.92.所以,y 对于t 的回归方程为 ^= 0.92 + 0.10t .y将 2016 年对应的 t =9 代入回归方程,得^+0.10 ×9= 1.82.y =0.92所以展望 2016 年我国生活垃圾无害化办理量约为 1.82 亿吨.3.[2015 ·新课标全国卷Ⅰ] 某企业为确立下一年度投入某种产品的宣传费,需认识年宣传费 x ( 单位:千元 ) 对年销售量 y ( 单位: t) 和年收益 z ( 单位:千元 ) 的影响.对近8 年的年宣传费 x i 和年销售量 y i ( i = 1,2 , , 8) 数据作了初步办理,获得下边的散点图及一些统计量的值.8888xyw(x i(w i(x i -(w i -i = 1i = 1i =1i = 1- x ) 2 - w ) 2x )( y i - y )w )( y i - y )46.6 563 6.8289.81.61 469108.8表中 w i = x i , w =1 8x i .8i = 1(1) 依据散点图判断, y = a + bx 与 y = c +dx 哪一个适合作为年销售量 y 对于年宣传费 x的回归方程种类? ( 给出判断即可,不用说明原因)(2) 依据 (1) 的判断结果及表中数据,成立y 对于 x 的回归方程.(3) 已知这种产品的年收益 z 与 x ,y 的关系为 z =0.2 y - x . 依据 (2) 的结果回答以下问题:①年宣传费 x = 49 时,年销售量及年收益的预告值是多少?②年宣传费 x 为什么值时,年收益的预告值最大?附:对于一组数据 ( u , v ) , ( u , v ) , , ( u ,v ) ,其回归直线v = α +β u 的斜率和1122nnnu i - uv i - v^ i = 1^截距的最小二乘预计分别为^ β =,α = v - β u .n2u i - ui =1解: (1) 由散点图能够判断,y =c + d x 适合作为年销售量 y 对于年宣传费 x 的回归方程种类.(2) 令 w = x ,先成立 y 对于 w 的线性回归方程.8w i - wy i - y^ i = 1108.8因为 d=8=1.6 =68,w i - w2i = 1^^, c = y- d w = 563-68×6.8 =100.6所以y 对于w 的线性回归方程为 ^= 100.6 +68,yw所以 y 对于 x ^+ 68 x . 的回归方程为 y = 100.6(3) ①由 (2) 知,当 x =49 时,年销售量^+ 68 49= 576.6 ,年收益^×0.2 - 49y 的预告值 y = 100.6 z 的预告值 z =576.6= 66.32.②依据 (2) 的结果知,年收益z 的预告值^+ 68x)- x=- x+13.6x+20.12.z=0.2(100.613.6^所以当 x =2 = 6.8 ,即 x = 46.24 时, z 获得最大值.故年宣传费为46.24 千元时,年收益的预告值最大.4.[2014 ·新课标全国卷Ⅱ] 某地域2007 年至 2013 年乡村居民家庭人均纯收入y ( 单位:千元)的数据以下表:年份 20072008 2009 2010 2011 20122013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y2.93.33.64.44.85.25.9(1) 求 y 对于 t 的线性回归方程;(2) 利用 (1) 中的回归方程,剖析 2007 年至 2013 年该地域乡村居民家庭人均纯收入的变化状况,并展望该地域 2015 年乡村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘预计公式分别为:nt i - ty i - yi = 1^ ^ ^ b = , a = y - b t .nt i - t2i =1解: (1) 由所给数据计算得1t = ×(1 + 2+ 3+ 4+ 5+ 6+7) = 4,71y = 7×(2.9 + 3.3 + 3.6 + 4.4 + 4.8 + 5.2 + 5.9) = 4.3 ,7( t i - t ) 2 =9+ 4+ 1+0+ 1+4+ 9= 28,i = 17( t i - t )( y i - y ) = ( -3) ×( - 1.4) + ( -2) ×( - 1) + ( -1) ×( - 0.7) +0×0.1 +i = 11×0.5 +2×0.9 +3×1.6 = 14,7t i - ty i - yi = 114 ^=b ==0.5 ,7228t i - ti=1^ ^-0.5 ×4= 2.3.a = y - bt = 4.3^所求回归方程为y=0.5 t +2.3.^(2) 由 (1) 知,b= 0.5>0 ,故 2007 年至 2013 年该地域乡村居民家庭人均纯收入逐年增添,均匀每年增添0.5 千元.将 2015 年的年份代号t =9代入(1)中的回归方程,得^y=0.5×9+2.3=6.8,故展望该地域2015年乡村居民家庭人均纯收入为 6.8 千元.课外拓展阅读统计事例问题的规范答题[ 典例 ] [2013 ·福建卷 ] 某工厂有25 周岁以上 ( 含 25 周岁 ) 工人 300 名,25 周岁以下工人 200 名.为研究工人的日均匀生产量能否与年纪有关,现采纳分层抽样的方法,从中抽取了 100 名工人,先统计了他们某月的日均匀生产件数,而后按工人年纪在“25周岁以上(含25 周岁 ) ”和“ 25 周岁以下”分为两组,再将两组工人的日均匀生产件数分红 5 组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,获得以下图的频次分布直方图.(1) 从样本中日均匀生产件数不足60 件的工人中随机抽取 2 人,求起码抽到一名“ 25周岁以下组”工人的概率;(2) 规定日均匀生产件数许多于80 件者为“生产好手”,请你依据已知条件达成2×2列联表,并判断能否有90%的掌握以为“生产好手与工人所在的年纪组有关”?(2≥0)0.1000.0500.0100.001P K kk0 2.706 3.841 6.63510.828n ad- bc 2附: K2=a+b. c+ d a+ c b+ d[ 审题视角 ]由频次分布直方图列举基本领件,联合古典概型,求概率.利用独立性检验公式计算K2.[ 解] (1) 由已知得,样本中有25 周岁以上组工人60 名, 25 周岁以下组工人以,样本中日均匀生产件数不足60 件的工人中, 25 周岁以上组工人有60×0.05 =为 A1, A2,A3;25周岁以下组工人有40×0.05 = 2( 人 ) ,记为B1,B2.40 名.所3( 人) ,记从中随机抽取 2 名工人,全部的可能结果共有10 种,它们是 ( A1,A2) ,( A1,A3) ,( A2,A3) ,( A1,B1) ,( A1,B2) , ( A2,B1 ) ,( A2,B2) , ( A3,B1) , ( A3,B2) , ( B1,B2) .此中,起码有 1 名“ 25 周岁以下组”工人的可能结果共有7 种,它们是 ( A1,B1) , ( A1,B2),( A2, B1),( A2, B2),( A3, B1),( A3,B2),( B1, B2).7故所求的概率P=10.(2) 由频次分布直方图可知,在抽取的100 名工人中,“25 周岁以上组”中的生产好手有60×0.25 = 15( 人) ,“ 25周岁以下组”中的生产好手有40×0.375 = 15( 人 ) ,据此可得 2×2列联表以下:生产好手非生产好手总计25 周岁以上组15456025 周岁以下组152540总计3070100 2n ad- bc 2所以 K=a+ b c+d a+c b+d-225=60×40×30×70=14≈1.79.因为 1.79<2.706 ,所以没有90%的掌握以为“生产好手与工人所在的年纪组有关”.[ 答题模板 ]第 1 步:由分层抽样计算两组工人的数量;第 2 步:由频次分布直方图计算两组不足60 件的人数;第 3 步:列举 5 人抽取 2 人的基本领件数;第4 步,由古典概型计算概率;第 5 步:统计生产好手与非生产好手,列2×2列联表;第 6 步:由公式计算K2,确立答案.概括总结100111(1) 分层抽样比为500=5,25 周岁以上有300×5= 60( 人) , 25 周岁以下的200×5=故40( 人 ) ,而后再依据频次计算“不足60 件”的人数,并设定符号.(2)列 2×2列联表时,此中的数字应先由频次分布直方图算出后再列表.高考数学课标通用(理科)一轮复习配套教师用书:第十章统计与统计案例10.3变量间的相关关系、统计案提示达成课时追踪检测( 五十九 )。
高三(新课标)数学(理)大一轮复习教师用书:第十章 统计与统计案例 Word版含解析
第十章⎪⎪⎪统计与统计案例 第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C 不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D (2)D系统抽样系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ; (3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析](1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10.[答案](1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎡⎦⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3] (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数 老年教师 900 中年教师 1 800 青年教师 1 600 合计4 300A .90B .100C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( )A .54B .90C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组 书画组 乐器组 高一 45 30 a 高二151020个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________.[解析] (1)设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180.(2)依题意得33+5+7×n =18,解得n =90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a +20,解得a =30.[答案] (1)C (2)B (3)30 [方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同. (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样. (4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( ) A .②③④ B .③④ C .②③D .①②解析:选C 根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( )A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.解析:设A、B、C三所学校高三文科学生人数分别为x,y,z,由题知x,y,z成等差数列,所以x+z=2y,又x+y+z=1 500,所以y=500,用分层抽样方法抽取B校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征 (1)众数、中位数、平均数①标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x2-x )2+…+(x n -x )2]. ②方差:标准差的平方s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n+a 的平均数为m x +a ,方差为m 2s 2.[例1] (1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .120D .140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析] (1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15 [方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2]某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,4 45,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,4 15,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A 的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.05 根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 与茎叶图交汇命题[例4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )甲组 乙组 9 0 9 9 y 6 1 6 6 x629 A.7,8 B .5,7 C .(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 7 941x91则7个剩余分数的方差为________. [解析](1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优化决策问题交汇[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁 平均环数x 8.3 8.8 8.8 8.7 方差s 23.53.62.25.4( ) A .甲 B .乙 C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案]C [方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018. 4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 8 4 4 6 4 793A .84,4.84B .84,1.6C .85,1.6D .85,4 解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定. 答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x (吨),一位居民的月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a +0.20+0.26+0.5×a +0.06+0.04+0.02=1,解得a =0.30. (2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x <3.由0.30×(x -2.5)=0.85-0.73,解得x =2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.7.[考点三·考法(二)]某车间20名工人年龄数据如下表:(1)求这20(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律]1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;故D错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A 药解:(1)设A 药观测数据的平均数为x -,B 药观测数据的平均数为y -.由观测结果可得 x -=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y -=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x ->y -,因此可看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.[课时达标检测]重点保分课时——一练小题夯双基,二练题点过高考[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B在①中,文科考生、理科考生、艺术和体育类考生会存在差异,采用分层抽样法较好;在②中,抽取的样本个数较少,宜采用简单随机抽样法.2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=()A.660 B.720 C.780 D.800解析:选B由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n=720.3.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93 B.123 C.137 D.167解析:选C初中部的女教师人数为110×70%=77,高中部的女教师人数为150×(1。
高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1
第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。
高考第一轮复习数学:12.3 统 计 高考数学第一轮复习教案集 新课标 人教版 高考数学第一轮复习教
分析:由于在一次试验中ξ落在区间(μ-3σ,μ+3σ)内的概率为0.997,故ξμ=30,σ=0.8代入,算出区间(μ-3σ,μ+3σ (27.6,32.4).∴据此认为这批砖不合格.
【例3】已知测量误差ξ~N(2,100)(cm),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm的频率大于0.9?
解:对第一个方案,有x~N(8,32),于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ( )=1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413.
对第二个方案,有x~N(6,22),于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ( )=1-Φ(-0.5)=Φ(0.5)=0.6915.
(3)在这个累积频率分布图上,
横坐标为22,
落在21~24的区间内,
折线图在这段区间上的线段所在的直线方程是y-0.3= (x-21),
即yx-1.17.
当x=22时,y=1.54-0.17=0.37.
因此,总体中小于22的数据大约占37%.
●思悟小结
类别
共同点
相互联系
适用X围
各自特点
简单随机抽样
抽样过程中每个个体被抽到的概率相等
(2)画出频率分布直方图和累积频率分布图;
(3)根据累积频率分布图,总体中小于22的样本数据大约占多大的百分比?
解:(1)
分组
频数
频率
累积频率
[12,15)
6
[15,18)
8
[18,21)
16
[21,24)
21
[24,27)
18
[27,30)
高三新课标数学(理)一轮复习(讲义+课件+课时训练):第九篇 统计、统计案例(必修3、选修23)(8
3.茎叶图 定义 画法
优缺点
是统计中用来表示数据的一种图,茎是指中间的一列 数,叶就是从茎的旁边生长出来的数
对于样本数据较少,且分布较为集中的一组数据:若数 据是两位整数,则将十位数字作茎,个位数字作叶;若 数据是三位整数,则将百位、十位数字作茎,个位数字 作叶.样本数据为小数时做类似处理. 对于样本数据较少,且分布较为集中的两组数据,关键 是找到两组数据共有的茎
频数 2
频率
1 15
1
1
30
2
4
15
1
6
5
1
10
3
1
5
6
1பைடு நூலகம்
2
15
(2)频率分布直方图.
(3)答对下述两条中的一条即可: ①该市一个月中空气污染指数有 2 天处于优的水平,占当月天数的 1 .有 26
15 天处于良的水平,占当月天数的 13 .处于优或良的天数共有 28 天,占当月天
15 数的 14 .说明该市空气质量基本良好.
夯基固本
考点突破
规范答题
夯基固本
知识梳理
1.作频率分布直方图的步骤
抓主干 固双基
质疑探究1:频率分布直方图中纵轴表示什么含义?小长方形的面积表 示什么?各小长方形面积之和等于多少?
(提示: 频率 ,频率,1) 组距
2.频率分布折线图和总体密度曲线 (1)频率分布折线图 连接频率分布直方图中各小长方形上端的 中点 ,就得频率分布折 线图. (2)总体密度曲线 随着样本容量的增加,作图时所分的组数增加, 组距 减小,相应的 频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.
(B) 3a 7b 10
(C) 7a 3b 10
高考一轮复习新课标数学(理)配套教材:12.2 用样本估计总体
§12.2用样本估计总体1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.近年来高考加大了对统计考查的力度,与本节相关的试题也频频出现,但难度不高,复习时应重视概念及概念的简单应用.1.用样本的频率分布估计总体分布(1)通常我们对总体作出的估计一般分成两种:一种是用样本的__________估计总体的__________;另一种是用样本的________估计总体的__________.(2)在频率分布直方图中,纵轴表示________,数据落在各小组内的频率用________________表示.各小长方形的面积总和等于________.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布________.随着样本容量的增加,作图时所分的________增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称之为______________________,它能够更加精细地反映出____________________________________.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以____________________,而且可以______________,给数据的记录和表示都带来方便.2.用样本的数字特征估计总体的数字特征(1)众数,中位数,平均数众数:在一组数据中,出现次数________的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或者最中间两个数据的________)叫做这组数据的中位数.平均数:样本数据的算术平均数,即x=_______.在频率分布直方图中,中位数左边和右边的直方图的面积应该________.(2)样本方差,样本标准差标准差s=])()()[(122221xxxxxxn n-+⋯+-+-,其中x n是__________________,n是________,x是________.标准差是反映总体__________的特征数,________是样本标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.【自查自纠】1.(1)频率分布分布数字特征数字特征(2)频率组距各小长方形的面积 1(3)折线图组数总体密度曲线总体在各个范围内取值的百分比(4)保留所有信息随时记录2.(1)最多平均数1n(x1+x2+…+x n)相等(2)样本数据的第n项样本容量平均数波动大小样本方差在频率分布直方图中,各个长方形的面积表示()A.落在相应各组的数据的频数B.相应各组数据的频率C.该样本所分成的组数D.该样本的样本容量解:在频率分布直方图中,小长方形面积=组距×频率组距=频率,所以每个小长方形的面积是相应各组数据的频率.故选B.有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5) 2 [15.5,19.5) 4[19.5,23.5) 9 [23.5,27.5) 18[27.5,31.5) 11 [31.5,35.5) 12[35.5,39.5) 7 [39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16 B.13 C.12 D.23解:落在[31.5,43.5)的频数为22,所以概率约为13.故选B.(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()1237 3764430755432085430解:由茎叶图知,落在区间[0,5)的数据只有1个,其频率为120=0.05,落在区间[5,10)的数据只有1个,其频率为120=0.05,落在区间[10,15)的数据有4个,其频率为420=0.2,…,落在区间[35,40]的数据有2个,其频率为220=0.1,由各选项图象知A正确,故选A.(2013·上海)某学校高一年级男生人数占该年级学生人数的40%.在一次考试中,男、女生平均分数分别为75,80,则这次考试该年级学生平均分数为____________.解:该年级学生平均分数为x=75×40%+80×60%=78.故填78.抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8.79.19.08.99.3乙8.99.09.18.89.2则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.解:x甲=8.7+9.1+9.0+8.9+9.35=9.0,x乙=8.9+9.0+9.1+8.8+9.25=9.0,s2甲=15[(8.7-9.0)2+(9.1-9.0)2+(9.0-9.0)2+(8.9-9.0)2+(9.3-9.0)2]=0.04,s2乙=15[(8.9-9.0)2+(9.0-9.0)2+(9.1-9.0)2+(8.8-9.0)2+(9.2-9.0)2]=0.02,s2乙<s2甲,∴成绩较为稳定的运动员乙成绩的方差为0.02.故填0.02.类型一数字特征及其应用某汽车制造厂分别从A,B两种轮胎中各随机抽取了8个进行测试,列出了每一个轮胎行驶的最远里程数(单位:1000 km):轮胎A96 112 97 108 1001038698轮胎B108 10194105969397106(1)分别计算A,B两种轮胎行驶的最远里程的平均数、中位数;(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;(3)根据以上数据,你认为哪种型号轮胎的性能更加稳定?解:(1)A轮胎行驶的最远里程的平均数为:96+112+97+108+100+103+86+988=100,中位数为:100+982=99;B轮胎行驶的最远里程的平均数为:108+101+94+105+96+93+97+1068=100,中位数为:101+972=99.(2)A轮胎行驶的最远里程的极差为:112-86=26,标准差为:s=8)2()14(38)3(12)4(22222222-+-++++-++-=2212≈7.43;B轮胎行驶的最远里程的极差为:108-93=15,标准差为:s=86)3()7()4(5)6(1822222222+-+-+-++-++=1182≈5.43.(3)虽然A轮胎和B轮胎的最远行驶里程的平均数相同,但B轮胎行驶的最远里程的极差和标准差相对于A轮胎较小,所以B轮胎性能更加稳定.【评析】在理解平均数、中位数、众数、极差、标准差、方差的统计意义和数学表达式的情况下,不难作出解答.(2013·湖北)某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4. 则(1)平均命中环数为____________;(2)命中环数的标准差为____________.解:x =7+8+7+9+5+4+9+10+7+410=7,s =])3(032)3()2(2010[1012222222222-++++-+-++++=2.故填(1)7;(2)2.类型二 频率分布表、频率分布直方图及其应用某市2013年4月1日—4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.(1)完成下列频率分布表、频率分布直方图;频率分布表分组频数 频率 [41,51) [51,61) [61,71) [71,81) [81,91) [91,101) [101,111)频率分布直方图(2)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.解:(1)如图所示:频率分布表分组 频数 频率[41,51) 2 230 [51,61) 1 130 [61,71) 4 430[71,81) 6 630 [81,91) 10 1030 [91,101) 5 530 [101,111) 2 230频率分布直方图(2)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的115,有26天处于良的水平,占当月天数的1315,处于优或良的天数共有28天,占当月天数的1415.说明该市空气质量基本良好. ②轻微污染有2天,占当月天数的115,污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的1730,超过50%,说明该市空气质量有待进一步改善.【评析】首先根据题目中的数据完成频率分布表,作出频率分布直方图,根据污染指数,确定空气质量为优、良、轻微污染、轻度污染的天数;对于开放性问题的解答,要选择适当的数据特征进行考察,根据数据特征分析得出实际问题的结论.本题主要考查运用统计知识解决简单实际问题的能力、数据处理能力和应用意识.(2012·广东)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[)50,60, [)60,70,[)70,80,[)80,90,[]90,100.(1)求图中a 的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生的语文成绩在某些分数段的人数(x )与数学成绩在相应分数段的人数(y )之比如下表所示,求数学成绩在[)50,90之外的人数.分数段 [)50,60 [)60,70 [)70,80 [)80,90 x ∶y 1∶1 2∶1 3∶4 4∶5 解:(1)由()2a +0.02+0.03+0.04×10=1, 解得a =0.005.(2) x =0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.(3)由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段 [50,60) [60,70) [70,80) [80,90) x 5 40 30 20 x ∶y 1∶1 2∶1 3∶4 4∶5 y 5 20 40 25 于是数学成绩在[50,90)之外的人数为100-(5+20+40+25)=10.类型三 茎叶图及其应用以下茎叶图记录了甲、乙两组各四名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X 表示.(1)如果X =8,求乙组同学植树棵数的平均数和方差;(2)如果X =9,分别从甲、乙两组中各随机选取一名同学,求这两名同学的植树总棵数Y 的分布列和数学期望.注:方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n 的平均数.解:(1)当X =8时,由茎叶图可知,乙组同学的植树棵数是8,8,9,10,所以平均数为x =8+8+9+104=354;方差为s 2=14[⎝⎛⎭⎫8-3542+⎝⎛⎭⎫8-3542+⎝⎛⎭⎫9-3542+⎝⎛⎭⎫10-3542]=1116.(2)当X =9时,由茎叶图可知,甲组同学的植树棵数是:9,9,11,11;乙组同学的植树棵数是:9,8,9,10.分别从甲、乙两组中随机选取一名同学,共有4×4=16种可能的结果,这两名同学植树总棵数Y 的可能取值为17,18,19,20,21.事件“Y =17”等价于“甲组选出的同学植树9棵,乙组选出的同学植树8棵”,所以该事件有2种可能的结果,P (Y =17)=216=18. 同理可得P (Y =18)=14;P (Y =19)=14;P (Y =20)=14;P (Y =21)=18. 所以随机变量Y 的分布列为: Y17 18 19 20 21 P 1814 14 14 18 E (Y )=17×18+18×14+19×14+20×14+21×18=19.【评析】(1)根据茎叶图的意义可得甲、乙各组的数据并进一步计算平均数和方差;(2)得到甲、乙各组的数据后计算随机事件所含的基本事件数及运用古典概型概率计算公式求概率,进而求随机变量的分布列及随机变量的期望值.(2013·广东)某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图所示,其中茎为十位数,叶为个位数.1 7 9 2153 0(1)根据茎叶图计算样本平均值;(2)日加工零件个数大于样本均值的工人为优秀工人,根据茎叶图推断该车间12名工人中有几名优秀工人?(3)从该车间12名工人中,任取2人,求恰有1名优秀工人的概率.解:(1)样本均值x =17+19+20+21+25+306=22.(2)根据题意,抽取的6名员工中优秀员工有2人,优秀员工所占比例为26=13,故可推断12名员工中优秀员工人数为13×12=4(人).(3)记事件A 为“抽取的2名工人中恰有1名为优秀员工”,由于优秀员工为4人,非优秀员工为8人,所以事件A 发生的概率为P (A )=C 14C 18C 212=3266=1633,即抽取的2名工人中恰有1名为优秀员工的概率为1633.1.用样本估计总体是统计的基本思想,而利用频率分布表和频率分布直方图来估计总体就是用样本的频率分布去估计总体分布的两种主要方法.分布表在数量表示上比较准确,直方图比较直观.2.频率分布表中的频数之和等于样本容量,各组中的频率之和等于1;在频率分布直方图中,各小长方形的面积表示相应各组的频率,所以,所有小长方形的面积的和等于1.3.茎叶图的优点是原有信息不会抹掉,能够展示数据分布情况,但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了.4.标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差都是测量样本数据离散程度的工具,但在解决实际问题时,一般多采用标准差.。
高考数学一轮复习第九篇统计与统计案例第1节随机抽样训练理新人教版(1)
高考数学一轮复习第九篇统计与统计案例第1节随机抽样训练理新人教版(1)【选题明细表】基础巩固(时间:30分钟)1.(2017·福州一模)在检测一批相同规格共500 kg航空耐热垫片的品质时,随机抽取了280片,检测到有5片非优质品,则这批垫片中非优质品约为( B )(A)2.8 kg (B)8.9 kg (C)10 kg (D)28 kg解析:由题意,这批垫片中非优质品约为×500≈8.9 kg.故选B.2.用系统抽样法(按等距离的规则),要从160名学生中抽取容量为20的样本,将160名学生从1~160进行编号.按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组应抽出的号码为125,则第一组中按此抽签方法确定的号码是( B )(A)7 (B)5 (C)4 (D)3解析:设第一组确定的号码是x,则x+(16-1)×8=125,解得x=5.故选B.3.从1 008名学生中抽取20人参加义务劳动,规定采用下列方法选取:先用简单随机抽样的方法从1 008人中剔除8人,剩下1 000人再按系统抽样的方法抽取,那么这1 008人中每个人入选的概率是( B )(A)都相等且等于(B)都相等且等于(C)不全相等(D)均不相等解析:在抽取时,每个人被抽到的概率均为=.故选B.4.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是( B )(A)5 (B)7 (C)11 (D)13解析:间隔数k==16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7. 故选B.5.某地区共有10万户居民,该地区城市住户与农村住户之比为4∶6.根据分层抽样方法,调查了该地区1 000户居民冰箱拥有情况,调查结果如表所示,那么可以估计该地区农村住户中无冰箱的户数约为( A )(A)1.6万户 (B)4.4万户(C)1.76万户 (D)0.24万户。
高考数学一轮复习讲练测(新教材新高考)专题10-1 统计与统计案例 教师版
专题10.1统计与统计案例练基础1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断()A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【答案】C【解析】由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2021·四川·成都七中高三期中(文))奥运会跳水比赛中共有7名评委给出某选手原始评分,在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到5个有效评分,则与7个原始评分(不全相同)相比,一定会变小的数字特征是()A .众数B .方差C .中位数D .平均数【答案】B 【分析】根据题意,由数据的中位数、平均数、方差、众数的定义,分析可得答案.【详解】对于A :众数可能不变,如8,7,7,7,4,4,1,故A 错误;对于B :方差体现数据的偏离程度,因为数据不完全相同,当去掉一个最高分、一个最低分,一定使得数据偏离程度变小,即方差变小,故B 正确;对于C :7个数据从小到大排列,第4个数为中位数,当首、末两端的数字去掉,中间的数字依然不变,故5个有效评分与7个原始评分相比,不变的中位数,故C 错误;对于C :平均数可能变大、变小或不变,故D 错误;故选:B3.(2020·安徽·高三学业考试)已知某学校高二年级的一班和二班分别有m 人和n 人()m n ≠.某次学校考试中,两班学生的平均分分别为a 和()b a b ≠,则这两个班学生的数学平均分为()A .2a b +B .ma nb +C .ma nb m n++D .a b m n++【答案】C 【分析】利用平均数公式可求得结果.【详解】这两个班学生的数学总分为ma nb +,故这两个班学生的数学平均分为ma nbm n++.故选:C.4.(2021·天津·南开中学高三月考)某校有200位教职员工,他们每周用于锻炼所用时间的频率分布直方图如图所示,据图估计,每周锻炼时间在[8,12]小时内的人数为()A .18B .46C .54D .92【答案】D 【分析】由频率分布直方图求出每周锻炼时间在[8,12]小时内的频率,由此能求出每周锻炼时间在[8,12]小时内的人数.【详解】由频率分布直方图得:每周锻炼时间在[10,12]小时内的频率为:1﹣(0.03+0.06+0.18+0.14)×2=0.18,∴每周锻炼时间在[8,12]小时内的频率为:0.1420.180.46⨯+=∴每周锻炼时间在[8,12]小时内的人数为:200×0.46=92.故选:D .5.(2017·全国高考真题(理))某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A .月接待游客量逐月增加B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳【答案】A 【解析】对于选项A ,由图易知月接待游客量每年7,8月份明显高于12月份,故A 错;对于选项B ,观察折线图的变化趋势可知年接待游客量逐年增加,故B 正确;对于选项C ,D ,由图可知显然正确.故选A.6.(2017课标1,文2)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg )分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数【答案】B 【解析】刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B7.(2019·全国高考真题(文))某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是A .8号学生B .200号学生C .616号学生D .815号学生【答案】C 【解析】由已知将1000名学生分成100个组,每组10名学生,用系统抽样,46号学生被抽到,所以第一组抽到6号,且每组抽到的学生号构成等差数列{}n a ,公差10d =,所以610n a n =+()n *∈N ,若8610n =+,则15n =,不合题意;若200610n =+,则19.4n =,不合题意;若616610n =+,则61n =,符合题意;若815610n =+,则80.9n =,不合题意.故选C .8.(2021·吉林·桦甸市第四中学高三月考(理))在“双11”促销活动中,某网店在11月11日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为42万元,则9时到11时的销售额为()A .9万元B .18万元C .24万元D .30万元【答案】D 【分析】根据频率分布直方图,利用频率比与销售额的比相等,即可求出对应的值.【详解】解:根据频率分布直方图知,12时到14时的频率为0.35,9时到11时的频率为10.40.250.100.25---=,所以9时到11时的销售额为:0.2542300.35⨯=(万元).故选:D9.(2021·内蒙古赤峰·高三月考(文))汽车的“燃油效率”是指汽车每消耗1L 汽油行驶的里程,如图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A .消耗1L 汽油,乙车最多可行驶5kmB .甲车以80km/h 的速度行驶1h 消耗8L 汽油C .以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多D .若机动车最高限速80km/h ,在相同条件下,乙,丙两辆车节油情况无法比较.【答案】B 【分析】结合图象逐项分析即得.【详解】由题可知,当乙车速度大于40km/h 时,乙车每消耗1升汽油,行驶里程都超过5km ,A 错误;甲车以80km/h 的速度行驶时,燃油效率为10km/L,则行驶1h 消耗8L 汽油,B 正确;以相同速度行驶相同路程,燃油效率越高耗油越少,故三辆车中甲车消耗汽油最少,C 错误;在机动车最高限速80km/h 在相同条件下,丙车比乙车燃油效率更高,所以更节油,D 错误.故选:B10.(2020·新疆·克拉玛依市教育研究所三模(理))已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程为^^y bx a =+,计算得^7b =,则当投入10万元广告费时,销售额的预报值为()A .75万元B .85万元C .95万元D .105万元【答案】B 【分析】根据表中数据求出x 和y ,从而求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,再令10x =时,即可求出销售额的预报值.【详解】解:由题意得1(24568)55x =++++=,1(3040506070)505y =++++=,∴样本中心为(5,50),∵回归直线ˆ7ˆyx a =+过样本中心(5,50),∴ˆ5075a=⨯+,解得:ˆ15a =,∴回归直线方程为ˆ715yx =+,当10x =时,710158ˆ5y=⨯+=,故当投入10万元广告费时,销售额的预报值为85万元.故选:B .练提升1.(2021·河南·高三月考(理))某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()A .这50名学生中成绩在[]80,100内的人数占比为20%B .这50名学生中成绩在[)60,80内的人数有26人C .这50名学生成绩的中位数为70D .这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表)【答案】C 【分析】利用频率分布直方图求解判断.【详解】根据此频率分布直方图,成绩在[]80,100内的频率为0.0080.0121020(.)0+⨯=,所以A 正确;这50名学生中成绩在[)60,80内的人数为()0.0320.020105026,+⨯⨯=所以B 正确;根据此频率分布直方图,0.0080.02100.280.5()+⨯=<,0.0080.020.032100.()60.5++⨯=>,可得这50名学生成绩的中位数()60,70∈,所以C 错误﹔根据频率分布直方图的平均数的计算公式,可得:450.08550.2650.32750.2850.12950.0868.2,x =⨯+⨯+⨯⨯+⨯+⨯=+所以D 正确.故选:C.2.(2021·云南大理·模拟预测(理))在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.过去10日,甲、乙、丙、丁四地新增疑似病例数据信息如下:甲地:总体平均数为3,中位数为4;乙地:总体平均数为1,总体方差大于0;丙地:中位数为2,众数为3;丁地:总体平均数为2,总体方差为3.则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是()A .甲地B .乙地C .丙地D .丁地【答案】D 【分析】通过反例可知甲乙丙三地均不符合没有发生大规模群体感染的标志;假设丁地某天数据为8,结合平均数可知方差必大于3,由此知丁地没有发生大规模群体感染.【详解】对于甲地,若连续10日的数据为0,0,0,0,4,4,4,4,4,10,则满足平均数为3,中位数为4,但不符合没有发生大规模群体感染的标志,A 错误;对于乙地,若连续10日的数据为0,0,0,0,0,0,0,0,0,10,则满足平均数为1,方差大于0,但不符合没有发生大规模群体感染的标志,B 错误;对于丙地,若连续10日的数据为0,0,1,1,2,2,3,3,3,10,则满足中位数为2,众数为3,但不符合没有发生大规模群体感染的标志,C 错误;对于丁地,若总体平均数为2,假设有一天数据为8人,则方差()22182 4.538s >⨯-=>,不可能总体方差为3,则不可能有一天数据超过7人,符合没有发生大规模群体感染的标志,D 正确.故选:D.3.(2021·广东茂名·高三月考)某市居民月均用水量的频率分布直方图如图所示:其众数1X ,中位数2X ,平均数X 的估计值分为,则下列结论正确的是()A .21X X X >>B .21X X X >>C .12X X X >>D .21X X X>>【答案】A 【分析】根据频率直方图计算众数1X ,中位数2X ,平均数X 的估计值,再比较它们的大小即可.【详解】由直方图知,众数19.2 5.27.22X +==,中位数2X 在(5.2,9.2)上,则20.0540.1( 5.2)0.5X ⨯+⨯-=,解得28.2X =,平均数0.2 3.20.47.20.1211.20.08(15.223.2)0.06(19.227.2)X =⨯+⨯+⨯+⨯++⨯+10.72=.∴21X X X >>.故选:A .4.(2021·云南·曲靖一中高三月考(文))有20名学生参加数学夏令营活动,分A ,B 两组进行,每组10人夏令营结束时对两组学生进行了一次考核,考核成绩的茎叶图如图所示.则下列说法错误的是()A .A 组学生考核成绩的众数是78B .A ,B 两个组学生平均成绩一样C .B 组考核成绩的中位数是79D .A 组学生成绩更稳定【答案】C 【分析】利用茎叶图逐项求解判断.【详解】A.A 组学生考核成绩的众数是78,故正确;B.因为()1647275787879868591928010A x =+++++++++=,()1626770787984858793958010B x =+++++++++=,故正确;C.B 组考核成绩的中位数是798481.52+=,故错误;D.()()()()()222221[6480728075807880788010A D =-+-+-+-+-,()()()()()2222279808680858091809280]56+-+-+-+-+-=,()()()()()222221[6280678070807880798010B D =-+-+-+-+-,()()()()()2222284808580878093809580]92.2+-+-+-+-+-=,故正确.故选:C5.(2021·辽宁丹东·高三期中)高三(1)班男女同学人数之比为3:2,班级所有同学进行踢毽球(毽子)比赛,比赛规则是:每个同学用脚踢起毽球,落地前用脚接住并踢起,脚接不到毽球比赛结束.记录每个同学用脚踢起毽球开始到毽球落地,脚踢到毽球的次数,已知男同学用脚踢到毽球次数的平均数为17,方差为11,女同学用脚踢到毽球次数的平均数为12,方差为16,那么全班同学用脚踢到毽球次数的平均数和方差分别为()A .14.5,13.5B .15,13C .13.5,19D .15,19【答案】D 【分析】设男同学为3a 人,女同学为2a 人,根据平均数公式及方差公式计算可得;【详解】解:设男同学为3a 人,女同学为2a 人,则全班的平均数为1731221532a aa a⨯+⨯=+,设男同学为1x ,2x ,L ,3a x ,女同学为1y ,2y ,L ,2a y ,则12331751a x x x a a +++=⨯= ,12221224a y y y a a +++=⨯= ,所以男同学的方差()()()222123171717113a x x x a-+-++-= ①,女同学的方差()()()222122121212162a y y y a-+-++-= ②;由①可得()22221231233331734a a a x x x a x x x =++++⨯-+++ ,即222123900a x x x a +++= ,由②可得()22221221223224212a a a y y y a y y y a =++++-++++⨯ ,即222122320a y y y a +++= ,所以全班同学的方差为()()()()()()2222221231221515151515155a a x x x y y y a-+-++-+-+-++- 即()()2222222212312312212230315302155a a a a x x x x x x a y y y y y y a a +++-++++⨯++++-++++⨯ 2290030513153203024215195a a a a a a a-⨯+⨯+-⨯+⨯==故选:D6.(2021·广东福田·高三月考)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):根据此频率分布直方图,下面结论中正确的是()A .该地农户家庭年收入低于4.5万元的农户比率估计为6%B .该地农户家庭年收入的中位数约为7.5万元C .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D .估计该地农户家庭年收入的平均值不超过6.5万元【答案】ABC 【分析】根据频率分布直方图求出该地农户家庭年收入低于4.5万元的农户得频率即可判断A ;根据频率分布直方图求出中位数即可判断B ;根据频率分布直方图求出家庭年收入介于4.5万元至8.5万元之间频率解判断C ;根据频率分布直方图求出平均数即可判断D.【详解】解:对于A ,该地农户家庭年收入低于4.5万元的农户得频率为0.020.040.066%+==,所以比率估计为6%,故A 正确;对于B ,因为0.020.040.100.140.200.5++++=,所以该地农户家庭年收入的中位数约为7.5万元,故B 正确;对于C ,家庭年收入介于4.5万元至8.5万元之间频率为0.100.140.200.200.640.5+++=>,所以估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故C 正确;对于D ,该地农户家庭年收入的平均值为30.0240.0450.160.1470.280.290.1⨯+⨯+⨯+⨯+⨯+⨯+⨯100.1110.04120.02130.02140.027.68 6.5+⨯+⨯+⨯+⨯+⨯=>,所以估计该地农户家庭年收入的平均值超过6.5万元,故D 错误.故选:ABC.7.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:()2P K k≥0.400.250.100.010 0k0.708 1.323 2.706 6.635【答案】(1)26.6小时;(2)12;(3)有,理由见解析.【分析】(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以50可得这50名同学的平均阅读时长;(2)设这4名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得结果;(3)计算出2K的观测值,结合临界值表可得出结论.【详解】(1)设这50名同学的平均阅读时长为x小时,则5415102514351845426.650x⨯+⨯+⨯+⨯+⨯==,故这50名同学的平均阅读时长为26.6小时;(2)设这4名学生分别为甲、乙、丙、丁,从这4名学生任取2名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、(乙,丁)、(丙、丁),共6个,其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),因此,所求概率为3162P ==;(3)()225020252331.897 6.63522282327K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有99%的把握认为语文成绩是否优秀与课外阅读时间有关.8.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.635【答案】(1)26.6小时;(2)12;(3)有,理由见解析.【分析】(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以50可得这50名同学的平均阅读时长;(2)设这4名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得结果;(3)计算出2K的观测值,结合临界值表可得出结论.【详解】(1)设这50名同学的平均阅读时长为x小时,则5415102514351845426.650x⨯+⨯+⨯+⨯+⨯==,故这50名同学的平均阅读时长为26.6小时;(2)设这4名学生分别为甲、乙、丙、丁,从这4名学生任取2名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、(乙,丁)、(丙、丁),共6个,其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),因此,所求概率为3162 P==;(3)()225020252331.897 6.63522282327K⨯⨯-⨯=≈>⨯⨯⨯,因此,有99%的把握认为语文成绩是否优秀与课外阅读时间有关.9.(2021·新疆·克拉玛依市教育研究所模拟预测(文))推进垃圾分类处理,是落实绿色发展理念的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民30人,女性居民20人,男性居民中不喜欢担任垃圾分类志愿者占男性居民的23,女性居民中不喜欢担任垃圾分类志愿者占女性居民的14,判断能否在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关?附:()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.1000.0500.0100.0050.001 0k 2.706 3.841 6.6357.87910.828(2)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+$$$,数据统计如表:志愿者人数x (人)23456日垃圾分拣量y (千克)24294146t已知511405i i y y ===∑,52190i i x ==∑,51889i i i x y ==∑,根据所给数据求t ,预测志愿者人数为10人时,该垃圾站的日垃圾分拣量.附:1221ni ii nii x y nxybxnx==-=-∑∑ ,a y bx =-$$.【答案】(1)能(2)60t =,93.4千克【分析】(1)根据题意,列出2×2列联表,再根据2K 公式计算,对照临界表中的数据,比较即可得到答案;(2)由表中数据和题中所给数据,可求出t 的值,再根据参考公式求得线性回归系数 a和b ,可得回归直线方程为 8.9 4.4y x =+,再将10x =代入,即可求出结果.(1)解:根据题意,列出的2×2列联表如下:喜欢担任垃圾分类志愿者不喜欢担任垃圾分类志愿者合计男性居民102030女性居民15520合计252550()22501052015258.3337.879252520303K ⨯⨯-⨯==≈>⨯⨯⨯,所以,能在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关.(2)解:由表中数据可知,()12345645x =⨯++++=,511405i i y y ===∑,∴60t =,∴122218895440898.9905410ni ii ni i x y nxybx nx==--⨯⨯====-⨯-∑∑ , 408.94 4.4a y bx =-=-⨯= ,∴回归直线方程为 8.9 4.4y x =+.当10x =时, 8.910 4.493.4y =⨯+=.所以当志愿者为10人时,垃圾分拣量大约为93.4千克.10.(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.(I)求直方图中的a 值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.【答案】(Ⅰ)0.30a =;(Ⅱ)36000;(Ⅲ)2.04.【解析】(Ⅰ)由频率分布直方图,可知:月用水量在[0,0.5]的频率为0.08×0.5=0.04.同理,在[0.5,1),(1.5,2],[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1–(0.04+0.08+0.21+.025+0.06+0.04+0.02)=0.5×a +0.5×a ,解得a =0.30.(Ⅱ)由(Ⅰ),100位居民月均水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.13=36000.(Ⅲ)设中位数为x 吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5所以2≤x<2.5.由0.50×(x–2)=0.5–0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.练真题1.(2021·全国高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【解析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.+==,故A正该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误.综上,给出结论中不正确的是C.故选:C.2.(2020·全国高考真题(理))在一组样本数据中,1,2,3,4出现的频率分别为1234,,,p p p p ,且411i i p ==∑,则下面四种情形中,对应样本的标准差最大的一组是()A .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====【答案】B 【解析】对于A 选项,该组数据的平均数为()()140.1230.4 2.5A x =+⨯++⨯=,方差为()()()()222221 2.50.12 2.50.43 2.50.44 2.50.10.65A s =-⨯+-⨯+-⨯+-⨯=;对于B 选项,该组数据的平均数为()()140.4230.1 2.5B x =+⨯++⨯=,方差为()()()()222221 2.50.42 2.50.13 2.50.14 2.50.4 1.85B s =-⨯+-⨯+-⨯+-⨯=;对于C 选项,该组数据的平均数为()()140.2230.3 2.5C x =+⨯++⨯=,方差为()()()()222221 2.50.22 2.50.33 2.50.34 2.50.2 1.05C s =-⨯+-⨯+-⨯+-⨯=;对于D 选项,该组数据的平均数为()()140.3230.2 2.5D x =+⨯++⨯=,方差为()()()()222221 2.50.32 2.50.23 2.50.24 2.50.3 1.45D s =-⨯+-⨯+-⨯+-⨯=.因此,B 选项这一组的标准差最大.故选:B.3.(2019·全国高考真题(文))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828【答案】(1)43, 55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)100 4.762 3.841 7030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.4.(2021·全国高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为21s 和22s.(1)求x,y,21s,22s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥不认为有显著提高).【答案】(1)221210,10.3,0.036,0.04x y s s ====;(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【解析】(1)根据平均数和方差的计算方法,计算出平均数和方差.(2)根据题目所给判断依据,结合(1)的结论进行判断.【详解】(1)9.810.31010.29.99.81010.110.29.71010x +++++++++==,10.110.410.11010.110.310.610.510.410.510.310y +++++++++==,22222222210.20.300.20.10.200.10.20.30.03610s +++++++++==,222222222220.20.10.20.30.200.30.20.10.20.0410s +++++++++==.(2)依题意,0.320.15y x -==⨯=,=y x -≥,所以新设备生产产品的该项指标的均值较旧设备有显著提高.5.(2017·全国高考真题(文))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:P (K 2≥k )0.0500.0100.001k3.8416.63510.82822()()()()()n ad bc K a b c d a c b d -=++++【答案】(1)0.62(2)有99%的把握(3)新养殖法优于旧养殖法【解析】(1)旧养殖法的箱产量低于50kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A 的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50kg箱产量≥50kg 旧养殖法6238新养殖法3466K 2的观测值k =()22006266343810010096104⨯⨯-⨯⨯⨯⨯≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)由频率分布直方图可得:旧养殖法100个网箱产量的平均数x 1=(27.5×0.012+32.5×0.014+37.5×0.024+42.5×0.034+47.5×0.040+52.5×0.032+57.5×0.032+62.5×0.012+67.5×0.012)×5=5×9.42=47.1;新养殖法100个网箱产量的平均数x 2=(37.5×0.004+42.5×0.020+47.5×0.044+52.5×0.054+57.5×0.046+62.5×0.010+67.5×0.008)×5=5×10.47=52.35;比较可得:x 1x <2,故新养殖法更加优于旧养殖法.6.(2018·全国高考真题(文))下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17 )建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7 )建立模型②:ˆ9917.5yt =+.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆy =–30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆy =99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =–30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型。
高三一轮复习 统计案例教案讲义
富县高级中学集体备课教案年级:高二科目:数学授课人:课题§1 回归分析第课时三维目标1.通过实例引入线性回归模型,感受产生随机误差的原因;2.通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;3.能求出简单实际问题的线性回归方程。
重点线性回归模型的建立和线性回归系数的最佳估计值的探求方法中心发言人难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法教具课型常规课课时安排---课时教法学法个人主页教学过程(一)、问题情境1、情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当x=9时的位置y的值.时刻x/s 1 2 3 4 5 6 7 8位置观测值y/cm 5.54 7.52 10.02 11.73 15.69 16.12 16.98 21.06 先作散点图,从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni iiniix y nx ybx n xa y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑可以得到线性回归方为 3.5361 2.1214y x=+,所以当9x=时,由线性回归方程可以估计其位置值为22.6287y=2、问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?(二)、学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差。
(三)、新课探析1、线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.2、线性回归系数:a,b 的计算公式为 1122211()()()()n ni i i i i i n n i i i i x x y y x y nx y b x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ ,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线 y a bx =+ 就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中 a ,b 分别为a ,b 的估计值, a 称为回归截距,b 称为回归系数, y 称为回归值.3、线性回归方程 y a bx =+ 中 a ,b 的意义是:以 a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位。
配套K12高三数学一轮复习 统计案例随堂检测 文 北师大版
配套K12高三数学一轮复习统计案例随堂检测文北师大版配套k12高三数学一轮复习统计案例随堂检测文北师大版小学+初中+高中+努力=大学2021《金版新学案》高三数学一轮复习统计案例随堂检测文北师大版(本栏目内容,学生用书中以活页形式单独装订成册!)一、多项选择题(每个子题6分,共36分)21.对于分类变量X和y的随机变量的观察值,正确的说法是()A。
值越大,“X与y相关”的可信度越小。
B.“X与y相关”的可信度越小。
C.“X与y相关”的可信度越小。
越接近0,“X与y无关”的可信度越小。
D.值越大,“x与Y无关”的值越大【解析】越大,说明“x与y有关系”成立的可信程度越大,反之越小.【答案】b2.对于独立性测试,以下语句中的错误为()2a、值越大,两个事件之间的相关性越大2b、值越小,两个事件之间的相关性越小2C≤ 3.841,95%的人确信事件a与事件B有关2d、当>6.635时,99%的人确信事件a与事件B有关2[分析]在独立性测试中,随机变量的值可以解释两个变量之间的关联程度。
1.22一般来说,随机变量的值越大,两个变量之间的相关性就越大;否则,它会更小。
临界值>6.635表示299%的人认为两者之间存在关系;≤ 2.706意味着它们几乎无关紧要。
因此,C中的语句是不正确的【答案】c3.假设两个变量X和y之间存在线性相关,相关系数为r,回归方程为y=a+BX,则必须存在()a.b与r符号相同b.a与r符号相同c.b与r符号相反d.a与r符号相反N?xiyi-nxi=1y【分析】因为B=n? (xi-x)i=1N)二?xiyi-nxi=1yNr=N?(xi-xi=1)二?(yi-yi=1)二分母均为正,而分子相同,故b与r同号.【答案】a4.X和y的已知值如下表所示:x01234y2 24.34.84.86.7如果从散点图分析,y与X 射线性质有关,且y=0.95x+A,A的值等于()A.2.6b。
【核按钮】(新课标)高考数学一轮复习(课时精讲+课时检测+单元检测)第十二章 统计(4课时)理
第十二章 统 计1.随机抽样(1)理解随机抽样的必要性和重要性.(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.用样本估计总体(1)了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.变量的相关性(1)会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).4.了解回归分析的思想、方法及其简单应用.5.了解独立性检验的思想、方法及其初步应用.§12.1 随机抽样1.简单随机抽样(1)简单随机抽样:一般地,设一个总体含有N 个个体,从中逐个________地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会________,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样方法有两种:________法和________法.抽签法(抓阄法):一般地,抽签法就是把总体中的N 个个体________,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取______个号签,连续抽取________次,就得到一个容量为n 的样本.随机数法:随机数法就是利用______________、随机数骰子或计算机产生的随机数进行抽样.简单随机抽样有操作简便易行的优点,在总体个数不多的情况下是行之有效的.2.系统抽样 (1)一般地,假设要从容量为N 的总体中抽取容量为n 的样本,我们可以按下列步骤进行系统抽样:①先将总体的N 个个体________.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;②确定分段间隔k ,对编号进行分段.当N n(n 是样本容量)是整数时,取k =N n ,如果遇到N n不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除;③在第1段用______________抽样方法确定第一个个体编号l (l ≤k );④按照一定的规则抽取样本.通常是将l 加上________得到第2个个体编号________,再________得到第3个个体编号________,依次进行下去,直到获取整个样本.(2)当总体中元素个数较少时,常采用____________,当总体中元素个数较多时,常采用______________.3.分层抽样(1)分层抽样的概念:一般地,在抽样时,将总体分成________的层,然后按照一定的________,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)当总体是由__________的几个部分组成时,往往选用分层抽样的方法.(3)分层抽样时,每个个体被抽到的机会是________的.自查自纠:1.(1)不放回 都相等(2)抽签 随机数 编号 1 n 随机数表 2.(1)①编号 ③简单随机④间隔k (l +k ) 加k (l +2k ) (2)简单随机抽样 系统抽样3.(1)互不交叉 比例 (2)差异明显 (3)均等某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①.在丙地区中有20个特大型销售点,要从中抽取7个,调查其销售收入和售后服务情况,记这项调查为②.则完成①,②这两项调查宜采用的抽样方法依次是( )A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解:依据题意,第①项调查宜采用分层抽样法,第②项调查宜采用简单随机抽样法.故选B.一个年级有12个班,每个班有50名学生,随机编号为1~50,为了了解他们课外的兴趣,要求每班第40号学生留下来进行问卷调查,这运用的抽样方法是( )A.分层抽样B.抽签法C.随机数表法D.系统抽样法解:由系统抽样的定义知这种抽样方法为系统抽样法.故选D.(2014·重庆)某中学有高中生3500人,初中生1500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A.100B.150C.200D.250解:样本抽取比例为703500=150,该校总人数为3500+1500=5000,由n 5000=150得n =100.故选A.为了了解某地参加计算机水平测试的5008名学生的成绩,从中抽取了200名学生的成绩进行统计分析,运用系统抽样抽取样本时,每组的容量为____________.解:由于5008不能被200整除,所以须先剔除8人,再由5000÷200=25知每组的容量为25.故填25.某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号为第1组,6~10号为第2组,…,196~200号为第40组).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.解:由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37;易知40岁以下年龄段的职工数为200×0.5=100,所以40岁以下年龄段应抽取的人数为40200×100=20.故填37;20.类型一 简单随机抽样某大学为了支援我国西部教育事业,决定从应届毕业生报名的18名志愿者中选取6名组成志愿小组.请用抽签法和随机数表法设计抽样方案.解:(抽签法) 第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者就是志愿小组的成员.(随机数表法)第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如从第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01~18中的数或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09;第四步:找出以上号码对应的志愿者,即是志愿小组的成员.点拨:考虑到总体中个体数较少,利用抽签法或随机数表法很容易获取样本,但须按这两种抽样方法的操作步骤进行.注意掌握随机数表的使用方法.有一批机器,编号为1,2,3,…,112,为调查机器的质量问题,打算抽取10台入样,请写出用简单随机抽样方法获得样本的步骤.解法一:将112个外形完全相同的号签(编号001,002,…,112)放入一个不透明的盒子里,充分搅拌均匀后,每次不放回地从盒子中抽取1个号签,连续抽取10次,就得到1个容量为10的样本.解法二:第一步,将机器编号为001,002,003, (112)第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如选第9行第7个数“3”,向右读;第三步,从“3”开始,向右读,每次读取三位,凡不在001~112中的数跳过去不读,前面已经读过的数也跳过去不读,依次可得到074,100,094,052,080,003,105,107,083,092,这样就得到一个容量为10的样本;第四步,找出以上号码对应的机器,即是要抽取的样本.类型二系统抽样从某厂生产的10002辆汽车中随机抽取100辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程.解:因为总体容量和样本容量都较大,可用系统抽样.抽样步骤如下:第一步,将10002辆汽车用随机方式编号;第二步,从总体中剔除2辆(剔除法可用随机数表法),将剩下的10000辆汽车重新编号(分别为00001,00002,…,10000),并分成100段;第三步,在第一段00001,00002,…,00100这100个编号中用简单随机抽样方法抽出一个作为起始号码(如00006);第四步,把起始号码依次加上间隔100,可获得样本.点拨:①总体容量和样本容量都较大时,选用系统抽样比较合适;②系统抽样的号码成等差数列,公差为每组的容量.(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1, 2, … , 840随机编号,则抽取的42人中,编号落入区间[481, 720]的人数为( )A.11B.12C.13D.14解:从840名职工中抽取42人,按系统抽样分42组,每组20人,每组中抽取1人,在[481,720] 中有720-480=240人,240÷20=12组,编号落入区间[481,720]的人数为12.故选B.类型三分层抽样某企业共有5个分布在不同区域的工厂,职工3万人,其中职工比例为3∶2∶5∶2∶3.现从3万人中抽取一个300人的样本,分析员工的生产效率.已知生产效率与不同的地理位置的生活习俗及文化传统有关,问应采取什么样的方法?并写出具体过程.解:应采取分层抽样的方法.过程如下:(1)将3万人分为五层,其中一个工厂为一层.(2)按照样本容量的比例随机抽取各工厂应抽取的样本:300×315=60(人);300×215=40(人);300×515=100(人);300×215=40(人);300×315=60(人).因此各工厂应抽取的人数分别为60人,40人,100人,40人,60人.(3)将300人组到一起即得到一个样本.点拨:分层抽样的实质为按比例抽取,当总体由差异明显的几部分组成时,多用分层抽样.应认识到,在各层抽取样本时,又可能会用到简单随机抽样,系统抽样,甚至分层抽样来抽取样本.(2014·天津)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取__________名学生.解:应从一年级本科生中抽取300×44+5+5+6=60名学生.故填60.1.简单随机抽样是系统抽样和分层抽样的基础,是一种等概率的抽样,它的特点是:(1)它要求总体个数较少;(2)它是从总体中逐个抽取的;(3)它是一种不放回抽样.2.系统抽样又称等距抽样,号码序列一旦确定,样本即确定好了.但要注意,如果编号的个体特征随编号的变化呈现一定的周期性,那么样本的代表性是不可靠的,甚至会导致明显的偏向.3.分层抽样一般在总体是由差异明显的几个部分组成时使用.4.抽样方法经常交叉使用,比如系统抽样中均匀分段后的第一段,可采用简单随机抽样;分层抽样中,若每层中个体数量仍很大时,则可辅之以系统抽样等.5.三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被从总体中逐个抽样总体中的个体数较少系统抽样将总体均分成几部分,按事先确定在起始部分抽样时采用简单随机抽总体中的个体数较多1.(2013·湖南)某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查 ,则宜采用的抽样方法是( )A.抽签法B.随机数法C.系统抽样法D.分层抽样法解:由题意,男、女生需要按比例抽样,所以需要分层抽样.故选D.2.现要完成下列3项抽样调查:①从10盒酸奶中抽取3盒进行食品卫生检查. ②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈.③东方中学共有160名教职工,其中一般教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.较为合理的抽样方法是( )A.①简单随机抽样;②系统抽样;③分层抽样B.①简单随机抽样;②分层抽样;③系统抽样C.①系统抽样;②简单随机抽样;③分层抽样D.①分层抽样;②系统抽样;③简单随机抽样 解:由各抽样方法的适用范围可知较为合理的抽样方法是:①用简单随机抽样,②用系统抽样,③用分层抽样.故选A.3.(2014·广东)为了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50B.40C.25D.20解:由100040=25,可得分段的间隔为25.故选C.4.(2014·湖南)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A.p 1=p 2<p 3B.p 2=p 3<p 1C.p 1=p 3<p 2D.p 1=p 2=p 3解:根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样方法中每个个体被抽到的概率相等,均是nN,故p 1=p 2=p 3,故选D.5.(2013.江西)总体由编号为01,02, (19)20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出解:从选定的两位数字开始向右读,剔除不合题意及与前面重复的编号,得到符合题意的编号分别为08,02,14,07,01,…,因此选出来的第5个个体的编号为01.故选D.6.将参加夏令营的600名学生编号为001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为( )A.25,17,8B.25,16,9C.26,16,8D.24,17,9解:依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;同理可知第Ⅲ营区被抽中的人数是8.故选A.7.(2014·上海)某校高一、高二、高三分别有学生1600名、1200名、800名,为了解该校高中学生的牙齿健康状况,按各年级的学生数进行分层抽样,若高三抽取20名学生,则高一、高二共需抽取的学生数为__________.解:设高一、高二各抽取x ,y 名,由题意可知x 1600=y 1200=20800,解得⎩⎪⎨⎪⎧x =40,y =30.∴x +y =70.故填70.8.将参加数学竞赛的1000名学生编号如下:0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码0015,则第40个号码为________.解:系统抽样号码构成一个等差数列,公差为每组编号个数,所以第40个号码为0015+(40-1)×100050=0795.故填0795.9.为了考察某校的教学水平,将抽查该校高三年级部分学生本学年的考试成绩进行考察.为了全面地反映实际情况,采用以下三种方式进行抽样(已知该校高三年级共有20个教学班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生人数都相同):①从全年级20个班中任意抽取一个班,再从该班中任意抽取20人,考察他们的学习成绩;②每个班都抽取1人,共计20人,考察这20个学生的成绩;③把学生按成绩分成优秀、良好、普通三个级别,从中抽取100名学生进行考察(已知若按成绩分,该校高三学生中优秀生共150人,良好生共600人,普通生共250人).根据上面的叙述,回答下列问题:(1)上面三种抽取方式中,其总体、个体、样本分别指什么?每一种抽取方式抽取的样本中,其样本容量分别是多少?(2)上面三种抽取方式中各自采用了何种抽取样本的方法?解:(1)这三种抽取方式中,其总体都是指该校高三全体学生本学年的考试成绩,个体都是指高三年级每个学生本学年的考试成绩.其中第一种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第二种抽取方式中,样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第三种抽取方式中,样本为所抽取的100名学生本学年的考试成绩,样本容量为100.(2)第一种采用简单随机抽样法;第二种采用系统抽样法和简单随机抽样法;第三种采用分层抽样法和简单随机抽样法.10.一支田径队有男运动员56人,女运动员42人,用分层抽样的方法从全体运动员中抽出一个容量为28的样本.解:田径运动员的总人数是56+42=98(人),要得到28人的样本,占总体的比例为27.于是,应该在男运动员中随机抽取56×27=16(人),在女运动员中随机抽取28-16=12(人).这样,就可以得到一个容量为28的样本.11.某大学今年有毕业生1503人,为了了解毕业生择业的意向,打算从中选50人进行询问调查,试用系统抽样法确定出这50个人.解:总体中的每个个体都必须等可能地入样,为了实现系统抽样的平均分组且又等概率抽样,必须先剔除1503被50除的余数3,再“分段”,定起始位置.第一步:将1503名大学生随机编号:0001,0002, (1503)第二步:因为1503被50除余3,所以应从总体中剔除3人,用随机数表法确定被剔除的3位同学;第三步:将余下的1500名学生重新编号为0001,0002, (1500)第四步:将上述1500个号码按顺序平均分成50段,每段30人;第五步:在第一段0001,0002,…,0030这30个编号中随机确定一起始号i 0;第六步:取出编号为i 0,i 0+30,i 0+60,…,i 0+49×30的大学生,即得所需样本.某公司有1000名员工,其中:高层管理人员为50名,属于高收入者;中层管理人员为150名,属于中等收入者;一般员工为800名,属于低收入者.要对这个公司员工的收入情况进行调查,欲抽取100名员工,应当怎样进行抽样?解:可以采用分层抽样的方法,按照收入水平分成三层:高收入者、中等收入者、低收入者.从题中数据可以看出,高收入者为50名,占所有员工的比例为501000=5%,为保证样本的代表性,在所抽取的100名员工中,高收入者所占的比例也应为5%,数量为100×5%=5,所以应抽取5名高层管理人员.同理,抽取15名中层管理人员、80名一般员工,再对收入状况分别进行调查.§12.2 用样本估计总体1.用样本的频率分布估计总体分布(1)通常我们对总体作出的估计一般分成两种:一种是用样本的__________估计总体的__________;另一种是用样本的________估计总体的__________.(2)在频率分布直方图中,纵轴表示________,数据落在各小组内的频率用________________表示.各小长方形的面积总和等于________.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布________.随着样本容量的增加,作图时所分的________增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称之为______________,它能够更加精细地反映出____________________________________.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以____________________,而且可以______________,给数据的记录和表示都带来方便.2.用样本的数字特征估计总体的数字特征 (1)众数,中位数,平均数众数:在一组数据中,出现次数________的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或者最中间两个数据的________)叫做这组数据的中位数.平均数:样本数据的算术平均数,即x =______________.在频率分布直方图中,中位数左边和右边的直方图的面积应该________.(2)样本方差,样本标准差 标准差s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中xn 是__________________,n 是________,x 是________.标准差是反映总体__________的特征数,________是样本标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.自查自纠:1.(1)频率分布 分布 数字特征 数字特征 (2)频率组距各小长方形的面积 1 (3)折线图 组数 总体密度曲线 总体在各个范围内取值的百分比 (4)保留所有信息 随时记录2.(1)最多 平均数1n(x 1+x 2+…+x n ) 相等(2)样本数据的第n 项 样本容量 平均数波动大小 样本方差在频率分布直方图中,各个长方形的面积表示( )A.落在相应各组的数据的频数B.相应各组数据的频率C.该样本所分成的组数D.该样本的样本容量解:在频率分布直方图中,小长方形面积=组距×频率组距=频率,所以每个小长方形的面积是相应各组数据的频率.故选B.有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2 [15.5,19.5)4 [19.5,23.5)9 [23.5,27.5)18 [27.5,31.5)11[31.5,35.5)12[35.5,39.5)7 [39.5,43.5)3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是( )A.16B.13C.12D.23解:落在[31.5,43.5)的频数为22,所以概率约为13.故选B.小波一星期的总开支分布如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为( )图1图2A.30%B.10%C.3%D.不能确定解:观察图2得,小波一星期的食品开支为:30+40+100+80+50=300元;观察图1得,小波一星期的总开支为:30030%=1000元,所以小波一星期的鸡蛋开支占总开支的百分比为301000×100%=3%.故选C.(2013·上海)某学校高一年级男生人数占该年级学生人数的40%.在一次考试中,男、女生平均分数分别为75,80,则这次考试该年级学生平均分数为____________.解:该年级学生平均分数为x =75×40%+80×60%=78.故填78.在如图所示的茎叶图中,甲、乙两组数据的中位数为46.故填45,46.类型一 数字特征及其应用 某汽车制造厂分别从A ,B 两种轮胎中各随机抽取了8个进行测试,列出了每一个轮胎行驶的最远里程数(单位:1000 km):轮胎A 96 112 97 108 100 10386 98轮胎B 108 101 94 105 96 9397 106(1)分别计算A ,B 两种轮胎行驶的最远里程的平均数、中位数;(2)分别计算A ,B 两种轮胎行驶的最远里程的极差、标准差;(3)根据以上数据,你认为哪种型号轮胎的性能更加稳定?解:(1)A 轮胎行驶的最远里程的平均数为: 96+112+97+108+100+103+86+988=100,中位数为:100+982=99;B 轮胎行驶的最远里程的平均数为: 108+101+94+105+96+93+97+1068=100,中位数为:101+972=99.(2)A 轮胎行驶的最远里程的极差为:112-86=26, 标准差为: s =错误!=2212≈7.43;B 轮胎行驶的最远里程的极差为:108-93=15, 标准差为: s=错误! =1182≈5.43.(3)虽然A 轮胎和B 轮胎的最远行驶里程的平均数相同,但B 轮胎行驶的最远里程的极差和标准差相对于A 轮胎较小,所以B 轮胎性能更加稳定. 点拨: 在理解平均数、中位数、众数、极差、标准差、方差的统计意义和数学表达式的情况下,不难作出解答. (2013·湖北)某学员在一次射击测试中射靶10次,命中环数如下: 7,8,7,9,5,4,9,10,7,4.则(1)平均命中环数为____________;(2)命中环数的标准差为____________.解:x =7+8+7+9+5+4+9+10+7+410=7,s =错误!=2.故填(1)7;(2)2.类型二 频率分布表、频率分布直方图及其应用 (2014·全国Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解:(1)这些数据的频率分布直方图为:(2)质量指标值的样本平均数为x =80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100,质量指标值的样本方差为s 2=(-20)2×0.06+(-10)2×0.26+02×0.38+102×0.22+202×0.08=104,所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.点拨:(1)先利用表中的数据正确计算每组的频率,再据此作出频率分布直方图,注意纵坐标是频率组距;(2)求平均值时注意利用区间中点值;(3)只须将满足题意的各组数据的频率相加,再进行判断.(2014·广东)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.1212的值; (2)根据上述频率分布表,画出样本频率分布直方图;(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.解:(1)根据已知数据统计出n 1=7,n 2=2, 计算得f 1=0.28,f 2=0.08.(2)由于组距为5,用频率组距得各组的纵坐标分别为0.024,0.040,0.064,0.056,0.016.不妨以0.008为纵坐标的一个单位长,5为横坐标的一个单位长画出样本频率分布直方图如下.(3)根据样本频率分布直方图,以频率估计概率,则在该厂任取1人,其日加工零件数落在区间(30,35]的频率为0.2,估计其概率为0.2.∴在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率P =1-C 04(0.2)0(1-0.2)4=0.590 4.类型三 茎叶图及其应用以下茎叶图记录了甲、乙两组各四名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X 表示.(1)如果X =8,求乙组同学植树棵数的平均数和方差;(2)如果X =9,分别从甲、乙两组中各随机选取一名同学,求这两名同学的植树总棵数Y 的分布列和数学期望.注:方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n-x )2],其中x 为x 1,x 2,…,x n 的平均数.。
2024年高考数学一轮复习(新高考版)《统计与统计分析》课件ppt
i=1
7
xiyi-7
i=1
所以b^ =
7
x
·y
=452-7×42×8 70+7m+n,
x2i -7 x 2
i=1
123456
^
即 m+n=43-7b,
①
因为经验回归直线恒过点( x , y ),
所以70+7m+n=4b^ +4,
^
即 m+n=28b-42,
②
由①②,得b^ =177,m+n=26,
123456
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归
^^
^
^
方程v=βu+α的斜率和截距的最小二乘估计公式分别为β=
n
n
ui- u vi- v uivi-n u ·v
i=1
n
u
i-
u
2
i=1
i=1
^
^
=
,α= v -β u .
n
u2i -n u 2
月劳动时间(单位:小时),并建立了人均月劳动时间y关于月份x的经验回
^^
归方程 y=bx+4,y与x的原始数据如表所示:
月份x
123 4 5 6 7
人均月劳动时间y 8 9 m 12 n 19 22
7
由于某些原因导致部分数据丢失,但已知 xiyi=452.
i=1
123456
(1)求m,n的值;
n
xiyi-n x ·y
x2i -8 x 2
i=1
^
^
d= t -c x =2.1-0.4×4.5=0.3,
^
所以t=0.4x+0.3,
^
即y=e0.4x+0.3.
2020届高考数学一轮复习第十二章概率与统计12.4统计教师用书(PDF,含解析)
一般地ꎬ茎是指中间的一列数ꎬ叶就是从茎的旁边生长出来
的数.
( 2) 用样本的数字特征估计总体的数字特征
①众数:一组数据中出现次数最多的数.
②中位数:将数据从小到大( 或从大到小) 排列ꎬ若有奇数个
数ꎬ则最中间的数是中位数ꎻ若有偶数个数ꎬ则中间两数的平均
数是中位数.
(
3)
平均数:x
=
x
1
+
x
2
+������+ n
种常用方法.在线性回归模型 y = bx+a+e 中ꎬ因变量 y 的值由自
变量 x 和随机误差 e 共同确定ꎬ即自变量 x 只能解释部分 y 的变
化ꎬ在统计中ꎬ我们把自变量 x 称为解释变量ꎬ因变量 y 称为预报
变量.
4.回归方程
n
∑xiyi - n x y
y^ = b^ x+a^ ꎬ其中 b^ =
样本数据的离散程度.
考点二 变量的相关性
1.相关关系 当自变量取值一定时ꎬ因变量的取值带有一定随机性的两
个变量之间的关系叫做相关关系. 与函数关系不同ꎬ相关关系是 一种不确定关系.
������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§12.4 统计案例1.了解回归分析的思想、方法及其简单应用.2.了解独立性检验的思想、方法及其初步应用. 在高考中,本节主要考查考生的数据处理能力,及在此基础上利用数据进行逻辑推理及论证的能力.1.回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性回归模型用y =bx +a +e 表示,其中a 和b 为模型的未知参数,e 称为____________.满足E (e )=__________,D (e )=σ2,σ2越小,精度越________.(3)在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,回归方程的斜率和截距的最小二乘估计公式分别为:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=---=∑∑==.ˆˆ,)())((ˆ121x b y ax x y y x x b ni i ni i i 其中x =1n∑=ni i x 1,y =1n∑=ni iy1, 称为样本点的中心.(4)残差:i e ˆ= 称为相应于点(i x ,i y )的残差,残差平方和为(5)相关指数R 2= . R 2越大,说明残差平方和 ,即模型的拟合效果 ;R 2越小,残差平方和 ,即模型的拟合效果 .在线性回归模型中,R 2表示解释变量对于预报变量变化的 ,R 2越接近于1,表示回归的效果 .2. 独立性检验 (1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为___________.(2)像下表所示列出两个分类变量的频数表,称为___________.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2 },其样本频数列联表(称为2×2列联表)为y 1 y 2总计 x 1a ba+bx 2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K 2=___________, 其中n =a+b+c+d 为样本容量.如果K 2的观测值k ≥k 0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k 0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P (K 2≥k 0).上面这种利用随机变量K 2来判断“两个分类变量有关系”的方法称为___________.【自查自纠】1. (2) 随机误差 0 高 (3)(x ,y )(4)i i yy ˆ- ∑=-ni i iyy12)ˆ( (5)1-∑∑==--n i ini i iy yyy1212)()ˆ( 越小 越好 越大 越差贡献率 越好 2.(1)分类变量 (2)列联表n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) 独立性检验(2012·江西模拟)r 是相关系数,则下列叙述中正确的个数为( )①r ∈[-1,-0.75]时,两变量负相关很强; ②r ∈[0.75,1]时,两变量正相关很强;③r ∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般;④r =0.1时,两变量相关性很弱. A .1 B .2 C .3 D .4 解:|r |越大,两变量相关性越强.故选D.在回归分析中,代表了数据点和它在回归直线上相应位置差异的是( )A .总偏差平方和B .残差平方和C .回归平方和D .相关指数R 2解:残差平方和描述了数据点和它在回归直线上相应位置的差异,故选B.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072 2.706 3.8415.0246.6357.87910.828如果K2≥5.024,那么有把握认为“X与Y有关系”的百分数为()A.25% B.75% C.2.5% D.97.5%解:∵K2≥5.024,而在观测值表中对应于5.024的是0.025,∴有1-0.025=97.5%的把握认为“X 和Y有关系”.故选D.在回归分析中,相关指数R2的值越大,说明残差平方和________.解:R2越大,残差平方和越小,故填越小.下面是一个2×2列联表y1y2总计x1a21 73x212 25 37总计b46则表中a,b处的值分别为________.解:∵a+21=73,∴a=52.又∵a+12=b,∴b=64.故填52,64.类型一回归分析的相关概念(1)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解:相关指数越大,模型拟合效果越好.故选A.(2)下列四个命题:①残差平方和越小的模型,拟合的效果越好;②用相关指数R2来刻画回归效果,R2越小,说明模型拟合的效果越好;③散点图中所有点都在回归直线附近;④随机误差e满足E(e)=0,其方差D(e)的大小可用来衡量预报精确度.其中正确命题的个数是()A.1 B.2 C.3 D.4解:②中R2越大,拟合效果越好;③中回归直线同样可以远远偏离变异点;①④正确.注意④,e是随机变量,其方差衡量预报精度.故选B.【评析】回归模型的诊断主要是看残差图上、下是否大致均匀分布.另外相关指数R2也决定着模型拟合的优劣,R2越大,模型拟合效果越好.而随机误差e满足E(e)=0,D(e)=σ2,σ2越小,线性回归模型预报真实值的精度越高.(1)如图的5个数据,去掉D(3,10)后,下列说法错误..的是()A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强解:观察可知,去掉D(3,10)后,拟合效果更好.因此相关系数变大,残差平方和变小,相关指数变大,解释变量与预报变量的相关性变强.故选B.(2)给出下列结论:①回归分析中,可用相关指数R2判断模型的拟合效果,R2越大,模型的拟合效果越好;②回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;③回归分析中,可用相关系数r的值判断模型的拟合效果,r越大,模型的拟合效果越好;④回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.以上结论中,正确的个数为()A.1 B.2 C.3 D.4解:②的判断正好相反;③应改为|r|越大,模型拟合效果越好,①④正确.故选B.类型二回归分析(1)已知某商品的价格x(元)与需求量y (件)之间的关系有如下一组数据:x 14 16 18 20 22 y1210753(Ⅰ)画出y 关于x 的散点图;(Ⅱ)用最小二乘法求出回归直线方程;(Ⅲ)计算R 2的值,并说明回归模型拟合程度的好坏.解:(Ⅰ)散点图如图所示.(Ⅱ) 18=x ,4.7=y ,∑==5121660i i x ,∑==51620i i i y x ,所以15.155ˆ512251-=--=∑∑==i i i x x yx y xbi i,1.28ˆˆ=-=x b y a ,yˆ=-1.15x +28.1.(Ⅲ)列出残差表:y i -i y ˆ 0 0.3 -0.4 -0.1 0.2 y i -y 4.6 2.6 -0.4 -2.4 -4.4所以3.0)ˆ(512=-∑=i i i yy ,.2.53)(512=-∑=i i y y .994.0)()ˆ(15125122≈---=∑∑==i i i i i y y y y R所以,回归模型拟合效果很好. 【评析】用相关指数R 2来刻画回归效果,R 2越大,说明模型拟合的效果越好.另外,计算也不能出错.※(2)下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归方程.使用 年数 x 12345678910年均 价格 y (美元)2651194314941087765538484290226204解:作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此y 与x 之间应是非线性相关关系.与已学函数图象比较,用a x b y ˆˆe ˆ+=来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx +a ˆ,题中数据如下表所示: x1 2 3 4 5 6 7 8 9 10 z7.8837.5727.3096.9916.6406.2886.1825.6705.4215.318相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据得bˆ≈-0.298, aˆ=6.527-(-0.298)×5.5≈8.166, 故回归直线方程为zˆ=-0.298x +8.166. 则yˆ=e z ˆ=e -0.298x +8.166.【评析】①对于非线性(可线性化)回归分析,可通过散点图直观找到函数类型,再通过变换z =f (y )变为线性回归问题;②常用的函数类型有f (x )=ke bx +a ,f (x )=k ln x , f (x )=kx 2,f (x )=kx 3, f (x )=kx等.(1)已知x ,y 之间的一组数据如下表: x 1 3 6 7 8 y12345(Ⅰ)从x ,y 中各取一个数,求x +y ≥10的概率;(Ⅱ)对于表中数据,甲、乙两位同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小二乘法”判断哪条直线拟合效果更好.解:(Ⅰ)各取一个数组成数对(x ,y ),共有C 15C 15=25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率为P =925,x +y ≥10的概率为925.(Ⅱ)用y =13x +1作为拟合直线时,所得y 值与y的实际值的差的平方和为S 1=⎝⎛⎭⎫43-12+(2-2)2+(3-3)2+⎝⎛⎭⎫103-42+⎝⎛⎭⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝⎛⎭⎫72-32+(4-4)2+⎝⎛⎭⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合效果更好.※(2)下表是采集的商品零售额(万元)与商品流通费率(为了方便计算,数据已作相应处理)的一组数据:商品 零售额 9.5 11.5 13.5 15.5 17.5 19.5 21.5 23.5 25.527.5 商品流通费率6.04.64.03.22.82.52.42.32.22.1(Ⅰ)将商品零售额作为横坐标,商品流通费率作为纵坐标,在平面直角坐标系内作出散点图;(Ⅱ)商品零售额与商品流通费率具有线性相关关系吗?如果商品零售额是20万元,那么能否预测此时流通费率是多少呢?解:(Ⅰ)散点图如图所示.(Ⅱ)散点图显示出商品流通费率和商品零售额的变化关系并不是直线型,而是一条递减的双曲线型(反比例函数型).两者之间不具有线性相关关系.但经济理论和实际经验都可说明,流通费率决定于商品零售额,体现着经营的规模效益,因此可以拟合一个以商品零售额为自变量(x ),流通费率为因变量(y )的双曲线回归模型:y ˆ=a +b ×1x ,为了求模型中的a 和b 两个参数,令1x=x ′,于是上述模型转换为线性模型:y ˆ=a +bx ′,这样我们就可以运用线性回归的知识加以解决了.将转化后的有关数据列表如下:商品零售额x (万元) 商品流通费率y1x=x ′ 9.5 6.0 0.105 11.5 4.6 0.087 13.5 4.0 0.074 15.5 3.20.065 17.5 2.8 0.057 19.5 2.5 0.051 21.5 2.4 0.047 23.5 2.3 0.043 25.5 2.2 0.039 27.5 2.1 0.036 合计32.10.604代入公式得aˆ=-0.1912,b ˆ=56.311,从而线性回归方程为yˆ=-0.1912+56.311x ′.将1x =x ′回代得y ˆ=-0.1912+56.311x.因此,当商品零售额是20万元时,流通费率约为2.6.类型三 独立性检验的相关概念(1)独立性检验中的统计假设就是假设相关事件A ,B ( )A .互斥B .不互斥C .相互独立D .不独立解:独立性检验中的假设是H 0:A ,B 独立,当我们拒绝H 0时,A ,B 就相关了.故选C .(2)下列说法中正确的是( )①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设H 0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H 0的推断;③独立性检验一定能给出明确的结论.A .①②B .①③C .②③D .①②③ 解:假设检验的基本思想是:“在一次试验中,小概率事件不可能发生”,若小概率事件发生了,则有理由认为原假设不成立,故①②正确,当小概率事件没有发生,则不能拒绝原假设但也不能够肯定原假设,此时结论不明确,③不正确.故选A .【评析】如果K 2的观测值k 很大,则断言H 0不成立,即认为“两个分类变量有关系”;如果观测值k 很小,则说明在样本数据中没有发现足够证据拒绝H 0.(1)想要检验是否喜欢参加体育活动是不是与性别有关,应检验( )A.H0:男生喜欢参加体育活动B.H0:女生不喜欢参加体育活动C.H0:喜欢参加体育活动与性别有关D.H0:喜欢参加体育活动与性别无关解:独立性检验中的假设是喜欢参加体育活动与性别无关,当我们拒绝喜欢参加体育活动与性别无关时,喜欢参加体育活动与性别就相关了.故选D.(2)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法均不正确解:独立性检验的结论仅仅是一种数学关系,得出的结论也可能犯错误.有95%的把握认为吸烟与患肺病有关系,也可以说这个结论出错的概率为0.05以下,这是数学中的统计思维与确定性思维差异的反映.故选C.类型四独立性检验某班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有9人认为作业多,3人认为作业不多;在不喜欢玩电脑游戏的10人中,有4人认为作业多,6人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试问喜欢玩电脑游戏与认为作业多少是否有关系?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),参考数据:P(K2≥2.072)=0.15,P(K2≥2.706)=0.10,P(K2≥3.841)=0.05,P(K2≥5.024)=0.025.解:(1)根据题中所给数据,得到如下列联表:认为作业多认为作业不多总计喜欢玩电脑游戏9 3 12 不喜欢玩电脑游戏 4 6 10 总计13 9 22(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=22×(6×9-3×4)212×10×13×9≈2.7641>2.706.∴P=1-P(K2>2.706)=90%.∴有90%的把握认为喜欢玩电脑游戏与认为作业多少有关.【评析】在利用2×2列联表计算K2的值之前,应先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.甲乙两个学校高三年级分别为1100人,1000人,为了统计两个学校在地区第二次模拟考试中数学科目的成绩,采用分层抽样抽取了105名学生的成绩,并作出了部分频率分布表如下(规定考试成绩在[120,150]内为优秀):甲校:分组[70,80)[80,90)[90,100)[100,110)[110,120)[120,130)[130,140)[140,150) 频数2 3 10 15 15 x 3 1乙校:分组[70,80)[80,90)[90,100)[100,110)[110,120)[120,130)[130,140)[140,150] 频数1 2 9 8 10 10 y 3(1)计算x,y的值,并分别估计两校数学成绩的优秀率;(2)由以上统计数据填写下面的2×2列联表,并判断是否有97.5%的把握认为这两个学校的数学成绩有差异.甲校乙校总计优秀非优秀总计K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).附:P(K2≥k0) 0.10 0.025 0.010k0 2.706 5.024 6.635 解:(1)依题意知,甲校抽取55人,乙校抽取50人,故x=6,y=7.估计甲校的优秀率为1055≈18.2%;乙校的优秀率为2050=40%.(2)填表如下:甲校 乙校 总计 优秀 10 2030 非优秀453075总计 55 50 105K 2=105×(10×30-20×45)230×75×55×50≈6.109.∵6.109>5.024,∴有97.5%的把握认为这两个学校的数学成绩有差异.1.线性回归分析的方法、步骤 (1)画出两个变量的散点图;(2)求相关系数r ,并确定两个变量的相关程度的高低;(3)用最小二乘法求回归直线方程yˆ=b ˆx +a ˆ, ⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∑∑∑∑====.ˆˆ,)())((ˆ1221121x b y axn x yx n yx x x y y x x b ni i ni ii ni i ni i i(4)利用回归直线方程进行预报.注:①对于非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原.②利用相关指数R 2=1-∑∑==--n i ini i iy yyy1212)()ˆ(刻画回归效果时,R 2越大,意味着残差平方和∑=-ni i iyy12)ˆ(越小,模型的拟合效果越好.2.独立性检验的一般步骤(1)假设两个分类变量x 与y 没有关系; (2)计算出K 2的观测值,其中K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );(3)把K 2的值与临界值比较,作出合理的判断. 3.独立性检验的注意事项(1)在列联表中注意事件的对应及相关值的确定,不可混淆.(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.(3)对判断结果进行描述时,注意对象的选取要准确无误,应是对假设结论进行的含概率的判断,而非其他,要避免张冠李戴.。