2017版高考数学一轮总复习第九章算法初步、统计与统计案例第四节变量间的相关关系与统计案例练习文
2017届高三数学一轮总复习 第九章 算法、统计、统计案例 9.3 变量间的相关关系与统计案例课件
之间具有线性相关关系,这条直线叫做回归直线。
2.回归方程
(1)最小二乘法
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)回归方程
方程 ^y = b^ x+ a^ 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2, y2),…,(xn,yn)的回归方程,其中a^ ,b^ 是待定参数。
(2)判断变量x与y之间是正相关还是负相关;
解析:(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关。
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄。 附:线性回归方程y=bx+a中, b=∑i=n1nxiyi-n-x -y ,a= y -b x ,其中 x , y 为样本平均值。线性回归方程也可写
解析:因为当^y=7.675时,x=7.6750-.661.562≈9.262,则97..266725≈0.829≈83%。 答案:83%
5.已知x,y之间的数据如表所示,则回归直线过点__________。
x1 2 3 4 5 y 1.2 1.8 2.5 3.2 3.8
解析: x =3, y =2.5, ∴样本点中心为(3,2.5),回归直线过样本点的中心。 答案:(3,2.5)
∑i=1xi2-n x 2 为^y=b^x+a^。
解析:(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千 元)。
►名师点拨 最小二乘法估计的三个步骤 (1)作出散点图,判断是否线性相关。 (2)如果是,利用公式求a^,b^,写出回归方程。 (3)根据方程进行估计。 提醒:回归直线方程恒过点( x , y )。
高考数学一轮复习 第9章 算法初步、统计与统计案例 第4节 变量间的相关关系与统计案例教学案 理(含
第四节 变量间的相关关系与统计案例[考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b =∑n i =1x i-x y i-y ∑ni =1x i-x 2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x2a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d a+b+c+d 构造一个统计量χ2=n ad-bc2a+b c+d a+c b+d.利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.[常用结论]1.回归直线必过样本点的中心(x,y).2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )[答案](1)√(2)√(3)×(4)√2.为了调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.要检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否相关,应用独立性检验判断.]3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),若自变量的值为10,则因变量的值约为( )A .16.3B .17.3C .12.38D .2.03C [设回归直线方程为y =bx +a ,根据已知得5=1.23×4+a ,所以a =0.08,所以当x =10时,y =1.23×10+0.08=12.38.]4.下面是一个2×2列联表y 1 y 2总计 x 1 a21 73 x 2225 27 总计b46则表中a ,b 处的值分别为________.52,54 [因为a +21=73,所以a =52.又因为a +2=b ,所以b =54.]5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (χ2≥3.841)≈0.05,P (χ2≥5.024)≈0.025. 根据表中数据,得到χ2的观测值k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.5% [χ2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]相关关系的判断1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C[由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.] 2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A[由相关系数的定义以及散点图可知r2<r4<0<r3<r1.][规律方法] 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b>0时,正相关;b<0时,负相关.回归分析【例1】(2018·某某一模)某地1~10岁男童年龄x i(岁)与身高的中位数y i(cm)(i=1,2,…,10)如下表:x/岁12345678910 y/cm76.588.596.8104.1111.3117.7124.0130.0135.4140.2 对上表的数据作初步处理,得到下面的散点图及一些统计量的值.x y∑10i=1 (x i-x)2∑10i=1(y i-y)2∑10i=1(x i-x)(y i-y)5.5112.4582.50 3 947.71566.85(1)求y关于x的线性回归方程(回归方程系数精确到0.01);(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程类型,他求得的回归方程是y=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为b=∑ni=1x i-x y i-y∑n i=1x i-x2,a=y-b x.[解] (1)b=∑10i=1x i-x y i-y∑10 i=1x i-x2=566.8582.50≈6.87,a=y-b x≈112.45-6.87×5.5≈74.67,所以y关于x的线性回归方程为y=6.87x+74.67.(2)若回归方程为y=6.87x+74.67,当x=11时,y=150.24.若回归方程为y=-0.30x2+10.17x+68.07,当x =11时,y =143.64.因为|143.64-145.3|=1.66<|150.24-145.3|=4.94,所以回归方程y =-0.30x 2+10.17x +68.07对该地11岁男童身高中位数的拟合效果更好.[规律方法] 1.求回归直线方程的步骤2.(1)若已知回归直线方程(方程中无参数)进行预测时,把变量x 代入回归直线方程即可对变量y 进行估计.(2)若回归直线方程中有参数,则根据回归直线一定经过点(x ,y )求出参数值,得到回归直线方程,进而完成预测.(1)(2017·某某高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y =bx +a .已知∑10i =1x i =225,∑10i =1y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170(2)(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.①由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;②建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,=0.55,7≈2.646.参考公式:相关系数r =,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为b =,a =y --b t .(1)C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b =4,∴a =y -b x =160-4×22.5=70. ∴回归直线方程为y =4x +70.将x =24代入上式得y =4×24+70=166. 故选C.](2)[解] ①由折线图中的数据和附注中的参考数据得t =4,∑7i =1(t i -t )2=28,=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.②由y =9.327≈1.331及①得b==2.8928≈0.103.a=y-b t≈1.331-0.103×4≈0.92.所以y关于t的回归方程为y=0.92+0.10t.将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.独立性检验【例2】(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m 第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:χ2=n ad-bc2a+b c+d a+c b+d,P(χ2≥k)0.0500.0100.001 k 3.841 6.63510.828[解] (1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可) (2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式 515(3)由于χ2=4015×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式χ2=n ad -bc 2a +ba +cb +dc +d计算χ2的观测值k ;(3)比较观测值k与临界值的大小关系,作统计推断.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:使用智能手机不使用智能手机合计学习成绩优秀4812 学习成绩不优秀16218 估计201030 附表:P(χ2≥k0)0.150.100.050.0250.0100.0050.001 k0 2.072 2.706 3.841 5.024 6.6357.87910.828 经计算χ2的值为10,则下列选项正确的是( )A.有99.5%的把握认为使用智能手机对学习有影响B.有99.5%的把握认为使用智能手机对学习无影响C.有99.9%的把握认为使用智能手机对学习有影响D.有99.9%的把握认为使用智能手机对学习无影响A[依题意,注意到7.879<10<10.828,因此有99.5%的把握认为使用智能手机对学习有影响,故选A.]1.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w ∑8i=1(x i-x)2∑8i=1(w i-w)2∑8i=1(x i-x)(y i-∑8i=1(w i-w)·(y i-y )y )46.65636.8289.8 1.6 1 469108.8表中w i =x i ,w ]=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=,α=v -βu .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d =∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w , 因此y 关于x 的回归方程为y =100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.2.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:P (χ2≥k )0.050 0.010 0.001 k3.8416.63510.828χ2=n ad -bc 2a +bc +d a +cb +d.[解] (1)记B 表示事件“旧养殖法的箱产量低于50 kg”,C 表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466χ2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
2017届高三数学一轮总复习 第九章 算法、统计、统计案例 9.4 算法初步开卷速查
开卷速查(六十) 算法初步A 级 基础巩固练1.[2014·天津]阅读如图所示的程序框图,运行相应的程序,输出S 的值为( )A .15B .105C .245D .945解析:逐次计算的结果是T =3,S =3,i =2;T =5,S =15,i =3;T =7,S =105,i =4,此时输出的结果为S =105。
选B 。
答案:B2.[2016·晋江模拟]执行如图所示的框图,若输出的结果为12,则输入的实数x 的值是( )A .22B . 2C .14D .32解析:程序框图是求函数y =⎩⎪⎨⎪⎧log 2x ,x >1,x -1,x≤1的函数值,当y =12时,x =2。
答案:B3.如图是一个算法的程序框图,若输出的结果是31,则判断框中整数M 的值是( )A .3B .4C .5D .6解析:本程序计算的是S =1+2+22+…2A,即S =1-2A +11-2=2A +1-1,由2A +1-1=31得2A +1=32,解得A =4,则A +1=5时,条件不成立,所以M =4。
答案:B4.如果执行如图所示的程序框图,输出的S =110,那么判断框内应填入的条件是( )A .k <10?B .k≥11?C .k≤10?D .k >11?解析:由程序可知该程序是计算S =2+4+…+2k =+2=k(k +1),由S =k(k +1)=110得k =10,则当k =10时,k =k +1=10+1=11不满足条件,所以条件为k≤10?答案:C5.[2014·课标Ⅱ]执行如图的程序框图,如果输入的x,t均为2,那么输出的S=( )A .4B .5C .6D .7解析:由程序框图可知, 第一步,M =2,S =5,k =2;第二步,M =2,S =7,k =3.故输出结果为7。
答案:D6.对任意非零实数a ,b ,若a·b 的运算原理如图所示,则(log 122)·4- 12的值为( )A .-14B .34C .58D .52解析:由框图可知a·b=⎩⎪⎨⎪⎧a +b 2<,a 2+b22,故(log 12 2)·4- 12 =(-1)·12=-2+142=58。
2017届高考数学一轮复习课件:第9章 统计、统计案例及算法初步9-3
第二十一页,编辑于星期六:一点 二十二分。
【跟踪训练】
1.[2015·泰安模拟]变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量
U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1 表示变量 Y 与 X 之间的线性相关
根据统计资料,居民家庭年平均收入的中位数是___1_3_______,
家庭年平均收入与年平均支出有___正_____线性相关关系.
第十五页,编辑于星期六:一点 二十二分。
解析 (1)所有样本点均在直线上,则样本相关系数最大即为 1. (2)5 个 x 值是按从小到大的顺序排列的,因此居民家庭年平均收入的中位数是 13. 以家庭年平均收入 x 作为 x 轴,年平均支出 y 作为 y 轴,描点得到散点图如图所示:
a+c
b+d
a+b+c+d
2.独立性检验
利用随机变量 K2(也可表示为χ2)=a+bcn+add-ab+cc2b+d(其中 n=a+b+c+d 为样本容量)来判断
“两个变点 二十二分。
3.独立性检验的一般步骤
(1)根据样本数据列出 2×2 列联表;
观察散点图可知,这些点大致分布在一条直线的附近,且总体呈上升趋势,因此家庭年平均收入与年 平均支出有正线性相关关系.
第十六页,编辑于星期六:一点 二十二分。
典例2 据如下表:
命题角度 2 线性回归方程及应用 [2014·课标全国卷Ⅱ]某地区 2007 年至 2013 年农村居民家庭人均纯收入 y(单位:千元)的数
b^=i=1
全国版2017版高考数学一轮复习第九章算法初步统计统计案例91算法与程序框图基本算法语句课件理
4.执行如图所示的程序框图,若输出的结果是8,则输入的数是________.
x822;
【解析】由a≥b得x2≥x3,解得x≤1,所以当x≤1时,
输出a=x2;当x>1时,输出b=x3.
当x≤1时,由a=x2=8,解得
当x>1时,b=x3=8,解得x=2.
所以输入的数为2或
答案:2或
2
2.
3 和 2, 23
程序框图,运行相应的程序后,输出i的
值为 ( )
A.3
B.4
C.5
D.6
【解析】选B.运行程序a=1,i=0,i=1,a=1×1+1=2, 因为2>50不满足,所以执行循环体,i=2,a=5, 因为5>50不满足,所以执行循环体,i=3,a=16, 因为16>50不满足,所以执行循环体,i=4,a=65, 因为65>50满足,输出i=4.
_____
WEND
__D_O 循环体
____________条件
LOOP UNTIL
【特别提醒】 1.当型循环与直到型循环的区别 直到型循环是“先循环,后判断,条件满足时终止循环”;而当型循环则是“先判断,后循环,条件满足时执行循 环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反.
A.24
B.25
C.30
D.40
【解析】选D.a=32-1=8,b=8-3=5,y=8×5=40.
3.(2016·成都模拟)如图所示的程序框图的输入值x∈[-1,3],则输出值y的取值范围为 ( ) A.[1,2] B.[0,2] C.[0,1] D.[-1,2]
【解析】选B.当0≤x≤3时,1≤x+1≤4, 所以,0≤log2(x+1)≤2, 当-1≤x<0时,0<-x≤1⇒1<2-x≤2, 所以,0<2-x-1≤1,所以,y的取值范围为[0,2].
全国版2017版高考数学一轮复习第九章算法初步统计统计案例9.4变量间的相关关系与统计案例课件理
感悟考题 试一试
3.(2016·太原模拟)某商品销售量y(件)与销售价格
x(元/件)负相关,则其回归直线方程可能是 ( )
A. =-10x+200
1517
C. 2 =-10x-200
1517 2
B. =10x+200
D. 15
2
17
=10x-200
1517 2
【解析】选A.因为商品销售量y(件)与销售价格 x(元/件)负相关, 所以 <0,排除B,D.
根据统计资料,则 ( ) A.月收入的中位数是15,x与y有正线性相关关系 B.月收入的中位数是17,x与y有负线性相关关系 C.月收入的中位数是16,x与y有正线性相关关系 D.月收入的中位数是16,x与y有负线性相关关系
【解析】选C.月收入的中位数是 =16,收入增加, 支出增加,故x与y有正线性相关关系.
C样本点不呈直线形带状分布. 所以两个变量具有正相关关系的图是D. (2)选D.正相关指的是y随x的增大而增大,负相关指的 是y随x的增大而减小,故不正确的为①④.
【规律方法】 1.散点图法判断相关关系 根据点的分布情况及正相关、负相关的概念判断.
2.线性相关关系与函数关系的区别 (1)函数关系中的两个变量间是一种确定性关系.例如, 正方体体积V与棱长x之间的关系V=x3就是函数关系. (2)相关关系是一种非确定性关系,即相关关系是非随 机变量与随机变量之间的关系.例如,商品的销售额与 广告费是相关关系.两个变量具有相关关系是回归分析 的前提.
【变式训练】(2016·长沙模拟)某公司在2015年上半 年的收入x(单位:万元)与月支出y(单位:万元)的统计 资料如表所示:
月份 1月份 2月份 3月份 4月份 5月份 6月份 收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出y 5.63 5.75 5.82 5.89 6.11 6.18
高考新坐标(教师用书)届高考数学总复习第九章算法初步、统计与统计案例【含答案】
第九章算法初步、统计与统计案例第一节算法与程序框图[考纲传真]1.了解算法的含义,了解算法的思想. 2.理解程序框图的三种基本逻辑结构:顺序、条件、循环. 3.理解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句的含义.1.算法(1)算法通常是指按照一定规则解决某一类问题的明确和有限的步骤.(2)应用:算法通常可以编成计算机程序,让计算机执行并解决问题.2.程序框图定义:程序框图又称流程图,是一种用程序框、流程线及文字说明来表示算法的图形.3.三种基本逻辑结构及相应语句1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)程序框图中的图形符号可以由个人来确定.( )(2)一个程序框图一定包含顺序结构,但不一定包含条件结构和循环结构.( ) (3)5=x 是赋值语句.( )(4)输入语句可以同时给多个变量赋值.( )[解析] 图形符号不能个人确定,(1)不正确;赋值语句只能给变量赋值,(3)不正确. [答案] (1)× (2)√ (3)× (4)√2.(教材改编)根据给出的程序框图,计算f(-1)+f(2)=( )图911A .0B .1C .2D .4[解析] 输入-1,满足x≤0,所以f(-1)=4×(-1)=-4;输入2,不满足x≤0,所以f(2)=22=4,即f(-1)+f(2)=0.[答案]A3.运行如图所示的程序,可得A的输出值为( )A=20A=A*2-30PRINT AENDA.30 B.20 C.10 D.-10[解析]A=20×2-30=10.[答案]C4.(2014·天津高考)阅读下边的框图,运行相应的程序,输出S的值为________.图912[解析]S=0,n=3,S=0+(-2)3=-8,n=3-1=2≤1不成立;故S=-8+(-2)2=-4,n=2-1=1≤1成立.故输出S的值为-4.[答案]-45.(2014·福建高考改编)阅读如图913所示的程序框图,运行相应的程序,输出的n的值为________.图913[解析]当n=1时,21>12;当n=2时,22>22不成立,结束循环.因此输出n=2.[答案] 2考向1程序框图的基本结构与应用【典例1】(1)执行下面的程序框图,如果输入的t∈[-1,3],则输出的s属于( ) A.[-3,4] B.[-5,2]C.[-4,3] D.[-2,5]图914图915(2)(2014·浙江高考)若某程序框图如图915所示,当输入50时,则该程序运行后输出的结果是________.[解析] (1)由程序框图知s =⎩⎪⎨⎪⎧3t ,(t<1),4t -t 2,(t≥1),①当-1≤t<1时,-3≤s<3;②当1≤t≤3时,s =-(t -2)2+4.∴3≤s≤4. 由①②知,s 的取值范围属于[-3,4]. (2)第一次循环,S =1,i =2; 第二次循环,S =4,i =3;第三次循环,S =2×4+3=11,i =4; 第四次循环,S =2×11+4=26,i =5;第五次循环,S =2×26+5=57,i =6,此时S>50,退出循环. 所以输出的结果i =6. [答案] (1)A (2)6 【规律方法】1.对条件结构,无论判断框中的条件是否成立,都只能执行两个分支中的一个,不能同时执行两个分支.2.利用循环结构表示算法,第一要确定是利用当型还是直到型循环结构;第二准确表示累计变量;第三要注意从哪一步开始循环.弄清进入或终止的循环条件、循环次数是做题的关键.【变式训练1】 (1)如图916所示的程序框图,运行相应的程序.若输入x 的值为1,则输出S 的值为________.图916(2)(2014·陕西高考)根据下边框图,对大于2的整数N,输出的数列的通项公式是( )图917A.a n=2n B.a n=2(n-1) C.a n=2n D.a n=2n-1[解析](1)第1次运行:x=1,S=0+13=1<50;第2次运行:x=2,S=1+23=9<50;第3次运行:x=4,S=9+43=73>50,满足S≥50,跳出循环.输出S=73.(2)由程序框图可知第一次运行:i=1,a1=2,S=2;第二次运行:i=2,a2=4,S=4;第三次运行:i=3.a3=8,S=8;第四次运行:i=4,a4=16,S=16.故选C.[答案](1)73 (2)C考向2程序框图的识别与完善(高频考点)命题视角程序框图的识别与完善是高考命题的热点,主要以客观题的形式呈现.主要命题角度:(1)根据程序框图确定输出结果;(2)补充程序框图中判断框或执行框;(3)依据程序框图及运行结果求输入变量的初始值等.【典例2】 (1)如图918所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图,则图中空白框内应填入________.图918 图919(2)(2014·重庆高考)执行如图919所示的程序框图,若输出k 的值为6,则判断框内可填入的条件是( )A .s>12B .s>35C .s>710D .s>45[思路点拨] (1)根据程序框图的功能,应确定及格率q 与及格人数M 之间的关系;(2)依次执行程序框图,根据输出结果确定判断框内的控制条件.[解析] (1)由判断框输出可知,M 表示及格人数,N 表示不及格人数, ∴及格率q =M M +N ,因此执行框为“q=M M +N”.(2)第一次循环:s =1×910=910,k =8,s =910应满足条件;第二次循环:s =910×89=810,k =7,s =810应满足条件,排除选项D ;第三次循环:s =810×78=710,k =6,故这时程序不再满足条件,结束循环,因此判断框中的条件为s>710.[答案] (1)q =MM +N(2)C 【通关锦囊】1.(1)第1题的关键在于理解程序框图的功能;(2)第2题要明确何时进入或退出循环体,以及累乘变量的变化.2.解答此类题目:(1)要明确程序框图的顺序结构,条件结构和循环结构;(2)理解程序框图的功能;(3)要按框图中的条件运行程序,按照题目的要求完成解答.【变式训练2】 (2015·潍坊质检)执行如图9110所示的程序框图,若输出的S 是2 047,则判断框内应填写()图9110A .n ≤9?B .n ≤10?C .n ≥10?D .n ≥11?[解析] 由程序框图的功能知,题目的实质是数列{2n}(n∈N )求和. ∵{2n }的首项为20=1,公比为2.∴当n =9时,S =1+2+22+…+29=1-2101-2=1 023.当n =10时,S =1+2+22+…+210=1-2111-2=2 047.此时输出S =2 047,跳出循环,所以判断框的条件为n ≤9. [答案] A考向3 基本算法语句【典例3】 根据下列算法语句,当输入x 为60时,输出y 的值为( )A .25B .30C .31D .61[解析] 由题意,得y =⎩⎪⎨⎪⎧0.5x ,x ≤50,25+0.6(x -50),x>50.当x =60时,y =25+0.6×(60-50)=31. ∴输出y 的值为31. [答案] C ,【规律方法】1.本题主要考查条件语句,输入与输出语句,要注意赋值语句一般格式中的“=”不同于等式中的“=”,其实质是计算“=”右边表达式的值,并将该值赋给“=”左边的变量.2.解决此类问题关键要理解各语句的含义,以及基本算法语句与算法结构的对应关系. 【变式训练3】 运行下面的程序时,WHILE 循环语句的执行次数是( )A .3B .4C .18D .19[解析] 0<20,1<20,2×2<20,5×5>20,程序结束, 故WHILE 循环语句共执行了3次. [答案] A掌握1条规律 每个算法结构都含有顺序结构,循环结构中必定包含一个条件结构,用于确定何时终止循环体.循环结构和条件结构都含有顺序结构.注意1个区别 当型循环与直到型循环的区别:直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环是“先判断,后循环,条件满足时执行循环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反.勿忘2点注意 1.赋值号左边只能是变量(不是表达式),在一个赋值语句中只能给一个变量赋值. 2.利用循环结构表示算法,要明确是利用当型循环结构,还是直到型循环结构.要注意:(1)选择好累计变量;(2)弄清在哪一步开始循环,满足什么条件不再执行循环体.易错辨析之10程序框图中“变量”的含义理解不清致误(2014·课标全国卷Ⅰ)执行下面的程序框图,若输入的a ,b ,k 分别为1,2,3,则输出的M =( )图9111A .203 B .72 C .165 D .158[错解] n =1,M =1+12=32,a =2,b =32;n =2,M =2+23=83,a =32,b =83;n =3,M =32+38=158,a =83,b =158;n =4,M =83+815=4815=165,a =158,b =165,此时不满足条件,跳出循环,输出M =165.[答案] C 【智慧心语】错因分析:(1)循环变量n 与累加变量M 计算不对立,或混淆当型循环,误认为直到型循环结构,导致错解.(2)对循环体中各执行框的含义不清,错误赋值,错选A 或B .防范措施:(1)要分清是当型循环结构还是直到型循环结构;要理解循环结构中各变量的具体含义以及变化规律.具体求解时,把每次循环中各个变量的值对应起来,并要清楚的写下来,再根据条件判断是否结束循环.(2)在处理含有循环结构的算法问题时,关键是确定循环的次数,循环中有哪些变量,且每一次循环之后的变量S 、k 值都要被新的S 、k 值所替换.[正解] 第一次执行循环后:M =1+12=32,a =2,b =32,n =2;第二次执行循环后:M =2+23=83,a =32,b =83,n =3.第三次执行循环后:M =32+38=158,a =83,b =158,n =4.这时n =4,跳出循环.输出M 的值158.[答案] D【类题通关】 (2014·北京高考)当m =7,n =3时,执行如图9112所示的程序框图,输出的S 值为( )图9112A.7 B.42 C.210 D.840[解析]程序框图的执行过程如下:m=7,n=3时,m-n+1=5,k=m=7,S=1,S=1×7=7;k=k-1=6>5,S=6×7=42;k=k-1=5=5,S=5×42=210;k=k-1=4<5,输出S=210.故选C.[答案]C课后限时自测[A级基础达标练]一、选择题1.(2014·课标全国卷Ⅱ)执行如图9113所示的程序框图,如果输入的x,t均为2,则输出的S=( )图9113A .4B .5C .6D .7[解析] x =2,t =2,M =1,S =3,k =1. k ≤t ,M =11×2=2,S =2+3=5,k =2;k ≤t ,M =22×2=2,S =2+5=7,k =3;3>2,不满足条件,输出S =7. [答案] D2.(2014·湖南高考)执行如图9114所示的程序框图,如果输入的t∈[-2,2],则输出的S 属于( )图9114A .[-6,-2]B .[-5,-1]C .[-4,5]D .[-3,6][解析] 由程序框图知,当0≤t≤2时,输出S =t -3,此时S∈[-3,-1];当-2≤t<0时,执行t =2t 2+1后1<t≤9,执行1<t≤9时,输出S =t -3,此时S∈(-2,6].因此输出S 的值属于[-3,6].[答案] D3.某程序框图如图9115所示,若输出的结果S=57,则判断框内应填入的条件是( )图9115A.k>4? B.k>5? C.k>6? D.k>7?[解析]由程序框图可知,k=1时,S=1;k=2时,S=2×1+2=4;k=3时,S=2×4+3=11;k=4时,S=2×11+4=26;k=5时,S=2×26+5=57.[答案]A4.阅读如图9116所示的程序框图,运行相应的程序,则输出S的值为( )图9116A.8 B.18 C.26 D.80[解析]执行一次循环S=2,n=2;执行第二次循环:S=2+32-31=8,n=3;执行第3次循环:S=8+33-32=26,n=4;满足n≥4,故输出S=26.[答案]C5.(2014·安徽高考)如图9117所示,程序框图(算法流程图)的输出结果是( )图9117A.34 B.55 C.78 D.89[解析]当输入x=1,y=1,执行z=x+y及z≤50,x=y,y=z后,x,y,z的值依次对应如下:x=1,y=1,z=2;x=1,y=2,z=3;x=2,y=3,z=5;x=3,y=5,z=8;x=5,y=8,z=13;x=8,y=13,z=21;x=13,y=21,z=34;x=21,y=34,z=55.由于55≤50不成立,故输出55.故选B.[答案]B二、填空题6.运行下列的程序,当输入a,b分别为2,3时,最后输出的m的值为________.[解析]∵a=2,b=3,满足a<b,∴应把b值赋给m,∴m的值为3.[答案] 37.(2014·山东高考)执行如图9118所示的程序框图,若输入的x的值为1,则输出的n的值为________.图9118[解析]按照程序框图逐一执行.由x2-4x+3≤0,解得1≤x≤3.当x=1时,满足1≤x≤3,所以x=1+1=2,n=0+1=1;当x=2时,满足1≤x≤3,所以x=2+1=3,n=1+1=2;当x=3时,满足1≤x≤3, 所以x=3+1=4,n=2+1=3;当x=4时,不满足1≤x≤3,所以输出n=3.[答案] 38.(2015·临沂模拟)图9119(1)是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到第14次的考试成绩依次记为A1,A2,…,A14.图(2)是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图.那么算法流程图输出的结果是________.(1) (2)图9119[解析]从算法流程图可知,该图表示统计成绩大于或等于90分的考试次数.由茎叶图可知输出的结果为10.[答案]10三、解答题9.某篮球队6名主力队员在最近三场比赛中投进的三分球个数如表格所示:图9120统计该6名队员在最近三场比赛中投进的三分球总数的程序框图如图9120所示.(1)试在判断框内填上条件;(2)求输出的s的值.[解](1)依题意,程序框图是统计6名队员投进的三分球的总数.∴判断框内应填条件“i≤6?”.(2)6名队员投进的三分球数分别为a1,a2,a3,a4,a5,a6.故输出的s=a1+a2+…+a6.10.三月植树节,林业管理部门在植树前,为了保证树苗的质量,都会对树苗进行检测.现从甲,乙两种树苗中各抽测了10株树苗,量出它们的高度如下:(单位:厘米) 甲:37,21,31,20,29,19,32,23,25,33;乙:10,30,47,27,46,14,26,10,44,46.(1)画出两组数据的茎叶图,并根据茎叶图对甲,乙两种树苗的高度作比较,写出两个统计结论.(2)设抽测的10株甲种树苗高度平均值为x -,将这10株树苗的高度依次输入,按程序框图(如图9121)进行运算,问输出的S 大小为多少?并说明S 的统计学意义.图9121[解] (1)茎叶图如下:统计结论:①甲种树苗的平均高度小于乙种树苗的平均高度; ②甲种树苗比乙种树苗长得整齐;③甲种树苗的中位数为27,乙种树苗的中位数为28.5;④甲种树苗的高度基本上是对称的,而且大多数集中在均值附近.(任写两条即可) (2)x -=27,S =35;S 表示10株甲种树苗高度的方差,是描述树苗高度离散程度的量.S 值越小,表示长得越整齐,S 值越大,表示长得越参差不齐.[B 级 能力提升练]1.(2015·济南质检)已知函数f(x)=ax 3+12x 2在x =-1处取得极大值,记g(x)=1f ′(x ).程序框图如图9122所示,若输出的结果S>2 0142 015,则判断框中可以填入的关于n 的判断条件是( )图9122A .n ≤ 2 014?B .n ≤2 015?C .n>2 014?D .n>2 015?[解析] 由题意得f′(x)=3ax 2+x ,由f′(-1)=0得a =13,∴f ′(x)=x 2+x ,即g(x)=1x 2+x =1x (x +1)=1x -1x +1. 由程序框图可知S =0+g(1)+g(2)+…+g(n)=1-1n +1, 由1-1n +1>2 0142 015,得n>2 014. 因此条件应为n≤2 015? [答案] B2.执行如图9123所示的程序框图,若输入n 的值为4,则输出s 的值为________.图9123[解析] 第一步运算结果:s =1,i =2(i≤4成立);第二步运算结果:s =2,i =3(i≤4成立);第三步运算结果:s =4,i =4(i≤4成立);第四步运算结果:s =7,i =5(i≤4不成立),程序结束,故输出s 的值为7.[答案] 73.已知数列{a n }的各项均为正数,观察程序框图如图9124所示,若k =5,k =10时,分别有S =511和S =1021,试求数列{a n }的通项公式.图9124[解] 由程序框图可知,数列{a n }是等差数列,首项为a 1,公差为d. S i =1a 1a 2+1a 2a 3+…+1a i a i +1=1d (1a 1-1a 2+1a 2-1a 3+…+1a i -1a i +1) =1d ⎝ ⎛⎭⎪⎫1a 1-1a i +1. 当k =5时,S =⎝ ⎛⎭⎪⎫1a 1-1a 61d =5a 1a 6=511.∴a 1a 6=11,即a 1(a 1+5d)=11;①当k =10时,S =⎝ ⎛⎭⎪⎫1a 1-1a 111d =10a 1a 11=1021,∴a 1a 11=21,即a 1(a 1+10d)=21,② 由①②联立,得a 1=1,d =2, 因此a n =a 1+(n -1)d =2n -1.第二节 随机抽样[考纲传真]1.理解随机抽样的必要性和重要性. 2.会用简单随机抽样方法从总体中抽取样本. 3.了解分层抽样和系统抽样方法.1.简单随机抽样(1)设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)常用简单随机抽样的方法:抽签法和随机数表法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔k ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数.(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k). (4)按照一定的规则抽取样本, 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样.(2)应用范围:总体是由差异明显的几个部分组成时.1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)简单随机抽样是从总体中逐个不放回的抽取抽样.( ) (2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( ) (3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )[解析] 由简单随机抽样,系统抽样,分层抽样的意义,知(1)与(3)正确,(2)与(4)不正确.[答案] (1)√ (2)× (3)√ (4)×2.(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20[解析] 根据系统抽样的特点可知分段间隔为1 00040=25,故选C .[答案] C3.(2015·青岛调研)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学,初中,高中三个学段学生的视力情况有较大差异,而男女视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样[解析] 由于三个学段学生的视力情况差别较大,故需按学段分层抽样. [答案] C4.(2014·湖南高考)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3[解析] 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p 1=p 2=p 3. [答案] D5.某学校高一,高二,高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.[解析] 设应从高二年级抽取x 名学生,则x∶50=3∶10.解得x =15. [答案] 15考向1简单随机抽样【典例1】(1)下列抽取样本的方式属于简单随机抽样的个数为( )①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.②从20件玩具中一次性抽取3件进行质量检验.③某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B.07 C.02 D.01[解析](1)①②③中都不是简单随机抽样,这是因为:①是放回抽样,②中是“一次性”抽取,而不是“逐个”抽取,③中“指定个子最高的5名同学”,不存在随机性,不是等可能抽样.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.[答案](1)A(2)D【规律方法】1.简单随机抽样是从含有N(有限)个个体的总体中,逐个不放回地抽取样本,且每次抽取时总体内的各个个体被抽到的机会都相等.2.(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表法适用于总体中个体数较多的情形:随机数表法的操作要点:编号,选起始数,读数,获取样本.【变式训练1】下列抽样试验中,适合用抽签法的有________.①从某厂生产的5 000件产品中抽取600件进行质量检测; ②从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验; ③从甲,乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检测; ④从某厂生产的5 000件产品中抽取10件进行质量检测. [解析] ①,④中总体的个体数较大,不适用抽签法.对于③中,甲,乙两厂的产品质量可能差别较大,不一定能够达到搅拌均匀的条件,不适宜用抽签法.②中为同厂的产品,且样本容量较小,可用抽签法. [答案] ②考向2 系统抽样及其应用【典例2】 (1)(2015·淄博调研)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.(2)(2013·陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14[解析] (1)设第1组抽取的号码为b ,由系统抽样则第n 组抽取的号码为8(n -1)+b , ∴8×(16-1)+b =126,∴b =6, 故第1组抽取的号码为6.(2)抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k+x 0≤720,k ∈N *.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26,…,35, ∴k 值共有35-24+1=12(个),即所求人数为12. [答案] (1)6 (2)B 【规律方法】1.如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn,否则,可随机地从总体中剔除余数,然后按系统抽样的方法抽样.特别注意,每个个体被抽到的机会均是n N.2.系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.【变式训练2】 (2015·威海质检)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15[解析] 由系统抽样知:抽取号码的间隔为96032=30,∵第一组抽取的号码为9,∴抽取的第n 个号码为a n ,则a n =9+30(n -1), 由451≤a n ≤750,得151115≤n ≤25710,注意到n ∈N *,∴落入区间[451,750]的号码共10个, 因此做问卷B 的有10人. [答案] C考向3 分层抽样及应用(高频考点)命题视角 分层抽样是抽样方法考查的重点,主要以客观题的形式呈现,命题的主要角度:(1)求各层的个体容量;(2)根据某层的容量求总体容量;(3)分层抽样的简单应用.【典例3】 (1)(2015·日照联考)某工厂甲,乙,丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .13(2)(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.[思路点拨] (1)利用抽样比为定值,列方程求解;(2)利用分层抽样,先求出总体中甲设备生产的产品数量,再计算乙设备生产的产品数量.[解析] (1)依题意得360=n120+80+60,故n =13.(2)由题设,抽样比为804 800=160.设甲设备生产的产品为x 件, 则x60=50,∴x =3 000. 故乙设备生产的产品总数为4 800-3 000=1 800. [答案] (1)D (2)1 800 【通关锦囊】1.分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.2.为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i ∶N i =n∶N.分层抽样的有关计算,转化为按比例列方程或算式求解.【变式训练3】 (1)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.(2)(2014·重庆高考)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250[解析] (1)抽样比为280560+420=280980=27,所以样本中男生人数为560×27=160.(2)法一:由题意可得70n -70=3 5001 500,解得n =100.法二:由题意,抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.[答案] (1)160 (2)A掌握2条规律 1.三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体容量为N ,每个个体被抽到的概率是nN. 2.系统抽样抽取的个体编号从小到大成等差数列.熟记3个范围 1.简单随机抽样:总体容量较少,尤其是样本容量较少. 2.系统抽样:适用于元素个数很多且均衡的总体. 3.分层抽样:适用于总体由差异明显的几部分组成的情形.勿忘3点注意 1.简单随机抽样中,易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等. 2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的. 3.分层抽样中,易忽视每层抽取的个体的比例是相同的.易错辨析之11 图表信息求解的误区(2014·广东高考改编)已知某地区中小学生人数和近视情况分别如图921①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.图921[错解] 由图①知,样本容量为(2 000+3 500+4 500)×2%=200, 根据图②知,高中学生的近视人数为200×50%=100. 或根据图②知,高中近视人数为50人. 【智慧心语】错因分析:(1)误把样本容量200认为高中学生的样本数量,或将条形图中近视率误为近视人数.(2)不能从图表中提取有效信息,有的考生无从入手,或者未抓住分层抽样的特点:“各层抽取的个体数依各层个体之比来分配”而无法正确完成高中近视人数的计算求值.防范措施:(1)加强识图能力的培养,如本题中纵轴表示的近视率分别为10%,30%,50%.(2)理解分层抽样的概念,首先分层抽样是等概率抽样,因此,各层的抽样比应相等,可以利用这个等比关系计算求值.[正解] 易知,样本容量为(3 500+4 500+2 000)×2%=200.又样本中高中学生共有2 000×2%=40人.利用图②知,高中学生的近视率为50%.因此所抽样本中高中学生的近视人数为40×50%=20人.[答案]200 20【类题通关】从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图922所示),由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.图922[解析]∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x,y,z人,则x100=0.030×10,y100=0.020×10,z100=0.01×10.∴x=30,y=20,z=10.由分层抽样的意义,抽样比为1830+20+10=30%.因此从身高在[140,150]内的学生中选取10×30%=3(人).[答案](1)0.030 (2)3课后限时自测[A 级 基础达标练]一、选择题1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本[解析] 调查的目的是“了解某地5 000名居民某天的阅读时间”,所以“5 000名居民的阅读时间的全体”是调查的总体.[答案] A2.从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( )A .不全相等B .均不相等C .都相等,且为502 007D .都相等,且为140[解析] 从N 个个体中抽取M 个个体,每个个体被抽到的概率均为MN .[答案] C3.某学校有男,女学生各500名,为了解男,女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )A .抽签法B .随机数法C .系统抽样法D .分层抽样法[解析] 由于是调查男,女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样法.[答案] D4.(2015·潍坊一模)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方。
2017届高三数学一轮总复习 第九章 算法、统计、统计案例 9.3 变量间的相关关系与统计案例开卷速
开卷速查(五十九) 变量间的相关关系与统计案例A 级 基础巩固练1.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为( )A .1B .0.85C .0.7D .0.5解析:回归直线必过样本中心点(1.5,y ),故y =4,m +3+5.5+7=16,得m =0.5。
答案:D2.下面是2×2列联表:则表中a ,b 的值分别为( A .94,72 B .52,50 C .52,74D .74,52解析:∵a+21=73,∴a=52,又a +22=b ,∴b=74。
答案:C3.工人月工资(元)依劳动产值(千元)变化的回归直线方程为y ^=60+90x, 下列判断正确的是( )A .劳动产值为1 000元时,工资为50元B .劳动产值提高1 000元时,工资提高150元C .劳动产值提高1 000元时,工资提高90元D .劳动产值为1 000元时,工资为90元解析:回归系数b 的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位。
答案:C4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的2×2列联表:由K 2=++++,算得K 2=-260×50×60×50≈7.8。
附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C 。
答案:C5.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:样本中心点是(3.5,42),a ^=y -b ^x ,则a ^=y -b ^x =42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5,故选B 。
2017年高考数学人教版理科一轮复习课件:第9章 算法初步、统计、统计案例 4 变量间的相关关系与
所以在犯错误的概率不超过 5%的前提下认为“该校学生的每周
平均体育运动时间与性别有关”。
第二十三页,编辑于星期六:二点 四十七分。
悟·技法 解独立性检验的应用问题的关注点
(1)两个明确: ①明确两类主体; ②明确研究的两个问题。 (2)两个关键: ①准确画出 2×2 列联表; ②准确理解 K2。 提醒:准确计算 K2 的值是正确判断的前提。
第十五页,编辑于星期六:二点 四十七分。
二、必明 4●个易误点 1.回归分析是对具有相关关系的两个变量进行统计分析的方法, 只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否 则,求出的回归直线方程毫无意义。 2.根据回归方程进行预报,仅是一个预报值,而不是真实发生的 值。 3.r 的大小只说明是否相关,并不能说明拟合效果的好坏,R2 才 是判断拟合效果好坏的依据,必须将二者区分开来。 4.独立性检验的随机变量 K2=2.706 是判断是否有关系的临界值, K2<2.706 应判断为没有充分依据显示 X 与 Y 有关系,而不能作为小 于 90%的量化值来作出判断。
第二十二页,编辑于星期六:二点 四十七分。
每周平均体育运动时间与性别列联表
男生 女生 总计
每周平均体育运动时间
不超过 4 小时
45 30 75
每周平均体育运动时间
超过 4 小时
165 60 225
总计
210 90 300
结合列联表可算得 K2 的观测值
k=75×30202×5×2221500×2 90=12010≈4.762>3.841。
第八页,编辑于星期六:二点 四十七分。
4.若 8 名学生的身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8
2017届高考数学(文)一轮复习课件:第9章 统计、统计案例及算法初步9-4
第三十页,编辑于星期六:二点 三十一分。
2.阅读下面的程序,当分别输入实数 x= 3和 x=0 时,其输出的结果是___3_-__2__和__0__.
解析 由程序可知,它解决的是求分段函数 y=x2-x,2, x≤x>11 的函数值问题,显然,当 x= 3时,y= 3 -2;当 x=0 时,y=0.故输出的结果是 3-2 和 0.
4.必记结论 语句中“IF…END IF”,“DO…LOOP UNTIL”,“WHILE…WEND”一定成对出现.
第二十九页,编辑于星期六:二点 三十一分。
小题快做
1.思考辨析 (1)在算法语句中,X=X+1 是错误的.( × ) (2)5=x 是赋值语句.( × ) (3)输入语句可以同时给多个变量赋值.( √ )
第十四页,编辑于星期六:二点 三十一分。
典例1 ()
命题角度 1 顺序结构和条件结构 [2013·课标全国卷Ⅰ]执行如图所示的程序框图,如果输入的 t∈[-1,3],则输出的 s 属于
A.[-3,4] C.[-4,3]
B.[-5,2] D.[-2,5]
第十五页,编辑于星期六:二点 三十一分。
3t,t<1, 解析 根据程序框图可以得到分段函数 s=4t-t2,t≥1, 进而在函数的定义域[-1,3]内分段求出函 数的值域.所以当-1≤t<1 时,s=3t∈[-3,3);当 1≤t≤3 时,s=4t-t2=-(t-2)2+4,所以此时 3≤s≤4. 综上可知,函数的值域为[-3,4],即输出的 s 属于[-3,4].
第十八页,编辑于星期六:二点 三十一分。
命题角度 3 完善程序框图
典例3
[2014·重庆高考]执行如图所示的程序框图,若输出 k 的值为 6,则判断框内可填入的条件是
高考数学一轮复习 第九章 算法初步、统计、统计案例 第四节 变量间的相关关系、统计案例学案 文-人教
第四节变量间的相关关系、统计案例1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识点一两个变量的相关关系1.相关关系的分类(1)正相关:从散点图上看,点散布在从________到______的区域内;(2)负相关:从散点图上看,点散布在从左上角到________的区域内.2.线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫________.答案1.(1)左下角右上角(2)右下角2.回归直线1.根据两个变量x,y之间的观测数据画成散点图如图所示,则这两个变量________线性相关关系.(填“具有”或“不具有”)解析:图中的点分布零散,不在一条直线附近,所以不具有线性相关关系. 答案:不具有2.(2017·泉州模拟)下列四个图象中,两个变量具有正相关关系的是()解析:A 中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B ,D 样本点呈直线形带状分布,B 是负相关,D 是正相关,C 样本点不呈直线形带状分布.所以两个变量具有正相关关系的图是D .答案:D知识点二 回归分析 1.回归方程(1)最小二乘法:使得样本数据的点到回归直线的______ 最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中,b ^是回归方程的______,a ^是在y 轴上的截距.2.样本相关系数r =∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1n y i -y2,用它来衡量两个变量间的线性相关关系的强弱.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性__________;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.答案1.(1)距离的平方和 (2)斜率 2.(1)正相关 (2)负相关 (3)越强3.最小二乘法的原理是( )A .使得∑i =1n[y i -(a +bx i )]最小B .使得∑i =1n[y i -(a +bx i )2]最小C .使得∑i =1n[y 2i -(a +bx i )2]最小D .使得∑i =1n[y i -(a +bx i )]2最小解析:根据回归方程表示到各点距离之和最小的直线方程,即总体偏差最小,亦即∑i =1n[y i-(a +bx i )]2最小.答案:D4.当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列( )量来确定①残差平方和 ②回归平方和 ③相关指数R 2④相关系数rA .①B .①③C .①②③D .③④解析:残差平方和越小,相关指数R 2越大,拟合的效果越好. 答案:B知识点三 独立性检验1.分类变量:变量的不同“值”表示个体所属的________,像这类变量称为分类变量. 2.列联表:列出两个分类变量的________,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +d a +b +c +dK 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.答案1.不同类型 2.频数表5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是________.①若K 2的观测值为k =6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有③正确. 答案:③热点一 相关关系的判断【例1】 (1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x 、y 之间不能建立线性回归方程.【解析】 (1)所有点均在直线上,则样本相关系数最大即为1,故选D.(2)①显然正确;由散点图知,用y =c 1e c 2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.【答案】 (1)D (2)①② 【总结反思】判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:(1)由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以选C.答案:(1)D (2)C 热点二 ,线性回归分析【例2】 (2016·新课标全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .【解】 (Ⅰ)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17 y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由y =9.327≈1.331及(Ⅰ)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.【总结反思】(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x+a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(1)(2017·江西南昌十所省重点中学一模)某产品的广告费用x (万元)与销售额y (万元)的统计数据如下表所示,根据表中数据可得回归方程y ^=b ^x +a ^中的b ^=10.6.据此模型预测广告费用为10万元时的销售额为( )广告费用x (万元) 4 2 3 5 销售额y (万元)49263958A .112.1万元C .111.9万元D .113.9万元(2)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.①求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; ②判断变量x 与y 之间是正相关还是负相关;③若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.解析:(1)由题表中数据得x =3.5,y =43.由于回归直线y ^=b ^x +a^过点(x ,y ),且b ^=10.6,解得a ^=5.9,所以线性回归方程为y ^=10.6x +5.9,于是当x =10时,y ^=111.9.(2)解:①由题意知n =10,x =110∑i =110x i =8010=8,y =110∑i =110y i =2010=2,又∑i =110x 2i -10x 2=720-10×82=80.∑i =110x i y i -10x y =184-10×8×2=24.由此得b ^=∑i =110x i y i -10x y∑i =110x 2i -10x 2=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4,故所求回归方程为y ^=0.3x -0.4.②由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关.③将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 答案:(1)C热点三 独立性检验【例3】 某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.说明:如图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如下表所示的2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.【解】 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)2×2列联表如下表所示.主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)K 2=30×8-128212×18×20×10=30×120×12012×18×20×10=10>6.635.所以有99%的把握认为其亲属的饮食习惯与年龄有关. 【总结反思】1.独立性检验的步骤:(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n ad -bc 2a +bc +d a +cb +d计算K 2的观测值.(3)比较K 2与临界值的大小关系作统计推断.2.另外,还可利用图形来判断两个变量之间是否有关系,可以画出等高条形图,从图形上只可以粗略地估计两个分类变量的关系,可以结合所求数值来进行比较,作图时应注意单位统一,图形准确.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:认为作业多认为作业不多合计 喜欢玩游戏189不喜欢玩游戏8 15 合计(1)请完善上表中所缺的有关数据;(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系?解:(1)认为作业多认为作业不多合计 喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 合计262450(2)将表中的数据代入公式K 2=n ad -bc 2a +bc +d a +cb +d得到K 2的观测值k =50×18×15-8×9226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.。
(全国版)高考数学一轮复习 第九章 算法初步、统计、统计案例 9.4 变量间的相关关系与统计案例课时
变量间的相关关系与统计案例(25分钟45分)一、选择题(每小题5分,共20分)1.有下列关于回归分析的说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示;③通过回归方程=x+可以估计变量的取值和观测变量的变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的个数是( )A.1B.2C.3D.4【解析】选C.①反映的是最小二乘法的思想,故正确;②反映的是散点图的作用,也正确;③解释的是回归方程=x+的作用,也正确;④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.2.(2015·某某高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关【解析】选C.因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z 正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关.3.(2016·某某模拟)根据如下样本数据得到的回归方程为=x+,则( )x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0A.>0,>0B.>0,<0C.<0,>0D.<0,<0【解析】选B.由表中数据画出散点图,如图,由散点图可知<0,>0.4.(2016·某某模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走斑马线40 20 60走人行天桥20 30 50总计60 50 110由K2=算得K2的观测值k=≈7.8.附表:P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别有关”B.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”【解析】选A.因为K2的观测值k≈7.8≥6.635,所以犯错误的概率不超过0.01.【加固训练】(2016·某某模拟)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩不及格及格总计性别男 6 14 20女10 22 32总计16 36 52表2视力好差总计性别男 4 16 20女12 20 32总计16 36 52表3智商偏高正常总计性别男8 12 20女8 24 32总计16 36 52表4阅读量丰富不丰富总计性别男14 6 20女 2 30 32总计16 36 52 A.成绩 B.视力 C.智商 D.阅读量【解析】选D.因为k1==,k2==,k3==,k4==,则有k4>k2>k3>k1,所以阅读量与性别关联的可能性最大.二、填空题(每小题5分,共15分)5.(2016·某某模拟)某市居民2011~2015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表所示:年份2011 2012 2013 2014 2015收入x 11.5 12.1 13 13.3 15支出y 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有线性相关关系.【解析】由中位数的定义知,总体个数为奇数个时按大小顺序排列后中间一个是中位数,而偶数个时需取中间两数的平均数.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.答案:13 正6.(2016·某某模拟)为了考察是否喜欢运动与性别之间的关系,得到一个2×2列联表,经计算K2的观测值k=6.679,则在犯错误的概率不超过的前提下认为是否喜欢运动与性别有关系.本题可以参考独立性检验临界值表P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 【解析】由于K2=6.679>6.635,所以在犯错误的概率不超过0.01的前提下认为是否喜欢运动与性别有关系. 答案:0.01【加固训练】1.(2016·某某模拟)某中学将100名高一新生分成水平相同的甲,乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲,乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下,记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为“成绩优秀”与教学方式有关.甲班(A方式) 乙班(B方式) 总计成绩优秀成绩不优秀总计【解析】由已知数据得:甲班(A方式) 乙班(B方式) 总计成绩优秀 1 5 6成绩不优秀19 15 34 总计20 20 40根据2×2列联表中数据,K2=≈3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.2. (2016·某某模拟)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.完成下面2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积小于70mm2疱疹面积不小于70mm 2总计注射药物A a= b=30 a+b=注射药物B c=35 d= c+d= 总计a+c= b+d= a+b+c+d=【解题提示】(1)把握2×2列联表的意义,准确填入数据.(2)将数据代入随机变量K2的公式进行计算.(3)与临界值比较并得出结论.【解析】2×2列联表如下:疱疹面积小于70mm2疱疹面积不小于70mm2总计注射药物A a=70 b=30 a+b=100注射药物B c=35 d=65 c+d=100 总计a+c=105 b+d=95a+b+c+d=200K2的观测值k=≈24.56,由于k>6.635,因此能在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B 后的疱疹面积有差异”.7.(2016·某某模拟)车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.零件数x(个) 10 20 30 40 50加工时间y(min) 62 75 81 89现发现表中有一个数据看不清,请你推断出该数据的值为.【解析】由已知可计算求出=30,而回归直线方程必过点(,),则=0.67×30+54.9=75,设模糊数据为a,则=75,计算得a=68.答案:68三、解答题8.(10分)(2015·某某高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y(千亿元) 5 6 7 8 10(1)求y关于t的回归方程=t+.(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=,=-.【解题提示】(1)直接利用回归系数公式求解即可.(2)利用回归方程代入直接进行计算即可.【解析】(1)列表计算如下:i t i y i t i y i1 1 5 1 52 2 6 4 123 3 7 9 214 4 8 16 325 5 10 25 50∑15 36 55 120这里n=5,=t i==3,=y i==7.2.又-n=55-5×32=10,t i y i-n=120-5×3×7.2=12,从而==1.2,=-×3=3.6,故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).【加固训练】某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 8 8.2 8.4 8.6 8.8 9销量y(件) 90 84 83 80 75 68(1)求回归直线方程=x+,其中=-20,=-.(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解析】(1)由于=(x1+x2+x3+x4+x5+x6)=8.5,=(y1+y2+y3+y4+y5+y6)=80.所以=-=80+20×8.5=250.从而回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20+361.25.当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.(20分钟40分)1.(5分)(2016·某某模拟)对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )A. B. C. D.【解析】选B.依题意可知样本中心点为,则=×+,解得=.2.(5分)(2016·某某模拟)有两个分类变量X,Y,其一组的2×2列联表如下所示,Y1Y2X1 a 20-aX215-a 30+a其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( ) A.8 B.9 C.8或9 D.6或8【解题提示】计算K2的观测值k,建立k>3.841的不等式.解不等式并根据a,15-a均为大于5的整数求解. 【解析】选C.根据公式,得k==>3.841,根据a>5且15-a>5,a∈Z,求得a=8或9满足题意.3.(5分)已知x,y之间的一组数据如下表:x 2 3 4 5 6y 3 4 6 8 9对于表中数据,现给出如下拟合直线:①y=x+2;②y=3x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是(填序号).【解析】由题意知=4,=6,所以==,所以=-=-,所以=x-,所以填③.答案:③4.(12分)在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1求y与x之间的回归方程.【解析】画出散点图如图所示,观察可知y与x近似是反比例函数关系.设y=(k≠0),令t=,则y=kt.可得到y关于t的数据如表: t 4 2 1 0.5 0.25y 16 12 5 2 1画出散点图如图所示,观察可知t和y有较强的线性相关性,因此可利用线性回归模型进行拟合,易得:=≈4.1344,=-≈0.7917,所以=4.1344t+0.7917,所以y与x的回归方程是=+0.7917.5.(13分)(2016·某某模拟)设三组试验数据(x1,y1),(x2,y2),(x3,y3)的回归直线方程是:=x+,使代数式[y1-(x1+)]2+[y2-(x2+)]2+[y3-(x3+)]2的值最小时,=-,=(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:x 2 3 4 5 6 7 8wordy 4 6 5 6.2 8 7.1 8.6(1)求上表中前三组数据的回归直线方程.(2)若|y i-(x i+)|≤0.2,即称(x i,y i)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.【解析】(1)前三组数的平均数:=3,=5.根据公式:==.所以=5-×3=.所以回归直线方程为y=x+.×5|=0.2≤0.2,×6|=1.5>0.2,×7|=0.1<0.2,×8|=1.1>0.2,综上,拟合的“好点”有2组,所以后四组数据中拟合“好点”的概率P==.。
高考数学一轮总复习 9.4变量间的相关关系与统计案例课件
4.了解回归分析的基本思想、方法及其简单应用.
完整版ppt
3
备考知考情
1.以客观题的形式考查求线性回归方程系数或利用线性回归 分析的方程进行预测,在给出临界值的情况下判断两个变量是否 有关.
2.在解答题中常与频率分布结合考查线性回归方程的建立及 应用和独立性检验的应用.
答案 C
完整版ppt
18
知识点二
独立性检验
4.在 2012 伦敦奥运会期间,某网站针对性别是否与看奥运会 直播有关进行了一项问卷调查,得出如下表格:
是否看奥运会直播
性别 男女
看奥运会直播
6 000 2 000
不看奥运会直播
2 000 2 000
完整版ppt
19
则 K2=( )
A.700 B.750
C.800 D.850
解析 由题意知,
K2=12
0006 000×2 000-2 000×2 0002 8 000×4 000×8 000×4 000
ห้องสมุดไป่ตู้
=750.
答案 B
完整版ppt
20
5.某校为了研究学生的性别和对待某一活动的态度(支持和
不支持两种态度)的关系,运用 2×2 列联表进行独立性检验,经
这类变量称为分类变量.
2.列联表:列出两个分类变量的频数表,称为列联表.假设
有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称为 2×2 列联表)为:
完整版ppt
11
y1
y2
x1
a
b
总计 a+b
高考数学一轮总复习 第九章 算法初步、统计与统计案例 第四节 变量间的相关关系与统计案例练习 文
第四节 变量间的相关关系与统计案例【最新考纲】 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(线性回归方程系数公式不要求记忆)3.了解回归分析的思想、方法及其简单应用.了解独立性检验的思想、方法及其初步应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d则随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.1.(质疑夯基)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) 答案:(1)√ (2)√ (3)× (4)×2.(2014·重庆卷)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除B ,选项A 满足.答案:A3.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确...的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关解析:对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D 不正确.答案:D4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( )A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系解析:只有K 2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使K 2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D 正确.答案:D5.若8名学生的身高和体重数据如下表: 编号12345678身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 54 64 61 43 59第3名学生的体重漏填,但线性回归方程是y ^=0.849x -85.712,则第3名学生的体重估计为________.解析:设第3名学生的体重为a ,根据样本点的中心一定在回归直线上,可得48+57+a +54+64+61+43+598=0.849×165+165+157+170+175+165+155+1708-85.712,解得a≈50. 答案:50 kg两条规律1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K 2>3.841时,则有95%的把握说事件A 与B 有关;当K 2≤3.841时,认为两个分类变量无关.三点注意1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈直线时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K 2的观测值k≤3.841是判断是否有关系的临界值,K 2的观测值k≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值判断.A级基础巩固一、选择题2.第二届世界青年奥林匹克运动会于2014年8月16日~8月28日在南京举行,中国获37金,13银,13铜共63枚奖牌居奖牌榜首位,并打破十项青奥会记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验 D.概率解析:由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.答案:C3.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元) 8.2 8.6 10.0 11.3 11.9 支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -,据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 答案:B5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好402060不爱好 20 30 50总计60 50 110由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001k 3.841 6.635 10.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.答案:C 二、填空题6.(2016·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x(个)1020304050加工时间y(min) 6275 81 89现发现表中有一个数据看不清,请你推断出该数据的值为________. 解析:由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68. 答案:687.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 总计 男 13 10 23 女 7 20 27 总计203050已知P(K 2≥3.841)≈0.05,P(K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%8.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解析:儿子和父亲的身高可列表如下:父亲身高 173 170 176儿子身高 170 176 182设线性回归方程为y ^=a ^+b ^x ,由表中的三组数据可求得b ^=1,且过中心点(173,176),故a ^=y --b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.答案:185 三、解答题9.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解:(1)由题意知n =10,x -=1n i =1nx i =8010=8,(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程,得y ^=0.3×7-0.4=1.7(千元) 所以可预测该家庭的月储蓄为1.7(千元).10.(2016·深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:女 47 36 32 48 34 44 43 47 46 41 43 42 50 43 35 49 男 37 35 34 43 46 36 38 40 39 32 48 33 40 34(1)根据以上数据,估计该企业得分大于45分的员工人数;(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:“满意”的人数 “不满意”的人数 总计女 16 男 14 总计30(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?参考数据:P(K 2≥k 0)0.10 0.050 0.025 0.010 0.001k 0 2.706 3.841 5.024 6.635 10.828解:(1)从表中可知,30名员工中有8名得分大于45分,所以任选一名员工,他(她)的得分大于45分的概率是830=415,所以估计此次调查中,该单位约有900×415=240名员工的得分大于45分.(2)依题意,完成2×2列联表如下:“满意”的人数 “不满意”的人数 总计女 12 4 16 男 3 11 14 总计151530(3)假设H 0:性别与工作是否满意无关, 根据表中数据,求得K 2的观测值k =30×(12×11-3×4)215×15×16×14≈8.571>6.635,查表得P(K 2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为性别与工作是否满意有关.B级能力提升1.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A.成绩B.视力C.智商D.阅读量解析:K21=52×(6×22-10×14)2 16×36×20×32,设m=5216×36×20×32.则K21=82m,K22=1122m,K23=962m,K24=4082m.∴K24>K22>K23>K21,因此与性别有关联的可能性最大的变量是“阅读量”.答案:D2.(2016·济南调研)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为________万元.解析:∵x -=4+2+3+54=72,y -=49+26+39+544=42,又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1,∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案:65.53.(2014·辽宁卷)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:参考公式与临界表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P(K 2≥k)0.100 0.050 0.010 k2.7063.8416.635解:(1)将2×2列联表中的数据代入公式计算,得 K 2=100×(60×10-20×10)270×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2;b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P(A)=710.统计与统计案例本章是新课程改革增加内容,是命题的热点,以程序框图、抽样方法、统计图表为重点,以客观题为主.命题重注背景新颖、角度灵活.但近年统计与统计案例、统计与概率交汇,加大考查力度.2014年、2015年课标全国均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.强化点1 程序框图及应用(多维探究)高考中对程序框图的考查,以循环结构为主,考查程序运行后的结果,或考查控制循环的条件.主要以选择题或填空题的形式出现,以中低档难度为主.近年统计与相关知识交汇命题是高考的一大亮点,归纳起来常见的命题角度有:(1)程序框图与统计交汇;(2)程序框图与函数渗透;(3)程序框图与数列交汇渗透.角度一 程序框图与统计的渗透交汇1.如图所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图,则图中空白框内应填入________.解析:由判断框输出可知,M 表示及格人数,N 表示不及格人数, ∴及格率q =M M +N ,因此执行框为“q=MM +N ”.答案:q =MM +N角度二 程序框图与数列交汇2.(2015·湖南卷)执行如图所示的程序框图,如果输入n =3,则输出的S =( )A.67B.37C.89D.49解析:根据循环控制条件i>3,阅读程序框图,得到S 的值. 第一次循环:S =11×3,i =2;第二次循环:S =11×3+13×5,i =3;第三次循环:S =11×3+13×5+15×7,i =4,满足循环条件,结束循环.故输出S =11×3+13×5+15×7=12(1-13+13-15+15-17)=37. 答案:B角度三 程序框图与函数交汇渗透3.(2014·湖南卷)执行如图所示的程序框图,如果输入的t∈[-2,2],则输出的S 属于( )A.[-6,-2] B.[-5,-1]C.[-4,5] D.[-3,6]解析:由程序框图知,当0≤t≤2时,输出S=t-3,因此-3≤S≤-1.当-2≤t<0时,执行t=2t2+1后,1<t≤9.此时输出S=t-3,有-2<S≤6.综上可知,输出S的值取值范围为[-3,6].答案:D1.完善程序框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解程序框图的结构,明确程序框图的功能,按照程序框图中的条件运行程序.【变式训练】(2015·天津卷)阅读右边的程序框图,运行相应的程序,则输出i的值为( )A.2B.3C.4D.5解析:由题设,初始值S=10,i=0.i=i+1=1,S=S-i=10-1=9,不满足S≤1,i=i+1=2,S=S-i=9-2=7,不满足S≤1,i=i+1=3,S=S-i=7-3=4,不满足S≤1,i=i+1=4,S=S-i=4-4=0,满足S≤1,输出i=4.答案:C强化点2 用样本估计总体(2015·课标全国Ⅱ卷)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表满意度评分[50,60) [60,70) [70,80) [80,90) [90,100] 分组频数 2 8 14 10 6(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解:(1)B地区用户满意度评分的频率分布直方图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值.B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由频率分布直方图,A地区用户不满意的频率f A=(0.010+0.020+0.030)×10=0.6,B地区用户不满意的频率f B=(0.005+0.02)×10=0.25,因此估计概率P(C A)=0.6,P(C B)=0.25.所以A地区用户的满意度等级为不满意的概率大.1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.【变式训练】 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图所示.(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x -1,x -2,估计x -1-x -2的值.解:(1)设甲校高三年级学生总人数为n. 由题意知30n=0.05,解得n =600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1-530=56.(2)设甲、乙两校样本平均数分别为x -′1,x -′2. 根据样本茎叶图可知30(x -′1-x -′2)=30x -′1-30x -′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此x -′1-x -′2=0.5. 故x -1-x -2的估计值为0.5分. 强化点3 统计与概率的综合应用(2016·潍坊质检)某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:(1)判断是否在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:(参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d)解:(1)K 2=55(20×20-10×5)230×25×25×30≈11.978>7.879.所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关. (2)设所抽样本中有m 个“大于40岁”市民,则m 20=630,得m =4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市民,分别记作B 1,B 2,B 3,B 4,C 1,C 2.从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2)共15个.其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概率为P =815.1.独立性检验关键有两点:(1)计算K 2时要细致准确,参考数据表的应用要对应准确;(2)独立性检验中,K 2值越大,两变量有关的可能性越大,在第(1)题中,易得出相反的错误结论.2.古典概型中列举基本事件时,要按照一定的顺序列举,做到不重不漏,在(2)中这是导致失分的主要原因.【变式训练】 (2016·湖南雅礼中学模拟)某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.(1)求出m ,n 的值;(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s 2甲和s 2乙,并由此分析两组技工的加工水平;(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,若两人加工的合格零件个数之和大于17,则称该车间“质量合格”,求该车间“质量合格”的概率.解:(1)根据题意,x -甲=15(7+8+10+12+10+m)=10,x -乙=15(9+n +10+11+12)=10.∴n =8,m =3.(2)s 2甲=15[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,s 2乙=15[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,∵x -甲=x -乙,s 2甲>s 2乙,∴甲、乙两组的整体水平相当,乙组更稳定一些.(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,设两人加工的合格零件数分别为a ,b ,则所有(a ,b)有(7,8),(7,9),(7,10),(7,11),(7,12),(8,8),(8,9),(8,10),(8,11),(8,12),(10,8),(10,9),(10,10),(10,11),(10,12),(12,8),(12,9),(12,10),(12,11),(12,12),(13,8),(13,9),(13,10),(13,11),(13,12)共计25个.又满足a +b≤17的基本事件有(7,8),(7,9),(7,10),(8,8),(8,9)共5个. 因此满足a +b>17的基本事件共有25-5=20(个). 故该车间“质量合格”的概率P =2025=45.A 级 基础巩固一、选择题1.(2016·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012解析:由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N =808. 答案:B3.如果数据x 1,x 2,x 3,…,x n 的平均数为x -,标准差为s ,则数据3x 1+2,3x 2+2,…,3x n +2的平均数和标准差分别是( )A .3x -和9sB .3x -和3s C .3x -+2和9s D .3x -+2和3s解析:依题意,(3x 1+2)+(3x 2+2)+…+(3x n +2)n=3(x 1+x 2+…+x n )+2nn=3n x -+2n n=3x -+2,=3(x 1-x )2+(x 2-x )2+…+(x n -x )2n =3s.答案:D4.(2016·豫东、豫北十所名校联考)根据如下样本数据:x34567y 4.0 a -5.4 -0.5 0.5 b -0.6得到的回归方程为y ^=bx +a.若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位 解析:依题意得,a +b -25=0.9,故a +b =6.5①又样本点的中心为(5,0.9),故0.9=5b +a②联立①②,解得b =-1.4,a =7.9,则y ^=-1.4x +7.9, 故可知当x 每增加1个单位时,y 就减少1.4个单位. 答案:B二、填空题6.(2016·日照3月模拟)在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.解:设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.答案:1607.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球总计男生20 5 25女生10 15 25总计 30 20 50则在犯错误的概率不超过________的前提下认为喜爱打篮球与性别有关(请用百分数表示).P(K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828解析:K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关.答案:0.5%8.(2016·西安调研)已知某产品连续4个月的广告费用x 1(千元)与销售额y 1(万元),经过对这些数据的处理,得到如下数据信息:所以x -=92,y -=72,因为回归直线方程y ^=b ^x +a ^中的b ^=0.8, 所以72=0.8×92+a ^,所以a ^=-110,所以y ^=0.8x -110.x =6时,可预测销售额约为4.7万元. 答案:4.7 三、解答题9.(2016·太原联考)如图所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x ,已知甲、乙两组的平均成绩相同.(1)求x 的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率. 解:(1)x -甲=9+9+11+114=10,x -乙=8+9+12+10+x 4=10,∴x =1,又s 2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1,s 2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52,∴s 2甲<s 2乙,∴甲组成绩比乙组稳定.(2)记甲组4名同学为:A 1,A 2,A 3,A 4;乙组4名同学为:B 1,B 2,B 3,B 4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4)共16种.其中得分之和低于20分的共6种. ∴得分之和低于20分的概率P =616=38.10.(2016·玉林、南京联考)某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异“.参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P(K 2≥k)0.05 0.01 k3.8416.635解:(1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56,“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75.∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x 1-x 2=50.56-38.75=11.81(百元). (2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.B 级 能力提升1.甲、乙两位歌手在“中国好声音”选拔赛中,5次得分情况如图所示.记甲、乙两人的平均得分分别为x -甲,x -乙中,则下列判断正确的是( )A.x -甲<x -乙,甲比乙成绩稳定 B.x -甲<x -乙,乙比甲成绩稳定 C.x -甲>x -乙,甲比乙成绩稳定 D.x -甲>x -乙,乙比甲成绩稳定解析:x -甲=76+77+88+90+945=85,x -乙=75+88+86+88+935=86,s 2甲=15[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52, s 2乙=15[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=35.6, 所以x -甲<x -乙,s 2甲>s 2乙,故乙比甲成绩稳定.答案:B2.从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示),由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.解析:∵0.05×10+0.035×10+a ×10+0.020×10+0.010×10=1,∴a =0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x ,y ,z 人, 则x 100=0.030×10,y 100=0.020×10,z 100=0.01×10. ∴x =30,y =20,z =10.由分层抽样的意义,抽样比为1830+20+10=30%. 因此从身高在[140,150]内的学生中选取10×30%=3(人).答案:(1)0.030 (2)33.(2016·河南郑州第二次质量检测)最新高考改革方案已在上海和浙江实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下表:。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节 变量间的相关关系与统计案例【最新考纲】 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(线性回归方程系数公式不要求记忆)3.了解回归分析的思想、方法及其简单应用.了解独立性检验的思想、方法及其初步应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.1.(质疑夯基)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) 答案:(1)√ (2)√ (3)× (4)×2.(2014·重庆卷)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除B ,选项A 满足.答案:A3.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确...的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关解析:对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D 不正确.答案:D4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( )A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系解析:只有K 2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使K 2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D 正确.答案:D5.若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y ^=0.849x -85.712,则第3名学生的体重估计为________.解析:设第3名学生的体重为a ,根据样本点的中心一定在回归直线上,可得48+57+a +54+64+61+43+598=0.849×165+165+157+170+175+165+155+1708-85.712,解得a≈50. 答案:50 kg两条规律1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K 2>3.841时,则有95%的把握说事件A 与B 有关;当K 2≤3.841时,认为两个分类变量无关.三点注意1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈直线时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K 2的观测值k≤3.841是判断是否有关系的临界值,K 2的观测值k≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值判断.A级基础巩固一、选择题2.第二届世界青年奥林匹克运动会于2014年8月16日~8月28日在南京举行,中国获37金,13银,13铜共63枚奖牌居奖牌榜首位,并打破十项青奥会记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验 D.概率解析:由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.答案:C3.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -,据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 答案:B5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.答案:C 二、填空题6.(2016·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.加工时间y(min)现发现表中有一个数据看不清,请你推断出该数据的值为________. 解析:由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68. 答案:687.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K 2≥3.841)≈0.05,P(K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%8.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解析:儿子和父亲的身高可列表如下:设线性回归方程为y ^=a ^+b ^x ,由表中的三组数据可求得b ^=1,且过中心点(173,176),故a ^=y --b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.答案:185 三、解答题9.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解:(1)由题意知n =10,x -=1n i =1nx i =8010=8,(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程,得y ^=0.3×7-0.4=1.7(千元) 所以可预测该家庭的月储蓄为1.7(千元).10.(2016·深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:(1)根据以上数据,估计该企业得分大于45分的员工人数;(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?参考数据:解:(1)从表中可知,30名员工中有8名得分大于45分,所以任选一名员工,他(她)的得分大于45分的概率是830=415,所以估计此次调查中,该单位约有900×415=240名员工的得分大于45分.(2)依题意,完成2×2列联表如下:(3)假设H 0:性别与工作是否满意无关, 根据表中数据,求得K 2的观测值k =30×(12×11-3×4)215×15×16×14≈8.571>6.635,查表得P(K 2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为性别与工作是否满意有关.B 级 能力提升1.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量 解析:K 21=52×(6×22-10×14)216×36×20×32,设m =5216×36×20×32.则K 21=82m ,K 22=1122m ,K 23=962m ,K 24=4082m. ∴K 24>K 22>K 23>K 21,因此与性别有关联的可能性最大的变量是“阅读量”. 答案:D2.(2016·济南调研)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为________万元.解析:∵x -=4+2+3+54=72,y -=49+26+39+544=42,又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1,∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案:65.53.(2014·辽宁卷)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:参考公式与临界表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)将2×2列联表中的数据代入公式计算,得 K 2=100×(60×10-20×10)270×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2;b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P(A)=710.统计与统计案例本章是新课程改革增加内容,是命题的热点,以程序框图、抽样方法、统计图表为重点,以客观题为主.命题重注背景新颖、角度灵活.但近年统计与统计案例、统计与概率交汇,加大考查力度.2014年、2015年课标全国均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.强化点1 程序框图及应用(多维探究)高考中对程序框图的考查,以循环结构为主,考查程序运行后的结果,或考查控制循环的条件.主要以选择题或填空题的形式出现,以中低档难度为主.近年统计与相关知识交汇命题是高考的一大亮点,归纳起来常见的命题角度有:(1)程序框图与统计交汇;(2)程序框图与函数渗透;(3)程序框图与数列交汇渗透.角度一 程序框图与统计的渗透交汇1.如图所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图,则图中空白框内应填入________.解析:由判断框输出可知,M 表示及格人数,N 表示不及格人数, ∴及格率q =M M +N ,因此执行框为“q=MM +N ”.答案:q =MM +N角度二 程序框图与数列交汇2.(2015·湖南卷)执行如图所示的程序框图,如果输入n =3,则输出的S =( )A.67B.37C.89D.49解析:根据循环控制条件i>3,阅读程序框图,得到S 的值. 第一次循环:S =11×3,i =2;第二次循环:S =11×3+13×5,i =3;第三次循环:S =11×3+13×5+15×7,i =4,满足循环条件,结束循环.故输出S =11×3+13×5+15×7=12(1-13+13-15+15-17)=37. 答案:B角度三 程序框图与函数交汇渗透3.(2014·湖南卷)执行如图所示的程序框图,如果输入的t∈[-2,2],则输出的S 属于( )A.[-6,-2] B.[-5,-1]C.[-4,5] D.[-3,6]解析:由程序框图知,当0≤t≤2时,输出S=t-3,因此-3≤S≤-1.当-2≤t<0时,执行t=2t2+1后,1<t≤9.此时输出S=t-3,有-2<S≤6.综上可知,输出S的值取值范围为[-3,6].答案:D1.完善程序框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解程序框图的结构,明确程序框图的功能,按照程序框图中的条件运行程序.【变式训练】(2015·天津卷)阅读右边的程序框图,运行相应的程序,则输出i的值为( )A.2B.3C.4D.5解析:由题设,初始值S=10,i=0.i=i+1=1,S=S-i=10-1=9,不满足S≤1,i=i+1=2,S=S-i=9-2=7,不满足S≤1,i=i+1=3,S=S-i=7-3=4,不满足S≤1,i=i+1=4,S=S-i=4-4=0,满足S≤1,输出i=4.答案:C强化点2 用样本估计总体(2015·课标全国Ⅱ卷)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解:(1)B地区用户满意度评分的频率分布直方图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值.B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由频率分布直方图,A地区用户不满意的频率f A=(0.010+0.020+0.030)×10=0.6,B地区用户不满意的频率f B=(0.005+0.02)×10=0.25,因此估计概率P(C A)=0.6,P(C B)=0.25.所以A地区用户的满意度等级为不满意的概率大.1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过画频率分布直方图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.【变式训练】 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图所示.(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x -1,x -2,估计x -1-x -2的值.解:(1)设甲校高三年级学生总人数为n. 由题意知30n=0.05,解得n =600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1-530=56.(2)设甲、乙两校样本平均数分别为x -′1,x -′2. 根据样本茎叶图可知30(x -′1-x -′2)=30x -′1-30x -′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此x -′1-x -′2=0.5. 故x -1-x -2的估计值为0.5分. 强化点3 统计与概率的综合应用(2016·潍坊质检)某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表:(1)判断是否在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6位市民作为一个样本,从中任选2人,求恰有1位“大于40岁”的市民和1位“20岁至40岁”的市民的概率.下面的临界值表供参考:(参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d)解:(1)K 2=55(20×20-10×5)230×25×25×30≈11.978>7.879.所以在犯错误的概率不超过0.5%的前提下认为喜欢“人文景观”景点与年龄有关. (2)设所抽样本中有m 个“大于40岁”市民,则m 20=630,得m =4,所以样本中有4个“大于40岁”的市民,2个“20岁至40岁”的市民,分别记作B 1,B 2,B 3,B 4,C 1,C 2.从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2)共15个.其中恰有1名“大于40岁”和1名“20岁至40岁”的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个.所以恰有1名“大于40岁”的市民和1名“20岁至40岁”的市民的概率为P =815.1.独立性检验关键有两点:(1)计算K 2时要细致准确,参考数据表的应用要对应准确;(2)独立性检验中,K 2值越大,两变量有关的可能性越大,在第(1)题中,易得出相反的错误结论.2.古典概型中列举基本事件时,要按照一定的顺序列举,做到不重不漏,在(2)中这是导致失分的主要原因.【变式训练】 (2016·湖南雅礼中学模拟)某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.(1)求出m ,n 的值;(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s 2甲和s 2乙,并由此分析两组技工的加工水平;(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,若两人加工的合格零件个数之和大于17,则称该车间“质量合格”,求该车间“质量合格”的概率.解:(1)根据题意,x -甲=15(7+8+10+12+10+m)=10,x -乙=15(9+n +10+11+12)=10.∴n =8,m =3.(2)s 2甲=15[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2,s 2乙=15[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,∵x -甲=x -乙,s 2甲>s 2乙,∴甲、乙两组的整体水平相当,乙组更稳定一些.(3)质检部门从该车间甲、乙两组技工中各随机抽取一名,对其加工的零件进行检测,设两人加工的合格零件数分别为a ,b ,则所有(a ,b)有(7,8),(7,9),(7,10),(7,11),(7,12),(8,8),(8,9),(8,10),(8,11),(8,12),(10,8),(10,9),(10,10),(10,11),(10,12),(12,8),(12,9),(12,10),(12,11),(12,12),(13,8),(13,9),(13,10),(13,11),(13,12)共计25个.又满足a +b≤17的基本事件有(7,8),(7,9),(7,10),(8,8),(8,9)共5个. 因此满足a +b>17的基本事件共有25-5=20(个). 故该车间“质量合格”的概率P =2025=45.A 级 基础巩固一、选择题1.(2016·石家庄模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012解析:由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N =808. 答案:B3.如果数据x 1,x 2,x 3,…,x n 的平均数为x -,标准差为s ,则数据3x 1+2,3x 2+2,…,3x n +2的平均数和标准差分别是( )A .3x -和9sB .3x -和3s C .3x -+2和9s D .3x -+2和3s解析:依题意,(3x 1+2)+(3x 2+2)+…+(3x n +2)n=3(x 1+x 2+…+x n )+2nn=3n x -+2n n=3x -+2,=3(x 1-x )2+(x 2-x )2+…+(x n -x )2n =3s.答案:D4.(2016·豫东、豫北十所名校联考)根据如下样本数据:得到的回归方程为y ^=bx +a.若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位 解析:依题意得,a +b -25=0.9,故a +b =6.5①又样本点的中心为(5,0.9),故0.9=5b +a②联立①②,解得b =-1.4,a =7.9,则y ^=-1.4x +7.9, 故可知当x 每增加1个单位时,y 就减少1.4个单位. 答案:B二、填空题6.(2016·日照3月模拟)在某市“创建文明城市”活动中,对800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,据此估计这800名志愿者年龄在[25,30)内的人数为________.解:设年龄在[25,30)内的志愿者的频率是P,则有5×0.01+P+5×0.07+5×0.06+5×0.02=1,解得P=0.2.故估计这800名志愿者年龄在[25,30)内的人数是800×0.2=160.答案:1607.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则在犯错误的概率不超过________的前提下认为喜爱打篮球与性别有关(请用百分数表示).解析:K 2=50×(20×15-5×10)25×25×30×20≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关.答案:0.5%8.(2016·西安调研)已知某产品连续4个月的广告费用x 1(千元)与销售额y 1(万元),经过对这些数据的处理,得到如下数据信息:所以x -=92,y -=72,因为回归直线方程y ^=b ^x +a ^中的b ^=0.8, 所以72=0.8×92+a ^,所以a ^=-110,所以y ^=0.8x -110.x =6时,可预测销售额约为4.7万元. 答案:4.7 三、解答题9.(2016·太原联考)如图所示,茎叶图记录了甲、乙两组各四名同学完成某道数学题(满分12分)的得分情况.乙组某个数据的个位数模糊,记为x ,已知甲、乙两组的平均成绩相同.(1)求x 的值,并判断哪组学生成绩更稳定;(2)在甲、乙两组中各抽出一名同学,求这两名同学的得分之和低于20分的概率. 解:(1)x -甲=9+9+11+114=10,x -乙=8+9+12+10+x 4=10,∴x =1,又s 2甲=14[(10-9)2+(10-9)2+(11-10)2+(11-10)2]=1,s 2乙=14[(10-8)2+(10-9)2+(11-10)2+(12-10)2]=52,∴s 2甲<s 2乙,∴甲组成绩比乙组稳定.(2)记甲组4名同学为:A 1,A 2,A 3,A 4;乙组4名同学为:B 1,B 2,B 3,B 4.分别从甲、乙两组中各抽取一名同学所有可能的结果为:(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4),(A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4),(A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4)共16种.其中得分之和低于20分的共6种. ∴得分之和低于20分的概率P =616=38.10.(2016·玉林、南京联考)某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异“.参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56,“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75.∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x 1-x 2=50.56-38.75=11.81(百元). (2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.B 级 能力提升1.甲、乙两位歌手在“中国好声音”选拔赛中,5次得分情况如图所示.记甲、乙两人的平均得分分别为x -甲,x -乙中,则下列判断正确的是( )A.x -甲<x -乙,甲比乙成绩稳定 B.x -甲<x -乙,乙比甲成绩稳定 C.x -甲>x -乙,甲比乙成绩稳定 D.x -甲>x -乙,乙比甲成绩稳定解析:x -甲=76+77+88+90+945=85,x -乙=75+88+86+88+935=86,s 2甲=15[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52, s 2乙=15[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=35.6, 所以x -甲<x -乙,s 2甲>s 2乙,故乙比甲成绩稳定.答案:B2.从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示),由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.解析:∵0.05×10+0.035×10+a ×10+0.020×10+0.010×10=1,∴a =0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x ,y ,z 人, 则x 100=0.030×10,y 100=0.020×10,z 100=0.01×10. ∴x =30,y =20,z =10.由分层抽样的意义,抽样比为1830+20+10=30%. 因此从身高在[140,150]内的学生中选取10×30%=3(人).答案:(1)0.030 (2)33.(2016·河南郑州第二次质量检测)最新高考改革方案已在上海和浙江实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下表:在全体师生中随机抽取1名“赞成改革”的人是学生的概率为0.3,且z =2y.(1)现从500名师生中用分层抽样的方法抽取50名进行问卷调查,求应抽取“不赞成改革”的教师和学生人数各是多少人;(2)在(1)中所抽取的“不赞成改革”的人中,随机选出3人进行座谈,求至少有1名教师被选出的概率.解:(1)由题意知x 500=0.3,所以x =150,所以y +z =60, 因为z =2y ,所以y =20,z =40,则应抽取教师人数为50500×20=2, 应抽取学生人数为50500×40=4. (2)所抽取的“不赞成改革”的2名教师记为a ,b ,4名学生记为1,2,3,4,随机选出3人的不同选法有(a ,b ,1),(a ,b ,2),(a ,b ,3),(a ,b ,4),(a ,1,2),(a ,1,3),(a ,1,4),(a ,2,3),(a ,2,4),(a ,3,4),(b ,1,2),(b ,1,3),(b ,1,4),(b ,2,3),(b ,2,4),(b ,3,4),(1,2,3),(1,2,4),(1,3,4),(2,3,4),共20种,至少有1名教师的选法有(a ,b ,1),(a ,b ,2),(a ,b ,3),(a ,b ,4),(a ,1,2),(a ,1,3),(a ,1,4),(a ,2,3),(a ,2,4),(a ,3,4),(b ,1,2),(b ,1,3),(b ,1,4),(b ,2,3),(b ,2,4),(b ,3,4),共16种,故至少有1名教师被选出的概率P =1620=45.。