【高考复习】2018届高三数学考前小练习:第73练 变量间的相关关系及统计案例(含答案)
2018年高考数学(理)总复习高考达标检测(四十八)变量间的相关关系、统计案例
高考达标检测(四十八)变量间的相关关系、统计案例一、选择题1.相关变量x ,y 的样本数据如下表:经回归分析可得y 与x 线性相关,并由最小二乘法求得回归直线方程为y ^=1、1x +a ,则a =( )A .0、1B .0、2C .0、3D .0、4解析:选C ∵回归直线经过样本点的中心(x ,y ),且由题意得(x ,y )=(3,3、6),∴3、6=1、1×3+a ,∴a =0、3、2.(2016·江西南昌一模)某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为 y ^=-10x +200,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示变量y 与x 之间的线性相关系数,则r =-10C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右解析:选D y 与x 具有负的线性相关关系,所以A 项错误;当销售价格为10元时,销售量在100件左右,因此C 错误,D 正确;B 项中-10是回归直线方程的斜率.3.(2016·山东泰安二模)登山族为了了解某山高y (km)与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:由表中数据,得到线性回归方程y ^=-2x +a ^、由此估计山高为72(km)处气温的度数为( )A .-10B .-8C .-6D .-4 解析:选C 因为x =10,y =40,所以样本中心点为(10,40),因为回归直线过样本中心点,所以40=-20+a ^,即a ^=60,所以线性回归方程为y ^=-2x +60,所以山高为72(km)处气温的度数为-6,故选C 、4.(2016·常德一模)某机构为了解某地区中学生在校月消费情况,随机抽取了100名中学生进行调查,将月消费金额不低于550元的学生称为“高消费群”,调查结果如表所示:参照公式,得到的正确结论是( ) 参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d 、A .有90%以上的把握认为“高消费群与性别有关”B .没有90%以上的把握认为“高消费群与性别有关”C .在犯错误的概率不超过1%的前提下,认为“高消费群与性别无关”D .在犯错误的概率不超过1%的前提下,认为“高消费群与性别有关” 解析:选B 将表格中的数据代入公式可得K 2=-225×75×50×50=43≈1、33<2、706,所以没有90%以上的把握认为“高消费群与性别有关”.5.(2017·河南八市质检)为了研究某大型超市当天销售额与开业天数的关系,随机抽取了5天,其当天销售额与开业天数的数据如下表所示:根据上表提供的数据,求得y 关于x 的线性回归方程为y ^=0、67x +54、9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )A .67B .68C .68、3D .71解析:选B 设表中模糊看不清的数据为m 、因为x -=10+20+30+40+505=30,又样本中心点(x ,y )在回归直线y ^=0、67x +54、9上,所以y -=m +3075=0、67×30+54、9,得m =68,故选B 、6.某研究机构对儿童记忆能力x 和识图能力y 进行统计分析,得到如下数据:由表中数据,求得线性回归方程为y ^=5x +a ^,若某儿童的记忆能力为12,则他的识图能力为( )A .7B .9、5C .10D .12解析:选B 由表中数据得x =4+6+8+104=7,y =3+5+6+84=112,由(x ,y )在直线y ^=45x +a ^上,得a ^=-110,即线性回归方程为y ^=45x -110、当x =12时,y ^=45×12-110=9、5,即他的识图能力为9、5、二、填空题7.(2017·安徽阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.解析:计算得K 2的观测值为k =-214×16×20×10≈4、286>3、841,则推断犯错误的概率不超过0、05、答案:0、058.已知x 与y 之间的一组数据如下表所示,当m 变化时,y 与x 的回归直线y ^=bx +a 必过定点________、解析:因为线性回归直线一定经过样本中心点(x ,y ), 又x =0+1+2+34=32,y =1+3+5-m +7+m4=4,所以回归直线y =bx +a 必过定点⎝ ⎛⎭⎪⎫32,4、答案:⎝ ⎛⎭⎪⎫32,4 9.(2017·湖北黄冈质检)某企业为了增强自身竞争力,计划对职工进行技术培训,以提高产品的质量.为了解某车间对技术培训的态度与性别的关系,对该车间所有职工进行了问卷调查,利用2×2列联表计算得K 2≈3、918,经查对临界值表知P (K 2≥3、841)≈0、05、由此,三位领导得出以下判断:p :有95%的把握认为“对技术培训的态度与性别有关”; q :没有95%的把握认为“对技术培训的态度与性别有关”; r :有5%的把握认为“对技术培训的态度与性别有关”.则下列结论中,正确结论的序号是________.(把你认为正确的命题序号都填上) ①p ∧(綈q );②(綈p )∨q ;③(綈p )∧(綈q );④p ∨r 、解析:由题意,得K 2≈3、918,P (K 2≥3、841)≈0、05,所以只有p 的判断正确,即有95%的把握认为“对技术培训的态度与性别有关”.由真值表知①④为真命题.答案:①④ 三、解答题10.(2017·宁夏银川一中期末)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据、(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a 、 (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2、5+4×3+5×4+6×4、5=66、5)解:(1)由对照数据,计算得∑i =14x i y i =66、5,∑i =14x 2i =32+42+52+62=86,x -=4、5,y -=3、5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0、7, a ^=y --b ^ x -=3、5-0、7×4、5=0、35,所求的回归方程为y ^=0、7x +0、35、(2)当x =100时,y ^=100×0、7+0、35=70、35,预测生产100吨甲产品的生产能耗比技改前降低90-70、35=19、65(吨标准煤). 11.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚)、(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;(2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x =28,y =85、6,∑i =15(x i -x )(y i -y )=381,∑i =15(x i -x )2=10、附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x 、解:(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =15x i -xy i -y∑i =15x i -x2=38110=38、1, a ^=y -b ^x =85、6-38、1×28=-981、2,所以金牌数之和y 关于时间x 的线性回归方程为y ^=38、1x -981、2、当x =32时,中国代表团获得的金牌数之和的预报值y ^=38、1×32-981、2=238, 故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.12.厦门理工学院为了了解大学生使用手机的情况,分别在大一和大二两个年级各随机抽取了100名大学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频率分布直方图和频数分布表,将使用手机时间不低于80分钟的学生称为“手机迷”.大一学生日均使用手机时间的频率分布直方图:大二学生日均使用手机时间的频数分布表:(1)将频率视为概率,估计哪个年级的大学生是“手机迷”的概率大?请说明理由.(2)在大一的抽查中,已知随机抽到的女生共有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料判断有多大的把握认为“手机迷”与性别有关?附:随机变量K2=n ad-bc2a+b c+d a+c b+d(其中n=a+b+c+d为样本总量).参考数据:解:(1)由频率分布直方图可知,大一学生是“手机迷”的概率为P1=(0、002 5+0、010)×20=0、25,由频数分布表可知,大二学生是“手机迷”的概率为P2=14+4100=0、18,因为P1>P2,所以大一年级的大学生是“手机迷”的概率大.(2)由频率分布直方图可知,在抽取的100人中,“手机迷”有(0、010+0、002 5)×20×100=25(人),非“手机迷”有100-25=75(人),2×2列联表如下:则K 2的观测值k =n ad -bc 2a +bc +d a +cb +d=-245×55×75×25≈3、030,因为3、030>2、706,所以有90%的把握认为“手机迷”与性别有关.高考达标检测(一) 集 合一、选择题1.(2017·郑州质量预测)设全集U ={x ∈N *|x ≤4},集合A ={1,4},B ={2,4},则∁U (A ∩B )=( )A .{1,2,3}B .{1,2,4}C .{1,3,4}D .{2,3,4}解析:选A 因为U ={1,2,3,4},A ∩B ={4},所以∁U (A ∩B )={1,2,3},故选A 、 2.(2017·福州模拟)集合A ={-3,-1,2,4},B ={x |2x<8},则A ∩B =( ) A .{-3} B .{-1,2} C .{-3,-1,2}D .{-3,-1,2,4}解析:选C 由题意知,集合A ={-3,-1,2,4},B ={x |2x <8}={x |x <3},则A ∩B = {-3,-1,2},故选C 、3.(2017·重庆适应性测试)设全集U =R ,集合A =⎩⎪⎨⎪⎧⎭⎪⎬⎪⎫x ∈R ⎪⎪⎪x -1x -2>0,B ={x ∈R|0<x <2},则(∁U A )∩B =( )A .(1,2]B .[1,2)C .(1,2)D .[1,2]解析:选B 依题意得∁U A ={x |1≤x ≤2},(∁U A )∩B ={x |1≤x <2}=[1,2),选B 、 4.(2017·武汉调研)已知集合A ={x |-2≤x ≤3},B ={x |x 2+2x -8>0},则A ∪B =( )A .(-∞,-4)∪[-2,+∞)B .(2,3]C.(-∞,3]∪(4,+∞)D.[-2,2)解析:选A 因为B={x|x>2或x<-4},所以A∪B={x|x<-4或x≥-2},故选A、5.(2016·浙江高考)已知集合P={x∈R|1≤x≤3},Q={x∈R|x2≥4},则P∪(∁R Q)=( )A.[2,3] B.(-2,3]C.[1,2) D.(-∞,-2]∪[1,+∞)解析:选B ∵Q={x∈R|x2≥4},∴∁R Q={x∈R|x2<4}={x∈R|-2<x<2}.∵P={x∈R|1≤x≤3},∴P∪(∁R Q)={x∈R|-2<x≤3}=(-2,3].6.设集合A={-1,0,1},集合B={0,1,2,3},定义A*B={(x,y)|x∈A∩B,y∈A∪B},则A*B中元素的个数是( )A.7 B.10C.25 D.52解析:选B 因为A={-1,0,1},B={0,1,2,3},所以A∩B={0,1},A∪B={-1,0,1,2,3}.由x∈A∩B,可知x可取0,1;由y∈A∪B,可知y可取-1,0,1,2,3、所以元素(x,y)的所有结果如下表所示:所以A*B中的元素共有10个.7.(2017·吉林一模)设集合A={0,1},集合B={x|x>a},若A∩B中只有一个元素,则实数a的取值范围是( )A.{a|a<1} B.{a|0≤a<1}C.{a|a≥1} D.{a|a≤1}解析:选B 由题意知,集合A={0,1},集合B={x|x>a},画出数轴(图略).若A∩B 中只有一个元素,则0≤a<1,故选B、8.设P和Q是两个集合,定义集合P-Q={x|x∈P,且x∉Q},如果P={x|log2x<1},Q={x||x-2|<1},那么P-Q=( )A .{x |0<x <1}B .{x |0<x ≤1}C .{x |1≤x <2}D .{x |2≤x <3}解析:选B 由log 2x <1,得0<x <2, 所以P ={x |0<x <2}. 由|x -2|<1,得1<x <3, 所以Q ={x |1<x <3}.由题意,得P -Q ={x |0<x ≤1}. 二、填空题9.(2017·辽宁师大附中调研)若集合A ={x |(a -1)·x 2+3x -2=0}有且仅有两个子集,则实数a 的值为________.解析:由题意知,集合A 有且仅有两个子集,则集合A 中只有一个元素.当a -1=0,即a =1时,A =⎩⎨⎧⎭⎬⎫23,满足题意;当a -1≠0,即a ≠1时,要使集合A 中只有一个元素,需Δ=9+8(a -1)=0,解得a =-18、综上可知,实数a 的值为1或-18、答案:1或-1810.(2017·湖南岳阳一中调研)已知集合A ={x |x <a },B ={x |1<x <2},且A ∪(∁R B )=R ,则实数a 的取值范围是________.解析:由∁R B ={x |x ≤1或x ≥2}, 且A ∪(∁R B )=R , 可得a ≥2、 答案:[2,+∞)11.(2017·贵阳监测)已知全集U ={a 1,a 2,a 3,a 4},集合A 是全集U 的恰有两个元素的子集,且满足下列三个条件:①若a 1∈A ,则a 2∈A ;②若a 3∉A ,则a 2∉A ;③若a 3∈A ,则a 4∉A 、则集合A =________、(用列举法表示)解析:假设a 1∈A ,则a 2∈A ,由若a 3∉A ,则a 2∉A 可知,a 3∈A ,故假设不成立;假设a 4∈A ,则a 3∉A ,a 2∉A ,a 1∉A ,故假设不成立.故集合A ={a 2,a 3}.答案:{a 2,a 3}12.(2016·北京高考)某网店统计了连续三天售出商品的种类情况:第一天售出19种商品,第二天售出13种商品,第三天售出18种商品;前两天都售出的商品有3种,后两天都售出的商品有4种.则该网店①第一天售出但第二天未售出的商品有________种; ②这三天售出的商品最少有________种.解析:设三天都售出的商品有x 种,第一天售出,第二天未售出,且第三天售出的商品有y 种,则三天售出商品的种类关系如图所示.由图可知:①第一天售出但第二天未售出的商品有19-(3-x )-x =16(种).②这三天售出的商品有(16-y )+y +x +(3-x )+(6+x )+(4-x )+(14-y )=43-y (种).由于⎩⎪⎨⎪⎧ 16-y ≥0,y ≥0,14-y ≥0,所以0≤y ≤14、所以(43-y )min =43-14=29、答案:①16 ②29三、解答题13.设全集U =R ,A ={x |1≤x ≤3},B ={x |2<x <4},C ={x |a ≤x ≤a +1}.(1)分别求A ∩B ,A ∪(∁U B );(2)若B ∪C =B ,求实数a 的取值范围.解:(1)由题意知,A ∩B ={x |1≤x ≤3}∩{x |2<x <4}={x |2<x ≤3}.易知∁U B ={x |x ≤2或x ≥4},所以A ∪(∁U B )={x |1≤x ≤3}∪{x |x ≤2或x ≥4}={x |x ≤3或x ≥4}.(2)由B ∪C =B ,可知C ⊆B ,画出数轴(图略),易知2<a <a +1<4,解得2<a <3、故实数a 的取值范围是(2,3).14.(2017·青岛模拟)若集合M ={x |-3≤x ≤4},集合P ={x |2m -1≤x ≤m +1}.(1)证明M 与P 不可能相等;(2)若集合M 与P 中有一个集合是另一个集合的真子集,求实数m 的取值范围. 解:(1)证明:若M =P ,则-3=2m -1且4=m +1,即m =-1且m =3,不成立. 故M 与P 不可能相等.(2)若P M ,当P ≠∅时,有⎩⎪⎨⎪⎧ -3≤2m -1,m +1<4,m +1≥2m -1或⎩⎪⎨⎪⎧ -3<2m -1,m +1≤4,m +1≥2m -1,解得-1≤m ≤2;当P =∅时,有2m -1>m +1,解得m >2,即m ≥-1;若M P ,则⎩⎪⎨⎪⎧ -3≥2m -1,4<m +1,m +1≥2m -1或⎩⎪⎨⎪⎧ -3>2m -1,4≤m +1,m +1≥m -1,无解.综上可知,当有一个集合是另一个集合的真子集时,只能是P M,此时必有m≥-1,即实数m的取值范围为[-1,+∞).。
高考知识点变量间的相关关系与统计案例
第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
2018届高三数学 第73练 变量间的相关关系及统计案例练习
第73练 变量间的相关关系及统计案例1.(2016·山西四校联考)已知x 、y 的取值如下表所示,从散点图分析,y 与x 线性相关,且y ^=0.8x +a ^,则a ^等于( )A.0.8 C .1.2D .1.52.通过随机询问110名大学生是否爱好某项运动,得到列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”3.已知数组(x 1,y 1),(x 1,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件4.(2016·辽宁五校联考)某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的线性回归方程y =bx +a 中的b 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( ) A .84分钟 B .94分钟 C .102分钟D .112分钟5.以下四个命题中:①在回归分析中,可用相关指数R 2的值判断拟合的效果,R 2越大,模型的拟合效果越好; ②两个随机变量的线性相关性越强,相关系数的绝对值越接近1;③若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2;④对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越大.其中真命题的个数为( ) A .1 B .2 C .3D .46.已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%以上的把握认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表:A .99%B .97.5%C .95%D .90%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).9.(2017·宜昌调研)为了均衡教育资源,加大对偏远地区的教育投入,某机构调查了某地若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元)的情况.调查显示年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.15x+0.2.由线性回归方程可知,家庭年收入每增加1万元,年教育支出约增加________万元. 10.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:则________(附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).11.得到如下数据:由表中数据,求得线性回归方程为y =-4x +a ,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.12.随着经济的发展,某城市的市民收入逐年增长,表1是该城市某银行连续五年的储蓄存款额(年底余额):表1-5,得到表2:表2(1)z 关于t ________; (2)用所求回归方程预测到2020年年底,该银行储蓄存款额可达________千亿元.(附:线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -y-∑ni =1x 2i -n x2,a ^=y -b ^x )答案精析1.B [由题意,x =0+1+3+44=2,y =0.9+1.9+3.2+4.44=2.6,而样本点的中心(x ,y )必在回归直线上,代入得2.6=0.8×2+a ^,从而得a ^=1.]2.A [因为7.8>6.635,所以有99%以上的把握认为“爱好该项运动与性别有关”.]3.B [x 0,y 0为这10组数据的平均值,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均值),求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.]4.C [由表中数据得x =20,y =30,又b ^=0.9,则30=0.9×20+a ^,解得a ^=12,所以y ^=0.9x +12.将x =100代入线性回归方程,得y ^=0.9×100+12=102,所以加工100个零件所需要的加工时间约为102分钟.]5.B [由题意得,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,所以③不正确;对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越小,所以④不正确.其中①、②是正确的,故选B.]6.C [由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y i =16x 2i -6x 2=58-6×72×13691-6×(72)2=57, a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.]7.B [一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>6.635,故有99%以上的把握认为这两个变量间有关系,④正确.故选B.] 8.A [由公式可计算得K 2≈11.377>6.635.故选A.]9.0.15解析 回归直线的斜率为0.15,所以家庭收入每增加1万元,年教育支出约增加0.15万元. 10.没有解析 由于K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=200×(80×40-40×40)2120×80×120×80=509<6.635,故没有99%以上的把握认为“生二胎与性别有关”. 11.13解析 由已知得x =6.5,y =80,将(x ,y )代入y ^=-4x +a ^,解得a ^=106.将表格中的(4,90),(5,84),(6,83),(7,80),(8,75),(9,68),依次代入线性回归方程y ^=-4x +106,得在回归直线左下方的点为(5,84),(9,68),共2个.故在这些样本点中任取一点,则它在回归直线左下方的概率为13.12.z ^=1.2t -1.4 y ^=1.2x -2 408.4 15.6解析 (1)t =3,z =2.2,∑5i =1t i z i =45, ∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,∴z ^=1.2t -1.4.将t =x -2 010,z =y -5代入z =1.2t -1.4,得y -5=1.2(x -2 010)-1.4,故y ^=1.2x -2 408.4.(2)∵当x =2 020时,y ^=1.2×2 020-2 408.4=15.6, ∴预测到2020年年底,该银行储蓄存款额可达15.6千亿元.。
高考数学之变量间的相关关系
一般地,设x与y是具有相关关系的两个变量,且相 应于n个观测值的n个点大致分布在一条直线的附近, 我们来求在整体上与这n个点最接近的一条直线.
设所求的直线方程为 yˆ bx a ,其中a、b是待定系数.
(在yˆi统计bx中i ,a.惯(i 用 1b,表2,示,一n)次项系数,用a表示常数项.) 各偏差为:yi yˆi yi (bxi a).(i 1,2,, n) 偏差 yi yˆi 的符号有正有负,相加相互抵消,所以它们和 不能代表n个点与相应直线在整体上的接近程度.
可求出使Q为最小值时的a、b的值 ,
n
n
( xi x)( yi y)
xi yi nx y
b i1
n
( xi x)2
Байду номын сангаасi 1
a y bx
i1 n xi2 nx 2 i 1
其中,
x
1 n
n i 1
xi ,
y
1 n
n i 1
yi
.
所得到的直线方程 :yˆ bx a 叫做回归直线方程.
为了了解热饮销量与气温的大致关系,我们以气温为 横轴,热饮销量为纵轴,建立直角坐标系,
散点图
y 气温与热饮杯数成负相关,即气 温越高,卖出去的热饮杯数越少。
60 50 40 30 20 10
-5 O 5 10 15 20 25 30 35
气温
在散点图中,点散布在从左上角到右下角的区域,对 于这两个变量的这种相关关系,我们就称之为负相关.
n
n
y (xi x)(yi y)
xi
nxy
i
2018届高三数学理高考总复习课时跟踪检测 六十九 变量间的相关关系 统计案例 含解析 精品
课时跟踪检测 (六十九) 变量间的相关关系 统计案例一抓基础,多练小题做到眼疾手快1.(2017·重庆适应性测试)为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A .有95%的把握认为“X 和Y 有关系”B .有95%的把握认为“X 和Y 没有关系”C .有99%的把握认为“X 和Y 有关系”D .有99%的把握认为“X 和Y 没有关系”解析:选A 依题意,K 2=5,且P (K 2≥3.841)=0.05,因此有95%的把握认为“X 和Y 有关系”,选A .2.某公司在2016年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:根据统计资料,则( )A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系 解析:选C 月收入的中位数是15+172=16,由表可知收入增加,支出增加,故x 与y 有正线性相关关系,故选C .3.已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑i =110x i =17,则∑i =110y i 的值等于( )A .3B .4C .0.4D .40解析:选B 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过样本点的中心(x ,y ),所以y =-3+2x =-3+2×1.7=0.4,所以∑i =110y i =0.4×10=4.二保高考,全练题型做到高考达标1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:选B 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.(2016·河南省八市重点高中质量检测)为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:根据上表提供的数据,求得y 关于x 的线性回归方程为y ^=0.67x +54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )A .67B .68C .68.3D .71解析:选B 设表中模糊看不清的数据为m .因为x =10+20+30+40+505=30,又样本中心(x ,y )在回归直线y ^=0.67x +54.9上,所以y =m +3075=0.67×30+54.9,得m =68,故选B .3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12D .1解析:选D 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.4.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D ∵y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,∴可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%. 5.(2017·黄冈模拟)下列说法错误的是( )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好解析:选B 根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相关性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B .6.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2457.在2017年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本点中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40,即3.2m +n =42. 又因为m +n =20,即⎩⎪⎨⎪⎧ 3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案:108.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①9.(2017·沈阳市教学质量监测)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E ,由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率,且注射疫苗的发病率小,故判断疫苗有效.(3)K 2=100×(20×10-30×40)250×50×40×60=503≈16.667>10.828.所以至少有99.9%的把握认为疫苗有效.10.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y ^对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解:(1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又∑i =1nx 2i -n x 2=720-10×82=80, ∑i =1nx i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求线性回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 三上台阶,自主选做志在冲刺名校(2016·成都质检)某火锅店为了解气温对营业额的影响,随机记录了该店1月份中5天的日营业额y (单位:千元)与该地当日最低气温x (单位:℃)的数据,如下表:(1)求y 关于x 的回归方程y ^=b ^x +a ^;(2)判定y 与x 之间是正相关还是负相关;若该地1月份某天的最低气温为6 ℃,用所求回归方程预测该店当日的营业额;(3)设该地1月份的日最低气温X ~N (μ,σ2),其中μ近似为样本平均数x ,σ2近似为样本方差s 2,求P (3.8<X <13.4).附:①回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y ^-b ^x .②10≈3.2, 3.2≈1.8.若X ~N (μ,σ2),则P (μ-σ<X <μ+σ)=0.682 6,P (μ-2σ<X <μ+2σ)=0.954 4.解:(1)列表计算如下:这里n =5,x =1n ∑i =1n x i =355=7,y =1n ∑i =1n y i =455=9.又∑i =1nx 2i -n x 2=295-5×72=50, ∑i =1nx i y i -n x y =287-5×7×9=-28,从而b ^=-2850=-0.56,a ^=y -b ^x =9-(-0.56)×7=12.92, 故所求回归方程为y ^=-0.56x +12.92. (2)由b ^=-0.56<0知y 与x 之间是负相关;将x =6代入回归方程可预测该店当日的营业额y ^=-0.56×6+12.92=9.56(千元). (3)由(1)知μ=x =7,又由σ2=s 2=15×[(2-7)2+(5-7)2+(8-7)2+(9-7)2+(11-7)2]=10,知σ=3.2,从而P (3.8<X <13.4)=P (μ-σ<X <μ+2σ) =P (μ-σ<X <μ)+P (μ<X <μ+2σ)=12P (μ-σ<X <μ+σ)+12P (μ-2σ<X <μ+2σ) =0.818 5.。
2018届高考数学第八章概率与统计67变量间的相关关系与统计案例试题理
考点测试67 变量间的相关关系与统计案例一、基础小题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-2x +100 B.y ^=2x +100 C.y ^=-2x -100 D.y ^=2x -100答案 A解析 B 、D 为正相关,C 中y ^值恒为负,不符合题意. 2.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 ∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1ny i -y ^i2∑i =1ny i -y2=1.5. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误;D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误;根据线性回归直线一定经过样本点中心可知A正确.6.在一次对性别与说谎是否相关的调查中,得到如下数据:A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分的证据显示说谎与性别有关答案 D解析由于K2=-213×17×14×16≈0.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.7. 如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.答案D解析由散点图知呈带状区域时有较强的线性相关关系,故去掉D.8.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:根据表中所给的数据,能否在犯错误的概率不超过0.15的前提下认为这两种手术对病人又发作过心脏病的影响有差别?________________________________________________________________________.答案 1.779 不能作出这两种手术对病人又发作心脏病的影响有差别的结论解析根据列联表中的数据,可以求得K2=-268×324×196×196≈1.779,而K2<2.072,所以我们不能在犯错误的概率不超过0.15的前提下,作出这两种手术对病人又发作心脏病的影响有差别的结论.二、高考小题9.[2015·全国卷Ⅱ]根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析由柱形图,知2006年以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关,故D错误.10.[2015·福建高考]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C .12.0万元D .12.2万元 答案 B 解析 ∵x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=y -0.76x =8-0.76×10=0.4, ∴y ^=0.76x +0.4.当x =15时,y ^=0.76×15+0.4=11.8.11.[2014·江西高考]某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A .成绩B .视力C .智商D .阅读量 答案 D 解析 根据K 2=n ad -bc 2a +bc +d a +cb +d,代入题中数据计算得表1:K 2=-216×36×20×32≈0.009;表2:K 2=-216×36×20×32≈1.769; 表3:K 2=-216×36×20×32≈1.3;表4:K 2=-216×36×20×32≈23.48.∵D 选项K 2最大,∴阅读量与性别有关联的可能性最大,故选D. 12.[2014·湖北高考]根据如下样本数据得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图,由图可知b <0,a >0.故选B.13.[2014·重庆高考]已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本中心(3,3.5),代入验证得A 正确,B 错误.故选A.三、模拟小题14.[2017·大连双基测试]已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +2,则b ^的值为( )A .-12 B.12 C .-110 D.110答案 A解析 将x =3,y =5代入到y ^=b ^x +132中,得b ^=-12.故选A.15.[2016·兰州、张掖联考]对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ,解得a ^=18.16.[2016·漳州二模]下列说法错误的是( )A .在回归模型中,预报变量y 的值不能由解释变量x 唯一确定B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 答案 B解析 对于A ,在回归模型中,预报变量y 的值由解释变量x 和随机误差e 共同确定,即x 只能解释部分y 的变化,∴A 正确;对于B ,线性回归分析中,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,反之,线性相关性越弱,∴B 错误;对于C ,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;对于D ,在回归分析中,用相关指数R 2来刻画回归的效果时,R 2取值越大,说明模型拟合的效果越好,∴R 2为0.98的模型比R 2为0.80的模型拟合的效果好,D 正确.故选B.17.[2017·温州月考]为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈3.918.经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”;②若某人未做该套眼保健操,那么他有95%的可能得近视;③这套眼保健操预防近视的有效率为95%;④这套眼保健操预防近视的有效率为5%.其中所有正确结论的序号是________. 答案 ①解析 根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅是指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.18.[2016·兰州一模]从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.答案 正相关 1.7解析 由题意,知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关.当x =7时,y ^=0.3×7-0.4=1.7(千元).一、高考大题1.[2016·全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17, ∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 t i -ty i -y∑n i =1t i -t2∑ni =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1(t i -t )2=28, ∑7i =1y i -y 2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1t i -ty i -y∑7i =1t i -t2=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.2.[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑n i =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2) 令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -w y i -y ∑8i =1 w i -w 2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2),知当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果,知年利润z 的预报值 z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值,故年宣传费为46.24千元时,年利润的预报值最大. 二、模拟大题3.[2016·石家庄模拟]班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试问喜欢玩电脑游戏与认为作业多少是否有关系. 参考公式:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .参考数据:解(2)K 2=-212×10×13×9≈6.418,∵3.841<6.418,∴有95%的把握认为喜欢玩电脑游戏与认为作业多少有关.4.[2016·广东模拟]2016年1月1日起全国统一实施全面两孩政策,为了解适龄民众对放开生育二胎政策的态度,某市选取70后和80后作为调查对象,随机调查了100位,得到数据如下表:70后公民中随机抽取3位,记其中生二胎的人数为X ,求随机变量X 的分布列和数学期望;(2)根据调查的数据,是否有90%以上的把握认为“生二胎与年龄有关”,并说明理由. 参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d参考数据:解 (1)由已知得70后“生二胎”的概率为3,并且X ~B ⎝ ⎛⎭⎪⎫3,23, 所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),其分布列如下:所以E (X )=3×3=2.(2)K 2=n ad -bc 2a +bc +d a +cb +d=-275×25×45×55=10033≈3.030>2.706, 所以有90%以上的把握认为“生二胎与年龄有关”.5.[2017·成都诊断]PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物),为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某时间段车流量与PM2.5浓度的数据如下表:(2)若周六同一时段车流量是200万辆,试根据(1)求出的线性回归方程,预测此时PM2.5的浓度为多少?参考公式:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^·x .解 (1)由条件可知x =15∑i =15x i =5405=108,y =15∑i =15y i =4205=84,∑i =15(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑i =15(x i -x )2=(-8)2+(-6)2+02+62+82=200,b ^=∑i =15x i -xy i -y∑i =15x i -x2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24. (2)当x =200时,y ^=0.72×200+6.24=150.24.所以可以预测此时PM2.5的浓度约为150.24微克/立方米.6.[2017·厦门质检]某单位共有10名员工,他们某年的收入如下表:(2)从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,求ξ的分布列和期望; (3)已知员工年薪与工作年限成正线性相关关系,若某员工工作第一年至第四年的年薪分别为3万元、4.2万元、5.6万元、7.2万元,预测该员工第五年的年薪为多少.附:线性回归方程y ^=b ^x +a ^中系数计算公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b^x ,其中x ,y 表示样本均值.解 (1)平均值为10万元,中位数为6万元.(2)年薪高于5万的有6人,低于或等于5万的有4人,所以从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,ξ的可能取值为0,1,2.P (ξ=0)=C 24C 210=215,P (ξ=1)=C 14C 16C 210=815,P (ξ=2)=C 26C 210=13,所以ξ的分布列为:E (ξ)=0×15+1×15+2×3=5.(3)设x i ,y i (i =1,2,3,4)分别表示工作年限及相应年薪,则x =2.5,y =5,∑i =14(x i -x )2=2.25+0.25+0.25+ 2.25=5,∑i =14(x i -x )(y i -y )=-1.5×(-2)+(-0.5)×(-0.8)+0.5×0.6+1.5×2.2=7,b ^=∑i =14x i -xy i -y∑i =14x i -x2=75=1.4, a ^=y -b ^x =5-1.4×2.5=1.5,所以线性回归方程为y ^=1.4x +1.5. 当x =5时,y ^=8.5.故可预测该员工第五年的年薪为8.5万元.。
【推荐精选】2018届高三数学一轮复习 第十一章 统计、统计案例 第三节 变量间的相关关系、统计案例夯基提能
第三节变量间的相关关系、统计案例A组基础题组1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是( )A.>0,<0B.>0,>0C.<0,<0D.<0,>02.(2015福建,4,5分)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元3.在西非肆虐的“埃博拉病毒”的传播速度不断加快,这已经成为全球性的威胁.为考察某种埃博拉病毒疫苗的效果,现随机抽取100只小动物进行试验,得到如下列联表:附表:其中K2=.参照附表,下列结论正确的是( )A.在错误率不超过5%的前提下,可认为“小动物是否被感染与有没有服用疫苗有关”B.在错误率不超过5%的前提下,可认为“小动物是否被感染与有没有服用疫苗无关”C.有97.5%的把握认为“小动物是否被感染与有没有服用疫苗有关”D.有97.5%的把握认为“小动物是否被感染与有没有服用疫苗无关”4.已知变量x与y之间的回归直线方程为=-3+2x,若x i=17,则y i的值等于( )A.3B.4C.0.4D.405.2016年春节期间,某市物价部门对该市5家商场某商品一天的销售量及售价进行了调查,5家商场的售价x(单位:元)和销售量y(单位:件)之间的一组数据如下表所示:11通过散点图可知,销售量y与售价x之间有较好的线性相关关系,其线性回归方程是=-3.2x+,则的值为.6.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录进行比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.7.(2016赣中南五校2月联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据以上数据能否判断有97.5%的把握认为视觉和空间想象能力与性别有关?附表及公式:K2=.8.某商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中i=1,2,3,4,5,6,7.(1)以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图;(2)求回归直线方程;(结果保留到小数点后两位)参考数据:x i y i=3 245,=25,=15.43,=5 075,7()2=4 375,7=2 700(3)预测进店人数为80时商品销售的件数.(结果保留整数)B组提升题组9.(2016河南开封一模)下列说法错误的是( )A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好10.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5天的平均投篮命中率为;用线性回归分析的方法,可预测小李该月6号打6小时篮球的投篮命中率为.11.(2016河南新乡许昌平顶山二调)某校高二年级共有学生1 000 名,其中走读生750名,住宿生250名,现采用分层抽样的方法从该年级抽取100名学生进行问卷调查,得到这100名学生每天晚上有效学习时间(单位:分钟)的数据,按照以下区间分为八组:①[0,30),②[30,60),③[60,90),④[90,120),……得到频率分布直方图(部分),如图所示.(1)如果把“学生晚上有效学习时间达到两小时”作为是否充分利用时间的标准,对抽取的100名学生,完成下列2×2列联表,并判断是否有95%的把握认为学生利用时间是否充分与走读、住宿有关;附:K2=.(2)若在第①组、第②组、第③组中共抽出3人调查影响有效利用时间的原因,记抽到“有效学习时间少于60分钟”的学生人数为X,求X的分布列和数学期望.答案全解全析A组基础题组1.D 由题图可知,回归直线的斜率是正数,即>0;回归直线在y轴上的截距是负数,即<0,故选D.2.B 由统计数据表可得==10.0,==8.0,则=8.0-0.76×10.0=0.4,所以回归直线方程为=0.76x+0.4,当x=15时,=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B.3.A 由题意得,K2=≈4.762,结合附表比较得3.841<K2<5.024,所以在错误率不超过5%的前提下,可认为“小动物是否被感染与有没有服用疫苗有关”,故选A.4.B 依题意有==1.7,而直线=-3+2x一定经过样本点的中心(,),所以=-3+2=-3+2×1.7=0.4,所以y i=0.4×10=4.5.答案40解析由题意可知,==10,==8,故样本点的中心为(10,8),将其代入线性回归方程=-3.2x+,可解得=40.6.答案①解析∵3.918≥3.841,P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.7.解析由2×2列联表中数据得K2的观测值k= =≈5.556>5.024,所以有97.5%的把握认为视觉和空间想象能力与性别有关.8.解析(1)散点图如图所示.(2)因为x i y i=3 245,=25,=15.43,=5 075,7()2=4 375,7=2 700.所以==-=-4.07,所以回归直线方程是=0.78x-4.07.(3)进店人数为80时,商品销售的件数为y=0.78×80-4.07≈58件.B组提升题组9.B 根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据拟合程度好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好;二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.10.答案0.5;0.53解析这5天的平均投篮命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5.利用相关公式计算易得=0.01,=0.47,∴线性回归方程为=0.01x+0.47,当x=6时,=0.01×6+0.47=0.53.11.解析(1)25K2=≈5.556.由于K2>3.841,所以有95%的把握认为学生利用时间是否充分与走读、住宿有关.(2)设第i组的频率为P i(i=1,2,…,8),则由题图可知,P1=×30=,P2=×30=,P3=×30=,可得第①组1人,第②组4人,第③组10人. 因为X的所有可能取值为0,1,2,3,P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==.所以X的分布列为E(X)=0×+1×+2×+3×=1.。
2018年高考数学(文)一轮复习文档第十章统计、统计案例第3讲变量间的相关关系、统计案例Word版含答案
第3讲 变量间的相关关系、统计案例, )1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.非线性回归分析如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.4.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法 (1)求线性回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑ni =1x 2i ,∑ni =1x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 D2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .0.1%B .1%C .99%D .99.9%C 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.教材习题改编 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y ^=2.84x +9.50,地级市y ^=2.52x +8.35, 县城y ^=2.31x +6.76,农村y ^=0.42x +1.80,则四个区域中,大学入学率年增长率最快的区域是( )A .省城B .地级市C .县城D .农村A 四条回归直线,斜率最大的是省城,故选A.4.对于下列表格所示的五个散点,已知求得的回归直线方程为y ^=0.8x -155.则实数m 的值为( )A.8 B .8.2 C .8.4D .8.5A 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.5.下面是一个2×2列联表则表中a 、b 处的值分别为________. 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, 52、54相关关系的判断(1)(2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【解析】 (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)由题图①可知,各点整体呈递减趋势,x 与y 负相关;由题图②可知,各点整体呈递增趋势,u 与v 正相关.【答案】 (1)C (2)C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关:r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )D 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A 由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.(2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 010,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x·y∑i =1nx 2i -n x2,a ^=y -b ^x )【解】 (1) t -=3,z -=2.2,∑i =15 t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 010,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 010)-1.4,即y ^=1.2x -2 408.4. (3)因为y ^=1.2×2 020-2 408.4=15.6,所以预测到2020年年底,该地储蓄存款额可达15.6千亿元.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.回归直线方程恒过点(x -,y -).角度一 求回归直线方程1.某企业每天由空气污染造成的经济损失y (单位:元)与空气污染指数API(记为x )的数据统计如下:(1)求出y 与x 的线性回归方程y ^=b ^x +a ^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失.附:回归方程中⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x ) (y i-y )∑i =1n(x i-x )2a ^=y -b ^x(1)x =14×(150+200+250+300)=225,y =14×(200+350+550+800)=475,∑i =14(x i -x)(y i -y )=(-75)×(-275)+(-25)×(-125)+25×75+75×325=50000,∑i =14(x i -x )2=(-75)2+(-25)2+252+752=25×25×20=12 500,b ^=4,a ^=y -b ^x =475-4×225=-425,所以y ^=4x -425.(2)当x =800时,y ^=2 775.角度二 利用回归方程进行预测2.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4, 所以当x =15时, y ^=0.76×15+0.4=11.8(万元).独立性检验(2017·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E , 由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),n=a+b+c+d(1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”., )——回归直线方程的求解与运用(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =x ,先建立y 关于w 的线性回归方程. 由于=108.81.6=68,(4分)c ^=y -d ^w =563-68×6.8=100.6,(5分)所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (6分)(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. (9分)②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. (12分)(1)求解本题的思路①根据散点图中的点的分布规律作出判断.②若x ,y 为线性相关,可直接求其线性回归方程,若x ,y 为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.③利用②中求出的回归方程求最大预报值. (2)求解本题渗透的思想①通过散点图判断回归类型,体现了数形结合思想.②通过换元法将问题转化为线性回归分析,体现了化归转化思想., )1.已知变量x ,y 呈线性相关关系,线性回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系A 随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D 由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:为决策产品的市场指导价,用最小二乘法求得销售量y 与售价x 之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5B x -=4+4.5+5.5+64=5,y -=12+11+10+94=10.5,因为回归直线过样本点的中心, 所以a ^=10.5+1.4×5=17.5.故选B.4.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D 相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.5.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%D 因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”A 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为 2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.0.2458.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性回归方程y ^=a ^+b ^x 中b ^=-2,据此预测当气温为5℃时,用电量的千瓦·时数约为________.因为回归直线经过样本中心点,故由已知数表可得x -=10,y -=30,即(10,30)在回归直线上,代入方程可得a ^=50,即回归直线方程为y ^=50-2x ,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.409.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列2×2列联表.(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析. (1)2×2列联表如下:(2)因为K 2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.(1)由表中数据计算得,t -=5,y -=4,∑i =15(t i -t -)(y i -y -)=8.5,∑i =15(t i -t -)2=10,b ^=∑i =15(t i -t) (y i -y )∑i =15(t i -t )2=0.85,a ^=y --b ^t -=-0.25.所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.1012.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图; (2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,∑i =1n(x i -x -)(y i -y -)=381,∑i =1n(x i -x -)2=10.(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =1n(x i -x) (y i -y )∑i =1n(x i -x )2=38110=38.1, a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.13.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=12b =a +c解得b =0.01,因为成绩在内的有6人,所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48, 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得K 2=60×(22×4-26×8)48×12×30×30≈1.666 7<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.。
【高三数学试题精选】2018届高考文科总复习变量间的相关关系课时检测试卷(含答案)
2018届高考文科总复习变量间的相关关系课时检测试卷
(含答案)
5
时跟踪检测 (五十七) 变量间的相关关系统计案例
一抓基础,多练小题做到眼疾手快
1.(2018 重庆适应性测试)为了判定两个分类变量X和是否有关系,应用独立性检验法算得2的观测值为5,又已知P(2≥3.841)=0.05,P(2≥6.635)=0.01,则下列说法正确的是( ) A.有95%的把握认为“X和有关系”
B.有95%的把握认为“X和没有关系”
c.有99%的把握认为“X和有关系”
D.有99%的把握认为“X和没有关系”
解析选A 依题意,2=5,且P(2≥3.841)=0.05,因此有95%的把握认为“X和有关系”,选A.
2.某司在2018年上半年的收入x(单位万元)与月支出(单位万元)的统计如表所示
月份123456
收入x12.314.515.017.019.820.6
支出5.635.755.825.896.116.18
根据统计,则( )
A.月收入的中位数是15,x与有正线性相关关系
B.月收入的中位数是17,x与有负线性相关关系
c.月收入的中位数是16,x与有正线=4.
二保高考,全练题型做到高考达标
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )。
2018年高考数学总复习 10.3 变量间的相关关系、统计案例演练提升同步测评 文 新人教B版
10.3 变量间的相关关系、统计案例A 组 专项基础训练(时间:40分钟)1.(2017·豫东、豫北十所名校联考)根据如下样本数据:得到的回归直线方程为y =bx +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位 【解析】 依题意得,a +b -25=0.9,故a +b =6.5①,又样本点的中心为(5,0.9),故0.9=5b +a ②,联立①②,解得b =-1.4,a =7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位.【答案】 B2.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=(a +b )(c +d )(a +c )(b +d )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”【解析】 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.【答案】 A3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x A .y =x -1 B .y =x +1 C .y =88+12x D .y =176【解析】 由题意知D 项明显不符合实际,排除;且x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ), 所以将(176,176)代入A ,B ,C 中检验,只有C 成立. 【答案】 C4.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=bx+a 中的b =0.8(用最小二乘法求得),那么,当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元【解析】 依题意得x =4.5,y =3.5,由回归直线必过样本中心点得a =3.5-0.8×4.5=-0.1.当x =6时,y ^=0.8×6-0.1=4.7.【答案】 B5.(2017·郑州预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23【解析】 依题意得x =16×(4+5+6+7+8+9)=132,y =16×(90+84+83+80+75+68)=80,又回归直线必经过样本中心点(x ,y ),于是有a =80+4×132=106,不等式4x +y-106<0表示的是回归直线的左下方区域.注意到在6个样本数据中,共有2个样本数据位于回归直线的左下方区域,因此所求的概率等于13.【答案】 B6.(2017·济宁二模)已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.【解析】 回归直线y ^=4x +242必过样本点的中心(x ,y ),而x =2+3+4+5+65=4,y=251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.【答案】 2627.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.5 ℃时,用电量的千瓦·时数约为________.【解析】 因为回归直线经过样本中心点,故由已知数表可得x =10,y =30,即(10,30)在回归直线上,代入方程可得a =50,即回归直线方程为y =50-2x ,故可预测当气温为5 ℃时,用电量的度数约为50-2×5=40.【答案】 408.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.【解析】 由题意知,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.【答案】 95%9.(2017·宁夏银川一中期末)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)y =bx +a . (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)10.(2017·邯郸摸底)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .【解析】 (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.(2)有.由已知数据可求得K 2=10×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设4名常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,则任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽到一男一女的概率是P =815.B 组 专项能力提升 (时间:30分钟)11.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位; ③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.以上,错误结论的个数为( ) A .0 B .1 C .2 D .3【解析】 方差反应一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;在线性回归方程y ^=3-5x 中,变量x 增加1个单位时,y 平均减小5个单位,故②不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,|r |越接近于1,相关程度越强,故③不正确;对分类变量x 与y 的随机变量的观测值K 2来说,K 2越大,“x 与y 有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.【答案】 C12.(2017·兰州、张掖联考)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116 B.18C.14D.12【解析】 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18. 【答案】 B13.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”【解析】 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”. 【答案】 C14.某中学对“学生性别和是否喜欢看NBA 比赛”作了一次调查,其中男生人数是女生人数的2倍,男生喜欢看NBA 的人数占男生人数的56,女生喜欢看NBA 的人数占女生人数的13.(1)若被调查的男生人数为n ,根据题意建立一个2×2列联表;(2)若有95%的把握认为是否喜欢看NBA 和性别有关,求男生至少有多少人? 附:K 2=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ),【解析】 (1)(2)K 2=3n 2⎝ ⎛⎭⎪⎫5n 6·n 3-n 6·n 6n ·n 2·n 2·n =38n .若有95%的把握认为是否喜欢看NBA 和性别有关, 则K 2>3.841,即38n >3.841,n >10.24.∵n 2,n6为整数,∴n 最小值为12. 即:男生至少12人.15.(2016·课标全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.。
2018届高考数学二轮复习 变量间的相关关系与统计案例专题
变量间的相关关系与统计案例专题[基础达标] (30分钟 45分) 一、选择题(每小题5分,共30分)1y (件)与销售价格x (元/件)存在线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n ),用最小二乘法建立的回归方程为y ^=-10x+200,则下列结论正确的是 ( )A .y 与x 具有正的线性相关关系B .若r 表示变量y 与x 之间的线性相关系数,则r=-10C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D 【解析】x 的系数为-10,y 与x 具有负相关关系,相关系数不等于回归方程x 的系数;当销售价格为10元时,y ^=-10×10+200=100,此时得到的y 值不是准确值,而是一个估计值,即销售量为100件左右.2.对变量x ,y 有观测数据(x i ,y i )(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i=1,2,…,10),得散点图2.由这两个散点图可以判断 ( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关C 【解析】由散点图可知,y 随着x 的增大而减小,v 随着u 的增大而增大,所以变量x 与y 负相关,u 与v 正相关.3得到的回归直线方程为y ^=bx+a.若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就 ( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位 B 【解析】依题意,得a +b -25=0.9,故a+b=6.5 ①,又样本点的中心为(5,0.9),故0.9=5b+a ②,联立①②,解得b=-1.4,a=7.9,则y ^=-1.4x+7.9,可知当x 每增加1个单位时,y 就减少1.4个单位.4“学生的性别”和“对待某一活动的支持态度”是否有关,运用2×2列联表进行独立性检验,经计算K 2=7.069,则认为“学生性别与支持活动有关系”的犯错误的概率不超过 ( )A .0.1%B .1%C .99%D .99.9%附:B 【解析】因为7.069>6.635,所以至少有99%的把握认为“学生性别与支持活动有关系”,即认为“学生性别与支持活动有关系”出错的概率不超过1%.5x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x+132,则b ^的值为( )A .-12B .12C .-110D .110A 【解析】将x=3,y=5代入y ^=b ^x+132中,得b ^=-12.6.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) 附表:P (K 2≥k 0) 0.050 0.010 k 03.841 6.635则认为多看电视与人冷漠有关系的把握大约为 ( )A .99%B .97.5%C .95%D .90%A 【解析】可计算得K 2=168×(68×38-20×42)2110×58×88×80≈11.377>6.635,因此有99%的把握认为多看电视与人冷漠有关. 二、填空题(每小题5分,共5分)7.下表是某厂1~4月份用水量(单位:百吨)的一组数据,由其散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是 .参考公式:b ^=∑i=1nx i y i -n xy∑i=1nx i2-nx 2,a ^=y −b ^x .y ^=-0.7x+5.25 【解析】由表中数据求得x =2.5,y =3.5,代入回归系数计算公式得b ^=∑i =14x i y i -n xy∑i=14x i 2-nx 2=4.5+8+9+10-4×2.5×3.51+4+9+16-4×2.5=-0.7,a ^=y −b ^x =3.5+0.7×2.5=5.25,所以其线性回归方程为y ^=-0.7x+5.25. 三、解答题(共10分)8.(10分(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:(1)根据以上数据,估计该企业得分大于45分的员工人数;(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:(3)根据上述表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) 参考数据:【解析】(1)从表中可知,30名员工中有8名得分大于45分,所以任选一名员工,他(她)的得分大于45分的概率是830=415,所以估计此次调查中,该单位约有900×415=240名员工的得分大于45分. (2)由题意可得下列表格:(3)假设H 0:“性别”与“工作是否满意”无关, 根据表中数据,求得K 2的观测值为30×(12×11-3×4)215×15×16×14≈8.571>6.635,查表得P (K 2≥6.635)=0.010.所以能在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满意”有关.[高考冲关] (20分钟 45分)1.(5分x ,y 有一组观测数据(x i ,y i )(i=1,2,…,8),其回归直线方程是y ^=13x+a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是 ( )A .116B .18C .14D .12B 【解析】依题意可知样本中心点为 34,38 ,则38=13×34+a ^,解得a ^=18. 2.(5分)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.两个班同学的成绩(百分制)的茎叶图如图所示:按照大于或等于80分为优秀,80分以下为非优秀统计成绩.以下判断正确的是( )附:A .A 班环保知识的测试成绩优于B 班的可能性为99% B .可以认为环保知识测试成绩的95%由所学专业决定C .有把握认为A 班学生环保知识测试成绩优秀的概率为95%D .有95%以上的把握认为环保知识测试成绩与所学专业有关 D 【解析】由茎叶图建立2×2列联表,代入公式得40×(14×13-42)221×19×20×20=28057≈4.912>3.841,则有95%以上的把握认为环保知识测试成绩与所学专业有关.3.(5分)大学生小赵计划利用假期进行一次短期打工体验,已知小赵想去某工厂打工,老板告知每天上班的时间(单位:小时)和工资(单位:元),如下表所示:根据计算,小赵得知这段时间每天打工工资与每天工作时间满足的线性回归方程为y ^=11.4x+5.9,若小赵在假期内打5天工,工作时间(单位:小时)分别为8,8,9,9,12,则这5天小赵获得工资的方差为 ( )A .112B .240C .376D .484C 【解析】x 的平均值为x =396=6.5,而回归直线一定过点(x ,y ),故y =11.4×6.5+5.9=80,所以y =30+40+60+90+120+m6=80,故m=140,则小赵工作5天的工资的平均值为90×2+120×2+1405=112,方差为s 2=15[(90-112)2×2+(120-112)2×2+(140-112)2]=376.4.(5分)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位,y 平均增加5个单位;③回归直线y ^=b ^x+a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99.9%的把握确认这两个变量有关系.其中错误说法的个数是 .本题可以参考独立性检验临界值表1 【解析】将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,①正确;设有一个回归方程y ^=3-5x ,变量x 增加一个单位,y 平均减少5个单位,②错误;回归直线y ^=b ^x+a ^必过(x ,y ),③正确;在一个2×2列联表中,由计算得K 2=13.079,则有99.9%的把握确认这两个变量有关系,④正确.5.(12分)2016年9月20日是第28个全国爱牙日.某区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该区六年级800名学生进行检查,按患龋齿和不患龋齿分类,得汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.(1)能否在犯错概率不超过0.001的前提下,认为该区学生的常吃零食与患龋齿有关系?(2)4名区卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理.求工作人员甲分到负责数据收集组,工作人员乙分到负责数据处理组的概率. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )【解析】(1)由题意可得列联表:总计200 600 800因为K 2=800(60×500-100×140)2160×640×200×600≈16.667>10.828,所以能在犯错概率不超过0.001的前提下,认为该区学生常吃零食与患龋齿有关系.(2)设其他工作人员为丙和丁,4人分组的所有情况如表:分组的情况总共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的情况有两种,所以工作人员甲负责收集数据且工作人员乙负责处理数据的概率是P=26=13. 6.(13分产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据:(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x+a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】(1)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x i 2=32+42+52+62=86,x =4.5,y =3.5,故b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y −b ^x =3.5-0.7×4.5=0.35,故y ^=0.7x+0.35.(2)将x=100代入方程,得y=100×0.7+0.35=70.35吨,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨).。
最新-2018年高考数学一轮复习 183 变量的相关性与统计
2018年高考数学一轮复习精品教学案12.3 变量的相关性与统计案例(新课标人教版,教师版)【考纲解读】 1.变量的相关性:(1)会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例:(1)了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(2)独立性检验:①了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.理科② 假设检验:了解假设检验的基本思想、方法及其简单应用. ③ 回归分析:了解回归的基本思想、方法及其简单应用.【考点预测】高考对此部分内容考查的热点与命题趋势为:1.统计与统计案例是历年来高考重点内容之一,选择题、填空题与解答题三种题型都会考查,难度一般不大,在考查统计与统计案例的同时,又考查转化与化归思想和分类讨论等数学思想,以及分析问题与解决问题的能力.2.2018年的高考将会继续保持稳定,坚持考查统计与统计案例,命题形式会更加灵活,特别要注意新课标中新增的内容. 【要点梳理】1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则⎩⎪⎨⎪⎧b ^=∑i =1n i-xi-y∑i =1ni-x 2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^ x .其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数r=∑i =1ni-xi-y∑i =1ni-x2∑i =1ni-y2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差. (2)相关指数用相关指数R 2来刻画回归的效果,其计算公式是:R 2= ,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2越接近于1,表示回归效果越好. 6.独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.(2)列出的两个分类变量的频数表,称为列联表.(3)一般地,假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为: 2×2列联表K 2=n ad a +ba +c c +db +d(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“x 与y 的关系”.这种利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验. 【例题精析】考点一 变量的相关性例1.(2018年高考湖南卷文科5)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x-85.71,则下列结论中不正确...的是( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1cm ,则其体重约增加0.85kgD.若该大学某女生身高为170cm ,则可断定其体重必为58.79kg【变式训练】1.(2018年高考湖南卷文科5)通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030)7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得,附表:参照附表,得到的正确结论是( )A . 有99%以上的把握认为“爱好该项运动与性别有关”B . 有99%以上的把握认为“爱好该项运动与性别无关”C . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 【答案】A【解析】由27.8 6.635K ≈>,而2( 6.635)0.010P K ≥=,故由独立性检验的意义可知选A.考点二 回归分析例2.(2018年高考山东卷文科8)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元 (B)65.5万元 (C)67.7万元 (D)72.0万元【名师点睛】本小题主要考查线性回归直线方程的求解,以及由回归分析进行估计,考查了学生对数据处理的基本方法和能力,考察运用统计知识解决简单实际应用问题能力和运算求解能力.【变式训练】2. (2018年高考安徽卷文科20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:=+;(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2018年的粮食需求量。
【精品】2018届高三数学 第73练 变量间的相关关系及统计案例练习
第73练 变量间的相关关系及统计案例1.(2016·山西四校联考)已知x 、y 的取值如下表所示,从散点图分析,y 与x 线性相关,且y ^=0.8x +a ^,则a ^等于( )A.0.8 C .1.2D .1.52.通过随机询问110名大学生是否爱好某项运动,得到列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”3.已知数组(x 1,y 1),(x 1,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件4.(2016·辽宁五校联考)某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的线性回归方程y =bx +a 中的b 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( ) A .84分钟 B .94分钟 C .102分钟D .112分钟5.以下四个命题中:①在回归分析中,可用相关指数R 2的值判断拟合的效果,R 2越大,模型的拟合效果越好; ②两个随机变量的线性相关性越强,相关系数的绝对值越接近1;③若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2;④对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越大.其中真命题的个数为( ) A .1 B .2 C .3D .46.已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%以上的把握认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表:A .99%B .97.5%C .95%D .90%附:K 2=n(ad -bc )2(a +b )(c +d )(a +c )(b +d ).9.(2017·宜昌调研)为了均衡教育资源,加大对偏远地区的教育投入,某机构调查了某地若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元)的情况.调查显示年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.15x +0.2.由线性回归方程可知,家庭年收入每增加1万元,年教育支出约增加________万元.10.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:则________(附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).11.得到如下数据:由表中数据,求得线性回归方程为y =-4x +a ,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.12.随着经济的发展,某城市的市民收入逐年增长,表1是该城市某银行连续五年的储蓄存款额(年底余额):表1y -5,得到表2:表2(1)z 关于t ________; (2)用所求回归方程预测到2020年年底,该银行储蓄存款额可达________千亿元.(附:线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -y-∑ni =1x 2i -n x2,a ^=y -b ^x )答案精析1.B [由题意,x =0+1+3+44=2,y =0.9+1.9+3.2+4.44=2.6,而样本点的中心(x ,y )必在回归直线上,代入得2.6=0.8×2+a ^,从而得a ^=1.]2.A [因为7.8>6.635,所以有99%以上的把握认为“爱好该项运动与性别有关”.]3.B [x 0,y 0为这10组数据的平均值,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均值),求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.]4.C [由表中数据得x =20,y =30,又b ^=0.9,则30=0.9×20+a ^,解得a ^=12,所以y ^=0.9x +12.将x =100代入线性回归方程,得y ^=0.9×100+12=102,所以加工100个零件所需要的加工时间约为102分钟.]5.B [由题意得,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,所以③不正确;对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越小,所以④不正确.其中①、②是正确的,故选B.] 6.C [由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·yi =16x 2i -6x 2=58-6×72×13691-6×(72)2=57, a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.]7.B [一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>6.635,故有99%以上的把握认为这两个变量间有关系,④正确.故选B.] 8.A [由公式可计算得K 2≈11.377>6.635.故选A.]9.0.15解析 回归直线的斜率为0.15,所以家庭收入每增加1万元,年教育支出约增加0.15万元. 10.没有解析 由于K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=200×(80×40-40×40)2120×80×120×80=509<6.635,故没有99%以上的把握认为“生二胎与性别有关”. 11.13解析 由已知得x =6.5,y =80,将(x ,y )代入y ^=-4x +a ^,解得a ^=106.将表格中的(4,90),(5,84),(6,83),(7,80),(8,75),(9,68),依次代入线性回归方程y ^=-4x +106,得在回归直线左下方的点为(5,84),(9,68),共2个.故在这些样本点中任取一点,则它在回归直线左下方的概率为13.12.z ^=1.2t -1.4 y ^=1.2x -2 408.4 15.6解析 (1)t =3,z =2.2,∑5i =1t i z i =45, ∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,∴z ^=1.2t -1.4.将t =x -2 010,z =y -5代入z =1.2t -1.4,得y -5=1.2(x -2 010)-1.4,故y ^=1.2x -2 408.4.(2)∵当x =2 020时,y ^=1.2×2 020-2 408.4=15.6, ∴预测到2020年年底,该银行储蓄存款额可达15.6千亿元.。
2018版高考数学复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文新人教版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 新人教版1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1x i -x y i-y∑ni =1 x i-x2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n ad -bc a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )1.(2015·湖北)已知变量x 和y 满足关系y ^=-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y+a ^(b ^>0),所以z ^=-0.1b ^x +b ^+a ^,-0.1b ^<0,所以x 与z 负相关.故选C. 2.(教材改编)下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.3.(2017·重庆质检)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.4.(2017·湖南三校联考)某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a ^中的b ^=-4,据此模型预测零售价为15元时,每天的销售量为( )A .51个B .50个C .49个D .48个 答案 C解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X 和Y 是否有关系,通过查阅下表来确定“X 和Y 有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K 2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案 95解析 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用21e c xy c =拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21ec xy c =拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32= 2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:K2=n ad-bc2a +b c+d a+c b+d(其中n=a+b+c+d)解(1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中的数据,可以求得K2=-250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华(1)比较几个分类变量有关联的可能性大小的方法①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.(2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K2=n ad-bc2a +b a+c b+d c+d计算K2的观测值k.③比较k与临界值的大小关系,作统计推断.(2017·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:K 2=n ad -bc 2a+bc +d a +cb +d解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得K 2的观测值为 k =800×-2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y ^=3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:从所得散点图中分析可知:y 与x 线性相关,且y ^=0.95x +a ^,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y ^=0.95x +a ^,∴5.25=0.95×4+a ^,∴a ^=1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安月考)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:K 2=n ad -bc 2a +bc +d a +cb +d(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 答案 C 解析 因为K 2=-220×20×21×19≈4.912,3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确;∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据, 得到K 2=-255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均数)求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是________. 答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ^ ,解得a ^=18. 9.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想? 解 (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1 092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x y∑5i =2x 2i -4x 2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507, 此时|1507-22|<2;当x =6时,y ^=187×6-307=787,此时|787-12|<2.故所得的线性回归方程是理想的.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n ad-bc2a +b c+d a+c b+d.解(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得K2=-275×225×210×90=10021≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.(2016·山西四校联考)已知x 、y 的取值如下表所示,从散点图分析,y 与x 线性相关,且y ^=0.8x +a ^,则a ^等于( )A.0.8 C .1.2D .1.52.通过随机询问110名大学生是否爱好某项运动,得到列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”3.已知数组(x 1,y 1),(x 1,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件4.(2016·辽宁五校联考)某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的线性回归方程y =bx +a 中的b 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( ) A .84分钟 B .94分钟 C .102分钟D .112分钟5.以下四个命题中:①在回归分析中,可用相关指数R 2的值判断拟合的效果,R 2越大,模型的拟合效果越好; ②两个随机变量的线性相关性越强,相关系数的绝对值越接近1;③若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2;④对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越大.其中真命题的个数为( ) A .1 B .2 C .3D .46.已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%以上的把握认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表:A .99%B .97.5%C .95%D .90%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).9.(2017·宜昌调研)为了均衡教育资源,加大对偏远地区的教育投入,某机构调查了某地若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元)的情况.调查显示年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.15x+0.2.由线性回归方程可知,家庭年收入每增加1万元,年教育支出约增加________万元. 10.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:则________(附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).11.得到如下数据:由表中数据,求得线性回归方程为y =-4x +a ,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.12.随着经济的发展,某城市的市民收入逐年增长,表1是该城市某银行连续五年的储蓄存款额(年底余额):表1-5,得到表2:表2(1)z 关于t ________; (2)用所求回归方程预测到2020年年底,该银行储蓄存款额可达________千亿元.(附:线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -y-∑ni =1x 2i -n x2,a ^=y -b ^x )答案精析1.B [由题意,x =0+1+3+44=2,y =0.9+1.9+3.2+4.44=2.6,而样本点的中心(x ,y )必在回归直线上,代入得2.6=0.8×2+a ^,从而得a ^=1.]2.A [因为7.8>6.635,所以有99%以上的把握认为“爱好该项运动与性别有关”.]3.B [x 0,y 0为这10组数据的平均值,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均值),求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.]4.C [由表中数据得x =20,y =30,又b ^=0.9,则30=0.9×20+a ^,解得a ^=12,所以y ^=0.9x +12.将x =100代入线性回归方程,得y ^=0.9×100+12=102,所以加工100个零件所需要的加工时间约为102分钟.]5.B [由题意得,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,所以③不正确;对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越小,判断“x 与y 有关系”的把握程度越小,所以④不正确.其中①、②是正确的,故选B.]6.C [由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y i =16x 2i -6x 2=58-6×72×13691-6×(72)2=57, a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.]7.B [一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>6.635,故有99%以上的把握认为这两个变量间有关系,④正确.故选B.] 8.A [由公式可计算得K 2≈11.377>6.635.故选A.]9.0.15解析 回归直线的斜率为0.15,所以家庭收入每增加1万元,年教育支出约增加0.15万元. 10.没有解析 由于K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=200×(80×40-40×40)2120×80×120×80=509<6.635,故没有99%以上的把握认为“生二胎与性别有关”. 11.13解析 由已知得x =6.5,y =80,将(x ,y )代入y ^=-4x +a ^,解得a ^=106.将表格中的(4,90),(5,84),(6,83),(7,80),(8,75),(9,68),依次代入线性回归方程y ^=-4x +106,得在回归直线左下方的点为(5,84),(9,68),共2个.故在这些样本点中任取一点,则它在回归直线左下方的概率为13.12.z ^=1.2t -1.4 y ^=1.2x -2 408.4 15.6解析 (1)t =3,z =2.2,∑5i =1t i z i =45, ∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,∴z ^=1.2t -1.4.将t =x -2 010,z =y -5代入z =1.2t -1.4,得y -5=1.2(x -2 010)-1.4,故y ^=1.2x -2 408.4.(2)∵当x =2 020时,y ^=1.2×2 020-2 408.4=15.6, ∴预测到2020年年底,该银行储蓄存款额可达15.6千亿元.。