高考数学(文)大一轮复习检测:10.3变量间的相关关系、统计案例(含答案)
高三数学(文)一轮复习课件:变量间的相关关系、统计案例
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
高考数学一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例真题演练集训 理 新人
系、统计案例真题演练集训理新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学一轮复习第十章统计与统计案例10.3 变量间的相关关系、统计案例真题演练集训理新人教A版的全部内容。
关系、统计案例真题演练集训理新人教A版1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8。
28.610.011。
311.9支出y(万元) 6.27。
58。
08.59.8根据上表可得回归直线方程y,=错误!x+错误!,其中错误!=0.76,错误!=错误!-错误!错误!。
据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11。
4万元 B.11.8万元C.12。
0万元 D.12。
2万元答案:B解析:由题意知,x=错误!=10,错误!=错误!=8,∴错误!=8-0。
76×10=0。
4,∴当x=15时,错误!=0。
76×15+0.4=11。
8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:错误!i=9.32,错误!i y i=40。
高三数学一轮复习:0104变量间相关关系、统计案例
例 4. 随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,
易于采集各种药用昆虫.已知一只药用昆虫的产卵数 y(单位:个)与一定范围内的温度 x(单位:℃)有关,
其中拟合效果最好的模型是( )
A.模型 1 的相关指数 R2 为 0.98
B.模型 2 的相关指数 R2 为 0.80
C.模型 3 的相关指数 R2 为 0.50
D.模型 4 的相关指数 R2 为 0.25
补 5 下列命题中正确的为( ) A.线性相关系数 r 越大,两个变量的线性相关性越强 B.线性相关系数 r 越小,两个变量的线性相关性越弱 C.残差平方和越小的模型,模型拟合的效果越好 D.用相关指数 R2 来刻画回归效果,R2 越小,说明模型的拟合效果越好
程,再对被选取的 2 组数据进行检验.
(1)若选取的是 3 月 2 日与 30 日这 2 组的数据,请根据 3 月 7 日、15 日和 22 日这 3 组的数据,求出 y 关
于 x 的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 个,则认为得到的线性回归方
程是可靠的,试问(1)中所得的线性回归方程是否可靠?
(2)由(1)知,y 关于 x 的线性回归方程为y^=52x-3.
当 x=10 时,y^=52×10-3=22,|22-23|<2,
当 x=8 时,y^=52×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程y^=52x-3 是可靠的.
例 5 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t) 和年利润 z(单位:千元)的影响,对近 8 年的年宣传费 xi 和年销售量 yi(i=1,2,…,8)的数据作了初步处理, 得到下面的散点图及一些统计量的值.
高考数学一轮复习10.3统计案例
2013版高考数学一轮复习精品学案:第十章 统计、统计案例10.3统计案例【高考新动向】一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用. 二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题.【考纲全景透析】1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差.(3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑ 其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①12211()();()()niii n niii i x x y y r x x y y ===--=--∑∑∑②当0r >时,表明两个变量正相关; 当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii y y =-∑(2)残差数据点和它回归直线上相应位置的差异()i i y y -是随机误差的效应,称i i i e y y =-为残差.(3)残差平方和21()niii y y =-∑.(4)相关指数22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcdc d +总计a c +b d + a bcd +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值.【热点难点精析】(一)线性回归分析 ※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程y bx a =+.(1)线性回归方程中的截距a 和斜率b 都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程y bx a =+中的b 表示x 增加1个单位时y 的变化量为b . (3)可以利用回归方程y bx a =+预报在x 取某一个值时y 的估计值. 3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱. 4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程. (3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用分工求出回归方程进行回归分析. 解答:(1)1010102222111101101022221166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,1044842.4104476.26879.72(4479444622.4)(44941.93449.3.4)661(10)(10)iii i i i i i ii i i i i x y x y x y x y x y x yr x x y y =========≈===--⨯==----∑∑∑∑∑∑0.804.1.5764≈所以y x 与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i ii i i x y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.ay bx =-=-⨯≈ 故所求的回归方程为:ˆ0.464635.97yx =+. (3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析 ※相关链接※1.非线性回归模型:当回归方程不是形如y bx a =+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n n x y x y x y ,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b ==和,其中a b 和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()nni i i i i i Qy yQ y y===-=-∑∑和; (3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e =的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=. (3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,a b c d a b c d a c ====+=+=+=代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
2020届高三理数一轮讲义:10.3-变量间的相关关系与统计案例(含答案)
第3节 变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知 识 梳 理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -nx -y-∑n i =1x 2i -nx-2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=1-∑n i =1 (y i -y ^i )2∑ni =1(y i -y -)2.其中∑n i =1(y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(+d ),其中n =a +b +c +d 为样本容量.[微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验D.概率解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修2-3P85讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80 C.模型3的相关指数R 2为0.50 D.模型4的相关指数R 2为0.25解析 在两个变量y 与x 的回归模型中,它们的相关指数R 2越近于1,模拟效果越好,在四个选项中A 的相关指数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·焦作模拟)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A.6.4B.6.25C.6.55D.6.45解析 由题意知x -=3+4+5+6+75=5,y -=2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25,所以当x =8时,y ^=0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析 对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D 不正确.答案 D6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动没有关系”()A.99.9%B.99%C.1%D.0.1%解析因为 6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.答案 C考点一相关关系的判断【例1】 (1)观察下列各图形,其中两个变量x,y具有相关关系的图是( )A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲B.乙C.丙D.丁解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性. 答案 (1)C (2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r |越趋近于1相关性越强.当残差平方和越小,相关指数R 2越大,相关性越强.若r >0,则正相关;r <0时,则负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.【训练1】 (1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A.x 与y 正相关,x 与z 负相关 B.x 与y 正相关,x 与z 正相关 C.x 与y 负相关,x 与z 负相关 D.x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.解析 (1)由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①② 考点二 线性回归方程及应用【例2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -·y-∑n i =1x 2i -nx-2,a ^=y --b ^x -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4,得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2, (17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 考点三 独立性检验【例3】 (2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A)=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断.【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%[思维升华]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.独立性检验是根据K2的值判断两个分类变量有关的可信程度.[易错防范]1.求回归方程,关键在于正确求出系数a^,b^ ,由于a^ ,b^ 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r<r4<0<r3<r1,故选A.2答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A.①②B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 C.在此次调查中有99.5%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y ^=-3.7 C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.有95%以上的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a^=40-(-2)×10=60,y ^=-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度. 答案 687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________. 附表:解析 由列联表计算K 2的观测值k =50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025. 答案 0.0258.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析 由题图知x -=0+1+3+44=2, y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8.答案0.8三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P=610=0.6.(2)由题意,得K2的观测值为k=80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>5.024.又P(K2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”. 10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -.解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5,y -=15×(3+3.5+4+6.5+8)=5,b ^=∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126, a ^=y --b ^x -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为y ^=2126x +2526.(3)当x =10时,y ^=2126×10+2526=23526, ∴预测工作年限为10年的推销员的年推销金额为23526万元. 能力提升题组(建议用时:20分钟)11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C. 答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( ) A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确; 在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确; 在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎨⎧3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.答案 1014.(2018·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助 1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).其中k i =log 2 y i ,k -=15∑5i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑n i =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑5i =1 (x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x ,所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3, 所以C 1=2-0.3=0.8,所以y =0.8×2x 10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=。
高考数学一轮复习学案:11.3 变量间的相关关系、统计案例(含答案)
高考数学一轮复习学案:11.3 变量间的相关关系、统计案例(含答案)11.3变量间的相关关系变量间的相关关系..统计案例统计案例最新考纲考情考向分析1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3.了解独立性检验的基本思想.方法及其初步应用4.了解回归分析的基本思想.方法及简单应用.回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择.填空题中也会出现主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.1两个变量的线性相关1正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关2负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关3线性相关关系.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程1最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法2回归方程方程ybxa是两个具有线性相关关系的变量的一组数据x1,y1,x2,y2,,xn,yn的回归方程,其中a,b是待定参数bni1xixyiyni1xix2ni1xiyinxyni1x2inx2,aybx.3回归分析1定义对具有相关关系的两个变量进行统计分析的一种常用方法2样本点的中心对于一组具有线性相关关系的数据x1,y1,x2,y2,,xn,yn,其中x,y称为样本点的中心3相关系数当r0时,表明两个变量正相关;当rR22;x,y之间不能建立线性回归方程答案解析在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用y21ecxc拟合比用ybxa拟合效果要好,则R21R22,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误思维升华判定两个变量正,负相关性的方法1画散点图点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关2相关系数r0时,正相关;r0时,正相关;b10.828,所以有99.9的把握认为“经常使用微信与年龄有关”求线性回归方程的方法技巧典例12分某地最近年粮食需求量逐年上升,下表是部分统计数据年份xxxxxxxxxx需求量/万吨2362462572762861利用所给数据求年需求量与年份之间的线性回归方程ybxa;2利用1中所求出的线性回归方程预测该地xx年的粮食需求量思想方法指导回归分析是处理变量相关关系的一种数学方法主要解决1确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;2根据一组观测值,预测变量的取值及判断变量取值的变化趋势;3求出线性回归方程规范解答解1由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表年份xx42024需求257211101929对处理的数据,容易算得x0,y3.2,4分b421211219429503.242222242502260406.5,aybx3.2.6分由上述计算结果,知所求线性回归方程为y2576.5xxx3.2,即y6.5xxx260.2.8分2利用所求得的线性回归方程,可预测xx年的粮食需求量大约为6.5xxxx260.26.58260.2312.2万吨12分。
2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版附后)
2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版附后)A 组 基础达标 (建议用时:30分钟)一、选择题1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与 负相关B .x 与y 正相关,x 与 正相关C .x 与y 负相关,x 与 负相关D .x 与y 负相关,x 与 正相关2.(2018·汉中模拟)已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0D .a ^<0,b ^<03.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=(a +b )(c +d )(a +c )(b +d ),算得K 2=13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”C .有99 以上的把握认为“生育意愿与城市级别有关”D .有99 以上的把握认为“生育意愿与城市级别无关” 4.(2018·皖南模拟)下列说法错误的是( ) A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报 变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关 系”的把握程度越小5.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元6.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文 与性别有关系出错的可能性为________.7.(2018·唐山模拟)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90 的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75 是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)龄有关”?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).10.(2018·长沙模拟)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图9-4-6所示:图9-4-6(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b ^=∑ i =1 (x i -x )(y i -y )∑ n i =1(x i -x )2=∑ i =1x i y i -n x y ∑ ni =1x 2i -n x2,a ^=y -b ^x .B 组 能力提升(建议用时:15分钟)1.(2018·安阳模拟)已知变量x 与y 的取值如下表所示,且2.5<n <m <6.5,则由该数据算得的线性回归方程可能是( )A .y ^=0.8x +2.3 B .y =2x +0.4 C .y ^=-1.5x +8D .y ^=-1.6x +102.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)的概率不超过________. 附表:3.(2018·汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:图9-4-7(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ n i =1(x i -x )(y i -y )∑ n i =1(x i -x )2=∑ ni =1x i y i -n x y ∑ n i =1x 2i -n x2,a ^=y -b ^x ,r =∑ n i =1 (x i -x )(y i -y )∑ ni =1(x i -x )2∑ ni =1(y i -y )2. 参考数据:∑ 6 i =1x i y i =187.4,∑ 6 i =1x i i =47.64,∑ 6 i =1x 2i =139,∑ 6i =1(x i -x )2=4.18,∑ 6i =1(y i -y )2=13.96,∑ 6 i =1(z i -z )2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.2019年高考文科数学一轮复习:变量间的相关关系与统计案例(检测题解析版)A 组 基础达标 (建议用时:30分钟)一、选择题1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与 负相关B .x 与y 正相关,x 与 正相关C .x 与y 负相关,x 与 负相关D .x 与y 负相关,x 与 正相关C [随着x 的增大,y 减小, 也减小,从而x 与y 负相关,x 与 负相关.] 2.(2018·汉中模拟)已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0 D .a ^<0,b ^<0C [画出散点图及样本点的中心(0.2,-1.7)可知b ^>0,a ^<0.]3.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”C .有99 以上的把握认为“生育意愿与城市级别有关”D .有99 以上的把握认为“生育意愿与城市级别无关” C [∵K 2=100×(45×22-20×13)258×42×35×65≈9.616>6.635,∴有99 以上的把握认为“生育意愿与城市级别有关”,故选C .] 4.(2018·皖南模拟)下列说法错误的是( ) A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报 变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关 系”的把握程度越小D [对于A ,回归直线过样本点的中心(x ,y ),正确;对于B ,两个随机变量相关性越强,则相关系数的绝对值越接近1,正确; 对于C ,在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量平均增加0.2个单位,正确;对于D ,对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此不正确.故选D.]5.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元B [由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).] 二、填空题6.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文 与性别有关系出错的可能性为________.5 [∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文 与性别之间有关系”成立,并且这种判断出错的可能性约为5 .]7.(2018·唐山模拟)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.6 [x =15(3+4+5+6+7)=5,y =15(2.5+3+4+4.5+c )=14+c 5,代入回归直线方程得,14+c5=0.85×5-0.25,解得c =6.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.68 [根据题意知x =18+13+10+(-1)4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.] 三、解答题9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90 的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75 是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解]), 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75 =135(人), 所以2×2列联表:分(2)将列联表中数据代入公式可得:K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9 的把握认为“经常使用微信与年龄有 关” .12分10.(2018·长沙模拟)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图9-4-6所示:图9-4-6(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b ^=∑ i =1 (x i -x )(y i -y )∑ n i =1(x i -x )2=∑ i =1x i y i -n x y ∑ ni =1x 2i -n x2,a ^=y -b ^x . [解] (1)由折线图可知5月和6月的平均利润最高. 2分(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 3分 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 4分 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 5分 所以这3年的前7个月的总利润呈上升趋势.6分(3)∵x =2.5,y =5,∑ 4 i =1x 2i =12+22+32+42=30,∑ 4 i =1x i y i =1×4+2×4+3×6+4×6=54,∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,10分当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元. 12分B 组 能力提升(建议用时:15分钟)1.(2018·安阳模拟)已知变量x 与y 的取值如下表所示,且2.5<n <m <6.5,则由该数据算得的线性回归方程可能是( )A .y ^=0.8x +2.3 B .y ^=2x +0.4 C .y ^=-1.5x +8D .y ^=-1.6x +10D [由2.5<n <m <6.5,可得为负相关,排除A ,B ,由题意,知x =3.5,y =14×(6.5+m +n +2.5)∈(3.5,5.5),分别代入选项C ,D ,可得D 满足.故选D.]2.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)的概率不超过________. 附表:k =50×(22×12-8×8)230×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.]3.(2018·汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:图9-4-7(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ n i =1(x i -x )(y i -y )∑ n i =1(x i -x )2=∑ ni =1x i y i -n x y ∑ n i =1x 2i -n x2,a ^=y -b ^x ,r =∑ n i =1 (x i -x )(y i -y )∑ ni =1(x i -x )2∑ ni =1(y i -y )2. 参考数据:∑ 6 i =1x i y i =187.4,∑ 6 i =1x i i =47.64,∑ 6 i =1x 2i =139,∑ 6i =1(x i -x )2=4.18,∑ 6 i =1(y i -y )2=13.96,∑ 6 i =1(z i -z )2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.[解] (1)由题意,知x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2, 又∑ 6 i =1x i i =47.64,∑ 6 i =1(x i -x )2=4.18,∑ 6 i =1(z i -z )2=1.53,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,3分∴ 与x 的相关系数大约为-0.99,说明 与x 的线性相关程度很高.4分 (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,5分 ∴a ^=z -b ^x =2+0.36×4.5=3.62, 6分∴ 与x 的线性回归方程是z ^=-0.36x +3.62, 又 =ln y ,∴y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,8分得y ^=e -0.36×9+3.62=e 0.38,∵ln 1.46≈0.38,∴y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.9分 (3)当y ^≥0.711 8,即e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34时, 10分则有-0.36x +3.62≥-0.34, 解得x ≤11,11分 因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.12分。
高考数学(理)一轮复习分层演练:10.3变量间的相关关系、统计案例(含答案)
第3讲 变量间的相关关系、统计案例[学生用书P221])1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i-n x y∑n i =1 x 2i -n x 2,a ^=y -b ^x . (4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2统计量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑i =1nx 2i ,∑i =1nx i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的线性相关性越强 [答案] D2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B .y ^=10x +200C.y ^=-10x -200 D .y ^=10x -200A [解析] 因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D .又因为x =0时,y >0,所以应选A.3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% B .1% C .99%D .99.9%C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.4.下面是一个2×2列联表则表中a 、b 处的值分别为________. [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, [答案] 52、545.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.[解析] 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a ^=4.5-0.95×2=2.6.[答案] 2.6相关关系的判断[学生用书P222][典例引领](2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.某公司在2016年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:根据统计资料,则( )A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系C [解析] 月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)[学生用书P222]线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题. 高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领](2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32, ∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】(1)由折线图中数据和附注中参考数据得 t =4, i =17(t i -t )2=28,=40.17-4×9.32=2.89, r =2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.[注意] 回归直线方程恒过点(x -,y -).[题点通关]角度一 由回归直线方程求参数值1.表中提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( )A.3 B .3.15C .3.5D .4.5A [解析] 因为线性回归方程过样本中心点,所以由回归方程y ^=0.7x +0.35,知y =0.7x +0.35,又y =2.5+t +4+4.54=11+t 4,x =3+4+5+64=92,所以11+t 4=0.7×92+0.35,解得t =3.故选A.角度二、三 求回归直线方程并进行预测2.(2017·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.[解] (1) x =3,y =5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[学生用书P223][典例引领](2017·云南省第一次统一检测)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100]的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40)、[40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100]七组加以统计,绘制成如图所示的频率分布直方图.(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?【解】(1) 设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×[1-10×(0.006+0.012×2+0.018+0.024+0.026)]=2.据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为2100×1600=32.(2)根据已知条件得2×2列联表如下:因为K 2=100×(12×34-6×48)60×40×18×82≈0.407<2.706,所以没有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.[解] (1) x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5, 从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[学生用书P314(独立成册)]1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③C .③④D .①④D [解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.(2017·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( )A .75B .155.4C .375D .466.2C [解析] 由x 1+x 2+x 3+x 4+x 5=150,得x =30,代入回归直线方程y ^=0.67x +54.9,得y =75,则y 1+y 2+y 3+y 4+y 5=375.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [解析] 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.4.(2017·东营模拟)已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i 的值等于( ) A .3 B .4C .0.4D .40B [解析] 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过样本点的中心(x ,y ), 所以y =-3+2x =-3+2×1.7=0.4,所以∑10i =1y i =0.4×10=4. 5.春节期间,某销售公司每天销售某种取暖商品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=-125,则a ^=________. [解析] 由表中数据可得x -=-4,y -=25,所以线性回归方程y ^=-125x +a ^过点(-4,25),代入方程得25=-125×(-4)+a ^,解得a ^=775.[答案]7756.(2017·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________. [解析] 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. [答案] 577.(2017·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.8.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数. [解] (1)由表中数据计算得,t -=5,y -=4,所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.9.(2017·郑州第二次质量预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16 B .13C.12D .23B [解析] 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.10.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.[解析] x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40, 即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.[答案] 1011.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;(2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为 y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.。
习题-变量间的相关关系、统计案例
10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
超实用高考数学专题复习:10.3 变量的相关性与统计案例
(3)正相关、负相关
从散点图上看,点散布在从左下角到右上角的区域内,两个变量的
这种相关关系称为__正___相___关___,点散布在从左上角到右下角的区域 内,两个变量的相关关系为__负__相___关____.
2.最小二乘估计 (1)最小二乘法 如果有 n 个点(x1,y1),(x2,y2),…,(xn,yn)可以用下面的表达 式 来 刻 画 这 些 点 与 直 线 y = a + bx 的 接 近 程 度 : _[_y_1-__(_a_+__b_x_1_)_]2_+__[_y_2-__(_a_+__b_x_2_)_]2_+__…__+__[_y_n-___(a_+__b_x_n_)_]2_.
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
参考公式:K2=a+bcn+add-ab+cc2b+d,n=a+b+c+d.
解:(1)根据题意列出2×2列联表如下:
B. b>b′,a^<a′
C. b<b′,a^>a′
D. b<b′,a^<a′
解析:由表格知,-x =261=72,-y =163.
则
b^
=
1×0+2×2+3×1+4×3+5×3+6×4-6×72×163 12+22+32+42+52+62-6×722
=57,
a^=-y -b^-x =163-57×72=-13.
(2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,
yn)中,(_x__,__y___)称为样本点的中心.
(3)相关系数 r
2020版高考数学(文)一轮复习变量间的相关关系与统计案例
第三节变量间的相关关系与统计案例 一、基础知识批注——理解深一点1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2, a ^=y -b ^x .回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1aba +bx 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.二、常用结论汇总——规律多一点(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.( ) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( ) 答案:(1)√ (2)× (3)× (4)√ (二)选一选1.已知变量x 和y 满足关系y ^=-0.1x +1,变量y ^与z 正相关.则下列结论中正确的是( )A .x 与y ^负相关,x 与z 负相关 B .x 与y ^正相关,x 与z 正相关 C .x 与y ^正相关,x 与z 负相关 D .x 与y ^负相关,x 与z 正相关 答案:A2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 答案:A (三)填一填3.已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.x 0 1 3 4 y2.24.34.86.7解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:2.64.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:x2 4 6 8 10y 3 6 7 10 12(1)请根据上表数据在网格纸中绘制散点图;(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t)2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^.2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x /℃ 17 13 8 2 月销售量y /件24334055由表中数据算出线性回归方程y ^=b ^x +a ^中的b ^=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:x 1 2 3 4 5 6 7 y601102103406601 0101 960根据以上数据,绘制了散点图.参考数据:yv∑i =17x i y i∑i =17x i v i100.54其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式 第二种生产方式(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法]2个明确(1)明确两类主体; (2)明确研究的两个问题 2个关键(1)准确画出2×2列联表; (2)准确求解K 23个步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算K 2的值;(3)查表比较K 2与临界值的大小关系,作统计判断[题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:认为作业量大认为作业量不大总计 男生 18 9 27 女生 8 15 23 总计262450已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:未发病 发病 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:P (K 2≥k 0)0.05 0.01 0.005 0.001 k 03.8416.6357.87910.828解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25, 所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级——保大分专练1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:购买食品的年支出费用x /万元 2.092.152.502.842.92购买水果和牛奶的年支出费用y /万元1.251.301.501.701.75根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级——创高分自选1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.临界值表:P(K2≥k0)0.100.050.0250.010k0 2.706 3.841 5.024 6.635解:(1)“导学案”教学方式教学效果更佳.理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多.理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05.理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5.(2)2×2列联表如下:甲班乙班总计成绩优良101626成绩不优良10414总计202040由上表数据可得K2=40×(10×4-10×16)220×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95. 解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x)2 ∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行,每周的周总利润为1×3 000-2×1 000=1 000(元).当50≤X≤70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为2×3 000-1×1 000=5 000(元).当30<X<50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为3×3 000=9 000(元).所以过去50周的周总利润的平均值为1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。
03变量间的相关关系统计案例(检测+答案)
变量间的相关关系统计案例一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系 ,这条直线叫线性回归方程.2.回归直线方程为ˆˆˆybx a =+ ,其中= 1221ˆˆˆni ii n i i x ynx yb ay bx x nx==-==--∑∑ . 3.通过求()21ˆˆni ii Q y bx a ==--∑的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.4.相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系 .通常|r|大于0.75时,认为两个变量有很强的线性相关性. 三、独立性检验1.2×2列联表:假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).2.用K 2的大小可以决定是否拒绝原来的统计假设H 0,若K 2值较大,就拒绝H 0,即拒绝事件A 与B 无关.3.当K 2≥3.841时,则有95%的把握说事件A 与B 有关; 当K 2≥6.635时,则有99%的把握说事件A 与B 有关; 当K 2≤2.706时,则认为事件A 与B 无关.例1:某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是 ( ) A.ˆy=-2x +100 B.ˆy =2x +100 C.ˆy =-2x -100 D.ˆy =2x -100 解:B 、D 为正相关,C ˆy中值恒为负,不符合题意. 例2:两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 解:相关指数R 2越大拟合效果越好.选A 。
11、变量间的相关关系、统计案例(有答案)解读
学科教师辅导教案学员编号: 年 级:高一 课时数:3课时 学员姓名: 辅导科目:数学 学科教师:授课类型 T 同步知识梳理 C 相关专题训练T 能力提高教学目标星级★★★授课日期及时段 2016.教学内容 :变量间的相关关系、统计案例一、同步知识梳理 1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与Y直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.二、题型解答题型一相关关系的判断思维点播判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.巩固(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-∑i =1n(y i -y i ^)2∑i =1n(y i -y )2=1.题型二 线性回归分析思维点播 (1)回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过回归直线方程估计和预测变量的值.例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的回归直线方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x)思维启迪求回归直线方程的系数b^时,为防止出错,应分别求出公式中的几个量,再代入公式.解(1)散点图如图.(2)由表中数据得:∑i=14x i y i=52.5,x=3.5,y=3.5,∑i=14x2i=54,∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05,回归直线如图所示.(3)将x=10代入回归直线方程,得y^=0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时.巩固1为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.答案0.50.53解析小李这5天的平均投篮命中率y=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.巩 固2 (2013·大连模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^ =9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).家庭作业1. 某地区调查了2~9岁的儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ^=8.25x +60.13,下列叙述正确的是( )A .该地区一个10岁儿童的身高为142.63 cmB .该地区2~9岁的儿童每年身高约增加8.25 cmC .该地区9岁儿童的平均身高是134.38 cmD .利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 B2. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由已知可计算求出x =30,而回归直线必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则 a +62+75+81+895=75,计算得a =68.5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元D.72.0万元解析:由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1=65.5,答案应选B. 答案:A6.下列各图中所示两个变量具有相关关系的是( )A .①②B .①③C .②④D .②③答案:D7.已知x ,y 的取值如下表所示:x 0 1 3 4 y2.24.34.86.7从散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=__________.答案:2.6。
2019版高考数学文一轮复习教师用书:第十章 第四节 变
第十章⎪⎪⎪算法初步、统计、统计案例第四节变量间的相关关系、统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2, a ^=y -b ^x .(3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.判断下列结论是否正确(请在括号中打“√”或“×”) (1)散点图是判断两个变量是否相关的一种重要方法和手段.( )(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.( ) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( ) 答案:(1)√ (2)× (3)× (4)√2.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )A .l 1和l 2必定平行B .l 1与l 2必定重合C .l 1和l 2一定有公共点(s ,t )D .l 1与l 2相交,但交点不一定是(s ,t )解析:选C 注意到回归直线必经过样本中心点.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确;又线性回归方程必过样本中心点(x ,y ),故B 正确;由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,故D 不正确.4.(教材习题改编)已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:2.65.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%考点一 相关关系的判断 (基础送分型考点——自主练透)[考什么·怎么考]别反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②解析:选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b^+a ^,故x 与z 负相关.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A 由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.[怎样快解·准解]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r |越趋近于1相关性越强.考点二 回归分析 (题点多变型考点——追根溯源)回归分析是每年高考的热点,既有选择题、填空题,也有解答题,难度中等以上.常见的命题角度有:(1)线性回归方程及应用;(2)相关系数及应用.[题点全练]角度(一) 线性回归方程及应用1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知∑i =110x i =225,∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170解析:选C 由题意可知y ^=4x +a ^, 又x =22.5,y =160,因此160=22.5×4+a ^,解得a ^=70, 所以y ^=4x +70.当x =24时,y ^=4×24+70=166.2.(2018·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x )解:(1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴预测到2020年年底,该地储蓄存款额可达13.2千亿元. [题型技法]1.回归直线方程中系数的2种求法 (1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x ,y )求系数. 2.回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b ^. 角度(二) 相关系数及应用3.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:∑i =116(i -8.5)2≈18.439,∑i =116(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,0.008≈0.09.[学审题]①判断这一天生产的零件尺寸是否随生产过程的进行而系统的变大或变小的方法就是判断|r |与0.25的大小关系;②根据题目条件求出x ,s 的值,然后验证题干表格中的数据与区间(x -3s ,x +3s )的关系即可.解:(1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑i =116(x i -x )(i -8.5)∑i =116(x i -x )2∑i =116(i -8.5)2=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,∑i =116x 2i =16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 所以这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.[题型技法] 样本数据的均值反映样本数据的平均水平;样本数据的方差反映样本数据的稳定性,方差越小,数据越稳定;样本数据的标准差为方差的算术平方根.[冲关演练](2018·湖北八校联考)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少.(附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x ,其中x ,y 为样本平均值)解:(1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=112-5×4×590-5×42=1.2,a ^=y -b ^x =5-1.2×4=0.2. ∴线性回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关.②由(1)知,当x =8时,y ^=1.2×8+0.2=9.8,即使用年限为8年时,支出维修费约是9.8万元.考点三 独立性检验 (重点保分型考点——师生共研)(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3) 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[解题师说]1.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),代入数据得K 2=90×(25×10-25×30)250×40×55×35=45077≈5.844>5.024.所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.2.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解:(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=1,2b =a +c ,解得b =0.01. 因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人,于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人.于是本次测试的及格情况与性别的2×2列联表如下:所以K 2=60×(22×4-8×26)30×30×48×12=1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.(一)普通高中适用作业A 级——基础小题练熟练快1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好解析:选B 根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相关性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.4.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D ∵y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,∴可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.5.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5解析:选B x =4+4.5+5.5+64=5,y =12+11+10+94=10.5,∵回归直线过样本点的中心(x ,y ),代入线性回归方程y ^=-1.4x +a ^,得a ^=10.5+1.4×5=17.5.6.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad (a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.解析:回归直线过点(x ,y ),根据题意得x =18+13+10+(-1)4=10,y =24+34+38+644=40,将(10,40)代入y ^=-2x +a ^,解得a ^=60,则y ^=-2x +60,当x =-4时,y ^=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.答案:689.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为________.解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:1B 级——中档题目练通抓牢1.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴,y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b ^的值为1.25 B .线性相关关系较强,b ^的值为0.83 C .线性相关关系较强,b ^的值为-0.87 D .线性相关关系较弱,无研究价值解析:选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y -b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:选B 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.4.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =9+9.5+m +10.5+115=8+m5,y =11+n +8+6+55=6+n 5,回归直线一定经过样本点中心(x ,y ), 即6+n5=-3.2⎝⎛⎭⎫8+m 5+40,即3.2m +n =42. 又因为m +n =20,即⎩⎪⎨⎪⎧ 3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案:105.某炼钢厂废品率x (%)与成本y (元/吨)的线性回归直线方程为y ^=105.492+42.569x .当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).解析:因为176.5=105.492+42.569x ,解得x ≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.答案:16.686.(2018·合肥模拟)某校计划面向高一年级1 200名学生开设校本选修课程,为确保工作的顺利实施,先按性别进行分层抽样,抽取了180名学生对社会科学类、自然科学类这两大类校本选修课程进行选课意向调查,其中男生有105人.在这180名学生中选择社会科学类的男生、女生均为45人.(1)分别计算抽取的样本中男生及女生选择社会科学类的频率,并以统计的频率作为概率,估计实际选课中选择社会科学类学生的人数;(2)根据抽取的180名学生的调查结果,完成下列2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .男生选择社会科学类的频率为45105=37, 女生选择社会科学类的频率为4575=35. 由题意,男生总人数为1 200×105180=700, 女生总人数为1 200×75180=500. 所以估计实际选课中选择社会科学类的学生人数为 700×37+500×35=600.(2)根据统计数据,可得2×2列联表如下:所以K 2=180×(60×45-30×45)105×75×90×90≈5.143>5.024,所以在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关. 7.某地区2011年至2017年农村居民家庭纯收入y (单位:万元)的数据如下表:(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解:(1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5万元.将2019年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2019年农村居民家庭人均纯收入为6.8万元. C 级——重难题目自主选做1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.2.为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.附:参考公式和数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解:(1)由题意得10a =1-(0.005+0.01+0.015+0.02)×10=0.5, 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 所以x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.所以优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 所以2×2列联表如下:所以K 2=40×(6×20-4×10)16×24×10×30≈2.222<3.841,所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.(二)重点高中适用作业A 级——保分题目巧做快做1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:选B 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.某同学为了解自己记忆成语的个数与所花费的时间(单位:秒)的关系,做了5次试验,收集到的数据如表所示,由最小二乘法求得的回归直线方程为y ^=0.74x +50.则m +n 的值为( ) A .130 B .129 C .121D .118 解析:选A 由表中数据得,x =30,y =15(61+m +n +81+89)=15(231+m +n ),将x =30,y =15(231+m +n )代入回归直线方程,得m +n =130.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.4.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5。
山东高考数学一轮总复习学案设计-第十章第三讲变量间的相关关系、统计案例含答案解析
第三讲 变量间的相关关系、统计案例知识梳理·双基自测知识梳理知识点一 回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y 随x 增大而增大的趋势,则称两个变量__正相关__;若这些散点有y 随x 增大而减小的趋势,则称两个变量__负相关__.(3)回归方程:y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x2,a ^=__y --b ^x ,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r =∑ni =1x i y i -n x -y -(∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2)它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r >0时表示两个变量正相关,当r <0时表示两个变量负相关.|r |越接近1,表明两个变量的线性相关性__越强__;当|r |接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.知识点二 独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为X 2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K 2的观测值k ,查表确定临界值k 0:③如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关”.重要结论1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K 2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双基自测题组一 走出误区1.(多选题)下列结论中正确的是( AC )A .“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系B .两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C .事件x ,y 关系越密切,则由观测数据计算得到的K 2的观测值越大D .由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀题组二 走进教材2.(P 97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )A .回归分析B .均值与方差C .独立性检验D .概率[解析] “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.(P 81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189__68__. [解析] 由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68. 题组三 考题再现4.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知10i =1x i =225,10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( C )A .160B .163C .166D .170[解析] 由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)由题可得K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异. [答案] (1)男、女顾客对该商场服务满意的概率的估计值分别为0.8,0.6 (2)有95%的把握认为男、女顾客对该商场服务的评价有差异.KAO DIAN TU PO HU DONG TAN JIU考点突破·互动探究考点一相关关系的判断——自主练透例1 (1)(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是(B)A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是(A)A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3[解析](1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.名师点拨☞判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时负相关.考点二 线性回归分析——师生共研例 2 (2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序 1 2 3 4 5 6 7 8 零件尺寸9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x =116∑16i =1x i =9.97,s =116∑16i =1 (x i-x )2 =116(∑16i =1x 2i-16x 2)≈0.212,∑16i =1 (i -8.5)2≈18.439,∑16i =1(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数 r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y)2.0.008≈0.09. [解析] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑16i =1 (x i -x )(i -8.5)∑16i =1(x i -x )2∑16i =1(i -8.5)2=-2.78 0.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i=1x2i=16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115×(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.例 3 (2019·四川省宜宾市诊断)艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表:年份2011 2012 2013 2014 2015 2016 2017 2018 年份代码x 1 2 3 4 5 6 7 8感染者人数y(单位:万人)34.3 38.3 43.3 53.8 57.7 65.4 71.8 85(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;(3)建立y关于x的回归方程(系数精确到0.01),预测2019年我国艾滋病病毒感染人数.参考数据:42≈6.48;∑i=18y i=449.6,∑i=18x i y i=2 319.5,∑i=18(y i-y-)2=46.2,参考公式:相关系数r=∑i =1n(x i -x -)2(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,回归方程y ^=b ^x +a ^中,b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b ^ x -.[解析] (1)我国艾滋病病毒感染人数的折线图如图所示.(2)∵x -=92,y -=56.2,∴∑i =18(x i -x -)(y i -y -)=∑i =18x i y i -8x -y -=296.3, ∑i =18(x i -x -)2∑i =18 (y i -y -)2=42×46.2=299.376,∴r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n (y i -y -)2≈0.99,故具有强线性相关关系.(3)∵b =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=296.342≈7.05,a =y--b x -=56.2-7.05×4.5≈24.48, ∴y =7.05x +24.48,当x =9时,y =7.05×9+24.48=87.93.故预测2019年我国艾滋病感染累积人数为87.93万人.[答案] (1)见解析;(2)见解析;(3)预测2019年我国艾滋病感染累积人数为87.93万人. 名师点拨 ☞线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 〔变式训练1〕(2020·安徽六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:销售额x /千万元 3 5 6 7 9 利润额y /百万元13345(1)(2)求出利润额y 关于销售额x 的回归直线方程;(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n (x -)2=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b x -.[解析] (1)散点图如图所示:两个变量正相关,且具有线性相关关系. (2)易求x -=6,y -=3.2, 由公式有b ^=3×2.2+1×0.2+0+1×0.8+3×1.832+12+12+32=1320=0.65, 且a ^=3.2-0.65×6=-0.7, 则线性回归方程为y ^=0.65x -0.7,(3)当x =4时,由(1)可求得y ^=1.9,即利润额约为1.9百万元. [答案] (1)散点图见解析;(2)y ^=0.65x -0.7;(3)1.9百万元.考点三 独立性检验——师生共研例4 (2020·辽宁沈阳东北育才学校模拟)已知学校高三年级有学生1 000名,经调查研究,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学).现用分层抽样方法(按A 类、B 类分两层)从该年级学生中共抽查100名同学,测得这100名同学的身高(单位:cm)频率分布直方图如图:(1)以同一组数据常用该组区间的中点值(例如区间[160,170)的中点值为165)作为代表,计算这100名学生身高数据的平均值;(2)如果以身高不低于170 cm 作为达标的标准,对抽取的100名学生,得到以下列联表:身高达标 身高不达标总计 积极参加体育锻炼 40 不积极参加体育锻炼15 总计1000.01)?参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参考数据:[解析] (1)×0.30+185×0.17+195×0.03=170(cm)(2)K 2=100(40×15-35×10)75×25×50×50≈1.33,故有75%把握认为体育锻炼与身高达标有关系. 名师点拨 ☞解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题. (2)两个关键:①准确列出2×2列联表:②准确理解K 2.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的K 2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1-p .〔变式训练2〕(2020·湖北十堰调研)某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.60元与性别有关;合计(2)概率为p (每次中奖互不影响,且p 的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数X (元)的分布列并求其数学期望.附:参考公式和数据: K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:k 0 2.072 2.706 3.841 6.635 7.879 P (K 2≥k 0)0.1500.1000.0500.0100.005[解析] 不少于60元少于60元合计 男 12 40 52 女 18 20 38 合计306090K 2=90×(12×20-40×18)30×60×52×38=1 440247>5>3.841, 因此有95%的把握认为购买金额是否少于60元与性别有关. (2)X 可能取值为65,70,75,80, 且p =10+2090=13,P (X =65)=C 33(13)3=127, P (X =70)=C 23(13)2×23=29, P (X =75)=C 13×13×(23)2=49, P (X =80)=C 03(23)3=827, 所以X 的分布列为X 65 70 75 80 P (X )1272949827E (X )=65×127+70×29+75×49+80×827=75.MING SHI JIANG TAN SU YANG TI SHENG名师讲坛·素养提升 非线性回归问题例5 (2019·湖北省调研)数码产品早已走进千家万户的生活,为了节约资源,促进资源循环利用,折旧产品回收行业得到迅猛发展,电脑使用时间越长,回收价值越低,某二手电脑交易市场对2018年回收的折旧电脑交易前使用的时间进行了统计,得到如图所示的频率分布直方图,在如图对使用时间的分组中,将使用时间落入各组的频率视为频率.根据电脑交易市场往年的数据,得到如图所示的散点图,其中x (单位:年)表示折旧电脑的使用时间,y (单位:百元)表示相应的折旧电脑的平均交易价格.(1)由散点图判断,可采用y =e a+bx作为该交易市场折旧电脑平均交易价格与使用年限x的回归方程,若t =ln y i ,t -=110∑i =110t i ,选用如下参考数据,求y 关于x 的回归方程.x y t ∑i =110x i y i∑i =110x i t i∑i =110x 2i5.58.51.9301.4 79.75 385(2)场收购1 000台折旧电脑所需的费用.附:参考公式:对于一组数据(u i ,v i )(i =1,2,…,n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为:β=∑i =1nu i v i -n u -v∑i =1nu 2i -n u -2,α^=v --β^u -.参考数据:e 3.25≈26,e 2.56≈14,e 2.05≈7.8,e 1.45≈4.3,e 0.85≈2.3.[解析] (1)由y =e a+bx得ln y =a +bx ,即t =a +bx ,b ^=∑i =110x i t i -10x -t -∑i =110x 2i -10x--2=79.75-10×5.5×1.9385-10×5.52=-0.3,a ^=1.9-(-0.3)×5.5=3.55,即t =-0.3x +3.55, 所以y ^=e -0.3x +3.55.(2)根据频率分布直方图对成交的二手折旧电脑使用时间为(0,2],(2,4],(4,6],(6,8],(8,10]上的频率依次为:0.2,0.36,0.28,0,12,0.04;根据(1)中的回归方程,在区间(0,2]上折旧电脑价格的预测值为e 3.55-0.3×1=e 3.25≈26, 在区间(2,4]上折旧电脑价格的预测值为e 3.55-0.3×3=e 2.65≈14, 在区间(4,6]上折旧电脑价格的预测值为e 3.55-0.3×5=e 2.05≈7.8, 在区间(6,8]上折旧电脑价格的预测值为e 3.55-0.3×7=e 1.45≈4.3, 在区间(8,10]上折旧电脑价格的预测值为e 3.55-0.3×9=e 0.85≈2.3,于是,可以预测该交易市场一台折旧电脑交易的平均价格为:0.2×26+0.36×14+0.28×7.8+0.12×4.3+0.04×2.3=13.032(百元)故该交易市场收购1 000台折旧电脑所需的费用为: 1 000×13.032=1 303 200(元). 名师点拨 ☞非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决. 〔变式训练3〕某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑8i =1(x i -x)2∑8i =1(w i -w )2∑8i =1(x i -x ) (y i -y ) ∑8i =1(w i -w ) (y i -y ) 46.65636.8289.81.61469108.8表中w i =x i ,w =18∑i =1w i,(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑ni =1 (w i-w )(y i -y )∑ni =1(w i -w )2=108.81.6=68.c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3讲 变量间的相关关系、统计案例, [学生用书P193])1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n x 2,a ^=y -b ^x .(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.非线性回归分析如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.4.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法 (1)求线性回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y,∑ni =1x 2i ,∑n i =1x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 [答案] D2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .0.1%B .1%C .99%D .99.9%C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.教材习题改编 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y ^=2.84x +9.50,地级市y ^=2.52x +8.35, 县城y ^=2.31x +6.76,农村y ^=0.42x +1.80,则四个区域中,大学入学率年增长率最快的区域是( ) A .省城 B .地级市 C .县城D .农村A [解析] 四条回归直线,斜率最大的是省城,故选A.4.对于下列表格所示的五个散点,已知求得的回归直线方程为y ^=0.8x -155.则实数m 的值为( )A.8 B .8.2 C .8.4D .8.5A [解析] 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.5.下面是一个2×2列联表则表中a 、b 处的值分别为________. [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, [答案] 52、54相关关系的判断[学生用书P194][典例引领](1)(2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【解析】 (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)由题图①可知,各点整体呈递减趋势,x 与y 负相关;由题图②可知,各点整体呈递增趋势,u 与v 正相关.【答案】 (1)C (2)C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关:r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )D[解析] 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A[解析] 由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.线性回归方程及其应用(高频考点)[学生用书P195]线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.[典例引领](2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 010,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x2,a ^=y -b ^x )【解】 (1) t -=3,z -=2.2,∑i =15 t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t =x -2 010,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 010)-1.4,即y ^=1.2x -2 408.4. (3)因为y ^=1.2×2 020-2 408.4=15.6,所以预测到2020年年底,该地储蓄存款额可达15.6千亿元.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.[注意] 回归直线方程恒过点(x -,y -).[题点通关]角度一 求回归直线方程1.某企业每天由空气污染造成的经济损失y (单位:元)与空气污染指数API(记为x )的数据统计如下:(1)求出y 与x 的线性回归方程y ^=b ^x +a ^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失.附:回归方程中⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x ) (y i-y )∑i =1n (x i-x )2a ^=y -b ^x[解] (1)x =14×(150+200+250+300)=225,y =14×(200+350+550+800)=475,∑i =14(x i -x )(y i -y )=(-75)×(-275)+(-25)×(-125)+25×75+75×325=50 000,∑i =14(x i -x )2=(-75)2+(-25)2+252+752=25×25×20=12 500,b ^=4,a ^=y -b ^x =475-4×225=-425, 所以y ^=4x -425.(2)当x =800时,y ^=2 775.角度二 利用回归方程进行预测2.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B [解析] 由题意知, x =8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4, 所以当x =15时,y ^=0.76×15+0.4=11.8(万元).独立性检验[学生用书P196][典例引领](2017·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值;(2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E , 由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60.(2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),n=a+b+c+d[解] (1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”., [学生用书P197])——回归直线方程的求解与运用(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为[思维导图](1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =x ,先建立y 关于w 的线性回归方程. 由于=108.81.6=68,(4分)c ^=y -d ^w =563-68×6.8=100.6,(5分) 所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (6分)(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. (9分)②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. (12分)(1)求解本题的思路①根据散点图中的点的分布规律作出判断.②若x ,y 为线性相关,可直接求其线性回归方程,若x ,y 为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.③利用②中求出的回归方程求最大预报值. (2)求解本题渗透的思想①通过散点图判断回归类型,体现了数形结合思想.②通过换元法将问题转化为线性回归分析,体现了化归转化思想., [学生用书P289(独立成册)])1.已知变量x ,y 呈线性相关关系,线性回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系A [解析] 随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D [解析] 由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:为决策产品的市场指导价,用最小二乘法求得销售量y 与售价x 之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5B [解析] x -=4+4.5+5.5+64=5,y -=12+11+10+94=10.5,因为回归直线过样本点的中心, 所以a ^=10.5+1.4×5=17.5.故选B.4.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D [解析] 相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.5.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%D [解析] 因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”A [解析] 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.[解析] x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.[答案] 0.2458.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性回归方程y ^=a ^+b ^x 中b ^=-2,据此预测当气温为5℃时,用电量的千瓦·时数约为________.[解析] 因为回归直线经过样本中心点,故由已知数表可得x -=10,y -=30,即(10,30)在回归直线上,代入方程可得a ^=50,即回归直线方程为y ^=50-2x ,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.[答案] 409.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列2×2列联表.(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析. [解] (1)2×2列联表如下:(2)因为K 2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.[解] (1)由表中数据计算得,t -=5,y -=4,∑i =15 (t i -t -)(y i -y -)=8.5,∑i =15(t i -t -)2=10,b ^=∑i =15(t i -t ) (y i -y )∑i =15(t i -t )2=0.85,a ^=y --b ^t -=-0.25.所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.[解析] x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40, 即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.[答案] 1012.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图; (2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,∑i =1n (x i -x -)(y i -y -)=381,∑i =1n(x i -x -)2=10.[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =1n(x i -x ) (y i -y )∑i =1n(x i -x )2=38110=38.1, a ^=y --b ^x -=85.6-38.1×28=-981.2, 所以金牌数之和y 关于时间x 的线性回归方程为 y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.13.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d[解] (1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=12b =a +c解得b =0.01,因为成绩在[90,100]内的有6人,所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48, 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得K 2=60×(22×4-26×8)48×12×30×30≈1.666 7<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.。