高考数学一轮复习63变量间的相关关系与统计案例学案理
高三数学(文)一轮复习课件:变量间的相关关系、统计案例
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
高考数学一轮必备 10.3《变量间的相关关系与统计案例》考情分析学案
1122211()()()n ni i i i i i n ni i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑10.3变量间的相关关系与统计案例考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报. (2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,r =r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R 的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量. (2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K =2()()()()()n ad bc a b a c b d c d -++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系. (2)当K 2≥3.841时,则有95%的把握说事A 与B 有关; 当K 2≥6.635时,则有99%的把握说事件A 与B 有关; 当K 2≤2.706时,则认为事件A 与B 无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义. (2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K 2=3.841是判断是否有关系的临界值,K 2≤3.841应判断为没有充分证据显示事件A 与B 有关系,而不能作为小于95%的量化值来判断. 题型一 相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r 2<r 4<0<r 3<r 1B. r 4<r 2<0<r 1<r 3C. r 4<r 2<0<r 3<r 1D. r 2<r 4<0<r 1<r 3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A. 【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:由K 2=a +bc +d a +cb +d,算得K 2=-260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 答案:A 解析:∵K 2=-260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附K2=a +b c+d a+c b+d,解(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360 500×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500×100%=64%.(2)K2=500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.题型三线性回归方程【例3】9. [2013·金版原创]在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:格x 的线性回归方程为________.(参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )答案:y ^=-3.2x +40解析:∑i =15x i y i =392,x =10,y =8,∑i =15x 2i =502.5,代入公式,得b ^=-3.2,所以,a ^=y -b ^x =40,故线性回归方程为y ^=-3.2x +40. 【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1 C .y =88+12xD .y =176解析 由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C. 答案 C重难点突破【例4】某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =bx +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解析 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2, b =--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5,a =y -b x =3.2. 由上述计算结果,知所求回归直线方程为y -257=b (x -2 006)+a =6.5(x -2 006)+3.2, 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6. 5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨). 巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( ) A. 0 B. 1 C. 2 D. 3答案:C解析:①方差不变,对.②错.变量x 增加一个单位时,y 平均降低5个单位.③对.④错,应该有99.9%的把握确认这两个变量间有关系.2.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( )A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23答案:C解析:回归直线必过点(4,5),故其方程为y ^-5=1.23(x -4),即y ^=1.23x +0.08. 3. 已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.80答案:B解析:依题意,得x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a 必过中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B.4. 从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg答案:B解析:x =160+165+170+175+1805=170,y =63+66+70+72+745=69.∵回归直线过点(x ,y ),∴将点(170,69)代入回归直线方程得y ^=0.56x -26.2,代入x =172 cm ,则其体重为70.12 kg.5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.答案:0.254解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.。
高三一轮复习导学案63 第11章 第03节——变量间的相关关系
§11.3 变量间的相关关系1.两个变量的线性相关 (1)正相关在散点图中,点散布在从__________到__________的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从__________到__________的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在__________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的________________________的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.b ^= = a ^= [难点正本 疑点清源] 1.相关关系与函数关系的区别相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.例如正方形面积S 与边长x 之间的关系S =x 2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提. 2.对回归分析的理解回归分析是处理变量相关关系的一种数学方法,它主要解决三个问题:(1)确定两个变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势; (3)求出线性回归方程.1.有一个同学家开了一个小卖部,卖出的热饮杯数与气温变化的回归方程为y ^=-2.352x +147.767,则当气温为2℃时,大约可卖出热饮的杯数为________. 2.已知x 、y从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 3.(2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元. 4.已知x ,y对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y=32x ,则根据最小二乘法的思想得拟合程度最好的直线是________(填序号). 5.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t的值为( )A .3B .3.15C .3.5D .4.5题型一 利用散点图判断两个变量的相关关系例1 山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花kg).(1)画出散点图;(2)判断是否具有相关关系.探究提高 散点图是由大量数据点分布构成的,是定义在具有相关关系的两个变量基础之上的,对于性质不明确的两组数据可先作散点图,直观地分析它们有无关系及关系的密切程度.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系. 题型二 求线性回归方程例2 某地10户家庭的年收入和年饮食支出的统计资料如下:(1)根据表中数据,确定家庭的年收入和年饮食支出是否具有相关关系; (2)若(1)具有线性相关关系,求出y 关于x 的线性回归方程.探究提高 从本题可以看出,求线性回归方程,关键在于正确求出系数a ^,b ^,由于计算量较大,所以计算时要仔细谨慎,分层进行,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的线性回归方程才有意义.在2011年春节期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:通过分析,发现销售量y 与商品的价格x 具有线性相关关系,则销售量y 关于商品的价格x 的线性回归方程为____________.(参考公式:b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x )题型三 利用线性回归方程对总体进行估计例3(1)画出散点图; (2)求线性回归方程;(3)试预测宣传费支出为10万元时,销售额多大?探究提高 利用线性回归方程可以对总体进行预测估计,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据,依据自变量的取值估计和预报因变量的值,在现实生活中有广泛的应用.下表提供了某厂节能降耗技术改造后在生产甲产品过程中记录的产量x (吨)与相应的生产能耗(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)14.线性回归分析问题试题:(12分)一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求线性回归方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?(结果保留整数)审题视角 (1)对变量y 与x 进行相关性检验;(2)在确定具有线性相关性的前提下,求线性回归方程;(3)利用线性回归方程进行相关分析. 规范解答解 (1)x =12.5,y =8.25,∑4i =1x i y i =438, 4x y =412.5,∑4i =1x 2i =660,∑4i =1y 2i =291, [4分] 所以r =∑4i =1xiyi -4x y(∑4i =1x 2i -4x 2)(∑4i =1y 2i -4y 2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈25.525.62≈0.995.因为r >0.75,所以y 与x 有很强的线性相关关系. [6分](2)b ^=∑4i =1x i y i -4x y∑4i =1x 2i -4x2≈0.728 6,a ^=y -b ^x =8.25-0.728 6×12.5=-0.857 5,∴所求线性回归方程为y ^=0.728 6x -0.857 5. [10分](3)要使y ^≤10⇒0.728 6x -0.857 5≤10, 所以x ≤14.901 9≈15.所以机器的转速应控制在15转/秒以下. [12分]第一步:判断两个变量的线性相关性; 第二步:求线性回归方程的斜率和截距; 第三步:确定线性回归方程;第四步:根据线性回归方程对随机变量作 出预测;第五步:反思回顾,查看关键点,易错点 和答题规范.批阅笔记 (1)本题易错点有两个,一是忽略对变量间的相关性进行检验;二是计算易出错.(2)如果不先作线性相关性检验,我们虽然也可以求出x 与y 的线性回归方程,但这时的线性回归方程也许没有任何实际价值,它也就不能确定地反映变量x 与y 之间的变化规律,只有在x 与y 之间具有相关关系时,求得的线性回归方程才具有实际意义.方法与技巧1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 失误与防范1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义. 2.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.课时规范训练(时间:60分钟)A 组 专项基础训练题组 一、选择题1.对变量x ,y 有观测数据(xi ,yi ) (i =1,2,…,10),得散点图(1);对变量u 、v 有观测数据(u i ,v i ) (i =1,2,…,10),得散点图(2).由这两个散点图可以判断 ()(1) (2) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是 ( )A.y ^=-10x +200 B.y ^ =10x +200C.y ^=-10x -200 D.y ^=10x -2003.(2011·山东)根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题4.人的身高与手的拃长存在相关关系,且满足y ^=0.303x -31.264(x 为身高,y 为拃长,单位:cm),则当拃长为24.8 cm 时,身高约为__________ cm.5.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病如果不加控制,仍按这个趋势发展下去,请预测从9月初到12月底的4个月时间里,该养殖小区这种病的新发病鸡总只数约为________.6.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与由表中数据得线性回归方程y =b x +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________.7.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结由此得到回归直线的斜率b 是__________.(结果保留两位小数) 三、解答题8.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议. B 组 专项能力提升题组 一、选择题1两变量的线性回归方程为( )A.y ^=0.56x +997.4B.y ^ =0.63x -231.2C.y ^=50.2x +501.4D.y ^=60.4x +400.72.(2011·陕西) 设(x1,y1),(x2,y2),…,(xn ,yn)是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( ) A .x 和y 的相关系数为直线l 的斜率 B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,y )3.工人月工资(元)依劳动生产率(千元)变化的线性回归方程为y ^=60+90x ,下列判断正确的是( )A .劳动生产率为1 000元时,工资为50元B .劳动生产率提高1 000元时,工资提高150元C .劳动生产率提高1 000元时,工资提高90元D .劳动生产率为1 000元时,工资为90元 二、填空题4.某服装商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了4由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的月平均气温为6℃,则毛衣的销售量约为________件.5.已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性相关关系,则其线性回归方程是________________.6.(2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 三、解答题7且已知产量x 与成本y 具有线性相关关系.(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?8.现随机抽取了一个学校10名学生在入学考试中的数学成绩x 与入学后的第一次考试这10名学生的两次数学考试成绩具有线性相关关系,求出线性回归方程,并计算当x =118时,y的估计值.答案要点梳理1.(1)左下角 右上角 (2)左上角 右下角 (3)一条直线附近 2.(1)距离的平方和最小(2)∑n i =1(x i -x )(y i -y )∑n i =1 (x i -x )2 ∑ni =1x i y i -n x y∑ni =1x 2i -n x 2y -b ^x 基础自测1.143 2.2.6 3.0.254 4.③ 5.A 题型分类·深度剖析例1 解 (1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x 与产量y 具有线性相关关系.变式训练1 解 以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.例2 解 (1)由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.从图中可以看出,样本点呈条状分布,年收入和年饮食支出具有线性相关关系,因此可以用线性回归方程刻画它们之间的关系.(2)∵x =6,y=1.83,∑10i =1x 2i =406,∑10i =1x i y i =117.7,∴b ^=∑10i =1x i y i -10x y∑10i =1x 2i -10x2≈0.172,a ^=y -b ^x =1.83-0.172×6=0.798. 从而得到线性回归方程为y ^=0.172x +0.798.变式训练2 y ^=-3.2x +40例3 解 (1)根据表中所列数据可得散点图如图所示:(2)计算得:x =255=5,y =2505=50, ∑5i =1x 2i =145,∑5i =1xiyi =1 380. 于是可得b ^=∑5i =1xiyi -5x y∑5i =1x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5, 因此,所求线性回归方程是y ^=6.5x +17.5. (3)由上面求得的线性回归方程可知,当宣传费支出为10万元时,y ^=6.5×10+17.5=82.5(万元),即这种产品的销售额大约为82.5万元. 变式训练3 解 (1)散点图如下图:(2)x =3+4+5+64=4.5, y =2.5+3+4+4.54=3.5,∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5,∑4i =1x 2i =32+42+52+62=86, ∴b ^=∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为y ^=0.7x +0.35. (3)现在生产100吨甲产品用煤y ^=0.7×100+0.35=70.35(吨), ∴90-70.35=19.65(吨).∴比技改前大约降低19.65吨标准煤. 课时规范训练 A 组1.C 2.A 3.B 4.185.03 5.11 676 6.68 7.0.888.解 (1)x =100+-12-17+17-8+8+127=100;y =100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,∴s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑7i =1x i y i -7x y ∑7i =1x 2i -7x2=497994=0.5,a ^ =y -b ^ x =100-0.5×100=50, ∴线性回归方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高. B 组1.A 2.D 3.C 4.46 5.y ^=74x +234 6.1857.解 (1)n =6,x =3.5,y =71,∑6i =1x 2i =79,∑6i =1x i y i =1 481, b ^ =∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82,a ^=y -b ^x =71+1.82×3.5=77.37, ∴线性回归方程为y ^=a ^+b ^x =77.37-1.82x .(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元)∴当产量为6 000件时,单位成本大约为66.45元. 8.解 由所给数据可求得:x =110(120+108+117+…+99+108)=107.8,y =110(84+64+…+57+71)=68,∑10i =1x 2i =1202+1082+…+992+1082 =116 584,∑10i =1y 2i =842+642+…+572+712=47 384, ∑10i =1x i y i =120×84+108×64+…+108×71=73 796.b ^=∑10i =1x i y i -10x y ∑10i =1x 2i -10x2=73 796-10×107.8×68116 584-10×107.82≈1.309 9,a ^=y -b ^x ≈68-1.309 9×107.8 ≈-73.207,∴y ^=1.309 9x -73.207.∴当x =118时,y ^=1.309 9×118-73.207≈81.361(分).。
高考知识点变量间的相关关系与统计案例
第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
高考数学一轮复习第十章统计与统计案例10.3变量间的相关关系、统计案例学案理
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.x 3 4 5 6 y2.5344.50.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.34.86.7A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:年份-2 010 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得,x =0,y =3.2,b ^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n ad-bc2a+b a+c b+d c+d(其中n=________为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别非统计专业统计专业男1310女720 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 答案:5%解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科文科总计男131023女72027总计203050已知P2P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×13×20-10×7223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.分数段[40,50)[50,60)[60,70)[70,80)[80,90)[90,100] 男39181569女64510132①估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分 非优分 总计 男生 女生 总计100附表及公式:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.841 6.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解] ①x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:优分 非优分 总计 男生 15 45 60 女生 15 25 40 总计3070100可得K 2=100×15×25-15×45260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. [点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K 2的值. 2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 月收入 (单位: 百元) [15, 25)[25, 35)[35, 45)[45, 55)[55, 65)[65, 75]赞成定 价者人数 1 2 3 5 3 4认为价 格偏高 者人数4812521“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入低于 55百元的人数月收入不低于 55百元的人数总计认为价 格偏高者赞成 定价者 总计附:K 2=a +bc +d a +c b +d. P (K 2≥k 0)0.05 0.01 k 03.8416.635解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入低于55百元的人数月收入不低于55百元的人数总计认为价格偏高者29332 赞成定价者11718 总计401050 K2=50×7×29-3×11210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元) 6.27.58.08.59.8 根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元答案:B解析:由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i=17y i=9.32,∑i=17t i y i=40.17,i=17y i-y2=0.55,7≈2.646.参考公式:相关系数r=∑i=1nt i-t y i-y∑i=1nt i-t2∑i=1ny i-y2,回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1nt i-t y i-y∑i=1nt i-t2,a^=y-b^t.解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17(t i -t)2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i∑i =18(w i∑i =18(x i -∑i =18(w i --x )2-w )2x )(y i -y )w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手总计 25周岁以上组 15 45 60 25周岁以下组15 25 40 总计3070100所以K 2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
高考数学一轮温习63变量间的相关关系与统计案例学案理
第六十三课时 变量间的相关关系与统计案例课前预习案1.会作两个有关联变量的数据的散点图,并利用散点图熟悉变量间的相关关系.2.了解最小二乘法的思想,能按照给出的线性回归方程系数公式成立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的大体思想、方式及其简单应用.4.了解独立性查验的思想、方式及其初步应用.1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是不是线性相关.若是散点图中点的散布从整体上看大致在一条直线的周围,咱们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程 (1)设线性回归方程为y ^=b ^x +a ^,⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^ x .(2)回归直线必然通过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性查验(1)独立性查验的有关概念①分类变量可用变量的不同“值”表示个体所属的的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的值域别离为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性查验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方式称为独立性查验.步骤如下:①计算随机变量K2的观测值k,查下表肯定临界值k0:P(K2≥k0)k000就以为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.预习自测1.下列两个变量之间的关系是相关关系的是( ).A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一按时,电流与电阻2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,按照一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法成立的回归方程为y ^=-,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可判定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后别离从居民点抽取了100位居民进行调查,通过计算K 2≈,按照这一数据分析,下列说法正确的是( ). A .有99%的人以为该栏目优秀B .有99%的人以为该栏目是不是优秀与改革有关系C .有99%的把握以为电视栏目是不是优秀与改革有关系D .没有理由以为电视栏目是不是优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据取得y 对x 的线性回归方程:y ^=+.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课堂探讨案考点1 线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)若是气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点2 线性回归方程及其应用【典例2】(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事前拟定的价钱进行试销,取得如下数据:(1)求回归直线方程y=b x+a,其中b=-20,a=y-b x;(2)估计在此后的销售中,销量与单价仍然服从(1)中的关系,且该产品的本钱是4元/件,为使工厂取得最大利润,该产品的单价应定为多少元?(利润=销售收入-本钱)【变式2】(2013·南昌模拟)以下是某地搜集到的新衡宇的销售价钱y和衡宇的面积x的数据.(1)(2)据(1)的结果估量当衡宇面积为150 m2时的销售价钱.考点3 独立性查验的大体思想及应用【典例3】在调查男女乘客是不是晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人.(1)按照以上数据成立一个2×2的列联表;(2)可否在犯错误的概率不超过的前提下以为晕机与性别有关系?(可能用到的公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),可能用到的数据:P(K2≥=,P(K2≥=【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)按照以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)可否有99%当堂检测1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0D .12.已知x ,y 取值如下表:x 0 1 4 5 6 8 y从所得的散点图分析可知:y 与x 线性相关,且y =+a ,则a =( ). A .B .1.45C .D .3.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法取得的线性回归直线(如图),以下结论正确的是 ( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,散布在l 双侧的样本点的个数必然相同 4.某产品的广告费用x 与销售额y 的统计数据如下表:按照上表可得回归方程y =b x +a 中的b 为,据此模型预报广告费用为6万元时销售额为 ( ). A .万元B .万元C .万元D .万元课后拓展案组全员必做题1则y 对x ). A .y =x -1B .y =x +1C .y =88+12x D .y =1762.(2013·福州模拟)下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =,则在犯错误的概率不超过的前提下以为这两个变量间有关系.其中错误的个数是 ( ). A .0 B .1 C .2 D .33.已知施化肥量x 与水稻产量y 的实验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).4.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=-,由此估量,当股骨长度为50 cm 时,肱骨长度的估量值为________ cm.5.为了判断高中三年级学生是不是选修文科与性别的关系,现随机抽取50名学生,取得如下2×2列联表:已知P (K 2≥≈,P (K 2≥≈.按照表中数据,取得K 2=50×(13×20-10×7)223×27×20×30≈.则以为选修文科与性别有关系犯错的可能性为________.组提高选做题1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明在犯错误的概率不超过量少的前提下以为喜欢玩游戏与作业量的多少有关系? 附:K 2=(a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品进程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请按照上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试按照(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×+4×3+5×4+6×=参考答案预习自测1.【答案】C【解析】A,B,D中两个变量间的关系都是肯定的,所以是函数关系;C中的两个变量间是相关关系,对于日照时间必然的水稻,仍可以有不同的亩产量,故选C.2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.3.【答案】D【解析】按照线性回归方程中各系数的意义求解.由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加 kg,故C正确.当某女生的身高为170 cm时,其体重估量值是 kg,而不是具体值,因此D不正确.4.【答案】D【解析】只有K2≥才能有99%的把握以为电视栏目是不是优秀与改革有关系,而即便K2≥也只是对“电视栏目是不是优秀与改革有关系”这个论断成立的可能性大小的结论,与是不是有99%的人等无关.故D正确.5.【答案】【解析】由题意,知其回归系数为,故家庭年收入每增加1万元,年饮食支出平均增加万元.典型例题【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致散布在一条直线的周围,因此气温和杯数近似成线性相关关系.(3)按照不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数量相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+++++9)=,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂取得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20错误!2+.当且仅当x =时,L 取得最大值.故当单价定为元时,工厂可取得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×++++22)=.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈ 2, ∴a ^=y -b ^x =-109×3081 570≈ 6.∴所求回归直线方程为y ^= 2x + 6.(2)由第(1)问可知,当x =150 m 2时,销售价钱的估量值为 y ^= 2×150+ 6= 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是不是晕机与性别无关,则K 2的观测值k =)256×84×56×84=359≈,P (K 2≥=.所以可以在犯错误的概率不超过的前提下以为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=12×18×20×10=10>,所以有99%的把握以为其亲属的饮食习惯与年龄有关.1.【答案】D【解析】样本点都在直线上时,其数据的估量值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×+++++=.又直线y ^=+a 必过样本中心点(x ,y ),即点(4,,于是有=×4+a ,由此解得a =,选B.【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;散布在回归直线双侧的样本点的个数并非绝对平均,无论样本点个数是奇数仍是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-×=, ∴回归方程为y ^=+,∴当x =6(万元)时,y ^=×6+=(万元).A 组全员必做题1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )必然知足线性回归方程,经验证知选C. 2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是不是具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关.【解析】按照线性回归方程y^=-,将x=50代入得y=,则肱骨长度的估量值为 cm. 5.【答案】5%【解析】∵K2≈,这表明小概率事件发生.按照假设查验的大体原理,应该判定“是不是选修文科与性别之间有关系”成立,而且这种判断犯错的可能性约为5%.B组提高选做题1.解:(1)认为作业多认为作业不多合计喜欢玩游戏18927不喜欢玩游戏81523合计262450(2)将表中的数据代入公式K2=2(a+b)(c+d)(a+c)(b+d)取得K2的观测值k=50×(18×15-8×9)226×24×27×23≈>,查表知P(K2≥=,即说明在犯错误的概率不超过的前提下以为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i=14x2i=86,x=3+4+5+64=(吨),y=错误!=(吨).已知∑i=14x i y i=,所以,由最小二乘法肯定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=错误!=,a ^=y -b ^x =-×=.因此,所求的线性回归方程为y ^=+.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-×100+=(吨标准煤).。
高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例学案理
高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例学案理052122949.3 变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,x -=1n ∑ni =1x i ,y -=1n ∑ni =1y i ,(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. [诊断自测] 1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)× 2.教材衍化(1)(必修A3P 94A 组T 3)某种产品的广告费用支出x (单位:万元)与销售额y (单位:万元)之间有如下的对应数据:由最小二乘法得到线性回归直线方程y =b x +a ,则此直线一定经过点( ) A .(5,60) B .(5,50) C .(6,50) D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,y -),而x -=15×(2+4+5+6+8)=5,y -=15×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:读生产日期 16 28 44 不读生产日期20 8 28 总计363672则有________的把握认为性别与是否读生产日期有关.答案 99.5%解析 由表中数据得k =72×(16×8-20×28)236×36×44×28≈8.416>7.879,所以可知有99.5%的把握认为性别与是否读生产日期有关.3.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时 ( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B.(2)(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个)10 2030 4050 加工时间y (min) 62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题型1 相关关系的判断典例1 对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②,由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关散点分布向右上升为正相关,反之为负相关.答案 C解析题图①的散点分布在斜率小于0的直线附近,y随x的增大而减小,故变量x与y负相关;题图②的散点分布在斜率大于0的直线附近,u随v的增大而增大,故变量u与v正相关,故选C.典例2甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m 106115124103 则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲 B.乙 C.丙 D.丁考查r的取值与1的关系.答案 D解析在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性,故选D.方法技巧判定两个变量正、负相关性的方法1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.见典例1.2.相关系数:r >0时,正相关;r <0时,负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 冲关针对训练下面是水稻产量与施化肥量的一组观测数据(单位:千克/亩): 施化肥量 15 20 25 30 35 40 45 水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解 (1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.题型2 线性回归分析角度1 线性回归方程及应用典例 (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a ^=y -b ^t .收集相关数据,代入公式.解 (1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程, 得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 角度2 非线性回归模型的应用典例 (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u .(1)散点图趋势是曲线,推断y =c +d x 适宜;(2)将非线性回归方程y =c+d x 用换元法w =x 转化为线性回归方程y =c +dw ,进而求解.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1(w i -w )(y i -y )∑8i =1(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 方法技巧1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.见角度1典例.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见角度2典例. 冲关针对训练(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y )∑n i =1(t i -t )2,a ^=y -b ^ t . 解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1 (t i -t )2=28,∑7i =1(y i -y )2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 题型3 独立性检验典例 (2018·广州测试)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图.(1)根据上图,估计乙流水线产品的该项质量指标值的中位数;(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件?(3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).解(1)设乙流水线产品的该项质量指标值的中位数为x,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86,所以(0.012+0.032+0.052)×5+0.076×(x-205)=0.5,解得x =390019.(2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为1550=310,乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=15.所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线生产的不合格品件数分别为5000×310=1500,5000×15=1000.(3)2×2列联表:则K 2=50×50×75×25=3≈1.3,因为1.3<2.072,所以没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.方法技巧独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.见典例.冲关针对训练(2017·洛阳模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据以上数据完成下列2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.(3)能否说有99%的亲属的饮食习惯与年龄有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)2×2列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218 总计201030(2)因为K2的观测值k=30×(8-128)212×18×20×10=10>6.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.(3)这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关.1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑i =110x i =225,∴x =110∑i =110x i =22.5.∵∑i =110y i =1600,∴y =110∑i =110y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C.2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案 B解析 由统计数据表可得 x -=8.2+8.6+10.0+11.3+11.95=10.0,y -=6.2+7.5+8.0+8.5+9.85=8.0,则a ^=8.0-0.76×10.0=0.4,所以回归直线方程为y ^=0.76x +0.4,当x =15时,y ^=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B.3.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.4.(2018·广东广州检测)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量 答案 D解析 K 2=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量,故选D.[重点保分 两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66% 答案 A解析 由7.675=0.66x +1.562,得x ≈9.262, 所以7.6759.262×100%≈83%.故选A.4.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:x 3 4 5 6 y2.5t44.5根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的精确值为 ( )A .3B .3.15C .3.5D .4.5 答案 A解析 ∵x -=3+4+5+64=4.5,代入y ^=0.7x +0.35,得y ^=3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下:A .a =45,c =15B .a =40,c =20C .a =35,c =25D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知, 当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大, 即a 、c 相差越大,a a +10与cc +30相差越大,故选A.8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23 答案 B解析 由题意可知x -=4+5+6+7+8+96=132,y -=90+84+83+80+75+686=80.又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106. 所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方. 故所求事件的概率P =26=13.故选B.9.(2018·安徽皖南一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小答案 D解析 回归直线过样本点的中心(x -,y -),A 正确;两个随机变量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,而b ′=2,a ′=-2,∴b ^<b ′,a ^>a ′,故选C.二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,则他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上) ①p ∧(綈q );②(綈p )∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ). 答案 ①④解析 由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.①列联表中c 的值为30,b 的值为35; ②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”;④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”.答案 ③解析 由题意知,成绩优秀的学生数是30, 成绩非优秀的学生数是75,所以c =20,b =45, ①②错误;根据列联表中的数据,得到 K 2=105×(10×30-20×45)255×50×30×75≈6.1>5.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B 级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.月份1234利润y (单位:百万元)4 4 66相关公式:b ^=a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
高三数学一轮复习 10-3变量间的相关关系、统计案例学案
例4.(2010年新课标)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(Ⅰ)估计该地区 老年人中,需要志愿提供帮助的老年人的比例;
(Ⅱ)能否有99℅的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
总计
总计
若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:根据观测数据计算由公式 所给出的检验随机变量的 观测值k,并且k的值越大,说明“X与Y有关系”成立的可能性越大,利用以下数据来确定“X与Y有关系”的可信程度,
如果 ,就有_______的把握认为“ 与 有关系”;
如果 ,就有99%的把握认为“ 与 有关系”;
月平均气温x(℃)
17
13
33
40
55
9.春节期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
通过分析,发现销售量 y与商品的价格x具有相关关系 ,则销售量y关于商品的价格x的回归直线方程为_____________________。
x
0
1
2
3
y
1
3
5
7
( D)以上说法都不对
2.已知x与y之间的一组数据如右表:则x与y的线性回归直线 必过点
(A)(2,2)(B)(1.5,0)(C)(1,2)(D)(1.5,4)
高考数学一轮复习第十章统计与统计案例第三节变量间的相关关系、统计案例课件理
[典题 3] (2016·九江模拟)某校数学课外兴趣小组为研 究数学成绩是否与性别有关,先统计本校高三年级每个学生 一学期数学成绩平均分(采用百分制),剔除平均分在 40 分以 下的学生后,共有男生 300 名,女生 200 名.现采用分层抽 样的方法,从中抽取了 100 名学生,按性别分为两组,并将 两组学生成绩分为 6 组,得到如下所示频数分布表.
n
xi--x yi--y
n xiyi-n-x -y
i=1
=
i=1
=
,^a=-y -^b-x ,其中^b是
n
xi--x 2
n x2i -n-x 2
i=1
i=1
回归方程的 斜率(x,ié^alǜ是) 在 y 轴上的 截距 .
第六页,共43页。
③样本中心:对于一组具有线性相关关系的数据(x1,y1), (x2,y2),…,(xn,yn)中(-x ,-y )称为样本点的中心.
附表及公式 K2=a+bcn+add-ab+cc2b+d
第三十五页,共43页。
[ 听 前 试 做 ] (1) x 男 = 45×0.05 + 55×0.15 + 65×0.3 + 75×0.25+85×0.1+95×0.15=71.5,
第二十页,共43页。
[听前试做] (1)观察散点图可知,只有 D 选项的散点图表 示的是变量 x 与 y 之间具有负的线性相关关系.
(2)由散点图可以看出两个变量所构成的点在一条直线附 近,所以线性相关关系较强,且应为正相关,所以回归直线方 程的斜率应为正数,且从散点图观察,回归直线方程的斜率应 该比 y=x 的斜率要小一些,综上可知应选 B.
(4)样本相关系数
n
xi--x yi--y
高考数学一轮复习第11章统计与统计案例3第3讲变量间的相关关系统计案例教案理
第3讲 变量间的相关关系、统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=y --b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D. 又因为x =0时,y >0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( ) 附:A.0.1% C .99%D .99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.下面是一个2×2列联表则表中a 、b 处的值分别为解析:因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54. 答案:52、54已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.解析:由已知得x -=2,y -=4.5,因为回归方程经过点(x ,y ),所以a ^=4.5-0.95×2=2.6. 答案:2.6相关关系的判断[典例引领]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关. 【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.某公司在2017年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领]角度一 由回归直线方程求参数值(2017·高考山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225 ∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166D .170【解析】 由题意可知y ^=4x +a ^,又x -=22.5,y -=160,因此160=22.5×4+a ^,所以a ^=70,因此y ^=4x +70.当x =24时,y ^=4×24+70=96+70=166.【答案】 C角度二、三 求回归直线方程并进行预测(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y -)2=0.55,7≈2.646.参考公式:相关系数r =回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】 (1)由折线图中数据和附注中参考数据得2.89,r =2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^==2.8928≈0.103,a ^=y --b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.求回归直线方程的步骤[提醒] 利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.(2018·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑n i =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.解:(1) x -=3,y -=5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[典例引领](2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)(精确到0.01).附:K2=n(ad(a+b)(c+d)(a+c)(b+d).【解】(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表K 2=200100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).(1)独立性检验的一般步骤 ①根据样本数据制成2×2列联表;②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题. ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2018·惠州市第三次调研考试)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x (同一组中的数据用该组区间的中点值作代表); (2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?附表及公式:K 2=(a +b )(c +d )(a +c )(b +d )x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69. (2)2×2列联表如下:因为K 2=40×160×50×150=6≈4.167>3.841,所以有超过95%的把握认为“获奖与学生的文、理科有关”.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势; (3)求出线性回归方程.易错防范(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值). (3)独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.1.(2018·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( ) A .75 B .155.4 C .375D .466.2解析:选C.由x 1+x 2+x 3+x 4+x 5=150,得x -=30,代入回归直线方程y ^=0.67x +54.9,得y -=75,则y 1+y 2+y 3+y 4+y 5=375.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C.根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.3.(2018·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 解析:令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.答案:574.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系.由公式得K 2的观测值k =90×(10×38-7×35)217×73×45×45≈0.653<2.706,所以成绩与班级无关.答案:无关5.(2018·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.6.(2018·成都市第二次诊断性检测)某项科研活动共进行了5次试验,其数据如下表所示:(1) (2)求特征量y 关于x 的线性回归方程y ^=b ^x +a ^,并预测当特征量x 为570时特征量y 的值. (附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=解:(1)记“至少有一个大于600”为事件A , 则P (A )=1-C 23C 25=710.(2)由题中表格可知,x -=555+559+551+563+5525=556,y -=601+605+597+599+5985=600.所以b ^=-1×1+3×5+(-5)×(-3)+7×(-1)+(-4)×(-2)(-1)2+32+(-5)2+72+(-4)2=30100=0.3,a ^=y --b ^x -=600-0.3×556=433.2, 所以线性回归方程为y ^=0.3x +433.2. 当x =570时,y ^=0.3×570+433.2=604.2 故特征量x 为570时,特征量y 的估计值为604.2.1.(2018·张掖市第一次诊断考试)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以458人参加某项活动.现从这8人中随机抽2人.(ⅰ)抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率. (ⅱ)记抽到45岁以上的人数为X ,求随机变量X 的分布列及数学期望. 参考数据:K 2=(a +b )(c +d )(a +c )(b +d )解:(1)列联表如下:因为K 2=10050×50×80×20=4=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)(ⅰ)抽到1人是45岁以下的概率为68=34,抽到1人是45岁以下且另一人是45岁以上的概率为C 16C 12C 28=37.故所求概率为3734=47.(ⅱ)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.则X =0,1,2.P (X =0)=C 26C 28=1528,P (X =1)=C 16C 12C 28=1228=37,P (X =2)=C 22C 28=128.可得随机变量X 的分布列为故E (X )=1×7+2×28=2.2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(y i -y -)2≈13.96, ∑6i =1(z i -z -)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i =47.64,∑6i =1(x i -x -)2≈4.18, ∑6i =1(z i -z -)2≈1.53, 所以r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, 所以a ^=z --b ^x -=2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62.令x =9,得y ^=e -0.36×9+3.62=e 0.38,因为ln 1.46≈0.38,所以y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元. (3) 当y ^≥0.711 8,即e -0.36x +3.62≥0.7118=eln 0.711 8=e-0.34时,则有-0.36x +3.62≥-0.34,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.精美句子1、善思则能“从无字句处读书”。
高考数学一轮复习 第十章 统计、统计案例 第3讲 变量相关关系与统计案例教案 理(含解析)新人教A版
第3讲 变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非□01确定性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为□02正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为□03负相关. 2.回归方程与回归分析 (1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在□04一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的□05距离的平方和最小的方法叫做最小二乘法.②回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定数.⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .(3)回归分析①定义:对具有□06相关关系的两个变量进行统计分析的一种常用方法. ②样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x =1n(x 1+…+x n ),y=1n(y1+…+y n),a^=y -b^x,(x ,y)称为样本点的中心.③相关系数r=∑i=1nx i -x y i-y∑i=1nx i-x2∑i=1ny i-y2,当r>0时,两变量□07正相关;当r<0时,两变量□08负相关;当|r|≤1且|r|越接近于1,相关程度□09越强;当|r|≤1且|r|越接近于0,相关程度□10越弱.3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的□11不同类别的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)独立性检验利用随机变量K2=n ad-bc2a+b c+d a+c b+d(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:②如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线y ^=b ^x +a ^必过样本点的中心.1.下面是一个2×2列联表其中a ,b 处填的值分别为( ) A .94 72 B .52 50 C .52 74 D .74 52 答案 C解析 由a +21=73,得a =52,a +22=b ,得b =74.故选C.2.(2019·某某模拟)已知相关变量x 和y 满足关系yx +1,相关变量y 与z 负相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 D解析 因为yx +1的斜率小于0,故x 与y 负相关.因为y 与z 负相关,可设z =b ^y +a ^,b ^<0,则z =b ^y +a ^b ^x +b ^+a ^,故x 与z 正相关.3.(2017·某某高考)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^x +2.3B.y ^=2x C.y ^=-2x +9.5 D.y ^x 答案 A解析 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.4.某校为了研究学生的性别与对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=6.669,则所得到的统计学结论是:有________的把握认为“学生性别与是否支持该活动有关系”. 附:答案 99%解析 因为6.669与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与是否支持该活动有关系”.5.(2019·某某模拟)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额约为________万元.答案解析 由表可计算x -=4+2+3+54=3.5,y -=49+26+39+544=42,因为点(3.5,42)在回归直线y ^=b ^x +a ^上,且b ^=9.4, 所以42=9.4×72+a ^,解得a ^=9.1.故回归方程为y ^xx =6,得y ^=65.5.核心考向突破考向一 线性回归分析例1 (2019·某某某某模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:根据表中数据,试求线性回归方程y ^=b ^x +a ^,并预测年龄为50岁的观众周均学习成语知识的时间.参考公式:b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x 2,a ^=y -b ^x .解 (1)设被污损的数字为a ,则a 有10种情况. 由88+89+90+91+92>83+83+87+90+a +99, 得a <8,∴有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,所求概率为810=45.(2)由表中数据,计算得x =35,y =3.5,b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x 2==7100, a ^=y -b ^x =3.5-7100×35=2120.∴y ^=7100x +2120. 当x =50时,y ^=4.55.即预测年龄为50岁的观众周均学习成语知识的时间为4.55小时. 触类旁通1正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. 2回归直线方程y ^=b ^x +a ^必过样本点中心x ,y .(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.即时训练 1.PM2.5是指空气中直径小于或等于 2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:(1)根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?( 参考公式:b ^=∑ni =1 x i -xy i -y∑n i =1x i -x2,a ^=y -b ^x ;参考数据:∑5i =1x i =540,∑5i =1y i=420 )解 (1)由条件可知,x =15∑5i =1x i =5405=108,y =15∑5i =1y i =4205=84, ∑5i =1 (x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144, ∑5i =1(x i -x )2=(-8)2+(-6)2+02+62+82=200.b ^=∑5i =1x i -xy i -y∑5i =1x i -x2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^x +6.24.(2)当x =200时,y ^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.考向二 两个变量的相关性角度1 相关关系的判断例2 为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,bB .线性相关关系较强,bC .线性相关关系较强,bD .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.角度2 相关系数的意义例 3 (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =116∑i =116x i =9.97,s =116∑i =116x i -x 2=116∑i =116x 2i -16x 2≈0.212,∑i =116i -8.52≈18.439,∑i =116(x i -x -)(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x --3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1nx i -x-y i -y-∑i =1nx i -x2∑i =1ny i -y-2.0.008≈0.09.解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数r =∑i =116x i -x-i -8.5∑i =116x i -x-2∑i =116i -8.52≈≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x -=9.97,s ≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为 115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i 22≈1591.134, 剔除第13个数据,剩下数据的样本方差为122)≈0.008,15这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.触类旁通判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.即时训练 2.(2019·某某模拟)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.3.如图所示是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a +bt 中,斜率和截距的最小二乘估计公式分别为b =∑i =1nt i -ty i -y∑i =1nt i -t2,a =y -b t .解 (1)由折线图中的数据和附注中的参考数据,得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈≈0.99.由y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =≈1.331及(1),得b =∑i =17t i -ty i -y∑i =17t i -t2=≈0.103,a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^t . 将2016对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 考向三 独立性检验例4 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d,解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.触类旁通利用统计量K 2进行独立性检验的步骤(1)根据数据列出2×2列联表. 2根据公式计算K 2找观测值k .3比较观测值k 与临界值表中相应的检验水平,作出统计推断.即时训练 4.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n ad-bc2a+b c+d a+c b+d.解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+≈52.35(kg).。
2023年高考数学(理科)一轮复习——变量间的相关关系与统计案例
索引
角度2 非线性回归方程及应用
例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB=1 024 TB),EB(1 EB=1 024 PB)乃至ZB(1 ZB=1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数 据量为0.49 ZB,2009年数据量为0.8 ZB,2010年增长到1.2 ZB,2011年数据 量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的 数据量(单位:ZB)及相关统计量的值:
(1)“ 名 师 出 高 徒 ” 可 以 解 释 为 教 师 的 教 学 水 平 与 学 生 的 水 平 成 正 相 关 关
系.( √ ) (2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ )
索引
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度 x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数 据(xi,yi)(i=1,2,…,20)得到下面的散点图: 由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发
高考数学 考点突破——统计与统计案例:变量间的相关关系与统计案例学案-人教版高三全册数学学案
变量间的相关关系与统计案例【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y-b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i-y ^i 2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d则随机变量K2=n ad-bc2a+b a+c b+d c+d(其中n=a+b+c+d为样本容量).【考点突破】考点一、相关关系的判断【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③①C.②①③ D.①③②(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[答案] (1) D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案] B[解析] 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12 D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.考点二、线性回归方程及应用【例2】某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴预测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】回归直线方程中系数的2种求法(1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x ,y )求系数. 【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )(y i -y )∑i =18(w i -w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .[解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 参考数据:∑ 7i =1y i =9.32,∑ 7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算. 【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序910111213141516零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得16119.9716i i x x ===∑,16162221111()(16)0.2121616i i i i s x x x x ===-=-≈∑∑,1621(8.5)18.439i i =-≈∑,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,这条生产线当天生产的零件尺寸的标准差的估计值为0.0080.09.考点三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n ad-bc2a+b c+d a+c b+d.[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)由(1)知可得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466由表中数据及K 2的计算公式得, K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.男生女生合计优秀 不优秀 合计附:参考公式和数据:K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k 0)0.500.05 0.025 0.005 k 00.4553.8415.0247.879[解析] (1), 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 所以x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.所以优秀的男生为6人,女生为4人;不优秀的男生为10人,女生为20人. 所以2×2列联表如下:男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计162440所以K 2=40×6×20-4×10216×24×10×30≈2.222<3.841,所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.。
2019年高考数学一轮复习理科:变量间的相关关系与统计案例学案
第四节 变量间的相关关系与统计案例[考纲传真] (教师用书独具)1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.(对应学生用书第165页)[基础知识填充]1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线. 2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法. (2)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b =∑n i =1 (x i -x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x2a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量χ2=n(ad-bc)(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.[知识拓展] 1.b的几何意义:体现平均增加或平均减少.2.由回归直线求出的数据是估算值,不是精确值.[基本能力自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )[答案](1)√(2)√(3)×(4)√2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4A[因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.] 3.下面是一个2×2列联表则表中a,b处的值分别为________52,54 [因为a+21=73,所以a=52.又因为a+2=b,所以b=54.]4.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮。
最新高考数学(理)一轮复习讲义 变量间的相关关系、统计案例
B.52,50
C.52,74
D.74,52
解析:选 C.因为 a+21=73,所以 a=52.又 a+22=b,所以 b=74.
3.(必修 3P90 例题改编)某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,
所得数据如表:
x 6 8 10 12 y23 5 6 则 y 对 x 的线性回归直线方程为( )
回归直线方程为^y=0.7x-2.3.故选 C.
一、思考辨析 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件 X,Y 的关系越密切,由观测数据计算得到的 K2 的观测值越大.( ) (5)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√ 二、易错纠偏 常见误区|K(1)混淆相关关系与函数关系; (2)对独立性检验 K2 值的意义不清楚; (3)不知道回归直线必过样本点中心. 1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分 别反映的变量间的相关关系是( )
A.回归分析
B.均值与方差
C.独立性检验
D.概率
解析:选 C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.(选修 23P97 练习改编)下面是 2×2 列联表:
y1 y2 合计
x1
a 21 73
x2
22 25
47
合计 b 46 120Fra bibliotek则表中 a,b 的值分别为( )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六十三课时 变量间的相关关系与统计案例课前预习案1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的基本思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用.1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程 (1)设线性回归方程为y ^=b ^x +a ^,⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^ x .(2)回归直线一定经过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性检验(1)独立性检验的有关概念 ①分类变量可用变量的不同“值”表示个体所属的的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:(2)独立性检验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查下表确定临界值k0:00就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.下列两个变量之间的关系是相关关系的是( ).A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ). A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ). A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C .有99%的把握认为电视栏目是否优秀与改革有关系D .没有理由认为电视栏目是否优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课堂探究案考点1 线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点2 线性回归方程及其应用【典例2】(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y=b x+a,其中b=-20,a=y-b x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【变式2】(2013·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.(1)(2)据(1)的结果估计当房屋面积为150 m2时的销售价格.考点3 独立性检验的基本思想及应用【典例3】在调查男女乘客是否晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人.(1)根据以上数据建立一个2×2的列联表;(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?(可能用到的公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),可能用到的数据:P(K2≥3.841)=0.05,P(K2≥5.024)=0.025)【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:(2)能否有99%1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ). A .-1B .0C.12D .12.已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ). A .1.30B .1.45C .1.65D .1.803.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( ). A .63.6万元B .65.5万元C .67.7万元D .72.0万元课后拓展案组全员必做题1则y 对x ). A .y =x -1B .y =x +1C .y =88+12x D .y =1762.(2013·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是 ( ). A .0 B .1 C .2 D .33.已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).4.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.组提高选做题1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:(1)(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系? 附:K 2=(a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)参考答案1.【答案】C【解析】A,B,D中两个变量间的关系都是确定的,所以是函数关系;C中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C.2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.3.【答案】D【解析】根据线性回归方程中各系数的意义求解.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.【答案】D【解析】只有K2≥6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故D正确.5.【答案】0.254【解析】由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20()x -8.252+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈0.196 2,∴a ^=y -b ^x =23.2-109×3081 570≈1.816 6.∴所求回归直线方程为y ^=0.196 2x +1.816 6.(2)由第(1)问可知,当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是否晕机与性别无关,则K 2的观测值k =)256×84×56×84=359≈3.889,P (K 2≥3.841)=0.05.所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.【答案】D【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 3.【答案】A【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=3.5(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).组全员必做题1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C. 2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关. 4.【答案】56.19【解析】根据线性回归方程y ^=1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm. 5.【答案】5%【解析】∵K 2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.组提高选做题1.解:(1)(2)将表中的数据代入公式K 2=(a +b )(c +d )(a +c )(b +d )得到K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).。