线性回归方程高考题讲解

合集下载

高考数学一轮复习(共节).线性回归方程及应用

高考数学一轮复习(共节).线性回归方程及应用

18、统计18.4 线性回归方程及应用【知识网络】1.能通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。

2.了解线性回归的方法;了解用最小二乘法研究两个变量的线性相关问题的思想方法;会根据给出的线性回归方程系数公式建立线性回归方程(不要求记忆系数公式)。

【典型例题】[例1](1)为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值为s与t,那么下列说法正确的是()A.直线l1和l2一定有公共点(s,t) B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2D.直线l1和l2必定重合(2)工人工资(元)依劳动生产率(千元)变化的回归方程为ˆy=50+80x,下列判断正确的是()A.劳动生产率为1000元时,工资为130元B.劳动生产率提高1000元时,工资提高80元C.劳动生产率提高1000元时,工资提高130元D.当月工资250元时,劳动生产率为2000元(3)下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。

其中正确的命题为()A.①③④B。

②④⑤C。

③④⑤D。

②③⑤(4)一家保险公司调查其总公司营业部的加班程度,收集了10周中每周加班工作时间y (小时)与签发新保单数目x的数据如下表,则用最小二乘法估计求出的线性回归方程是___________。

(5)上题中,若该公司预计下周签发新保单1000张,则需要加班的时间是。

[例2]其中x(血球体积,mm),y(血红球数,百万).①画出上表的散点图;②求出回归直线并且画出图形。

线性回归方程高考题讲解

线性回归方程高考题讲解

线性回归方程高考题讲解线性回归方程高考题1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据:3 4 5 62.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)2、假设关于某设备的使用年限x和所支出的维修费用y(万元)统计数据如下:使用年限x 2 3 4 5 6维修费用y 2.2 3.8 5.5 6.5 7.0若有数据知y对x呈线性相关关系.求:(1) 填出下图表并求出线性回归方程=bx+a的回归系数,;序号x y xy x21 2 2.22 3 3.83 4 5.54 5 6.55 6 7.0∑(2) 估计使用10年时,维修费用是多少.3、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四实试验,得到的数据如下:零件的个数x(个) 2 3 4 5加工的时间y(小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:4、某服装店经营的某种服装,在某周内获纯利(元)与该周每天销售这种服装件数之间的一组数据关系如下表:3 4 5 6 7 8 966 69 73 81 89 90 91已知:.(Ⅰ)画出散点图; (1I)求纯利与每天销售件数之间的回归直线方程.5、某种产品的广告费用支出与销售额之间有如下的对应数据:2 4 5 6 830 40 60 50 70(1)画出散点图:(2)求回归直线方程;6、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 3 4 5 6y 2.5 3 4 4.5(I)请画出上表数据的散点图;(II)请根据上表提供的数据,求出y关于x的线性回归方程;(III)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(II)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?(参考公式及数据: ,)7、以下是测得的福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间,有如下的对应数据:广告费支出x 2 4 5 6 8销售额y 30 40 60 50 70(1)画出数据对应的散点图,你能从散点图中发现福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间的一般规律吗?(2)求y关于x的回归直线方程;(3)预测当广告费支出为2(百万元)时,则这种产品的销售额为多少?(百万元)8、在某种产品表面进行腐蚀线实验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:时间t(s) 5 10 15 20 306 10 10 13 16深度y(m)(1)画出散点图;(2)试求腐蚀深度y对时间t的回归直线方程。

高考数学一轮复习专题05 回归直线方程(解析版)

高考数学一轮复习专题05 回归直线方程(解析版)

概率与统计 专题五:回归直线方程一、知识储备 1.两个变量线性相关(1)散点图:将样本中n 个数据点(,)i i x y (i =1,2,…,n )描在平面直角坐标系中得到的图形. (2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据11(,)x y ,22(,)x y ,33(,)xy (,)n n x y .②设所求回归方程为y bx a =+,其中,a b 是待定参数. ③由最小二乘法得1122211()(),()nnii i ii i nniii i xx y y x ynx yb a y bx xx xnx ====---===---∑∑∑∑其中,b 是回归方程的斜率,a 是截距. 二、例题讲解1.(2022·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国人大三次会议表决通过了《中华人民共和国民法典》这部法律自2021年1月1日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前5周每周普及宣传的人数与时间的数据,得到下表:(1)若可用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程; (2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.参考公式及数据:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆa y bx=-,()()51430i ii x x y y =--=∑.【答案】(1)4341y x =+;(2)预测该宣传小分队第7周普及宣传《民法典》的人数为342. 【分析】(1)求出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出y 关于x 的线性回归方程;(2)将7x =代入回归直线方程,可得出结果. 【详解】(1)由题意得()11234535x =++++=,()1901201702102601705y =++++=, ()()()()()()52222221132333435310i i x x=-=-+-+-+-+-=∑,所以()()()51521430ˆ4310iii i i x x y y bx x==--===-∑∑,所以ˆ17043341a y bx=-=-⨯=, 所以线性回归方程为4341y x =+;(2)由(1)知4341y x =+,令7x =,解得43741342y =⨯+=, 故预测该宣传小分队第7周普及宣传《民法典》的人数为342.2.(2022·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x 的线性回归方程;(2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y bx a =+,其中()()()1122211n ni iiii i b nnixii i x y nxy x x y y xnx x ==-==---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ 20.9y x =+;(2)12【分析】(1)由最小二乘法先求样本点中心(),x y ,再代入公式求ˆ2b=,即可得到答案; (2)先计算6棵A 树木中残差为零的有3棵,占比为3162=,即可得到答案;【详解】(1)由1(0.10.20.30.40.50.6)0.356x =⨯+++++=,1(1.1 1.3 1.6 1.5 2.0 2.1) 1.66y =⨯+++++=,610.1 1.10.2 1.30.3 1.60.4 1.50.5 2.00.6 2.1 3.71i ii x y==⨯+⨯+⨯+⨯+⨯+⨯=∑,6222222210.10.20.30.40.50.60.91ii x==+++++=∑,有62261216 3.7160.35 1.6ˆ20.9160.356i ii ii x yxybxx ==--⨯⨯===-⨯-∑∑,ˆˆ 1.6020.350.9ay bx =-=-⨯=, 故y 关于x 的回归方程为:ˆ 20.9yx =+. (2)当0.1x =时,ˆ20.10.9 1.1y=⨯+=,残差为1.1 1.10-=, 当0.2x =时,ˆ20.20.9 1.3y=⨯+=,残差为1.3 1.30-=, 当0.3x =时,ˆ20.30.9 1.5y=⨯+=,残差为1.6 1.50.1-=, 当0.4x =时,ˆ20.40.9 1.7y=⨯+=,残差为1.5 1.70.2-=-, 当0.5x =时,ˆ20.50.9 1.9y=⨯+=,残差为2.0 1.90.1-=, 当0.6x =时,ˆ20.60.9 2.1y=⨯+=,残差为2.1 2.10-=, 由这6棵A 树木中残差为零的有3棵,占比为3162=,∴这棵树木“长势标准”的概率为12.1.(2022·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:(10,20],(20,30],(30,40],(40,50],(50,60],其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y与疫苗注射量x个单位具有相关关系,样本数据的散点图如图2所示.(1)健管中心从自身免疫力指标在(40,60]内的样本中随机抽取3人调查其饮食习惯,记X表示这3人中免疫力指标在(40,50]内的人数,求X的分布列和数学期望;(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.附:对于一组样本数据()()()1122,,,,,,n nx y x y x y⋅⋅⋅,其回归直线ˆy bx a=+的斜率和截距的最小二乘估计值分别为()()()1122211,nniii ii i nniii i x x yy x ynxyb a y bx x x xnx====---===---∑∑∑∑. 【答案】(1)分布列见解析,125;(2)疫苗注射量不应超过80个单位. 【分析】(1)根据频率分布直方图分别求出自身免疫力指标在(40,50]内和在(50,60]内的人数,写出X 的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案. 【详解】解:(1)由直方图知,自身免疫力指标在(40,50]内的人数为0.008101008⨯⨯=,在(50,60]内的人数为0.002101002⨯⨯=,则X 的可能取值为1,2,3.其中122130828282233101010177(1),(2),(3)151515C C C C C C P X P X P X C C C =========.所以X 的分布列为()177121231515155E X =⨯+⨯+⨯=. (2)由散点图知,5组样本数据(,)x y 分别为(10,30),(30,50),(50,60),(70,70),(90,90),且x 与y 具有线性相关关系. 因为50,60x y ==,则22222210303050506070709090550607103050709055010b ⨯+⨯+⨯+⨯+⨯-⨯⨯==++++-⨯,760502510a =-⨯=,所以回归直线方程为ˆ0.725yx =+. 由直方图知,免疫力指标的平均值为26402482152535455527100100100100100⨯+⨯+⨯+⨯+⨯=. 由27381ˆy≤⨯=,得0.72581x +≤,解得80x ≤. 据此估计,疫苗注射量不应超过80个单位.2.(2022·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)的一个样本,5天内每天新接种疫苗的情况,如下统计表:(1)建立y 关于x 的线性回归方程;(2)假设全村共计2000名居民(均未接种过疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为:1221ˆi ii nii x ynxybxnx π==-=-∑∑,ˆˆay bx =-. 【答案】(1)222955y x =+;(2)7. 【分析】(1)根据公式求线性回归方程即可; (2)根据线性回归方程可设222955n a n ,求出67,S S ,与200080%1600⨯=比较即可求解. 【详解】 (1)1234535x ++++==,1015192328195y ++++==,则51522222222110305792140531922ˆ12345535i ii ii x y nxybxnx ==-++++-⨯⨯===++++-⨯-∑∑,222919355ˆa =-⨯=,故y 关于x 的线性回归方程222955y x =+. (2)设222955na n ,数列{}n a 的前n 项和为n S ,易知数列{}n a 是等差数列, 则()12222922291155558225n n n a a S n n n n⎛⎫+++ ⎪+⎝⎭=⋅=⋅=+, 因为6127.2S ,7163.8S , 所以6101272S =,7101638S =200080%1600⨯=(人),所以预测该村80%居民接种新冠疫苗需要7天.3.(2022·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中1,2,3,i =,时间变量i x 对应的机动车纯增数据为i y ,且通过数据分析得到时间变量x 与对应的机动车纯增数量y (单位:万辆)具有线性相关关系.(1)求机动车纯增数量y (单位:万辆)关于时间变量x 的回归方程,并预测2025~2030年间该市机动车纯增数量的值;附:回归直线方程y bx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211n ni iiii i nniii i x y nx y x x y y b xnxx x ====-⋅--==--∑∑∑∑;a y bx =-.(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22⨯列联表: 根据上面的列联表判断,能否有95%的把握认为“对限行的意见与是否拥有私家车”有关. 附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】(1) 5.7 5.1y x =-,2025~2030年间,机动车纯增数量的值约为34.8万辆;(2)没有95%的把握认为“对限行的意见与是否拥有私家车有关”. 【分析】(1)根据最小二乘法求得线性回归方程,再求估计值即可; (2)根据列联表求得卡方观测值,再对照表即可得解. 【详解】 (1)由所以3x =,12y =,51132639415527237i ii x y=⨯+⨯+⨯+=⨯+⨯=∑.()12222222212375312575.755451234553ni ii ni i x y nx yb x nx==-⋅-⨯⨯====-++++-⨯-∑∑. 因为y bx a =+过点(),x y ,所以 5.7y x a =+,5.1a =-,所以 5.7 5.1y x =-.2025~2030年时,7x =,所以 5.77 5.134.8y =⨯-=, 所以2025~2030年间,机动车纯增数量的值约为34.8万辆. (2)根据列联表,由()()()()()22n ad bc K a b c d a c b d -=++++得观测值为()2220025 3.12510085251575100160084K ⨯⨯-⨯⨯=⨯⨯==,3.125 3.841<,所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.4.(2022·贵州贵阳·高三月考(理))据贵州省气候中心报,2022年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm ,其余均在50mmm 以上,局地超过100mm.若我省某地区2022年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x (x ∈N ,且09x ≤≤)表示是否下雨:当[]()0,x k k Z ∈∈时表示该地区下雨,当[]1,9x k ∈+时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下: 332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k 的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2021年该地区端午节当天降雨量(单位:mm )如表:经研究表明:从2016年到2021年,该地区端午节有降雨的年份的降雨量y 与年份t 具有线性相关关系,求回归直线方程y bt a =+.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:()()()1122211nniii ii i nniii i tty y t y nt yb tttnt====---==--∑∑∑∑,a y bt =-.【答案】(1)4, 25;(2)814955y t =-+,935mm .【分析】(1)由于该地区每一天下雨的概率均为50%,所以150%10k +=,从而可求出k 的值,在所给的20组数据中找出有两天小于等于k 的数,从而利用古典概型的概率公式可求出概率,(2)直接利用所给的数据和公式求出回归直线方程。

专题01 线性回归方程(解析版)

专题01 线性回归方程(解析版)

【解析】解: x 0 1 2 3 3 , y m 3 5.5 7 m 15.5 ,
4
2
4
4
这组数据的样本中心点是 ( 3 , m 15.5) , 24
关于 y 与 x 的线性回归方程 yˆ 2.1x 0.85 ,
m 15.5 2.1 3 0.85 ,解得 m 0.5 ,
x (次数 / 分
20
30
40
50
60
钟)
y( C)
25
27.5
29
32.5
36
A. 33 C
B. 34 C
C. 35 C
【解析】解:由题意,得 x 20 30 40 50 60 40 , 5
y 25 27.5 29 32.5 36 30 , 5
则 k y 0.25x 30 0.25 40 20 ;
故答案为:10.
例 7.已知一组数据点:
x
x1
x2
x8
y
y1
y2
y8
8
用最小二乘法得到其线性回归方程为 yˆ 2x 4 ,若数据 x1 , x2 , , x8 的平均数为 1,则 yi i 1
16 .
3
原创精品资源学科网独家享有版权,侵权必究!
【解析】解:由题意, x 1 ,设样本点的中心为 (1, y) , 又线性回归方程为 yˆ 2x 4 ,则 y 2 1 4 2 ,
购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用 Y (单位:万元)的分布列为:
Y
30
20
70
120
P
0.3
0.4
0.2
0.1
E(Y ) 30 0.3 20 0.4 70 0.2 120 0.1 25 (万元)

线性回归方程高考的题目讲解

线性回归方程高考的题目讲解

线性回归方程高考题1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据:3 4 5 62.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)2、假设关于某设备的使用年限x和所支出的维修费用y(万元)统计数据如下:使用年限x 2 3 4 5 6维修费用y 2.2 3.8 5.5 6.5 7.0若有数据知y对x呈线性相关关系.求:(1) 填出下图表并求出线性回归方程=bx+a的回归系数,;序号x y xy x21 2 2.22 3 3.83 4 5.54 5 6.55 6 7.0∑(2) 估计使用10年时,维修费用是多少.3、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四实试验,得到的数据如下:零件的个数x(个) 2 3 4 5加工的时间y(小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:4、某服装店经营的某种服装,在某周内获纯利(元)与该周每天销售这种服装件数之间的一组数据关系如下表:3 4 5 6 7 8 966 69 73 81 89 90 91已知:.(Ⅰ)画出散点图; (1I)求纯利与每天销售件数之间的回归直线方程.5、某种产品的广告费用支出与销售额之间有如下的对应数据:2 4 5 6 830 40 60 50 70(1)画出散点图:(2)求回归直线方程;(3)据此估计广告费用为10时,销售收入的值.6、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 3 4 5 6y 2.5 3 4 4.5(I)请画出上表数据的散点图;(II)请根据上表提供的数据,求出y关于x的线性回归方程;(III)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(II)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?(参考公式及数据: ,)7、以下是测得的福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间,有如下的对应数据:广告费支出x 2 4 5 6 8销售额y 30 40 60 50 70(1)画出数据对应的散点图,你能从散点图中发现福建省某县某种产品的广告费支出x与销售额y(单位:百万元)之间的一般规律吗?(2)求y关于x的回归直线方程;(3)预测当广告费支出为2(百万元)时,则这种产品的销售额为多少?(百万元)8、在某种产品表面进行腐蚀线实验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:时间t(s) 5 10 15 20 306 10 10 13 16深度y(m)(1)画出散点图;(2)试求腐蚀深度y对时间t的回归直线方程。

线性回归方程的求法

线性回归方程的求法

高考统计部分的两个重要公式 具体如何应用第一公式:线性回归方程为ˆˆˆybx a =+的求法: (1) 先求变量x 的平均值,即1231()n x x x x x n=+++⋅⋅⋅+ (2) 求变量y 的平均值,即1231()n y y y y y n=+++⋅⋅⋅+ (3) 求变量x 的系数ˆb,有两个方法 法1 121()()ˆ()niii nii x x y y bx x ==--=-∑∑(题目给出不用记忆)[]112222212()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=⎡⎤-+-++-⎣⎦(需理解并会代入数据)法2 1221ˆni ii nii x y n x ybxn x==-⋅⋅=-⋅∑∑(题目给出不用记忆)[]1122222212...,...n n n x y x y x y n x y x x x n x++-⋅⋅=⎡⎤+++-⋅⎣⎦(这个公式需要自己记忆,稍微简单些)(4) 求常数ˆa,既ˆˆa y bx =- 最后写出写出回归方程ˆˆˆybx a =+。

可以改写为:ˆˆy bx a =- 例.已知,x y 之间的一组数据:求y 与x 的回归方程:解:(1)先求变量x 的平均值,即(0123) 1.54x =+++= (2)求变量y 的平均值,即1(1357)44y =+++=(3)求变量x 的系数ˆb,有两个方法 []11223344222212342222()()()()()()()()ˆ1()()()()(0 1.5)(14)(1 1.5)(34)(2 1.5)(54)(3 1.5)(74)57(0 1.5)(1 1.5)(2 1.5)(3 1.5)x x y y x x y y x x y y x x y y bx x x x x x x x --+--+--+--=⎡⎤-+-+-+-⎣⎦--+--+--+--==⎡⎤-+-+-+-⎣⎦法法2 ˆb =[][]112222222222212...011325374 1.5457...01234 1.5n n n x y x y x y nx y x x x nx++-⋅⨯+⨯+⨯+⨯-⨯⨯==⎡⎤⎡⎤+++-+++-⨯⎣⎦⎣⎦ (4) 求常数ˆa,既525ˆˆ4 1.577a y bx =-=-⨯= 最后写出写出回归方程525ˆˆˆ77ybx a x =+=+第二公式:独立性检验两个分类变量的独立性检验:注意:数据a 具有两个属性1x ,1y 。

2023届高考数学复习 第47讲 数据分析 —— 一元线性回归模型及其应用(共34张PPT)

2023届高考数学复习 第47讲 数据分析 —— 一元线性回归模型及其应用(共34张PPT)

3,b∧=01.01=0.01,a∧= y -b∧ x =0.5-0.03=0.47.所以经验回归方程为∧y=0.01x+0.47,则
当 x=6 时,y=0.53.所以预测小李该月 6 号打 6h 篮球的投篮命中率为 0.53.
知识聚焦
1. 一元线性回归模型:EY=eb=x+0,a+Dee,=σ2 称为 Y 关于 x 的一元线性回归模型.其
y)如下表所示:
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出 y 关于 x 的经验回归方程为∧y=0.7x+a∧,据此计算出样本(4,3)
处的残差为-0.15,则表中 m 的值为( B )
A. 3.3
B. 4.5
C. 5
D. 5.5
【解析】 由题意可知,在样本(4,3)处的残差为-0.15,则∧y=3.15,即 3.15=0.7x +a∧,解得a∧=0.35,即∧y=0.7x+0.35,又 x =3+4+4 5+6=4.5,且经验回归方程过样本 中心点( x , y ),则 y =0.7×4.5+0.35=3.5,则 y =2.5+34+4+m=3.5,解得 m=4.5.
残差分析
(2021·佛山二模)H 市某企业坚持以市场需求为导向,合理配置生产资源,不
断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量 x(单位:吨)与
相应的生产总成本 y(单位:万元)的五组对照数据.
产量 x(件)
1
2
3
4
5
生产总成本 y(万元)
3
7
8
10
12
(1) 根据上述数据,若用最小二乘法进行线性模拟,试求 y 关于 x 的经验回归方程∧y

高考数学知识点精讲多元线性回归与逐步回归

高考数学知识点精讲多元线性回归与逐步回归

高考数学知识点精讲多元线性回归与逐步回归高考数学知识点精讲:多元线性回归与逐步回归在高考数学中,统计学的知识占有重要的一席之地,其中多元线性回归与逐步回归更是常常出现在考题中。

对于这两个概念,理解它们的原理、应用以及相关的计算方法是十分关键的。

首先,我们来聊聊什么是多元线性回归。

简单来说,多元线性回归就是研究一个因变量与多个自变量之间线性关系的一种统计方法。

比如说,我们想要研究一个学生的高考成绩(因变量)与他平时的作业完成情况、课堂参与度、课后复习时间等多个因素(自变量)之间的关系,这时候就可以用到多元线性回归。

多元线性回归的数学模型可以表示为:Y =β₀+β₁X₁+β₂X₂+… +βₚXₚ +ε 。

其中,Y 是因变量,X₁,X₂,…,Xₚ 是自变量,β₀是截距,β₁,β₂,…,βₚ 是回归系数,ε 是随机误差。

那怎么来确定这些回归系数呢?这就需要用到最小二乘法。

最小二乘法的基本思想就是要使得观测值与预测值之间的误差平方和达到最小。

通过一系列复杂的数学计算,我们可以得到回归系数的估计值。

接下来,我们再看看逐步回归。

逐步回归是一种在多元线性回归基础上发展起来的方法。

在实际问题中,并不是所有的自变量都对因变量有显著的影响。

逐步回归的目的就是从众多的自变量中筛选出对因变量有显著影响的自变量,建立一个“最优”的回归方程。

逐步回归的过程大致可以分为三步。

第一步是前进法,就是先将对因变量影响最大的自变量选入回归方程;第二步是后退法,就是将已经选入方程的自变量中,对因变量影响不显著的自变量剔除出去;第三步是双向筛选法,就是结合前进法和后退法,不断地选入和剔除自变量,直到得到最优的回归方程。

在实际应用中,多元线性回归和逐步回归都有广泛的用途。

比如说,在经济领域,可以用来预测股票价格、分析市场需求等;在医学领域,可以用来研究疾病的危险因素、评估治疗效果等;在工程领域,可以用来优化生产过程、提高产品质量等。

为了更好地理解和应用多元线性回归与逐步回归,我们来通过一个具体的例子看看。

高考数学二轮复习考点题型专题讲解与练习31 线性和非线性回归7种题型归纳

高考数学二轮复习考点题型专题讲解与练习31 线性和非线性回归7种题型归纳

高考数学二轮复习考点题型专题讲解与练习第31讲线性和非线性回归7类【题型一】 线性回归【典例分析】如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以证明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量. 附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55= 2.646.参考公式:相关系数()()nii tty y r --=∑ˆˆˆya bt =+中斜率和截距的最小二乘法估计公式分别为()()()121ˆniii ni i t t y y bt t ==--=-∑∑,ˆˆay bt =-.【变式演练】1.2020年全面建成小康社会取得伟大历史成就,决战脱贫攻坚取得决定性胜利.某市积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收,某商家统计了7个月的月广告投入x (单位:万元)与月销量y (单位:万件)的数据如表所示:(1)已知可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明,并求y 关于x 的线性回归方程;(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件. 参考数据:()()71150i i i x x y y =--=∑,()721820i i y y=-=∑37.88.参考公式:相关系数()()niix x y y r --∑回归直线y bx a =+$$$的斜率和截距的最小二乘估计分别为()()()121niii nii x x yyb x x ==--=-∑∑,a y bx =-$$.2.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:(1)建立y 关于x 的线性回归方程;(2)预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+$$$中斜率和截距的最小二乘估计公式分别为: 1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.【题型二】 残差【典例分析】2018年9月17日,世界公众科学素质促进大会在北京召开,国家主席习近平向大会致贺信中指出,科学技术是第一生产力,创新是引领发展的第一动力某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据{xi ,yi )(i =1,2,3,4,5,6),如表(1)求出p 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价:x (百元)的线性国归方程y bx a =+$$$(计算结果精确到整数位); (3)用表示用正确的线性回归方程得到的与x 对应的产品销的估计值当销售数据(xi ,yi )的残差的绝对值|yi ﹣y |<1时,则将销售数据称为一个“有效数据”现从这6组销售数中任取2组,求抽取的2组销售数据都是“有效数据”的概率.参考公式及数据611 6i y ==∑yi =80,61i i i x y ==∑1606,621 i i x ==∑91,()()()1122211n niii ii i nniii i x x y y x y nxy b x x x nx====---==--∑∑∑∑,a y bx =-.【变式演练】1.“大众创业,万众创新”是李克强总理在本届政府工作报告中向全国人民发出的口号.某生产企业积极响应号召,大力研发新产品.为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据(,)(1,2,,6)i i x y i =,如下表所示:已知611806i i y y ===∑.(1)求出q 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价x (元)的线性回归方程ˆˆˆybx a =+;(3)用ˆi y表示用正确的线性回归方程得到的与i x 对应的产品销量的估计值.当销售数据(,)i i x y 的残差的绝对值ˆ||1i i y y -≤时,则将销售数据(,)i i x y 称为一个“好数据”.现从6个销售数据中任取2个,求抽取的2个销售数据中至少有1个是“好数据”的概率.2..医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm 的人,其标准体重为175-105=70公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:(1)从这6人中任选2人,求恰有1人体重超标的概率;(2)依据上述表格信息,用最小二乘法求出了体重y 对身高x 的线性回归方程:0.65y x a =+,但在用回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在区间[]3.5,3.5-之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据? 参考公式:残差i i i e y bx a =--.【题型三】 剔除数据重新计算【典例分析】习近平总书记在党的十九大报告中指出,要在“幼有所育、学有所教、劳有所得、病有所医、老有所养、住有所居、弱有所扶”上不断取得新进展,保证全体人民在共建共享发展中有更多获得感.现S 市政府针对全市10所由市财政投资建设的敬老院进行了满意度测评,得到数据如下表:(1)求投资额y 关于满意度x 的相关系数;(2)我们约定:投资额y 关于满意度x 的相关系数r的绝对值在0.75以上(含0.75)是线性相关性较强,否则,线性相关性较弱.如果没有达到较强线性相关,则采取“末位淘汰”制(即满意度最低的敬老院市财政不再继续投资,改为区财政投资).求在剔除“末位淘汰”的敬老院后投资额y 关于满意度x 的线性回归方程(系数精确到0.1) 参考数据:21.9,72.1x y ==,1022110288.9=-=∑ii x x 37.16≈,10110452.1i i i x y x y =-⋅=∑,17≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅,其回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计公式分别为:1221ˆˆˆ,ni ii nii x y nx ybay bx xnx==-⋅==--∑∑.线性相关系数ni ix y nx yr -⋅∑专题18 概率与统计综合-2020年高考数学(文)母题题源解密(全国Ⅱ专版)【变式演练】1.BMI 指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI 数值大于或等于20.5时,我们说体重较重,当BMI 数值小于20.5时,我们说体重较轻,身高大于或等于170cm 时,我们说身高较高,身高小于170cm 时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:(1)根据最小二乘法的思想与公式求得线性回归方程ˆ0.875.9yx =-.利用已经求得的线性回归方程,请完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值2R (保留两位有效数字);(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg ).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的线性回归方程.参考公式: ()()()()221112222111ˆ1.()ˆnnniiiii ii i i nnniiii i i y yx x yy x ynxy R y y x x n bxx ======----=-==---∑∑∑∑∑∑,ˆˆa y bx =-.ˆˆˆi i ie y bx a =--. 参考数据:8178880i i i x y ==∑,821226112ii x ==∑,168x =,58.5y =,()821226i i y y =-=∑.河北省石家庄市第二中学(南校区)2019-2020学年高三下学期教学质量检测模拟数学(理)试题2.某手机公司生产某款手机,如果年返修率不超过千分之一,则生产部门当年考核优秀,现获得该公司2010-2018年的相关数据如下表所示:(1)(理)专题1.5 概率与统计-回归分析、独立性检验-2021年高考数学解答题挑战满分专项训练(新高考地区专用)从该公司2010-2018年的相关数据中任意选取3年的数据,以X 表示3年中生产部门获得考核优秀的次数,求X 的分布列和数学期望;(2)根据散点图发现2015年数据偏差较大,如果去掉该年的数据,试用剩下的数据求出年利润y (千万元)关于年生产量x (万台)的线性回归方程(精确到0.01).部分计算结果:911 6.29i i y y ===∑,921509ii x==∑,91434.1i i i x y ==∑.附:()()=年返修量台年返修率年生产量台;线性回归方程y bx a =+$$$中,()()()1122211n niii i i i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【题型四】 非线性回归1:指数型【典例分析】从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的x 表示清洗的次数,y 表示清洗x 次后1千克该蔬菜残留的农药量(单位:微克).(1)在如图的坐标系中,描出散点图,并根据散点图判断,y bx a =+$$$与ˆˆˆx yme n -=+哪一个适宜作为清洗x 次后1千克该蔬菜残留的农药量的回归方程类型;(给出判断即可,不必说明理由)(2)根据判断及下面表格中的数据,建立y 关于x 的回归方程; 表中ix i eω-=,5115i i ωω==∑.(3)对所求的回归方程进行残差分析.附:①线性回归方程y bx a =+$$$中系数计算公式分别为121()()()ˆniii ni i x x y y bx x ==--=-∑∑,a y bx =-$$;②22121()1()nii i n ii yy R yy ==-=--∑∑,20.95R >说明模拟效果非常好;③10.37e ≈,210.14e ≈,310.05e ≈,410.02e ≈,510.01e≈.【变式演练】1.为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并做出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈现线性相关关系,现分别用模型①212y C x C =+与模型;②34C x C y e +=作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.其中2i i t x =,7117i i t t ==∑,ln i iz y =,7117i i z z ==∑. 附:对于一组数据()()()1122,,,,,n n μνμνμν,其回归直线νβμα=+的斜率和截距的最小二乘估计分别为:()()()121n i iin i iμμννμβμ==---=∑∑,ανβμ=-.(1)根据表中数据,模型①、②的相关指数计算分别为210.82R =,220.96R =,请根据相关指数判断哪个模型的拟合效果更好.(2)根据(1)中的判断,在拟合效果更好的模型下求y 关于x 的回归方程;并估计温度为30℃时的产卵数.(1C ,2C ,3C ,4C 与估计值均精确到小数点后两位) (参考数据: 4.6518e 04.5≈, 4.8514e 27.7≈, 5.0512e 56.0≈)2.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为x (单位:公斤),粮食亩产量为y (单位:百公斤).参考数据:表中ln ,ln (1,2,,10)i i i i t x z y i ===.(1)根据散点图判断,y a bx =+与d y cx =,哪一个适宜作为粮食亩产量y 关于化肥施用量x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量y 的值; 附:①对于一组数据(),(1,2,3,,)i i u v i n =,其回归直线ˆˆˆv u βα=+的斜率和截距的最小二乘估计分别为1221,ˆˆˆni i i ni i u v nuvav u unu ββ==-==--∑∑;②取 2.7e ≈.【题型五】 非线性回归2:反比例型【典例分析】为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量y (单位:3g/m )与样本对原点的距离x (单位:m )的数据,并作了初步处理,得到了下面的一些统计量的值.(表中1i i u x =,9119i i u u ==∑).(1)利用样本相关系数的知识,判断y a bx =+与dy c x=+哪一个更适宜作为平均金属含量y 关于样本对原点的距离x 的回归方程类型? (2)根据(1)的结果回答下列问题: (i )建立y 关于x 的回归方程;(ii )样本对原点的距离20x =时,金属含量的预报值是多少?(iii )已知该金属在距离原点m x 时的平均开采成本W (单位:元)与x ,y 关系为()1000ln W y x =-()1100x ≤≤,根据(2)的结果回答,x 为何值时,开采成本最大?附:对于一组数据()()()1122,,,,,,n n t s t s t s ⋅⋅⋅,其线性相关系数()()niit t s s r --=∑,其回归直线s t αβ=+的斜率和截距的最小二乘估计分别为:()()()121ˆnii i nii tts s ttβ==--=-∑∑,ˆˆs t αβ=-.【变式演练】1.近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归摸型:模型①:(1) 1.6285ˆ5.7yx =-+,模型②: (2)26.6 3.ˆ7150y x=+,对以上两个回归方程进行残差分析,得到下表:(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;(2)视残差i e 的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.附:()()()121nii i nii xx y yb x x ==--=-∑∑, a y bx =-$$;222220.270.380.97 1.020.28 2.277++++=2.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据.通过对比分析,建立了两个函数模型:①y a bx =+;②dy c x=+,若对于任意一点(,)(12......)i i i P x y i n =,,,过点i P 作与x 轴垂直的直线,交函数y a bx =+的图象于点(',')i i i A x y ,交函数dy c x =+的图象于点('','')i i i B x y ,定义:11'ni i i Q y y ==-∑,21''ni i i Q y y ==-∑,若12Q Q <则用函数y a bx =+来拟合y 与x 之间的关系更合适,否则用函数dy c x=+来拟合y 与x 之间的关系.(1)给定一组变量123456(1,4),(2,5),(3,6),(4,6.5),(5,7),(6,8)P P P P P P ,对于函数23x y +=与函数52x y x-=,试利用定义求1Q ,2Q 的值,并判断哪一个更适合作为点(,)(1,2,......6)i i i P x y i =中的y 与x 之间的拟合函数;(2)若一组变量的散点图符合dy c x=+图象,试利用下表中的有关数据与公式求y 与x 的回归方程,并预测当=10x 时,y 的值为多少.表中的1=x ω,811=8i i ωω=∑附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅(,)n n u v ,其回归直线方程v u αβ=+的斜率和截距的最小二乘估计分别为121()()=()niii nii u u v v u u β==---∑∑,v u αβ=-【题型六】 非线性回归3:对数型【典例分析】某投资公司2012年至2021年每年的投资金额x (单位:万元)与年利润增量y (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了y 关于x 的两个回归模型;模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.5020ˆ.5yx =-;模型②:由图中样本点的分布,可以认为样本点集中在由线:ln y b x a =+的附近,对投资金额x 做换元,令ln t x =,则y b t a =⋅+,且有101010102111122.00,230,569.00,50.92i i i i i i i i i t y t y t ========∑∑∑∑,(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本()()1,1,2,,i t y i n =⋯的最小乘估计公式为()()()121ˆˆˆ,niii ni i t t y y bay bt t t ==--==--∑∑;参考数据:ln20.6931,ln5 1.6094≈≈.【变式演练】1.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =cedx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01).参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令()()()8820.1411ln ,0.84, 6.50, 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑2.某电器企业统计了近10年的年利润额y (千万元)与投入的年广告费用x (十万元)的相关数据,散点图如图,对数据作出如下处理:令ln i i u x =,ln i i v y =,得到相关数据如表所示:(1)从①y bx a =+;②()0,0ky m x m k =⋅>>;③2y cx dx e =++三个函数中选择一个作为年广告费用x 和年利润额y 的回归类型,判断哪个类型符合,不必说明理由; (2)根据(1)中选择的回归类型,求出y 与x 的回归方程;(3)预计要使年利润额突破1亿,下一年应至少投入多少广告费用?(结果保留到万元) 参考数据:3103.67883.678849.787e≈≈, 参考公式:回归方程ˆˆˆv bu a =+中斜率和截距的最小二乘估计公式分别为1221ˆni i i ni i u v nxybunu==-=-∑∑【题型七】 非线性回归4:其他函数型【典例分析】光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:某位同学分别用两种模型:①2y bx a =+,②y dx c =+进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差等于i i y y -):经过计算得()()8172.8i i i x x y y =--=∑,()82142i i x x=-=∑,()()81686.8i ii t ty y =--=∑,()8213570i i t t =-=∑,其中2i it x =,8118i i t t ==∑.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.(2)根据(1)的判断结果及表中数据建立y 关于x 的回归方程,并预测该地区2020年新增光伏装机量是多少.(在计算回归系数时精确到0.01)附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-$$.【变式演练】1.2021年11月4日,第四届中国国际进口博览会在上海开幕,共计2900多家参展商参展,420多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出20种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这20种新产品中随机地选取10种产品,每种产品被甲、乙两部门是否选中相互独立.(1)求20种新产品中产品A 被甲部门或乙部门选中的概率;(2)甲部门对选取的10种产品的年研发经费i x (单位:万元)和年销售额()1,2,,10i y i =(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定y 关于x 的回归方程为()23y b x a =-+.求a 、b 的值(结果精确到0.1);(3)甲、乙两部门同时选中了新产品A ,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于2,则甲部门增加投资1万元,乙部门不增加投资;若点数小于3,则乙部门增加投资2万元,甲部门不增加投资,求两部门投资资金总和恰好为100万元的概率.附:对于一组数据()11,vu 、()22,v u 、L 、(),n n v u ,其回归直线u v αβ=+的斜率和截距的最小二乘估计分别为()()()121niii ni i v v u u v vβ==--=-∑∑,µµu v αβ=-,20162057.529877320520.5277-⨯=-⨯,2016657.51019877365 6.55567-⨯=-⨯.2.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:吨)的影响,对近8年的年宣传费i x 和年销售量i y ()1,2,3,,8i =数据作了初步处理,得到下面的散点图及一些统计量的值.表中:1w =8118i i w w ==∑(1)根据散点图判断,y a bx =+与y c =+y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)根据(2)中的回归方程,求当年宣传费36x =千元时,年销售预报值是多少?附:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:()()()81821iii ii u u v v u u β==--=-∑∑,v u αβ=-.【课后练习】1.某课外活动兴趣小组为了解某种植物的生长情况,收集了该种植物月生长量()cm y 与月平均气温x (℃)的6组数据.(1)请根据上面的数据求y 关于x 的线性回归方程(结果保留1位小数);(2)利用(1)中求出的线性回归方程进行残差分析.若用ˆˆˆy bx a =+中的ˆy 估计回归方程y bx a e =++中的bx a +,由于随机误差()e y bx a =-+,所以ˆˆey y =-是e 的估计值,ˆi e 为相应点(),i i x y 的残差.请填写下面的残差表,并绘制残差图,根据得到的残差图,分析该回归方程的拟合效果. 残差表:残差图:参考数据:61105i i x ==∑,6144i i y ==∑,61815i i i x y ==∑,()621375i i x x=-=∑..参考公式:线性回归方程ˆˆˆybx a =+中,()121ˆni ii nii x y nxyb x x ==-=-∑∑,ˆˆay bx =-.2.某新兴环保公司为了确定新开发的产品下一季度的营销计划,需了解月宣传费x (单位:千元)对月销售量y (单位:t )和月利润z (单位:千元)的影响,收集了2019年12月至2020年5月共6个月的月宣传费i x 和月销售量i y (1,2,,6i =⋯)的数据如下表:现分别用两种模型①y bx a =+,②bx y ae =分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(注残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.)(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除,剔除异常数据后求出(1)中所选模型的回归方程;(3)已知该产品的月利润z 与x ,y 的关系为()2253z y x =-,根据(2)的结果回答下列问题: (i )若月宣传费15x =时,该模型下月销售量y 的预报值为多少? (ii )当月宣传费x 为何值时,月利润z 的预报值最大?附:对于一组数据()11,x y ,()22,x y ,…,(),n n x y ,其回归直线y bx a =+$$$的斜率和截距的最小二乘估计分别为()()()1122211nniii ii i nn i i ii x x y y x y nx yb x nx x x ====---==--∑∑∑∑$,a y bx =-$$3.(衡水金卷高三一轮复习摸底测试卷数学(三))千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛应用;第二次工业革命后,科技的进步带动了电讯事业的发展,电报电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实.现在,5G 的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G 经济收入在短期内逐月攀升,该创新公司在第1月份至6月份的5G 经济收入y (单位:百万元)关于月份x 的数据如表:根据以上数据绘制散点图,如图.(1)根据散点图判断,y ax b =+与,,,(dx y ce a b c d =均为常数)哪一个适宜作为5G 经济收入y 关于月份x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的结果及表中的数据,求出y 关于x 的回归方程,并预测该公司8月份的5G 经济收入; (3)从前6个月的收入中抽取3个﹐记月收入超过16百万的个数为X ,求X 的分布列和数学期望. 参考数据:其中设()ln ,ln 1,2,3,4,5,6i i u y u y i ===参考公式和数据:对于一组具有线性相关关系的数据()()1,2,,3,,i i x v i n =⋯,其回归直线v x βα=+的斜率和截距的最小二乘估计公式分别为:()()()121ˆniii nii x x v v x x β==--=-∑∑,4.56 4.58,95.58,97.51.a v x e e β=-≈≈4.某保险公司根据官方公布的历年营业收入,制成表格如下: 表1由表1,得到下面的散点图:根据已有的函数知识,某同学选用二次函数模型2y bx a =+(b 和a 是待定参数)来拟合y 和x 的关系.这时,可以对年份序号做变换,即令2t x =,得y bt a =+,由表1可得变换后的数据见表2. 表2(1)根据表中数据,建立y 关于t 的回归方程(系数精确到个位数);(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线ˆˆv u βα=+的斜率和截距的最小二乘估计分别为()()()121ˆ niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 参考数据:()()()10102451138.5,703.45, 1.05110, 2.32710i i ii i t y t tt ty y ===≈-≈⨯--≈⨯∑∑.5.自从新型冠状病毒爆发以来,美国疫情持续升级,以下是美国2020年4月9日-12月14日每隔25天统计1次共计11次累计确诊人数(万).(1)将4月9日作为第1次统计,若将统计时间序号作为变量x ,每次累计确诊人数作为变量x ,得到函数关系()0,0bxy aea b =>>,对上表的数据作初步处理,得到部分数据已作近似处理的一些统计量的值6x =,603.09y =,1111ln 5.9811i i y ==∑,()()11115835.70i i i x y x y =--=∑,()1121110i i x x=-=∑,()1121ln ln 11.90ii y y =-=∑,()()111ln ln 35.10i i i x x y y =--=∑, 4.0657.97e ≈, 4.0758.56e ≈, 4.0859.15e ≈,根据相关数据,确定该函数关系式(参数a ,b 的取值精确到0.01);(2)为了了解患新冠肺炎与年龄的关系,已知某地曾患新冠肺炎的老年、中年、青年的人数分别为45人,30人,15人,按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少有一人是老年人的概率.参考公式:线性回归方程y bx a =+$$$中,()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-$$;6.2020年新型冠状病毒肺炎疫情席卷金球,我国在全力保障口罩、防护服等医疗物资供给基础上,重点开展医疗救治急需的呼吸机、心电监护仪等医疗设备的组织生产和及时供应,统筹协调医用物资生产企业高速生产,支援世界各国抗击肺炎疫情.我市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1目~9月9日连续9天的呼吸机日生产量为i y (单位:百台.., ),数据作了初步处理;得到如图所示的散点图.注:图中日期代码1~9分别对应9月1日~9月9日;表中,(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;(2)由散点图分析,样本点都集中在曲线的附近,求y关于t的方程,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.参考公式:回归直线方程是;,,参考数据:.7.(四川省成都市郫都区高三上学期阶段性检测(二)文科数学试题)某公司对某产品作市场调研,获得了该产品的定价x(单位:万元/吨)和一天销售量y(单位:吨)的一组数据,制作了如下的数据统计表,并作出了散点图.。

高三数学 线性回归分析

高三数学 线性回归分析
xi yi 4950 6900 9125 12150 15575 18000 20475
x 30,
y 399.3,
7
7
xi2 7000,
yi2 1132725,
i 1
i 1
7
xi yi 87175.
i 1
由上表所可知:
n
b
i1 n
xi yi nxy xi2 nx2
87175 730399.3 7000 7302
二、现实生活中存在着大量的相关关系。
如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
三、回归分析
定义:对具有相关关系的两个变量 进行统计分析的方法。
实质:通俗地讲,回归分析是寻找
相关关系中非确定性关系的某种确定性。
例1:在7块并排、形状大小相同的试验田 上进行施化肥量对水稻产量影响的试验, 得到如下表所示的一组数据(单位:kg) :
xi yi nxy xi2 nx2
87175 730399.3 7000 7302
4.75,
i1
a y bx 399.34.7530 257.
因此所求回归直线方程是:
yˆ 4.75x 257
(5)回归直线方程的用途:
可以利用它求出相应于x的估计值。 例如:当x=28kg时,y的估计值是多少呢?
1、定义:
自变量取值一定时,因变量的取值带有一 定随机性的两个变量之间的关系叫做相关关系。
注 1):相关关系是一种不确定性关系;
2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析。
相关关系
函数关系
相同点
均是指两个变量的关系
非确定关系

【2022 高考数学一轮复习(学科版)】考点32 线性回归方程与列联表(讲解) (解析版)

【2022 高考数学一轮复习(学科版)】考点32 线性回归方程与列联表(讲解) (解析版)

考点32 回归方程与独立性检验【思维导图】【常见考法】考法一 回归方程1.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .当产量为1千件时,单位成本为75.54元B .当产量为2千件时,单位成本为73.72元C .产量每增加1000件,单位成本约下降1.82元D .产量每减少1000件,单位成本约下降1.82元【答案】C【解析】令()77.36 1.82f x x =-,因为()()()177.36 1.82177.36 1.82 1.82f x f x x x +-=-+-+=-, 所以产量每增加1000件,单位成本约下降1.82元.故选:C2.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元 D .105万元【答案】B【解析】由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50),∴ˆ5075a =⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+.当10x =时,710158ˆ5y =⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元.故选B .3.某企业为了参加上海的进博会,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据(i x ,i y )(1,2,,6i =⋅⋅⋅),如表所示:已知611806i i y y ===∑.(1)求q 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价x (元)的线性回归方程ˆˆˆy bx a =+;(3)用ˆi y表示用正确的线性回归方程得到的与i x 对应的产品销量的估计值,当ˆ1i i y y -≤时,将销售数据(i x ,i y )称为一个“好数据”,现从6个销售数据中任取2个,求抽取的2个销售数据中至少有一个是“好数据”的概率.参考公式:()()()1122211ˆnni iiii i nniii i x y nx y x x y y bxnxx x =-==---==--∑∑∑∑,ˆˆay bx =-. 【答案】(1)90;(2)ˆ4106y x =-+;(3)45. 【解析】(1)由611806i i y y -==∑,得8483807568806q +++++=,解得90q =. (2)经计算,613050i ii x y-=∑, 6.5x =,621271i i x -=∑,所以230506 6.580ˆ42716 6.5b-⨯⨯==--⨯, ˆ804 6.5106a=+⨯=,所以所求的线性回归方程为ˆ4106y x =-+. (3)由(2)知,当14x =时,1ˆ90y =;当25x =时,2ˆ86y =;当36x =时,3ˆ82y =;当47x =时,4ˆ78y=;当58x =时,5ˆ74y=;当69x =时,6ˆ70y =.与销售数据对比可知满足ˆ1i i y y -≤(1,2,,6i =⋅⋅⋅)的共有3个:()4,90,()6,83,()8,75.从6个销售数据中任取2个的所有可能结果有2665C 152⨯==(种),其中2个销售数据中至少有一个是“好数据”的结果有112333C C C 33312+=⨯+=(种),于是抽取的2个销售数据中至少有一个是“好数据”的概率为124155=. 考法二 非线性回归方程1.某同学的父亲决定今年夏天卖西瓜赚钱,根据去年6月份的数据统计连续五天内每天所卖西瓜的个数与温度之间的关系如下表:(1)求这五天内所卖西瓜个数的平均值和方差;(2)求变量x,y 之间的线性回归方程,并预测当温度为30 °C 时所卖西瓜的个数.附:b ̂=∑x i y i ni=1−nx̅y̅∑x i 2n i=1−nx̅2,a ̂=y ̅−b ̂x̅(精确到0.1). 【答案】(1)26,27.2(2)y ̂=2.2x −51,15 【解析】(1)y ̅=15×(20+22+24+30+34)=26,方差为s 2=15×[(20−26)2+(22−26)2+(24−26)2+(30−26)2+(34−26)2]=27.2. (2)x̅=15×(32+33+35+37+38)=35,∑x i 25i=1=6 151,∑x i y i 5i=1=4 608, 所以b ̂=∑x i y i 5i=1−5x̅y ̅∑x i 25i=1−5x̅2=4 608−5×35×266 151−5×352=5826≈2.2,a ̂=y ̅−b ̂x̅=26−2.2×35=−51, 所以回归直线方程为y ̂=2.2x −51,当x =30时,y =15,所以预测当温度为30 °C 时所卖西瓜的个数为15.2.某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量()y g 与尺寸()mm x 之间近似满足关系式b y c x =⋅(b ,c 为大于0的常数).按照某指标测定,当产品质量与尺寸的比在区间()0.302,0.388内时为优等品.现随机抽取6件合格产品,测得数据如下:(1)现从抽取的6件合格产品中再任选2件,求选中的2件均为优等品的概率; (2)根据测得数据作了初步处理,得相关统计量的值如下表:根据所给统计量,求y 关于x 的回归方程. 附:对于样本(),(1,2,,6)i i v u i =,其回归直线u b v a =⋅+的斜率和截距的最小二乘法估计公式分别为:()()()1122211ˆnniii i i i nniii i v v u u v u nv ubv v vnv ====---==--∑∑∑∑,ˆˆa u bv=-, 2.7183e ≈.【答案】(1)15;(2)0.5ˆyex =. 【解析】(1)由已知,优等品的质量与尺寸的比(0.302,0.388)yx∈ 则随机抽取的6件合格产品中,有3件为优等品,记为a ,b ,c , 有3件为非优等品,记为d ,e ,f ,现从抽取的6件合格产品中再任选2件,基本事件为:(,),(,),(,),(,)a b a c a d a e (, ),(, ),(, ),(,),(,),(,)a f b c b d b e b f c d(,),(,),(,),(,),(,)c e c f d e d f e f ,选中的两件均为优等品的事件为(,),(,),(,)a b a c b c ,所以所求概率为31155=. (2)对b y c x =⋅两边取自然对数得ln ln ln y c b x =+令ln ,ln i i i i v x u y ==,则u b v a =⋅+,且ln a c = 由所给统计量及最小二乘估计公式有:11222175.324.618.360.271ˆ101.424.660.542ni i nii v u nuvbvnv ==--⨯÷====-÷-∑∑ 118.324.62ˆˆ16au bv ⎛⎫-⨯ ⎪⎝⎭=-==, 由ˆˆln ac =得ˆc e =, 所以y 关于x 的回归方程为0.5ˆyex =.3.为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2017年种植的一批试验紫甘薯在温度升高时6组死亡的株数: C )死亡数经计算:611266i i x x ===∑,611336i i y y ===∑,61()()557i i i x x y y =--=∑,621()84i i x x =-=∑,621()3930ii y y =-=∑,621()23.6ˆ64i i y y=-=∑,8.0653167e ≈,其中i x ,i y 分别为试验数据中的温度和死亡株数,1,2,3,4,5,6i =.(1)若用线性回归模型,求y 关于x 的回归方程^^^y b x a =+(结果精确到0.1);(2)若用非线性回归模型求得y 关于x 的回归方程0.23030.06ˆxye =,且相关指数为20.9522R =.(i)试与(1)中的回归模型相比,用2R 说明哪种模型的拟合效果更好;(ii )用拟合效果好的模型预测温度为35C 时该紫甘薯死亡株数(结果取整数).附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归直线ˆˆv u αβ∧=+的斜率和截距的最小二乘估计分别为:121()()()ni i i ni i u u v v u u β∧==--=-∑∑,a v u β∧∧=-;相关指数为:22121()1()ni i i niii v v R v v ∧==-=--∑∑.【解析】(Ⅰ)由题意得,()()()121557= 6.6384ˆni i i n i i x x y y b x x ==--=≈-∑∑∴ˆa =33−6.63⨯26=−139.4,∴y 关于x 的线性回归方程为:ˆy =6.6x −139.4.(注:若用ˆ 6.6b≈计算出18.6ˆ3a =-,则酌情扣1分) (Ⅱ) (i )线性回归方程ˆy =6.6x −138.6对应的相关指数为:()()6221621236.641110.06020.93983930ˆi i i i i i y yR y y ==-=-=-≈-=-∑∑,因为0.9398<0.9522,所以回归方程0.2303ˆ0.06xye =比线性回归方程ˆy =6.6x −138.6拟合效果更好.(ii )由(i )知,当温度35x C =时,0.2303358.06050.060.060.063167190ˆye e ⨯==≈⨯≈, 即当温度为35︒C 时该批紫甘薯死亡株数为190.考法三 独立性检验1.为大力提倡“厉行节约,反对浪费”,某市通过随机调查100名性别不同的居民是否做到“光盘”行动,得到如下列联表:经计算()()()()()223.03n ad bc K a b c d a c b d -=≈++++. 附表:参照附表,得到的正确结论是()A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别无关”【答案】CK≈,【解析】由题意可知2 3.03<<,结合临界值表可知2.706 3.03 3.841因而在犯错误的概率不超过10%的前提下,认为“该市居民能否做到‘光盘’行动与性别有关”,或表述为有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”;结合选项可知,C为正确选项,故选:C.2.2020年寒假,因为“新冠”疫情全体学生只能在家进行网上学习,为了研究学生网上学习的情况,某学校随机抽取100名学生对线上教学进行调查,其中男生与女生的人数之比为9:11,抽取的学生中男生有30人对线上教学满意,女生中有10名表示对线上教学不满意.(1)完成22⨯列联表,并回答能否有90%的把握认为“对线上教学是否满意与性别有关”;(2)从被调查的对线上教学满意的学生中,利用分层抽样抽取5名学生,再在这5名学生中抽取2名学生,作线上学习的经验介绍,求其中抽取一名男生与一名女生的概率.附:()()()()()22n ad bcKa b c d a c b d⋅=++++.【答案】(1)填表见解析;有90%的把握认为“对线上教学是否满意与性别有关”;(2)35.【解析】(1)22⨯列联表如下:又()22100301045153.03 2.70675254555K⨯-⨯=≈>⨯⨯⨯,这说明有90%的把握认为“对线上教学是否满意与性别有关”.(2)方法一:由题可知,从被调查中对线上教学满意的学生中,利用分层抽样抽取5名学生, 其中男生2名,设为A 、B ;女生3人设为,,a b c ,则从这5名学生中抽取2名学生的基本事件有:(),A B ,(),A a ,(),A b ,(),A c ,(),B a ,(),B b ,(),B c ,(),a b ,(),a c ,(),b c ,共10个基本事件,其中抽取一名男生与一名女生的事件有(),A a ,(),A b ,(),A c ,(),B a ,(),B b ,(),B c ,共6个基本事件,根据古典概型,从这5名学生中抽取一名男生与一名女生的概率为63105=. 方法二:由题可知,从被调查中对线上教学满意的学生中,利用分层抽样抽取5名学生,其中男生2名,设为;女生3人,根据古典概型,从这5名学生中抽取一名男生与一名女生的概率为11222563105C C C == 3.“微信运动”是一个类似计步数据库的公众账号,用户只需以运动手环或手机协处理器的运动数据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现.现随机选取朋友圈中的50人记录了他们某一天的走路步数,并将数据整理如下:规定:人一天行走的步数超过8000步时被系统评定为“积极性”,否则为“懈怠性”.(1)填写下面22⨯列联表(单位:人),并根据列联表判断是否有90%的把握认为“评定类型与性别有关”;附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. (2)为了进一步了解“懈怠性”人群中每个人的生活习惯,从步数在3001~6000的人群中再随机抽取3人,求选中的人中男性人数超过女性人数的概率. 【答案】(1)列联表见解析;没有90%的把握认为“评定类型与性别有关”;(2)310. 【解析】(1)22⨯列联表如下:根据列联表中的数据,得的观测值2K 的观测值()225020810120.231 2.70630203218K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有90%的把握认为“评定类型与性别有关”.(2)由已知可得从步数在3001~6000的人群有男性2人,女性3人.设步数在3001~6000中的男性的编号为1,2,女性的编号为a ,b ,c .设选中的人中男性人数超过女性人数为事件A .选取三人的所有情况为()1,2,a ,()1,2,b ,()1,2,c ,()1,,a b ,()1,,a c ,()1,,b c ,()2,,a b ,()2,,a c ,()2,,b c ,(),,a b c ,共10种情况.符合条件的情况有()1,2,a ,()1,2,b ,()1,2,c ,共3种情况.故所求概率为()310P A =. 4.为了提高生产效益,某企业引进一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取100件产品进行质量检测,所有产品质量指标值均在(]15,45以内,规定质量指标值大于30的产品为优质品,质量指标值在(]15,30以内的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标如频数分布表所示.(1)请分别估计新、旧设备所生产的产品优质品率;(2)优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有95%的把握认为“产品质量高低与新设备有关”;(3)已知每件产品的纯利润y(单位:元)与产品质量指标t的关系式为2,30451,1530tyt<≤⎧=⎨<≤⎩.若每台新设备每天可以生产1000件产品,买一台新设备需要80万元,请估计至少需要生产多少天才可以收回设备成本.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)估计新、旧设备所生产的产品优质品率分别为70%、55%;(2)列联表见解析,有95%的把握认为“产品质量高低与新设备有关”,理由见解析;(3)471.【解析】(1)估计新设备所生产的产品优质品率为302515100%70%100++⨯=, 估计旧设备所生产的产品优质品率为()50.060.030.02100%55%⨯++⨯=;(2)根据题中所给数据可得到如下22⨯列联表:()22220030557045 4.8 3.84110075125K ⨯⨯-⨯==>⨯⨯, 因此,有95%的把握认为“产品质量高低与新设备有关”;(3)新设备所生产的产品的优质品率为0.7,∴每台新设备每天所生产的1000件产品中,估计有10000.7700⨯=件优质产品,有300件合格品,⨯+⨯=(元),则每台新设备每天所生产的产品的纯利润为700230011700÷≈(天),因此,估计至少需要471天方可收回成本.8000001700471。

第22讲线性回归方程讲义-高三艺考数学一轮复习

第22讲线性回归方程讲义-高三艺考数学一轮复习

第22讲:线性回归方程【课型】复习课【教学目标】1.了解相关关系、散点图,会判断两变量是否成线性相关关系2.能利用最小二乘法求线性回归方程的两个系数【预习清单】【基础知识梳理】1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. :在一个统计数表中,为了更清楚地看出x 和y 是否具有相关关系,常将x 的取值作为横坐标,将y 的相应取值作为纵坐标,在直角坐标中描点(xi ,yi )(i =1,2,…,n),这样的图形叫做散点图.3.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y =b x +a ,其中b =∑n i =1x i y i -n x -·y -∑n i =1x 2i-n x -2,a =y --b x -. (4)注意:①自变量x 每增加1个单位,函数值平均增加或减少b 个单位。

②所以线性回归方程均过点(x -,y -).(x -,y -)称为样本中心点。

【引导清单】考向一:相关关系的判断例1:已知变量x 和y 满足关系yx +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】因为yx +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =by +a ,b >0,则z =by +abx +b +a ,故x 与z 负相关.考向二:线性回归方程及其应用例2:已知具有相关关系的两个变量x ,y 的几组数据如下表所示:x 2 4 6 8 10y 3 6 7 10 12(1)请根据上表数据在网络纸中绘制散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =b x +a ,并估计当x =20时y 的值.参考公式:b =∑n i =1x i y i -n x - y -∑n i =1x 2i-n x -2,a =y --b x -.【解】(1)散点图如图所示:(2)依题意x -=15×(2+4+6+8+10)=6,y -=15×,∑=51i x i 2=4+16+36+64+100=220,∑=51i x i y i =6+24+42+80+120=272,b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=272-5×6×220-5×62=4440,所以a ^×y ^x +1,故当x =20时,y =23. 【训练清单】【变式训练1】对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,4,5),得表1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,4,5),得表2.由这两个表可以判断( ) x 与y 正相关,u 与v 正相关 B .变量x 与y 负相关,u 与v 正相关 C .变量x 与y 负相关,u 与v 负相关D .变量x 与y 正相关,u 与v 负相关【解析】选D.由题可知,随着x 的增大,对应的y 值增大,其散点图呈上升趋势,故x 与y 正相关;随着u 的增大,v 减小,其散点图呈下降趋势,故u 与v 负相关.【变式训练2】从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑=101i i x =80,∑=101i i y =20,ii i y x ∑=101=184,∑=1012i i x y 关于月收入x 的线性回归方程为y =b x +a ,(1)判断变量x 与y 正相关还是负相关(2)y 关于x 的线性回归方程y =b x +a ,若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是多少千元?【解析】(1)由题意,知n =10,x =110∑=101i i x =8,y =110∑=101i i y =2,∴b ^=184-10×8×2720-10×82=0.3,a ^×8=-0.4,∴y ^x -0.4,∵0.3>0,∴变量x 与y 正相关.(2)当x =7时,y ^×7-0.4=1.7(千元).【巩固清单】( )【解析】球的表面积与体积是函数关系.2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y =-10x +200B.y =10x +200C.y =-10x -200D.y =10x -200x 1 2 3 4 5 y u 1 2 3 4 5 v 25 20 21 15 13【解析】选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D.又因为x =0时,y >0,所以应选A.3.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )【解析】观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.4.改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y x ,地级市y x ,县城y x ,农村y x ,则四个区域中,大学入学率年增长率最快的区域是( )A .省城B .地级市C .县城D .农村【解析】四条回归直线,斜率最大的是省城,故选A.5.对于下列表格所示的五个散点,已知求得的回归直线方程为y xm 的值为( )A.8 C .8.4【解析】依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m 5×200-155,解得m =8.6.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b ,a =y --b x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )万元 B .万元 万元 D .万元【解析】 由题意知,x =85=10,y -=错误!=8,所以错误!×,所以当x =15时,y ^×15+0.4=11.8(万元).7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y x ,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】x 变为x +1,y ,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.8.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^x +a^,则a ^=________. x 0 1 3 4y【解析】由已知得x =2,y ,因为回归方程经过点(x ,y ),所以a ×2=2.6.9.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,x 196 197 200 203 204 y 1 3 6 7 m收入x (万元) 支出y (万元)y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.【解析】令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t=∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 10(1)求y (2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.【解析】 (1)由表中数据计算得,t -=5,y -=4,5.8))((t 51i i =--∑=y y t i,10)(t 251i i =-∑=t ,85.0105.8)(t))((t 251i i 51i i ==---=∑∑==t y y t b i ,a =y --b t -=-0.25. 所以回归方程为y ^t -0.25.(2)将t =8代入(1)的回归方程中得y ^×t =8时,细菌繁殖个数为6.55千个.。

高考数学总复习考点知识讲解与提升练习70 一元线性回归模型及其应用

高考数学总复习考点知识讲解与提升练习70 一元线性回归模型及其应用

高考数学总复习考点知识讲解与提升练习专题70 一元线性回归模型及其应用考点知识1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=i=1n(x i-x)(y i-y)i=1n(x i-x)2i=1n(y i-y)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,其中⎩⎪⎨⎪⎧b ^=i =1n(x i -x )(y i -y )i =1n(x i-x )2,a ^=y -b ^x .(2)残差:观测值减去预测值称为残差. 常用结论1.经验回归直线过点(x ,y ).2.求b ^时,常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 思考辨析判断下列结论是否正确(请在括号中打“√”或“×”) (1)相关关系是一种非确定性关系.(√)(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(3)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√) 教材改编题1.在对两个变量x ,y 进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x i ,y i ),i =1,2,…,n ;③求经验回归方程;④根据所收集的数据绘制散点图. 则下列操作顺序正确的是() A .①②④③B.③②④① C .②③①④D.②④③① 答案D解析根据回归分析的思想,可知对两个变量x ,y 进行回归分析时,应先收集数据(x i ,y i ),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释. 2.对于x ,y 两变量,有四组成对样本数据,分别算出它们的样本相关系数r 如下,则线性相关性最强的是()A .-0.82B .0.78C .-0.69D .0.87 答案D解析由样本相关系数的绝对值|r |越大,变量间的线性相关性越强知,各选项中r =0.87的绝对值最大.3.某单位为了了解办公楼用电量y (度)与气温x (℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:由表中数据得到经验回归方程y ^=-2x +a ^,当气温为-4℃时,预测用电量约为() A .68度B .52度C .12度D .28度 答案A解析由表格可知x =10,y =40,根据经验回归直线必过(x ,y )得a ^=40+20=60,∴经验回归方程为y ^=-2x +60,因此当x =-4时,y ^=68.题型一成对数据的相关性例1(1)(2023·保定模拟)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据:根据表格中的数据求得经验回归方程为y ^=b ^x +a ^,则下列说法中正确的是()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0 答案B解析由已知数据可知y 随着x 的增大而减小,则变量x 和y 之间存在负相关关系,所以b ^<0.又x =15×(3+4+5+6+7)=5,y =15×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5b ^+a ^,所以a ^=1.1-5b ^>0.(2)(2022·大同模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程y ^=b ^1x +a ^1,样本相关系数为r 1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程y ^=b ^2x +a ^2,样本相关系数为r 2.则()A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0 答案D解析根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些; 方案二中,剔除离群值,线性相关性强些; 所以样本相关系数-1<r 2<r 1<0. 思维升华 判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)某公司2017~2022年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如表所示:根据统计资料,则利润中位数() A.是16,x与y有正相关关系B.是17,x与y有正相关关系C.是17,x与y有负相关关系D.是18,x与y有负相关关系答案B解析由题意知,利润中位数是16+182=17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定答案C解析由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为x ,y 负相关,所以-r 1>-r 2,即r 1<r 2. 题型二回归模型命题点1一元线性回归模型例2(2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,②∑i =15x i y i =0.9,∑i =15x 2i =0.55.解(1)如图所示.(2)由表格数据可得x =15×(0.1+0.2+0.3+0.4+0.5)=0.3,y =15×(0.2+0.35+0.5+0.65+0.8)=0.5,所以b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2=0.9-5×0.3×0.50.55-5×0.3×0.3=1.5, a ^=y -b ^x =0.5-1.5×0.3=0.05,故y ^=1.5x +0.05.(3)设利率需上升x 个百分点,由(2)得,0.625×2=1.5x +0.05,解得x =0.8, 所以预测利率需上升0.8个百分点. 命题点2非线性回归模型例3(2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.表中u i =1x i ,u =17∑i =17u i .(1)根据散点图判断y =a +bx 与y =c +dx哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据求出y 关于x 的经验回归方程;(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80000元(假设能够全部售出).附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其经验回归方程v ^=β^ω+α^的斜率和截距的最小二乘估计分别为β^=i =1n (ωi -ω)(v i -v )i =1n(ωi -ω)2,α^=v -β^ω.解(1)由散点图判断y =c +d x更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程.(2)先建立y 关于u 的经验回归方程得y ^=c ^+d ^u ,由于d ^=i =17(u i -u )(y i -y )i =17(u i -u )2=70.7=10,故c ^=y -d ^u =3.5-10×0.2=1.5,所以预测y 关于u 的经验回归方程为y ^=1.5+10u ,从而y 关于x 的经验回归方程为y ^=1.5+10x.(3)假设印刷x 千册,依据题意得9x -⎝ ⎛⎭⎪⎫1.5+10x x ≥80,解得x ≥12,所以预测至少应该印刷12 000册图书,才能使销售利润不低于80 000元. 思维升华 求经验回归方程的步骤跟踪训练2(2022·南充模拟)某特色餐馆开通了某APP 的外卖服务,在一周内的某特色菜外卖份数x (单位:份)与收入y (单位:元)之间有如下的对应数据:(1)在给出的坐标系中画出数据散点图;(2)请根据以上数据用最小二乘法求出收入y 关于份数x 的经验回归方程; (3)据此估计外卖份数为12时,收入为多少元.参考数据公式:∑i =15x 2i =145,∑i =15x i y i =1380,b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n xy∑i =1nx 2i -n x2,a ^=y -b ^x .解(1)作出散点图如图所示.(2)由表格数据得,x =2+4+5+6+85=5,y =30+40+60+50+705=50,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5,因此,所求经验回归方程为y ^=6.5x +17.5.(3)当x =12时,y ^=12×6.5+17.5=95.5,即外卖份数为12时,预测收入为95.5元. 题型三残差分析例4(1)(多选)下列说法正确的是()A .在经验回归方程y ^=-0.85x +2.3中,当解释变量x 每增加1个单位时,响应变量y ^平均减少2.3个单位B .在经验回归方程y ^=-0.85x +2.3中,相对于样本点(1,1.2)的残差为-0.25 C .在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好 D .若两个变量的决定系数R 2越大,表示残差平方和越小,即模型的拟合效果越好 答案BCD解析对于A ,根据经验回归方程,当解释变量x 每增加1个单位时,响应变量y ^平均减少0.85个单位,故A 错误;对于B ,当解释变量x =1时,响应变量y ^=1.45,则样本点(1,1.2)的残差为-0.25,故B 正确;对于C ,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C 正确;对于D ,由决定系数R 2的意义可知,R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 正确.(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________. 答案1.4解析由题设,1.5-y ^=1.5-(0.28×5+a ^)=-0.06,可得a ^=0.16.又x =1+2+3+4+55=3,y =0.5+0.6+1+m +1.55=3.6+m 5,所以0.28×3+0.16=3.6+m5, 可得m =1.4.思维升华 检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果. (2)R 2分析:通过公式计算R 2,R 2越大,残差平方和越小,模型的拟合效果越好;R 2越小,残差平方和越大,模型的拟合效果越差. 跟踪训练3(1)下列命题是真命题的为()A .经验回归方程y ^=b ^x +a ^一定不过样本点B .可以用样本相关系数r 来刻画两个变量x 和y 线性相关程度的强弱,r 的值越小,说明两个变量线性相关程度越弱C .在回归分析中,决定系数R 2=0.80的模型比决定系数R 2=0.98的模型拟合的效果要D .残差平方和越小的模型,拟合的效果越好 答案D解析对于A ,经验回归方程不一定经过其样本点,但一定经过(x ,y ),所以A 是假命题;对于B ,由样本相关系数的意义,当|r |越接近0时,表示变量y 与x 之间的线性相关程度越弱,所以B 是假命题;对于C ,用决定系数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好,所以C 是假命题;对于D ,由残差的统计学意义知,D 是真命题. (2)两个线性相关变量x 与y 的统计数据如表:其经验回归方程是y ^=b ^x +40,则相应于点(9,11)的残差为________. 答案-0.2解析因为x =15×(9+9.5+10+10.5+11)=10,y =15×(11+10+8+6+5)=8,所以8=10b ^+40,解得b ^=-3.2,所以y ^=-3.2x +40,当x =9时,y ^=11.2, 所以残差为11-11.2=-0.2.课时精练1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有经验回归方程答案D解析根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.2.对于样本相关系数,下列说法错误的是()A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[-1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强答案D解析样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.3.(2023·运城模拟)在线性回归模型中,变量x 与y 的一组样本数据对应的点均在直线y =12x +1上,R 2=1-i =1n(y i -y ^i )2i =1n (y i -y )2,则R 2等于() A.14 B.12 C .1 D.52 答案C解析因为样本数据对应的点均在一条直线上, 所以R 2=1.4.(多选)某工厂研究某种产品的产量x (单位:吨)与所需某种材料y (单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为y ^=0.7x +a ^,则下列四个说法中正确的为()A.变量x 与y 正相关 B .y 与x 的样本相关系数r <0C.a ^=0.35D .当产量为8吨时,预测所需材料约为5.95吨 答案ACD解析因为经验回归方程y ^=0.7x +a ^, 所以变量x 与y 呈正相关,所以样本相关系数r >0,故A 正确,B 错误; 由表格可得x =3+4+6+74=5,y =2.5+3+4+5.94=3.85, 则0.7×5+a ^=3.85,解得a ^=0.35,故C 正确;所以经验回归方程为y ^=0.7x +0.35,当x =8时,y ^=0.7×8+0.35=5.95,即产量为8吨时,预测所需材料约为5.95吨,故D 正确.5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm ,根据这10名志愿者的数据求得臂展u 关于身高v 的经验回归方程为u ^=1.2v -34,则下列结论正确的是()A .这10名志愿者身高的极差小于臂展的极差B .这10名志愿者的身高和臂展呈负相关C .这10名志愿者臂展的平均值为176.2 cmD .根据经验回归方程可估计身高为160 cm 的人的臂展为158 cm 答案AD解析对于选项A ,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A 正确; 对于选项B ,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B 错误;对于选项C ,因为这10名志愿者身高的平均值为176cm ,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C 错误;对于选项D ,若一个人的身高为160 cm ,则由经验回归方程u ^=1.2v -34,可得这个人的臂展的估计值为158 cm ,故D 正确.6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y 和色差x 之间满足线性相关关系,且y ^=0.8x +a ^,现有一对测量数据为(30,23.6),则该数据的残差为()A.-0.96B .-0.8C .0.8D .0.96 答案C解析由题意可知,x =21+23+25+274=24,y =15+18+19+204=18,将(24,18)代入y ^=0.8x +a ^,即18=0.8×24+a ^,解得a ^=-1.2,所以y ^=0.8x -1.2,当x =30时,y ^=0.8×30-1.2=22.8, 所以该数据的残差为23.6-22.8=0.8.7.某智能机器人的广告费用x (万元)与销售额y (万元)的统计数据如表所示:根据此表可得经验回归方程为y ^=5x +a ^,据此模型预测广告费用为8万元时销售额为________万元. 答案57解析由表格,得x =2+3+5+64=4,y =28+31+41+484=37, 所以37=5×4+a ^,即a ^=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =2e 2x +1的图象附近,设z =ln y ,将其变换后得到经验回归方程为z =mx +n ,则mn =________. 答案2ln2+2解析由z =ln y ,则ln y =ln2e 2x +1,即z =ln2+lne 2x +1=ln2+2x +1,则z =2x +ln2+1,故m =2,n =ln2+1,所以mn =2ln2+2.9.假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:已知∑i =15x 2i =90,∑i =15y 2i ≈140.8,∑i =15x i y i =112.3,79≈8.9,2≈1.4.(1)求x ,y ;(2)计算y 与x 的样本相关系数r (精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2).解(1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.0.(2)∑i =15x i y i -5x y =112.3-5×4×5=12.3,∑i =15x 2i -5x 2=90-5×42=10,∑i =15y 2i -5y2≈140.8-5×52=15.8,所以r =∑i =15x i y i -5x y∑i =15x 2i -5x2∑i =15y 2i -5y2≈12.310×15.8=12.32×79≈12.31.4×8.9≈0.987,r 接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性. 10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:并计算得∑10i =1x 2i =0.038,∑10i =1y 2i =1.6158,∑10i =1x i y i =0.2474. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2),1.896≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值x =0.610=0.06(m 2),样本中10棵这种树木的材积量的平均值y =3.910=0.39(m 3), 据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m 2,平均一棵的材积量为0.39 m 3.(2)r=∑i=110xiyi-10x y(∑i=110x2i-10x2)(∑i=110y2i-10y2)=0.2474-10×0.06×0.39 (0.038-10×0.062)×(1.6158-10×0.392)=0.01340.0001896≈0.01340.01377≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,可得0.060.39=186Y,解得Y=1209.则该林区这种树木的总材积量的估计值为1209m3.11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y 关于x的经验回归方程为y^=6x2+a^,则下列说法正确的是()A.a^=4B.a^=-8C .此回归模型第4周的残差为5D .估计第6周治愈人数为220 答案BC解析设t =x 2,则y ^=6t +a ^,由已知得t =15×(1+4+9+16+25)=11,y =15×(2+17+36+93+142)=58,所以a ^=58-6×11=-8,故A 错误,B 正确; 在y ^=6x 2-8中,令x =4, 得y ^4=6×42-8=88,所以此回归模型第4周的残差为y 4-y ^4=93-88=5,故C 正确; 在y ^=6x 2-8中,令x =6, 得y ^6=6×62-8=208,故D 错误.12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:并求得y 与x 的经验回归方程为y ^=0.011x +a ^,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N ;注射疫苗后仍被感染的人数记为n ,则估计该疫苗的有效率为________.(疫苗的有效率为1-n N,结果保留3位有效数字) 答案0.818解析 由表格中的数据可得x =500,y =5,故a ^=5-0.011×500=-0.5,故N =0.011×10 000-0.5=110-0.5=109.5≈110,而n =20,故疫苗的有效率为1-20110≈0.818.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 7,y 7)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,7)都在曲线y =a ln(x -1895)+12.15附近波动,经计算i =17(x i -1895)=210.77,i =17y i =73.50,i =17ln(x i -1895)=23.10,则实数a 等于()A .-0.5B .0.5C .-1D .1 答案A解析因为17i =17ln(x i -1895)=23.107=3.3,17i =17y i =73.507=10.5,所以10.5=3.3a +12.15,解得a =-0.5.14.(多选)已知由样本数据(x i ,y i )(i =1,2,3,…,10)组成的一个样本,得到经验回归方程为y ^=2x -0.4,且x =2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是() A .相关变量x ,y 具有正相关关系B .去除两个歧义点后,新样本中变量x j (j =1,2,…,8)的平均值变大C .去除两个歧义点后的经验回归方程为y ^1=3x -3 D .去除两个歧义点后,样本数据(4,8.9)的残差为0.1 答案ABC解析对于A ,因为经验回归直线的斜率大于0,所以相关变量x ,y 具有正相关关系,故A 正确;对于B ,将x =2代入y ^=2x -0.4得y =3.6,则去除两个歧义点后,得到新的相关变量的平均值分别为X =2×10-(-2+2)8=52,Y =3.6×10-(1-1)8=92,故B 正确;对于C ,a ^=92-3×52=-3,新的经验回归方程为y ^1=3x -3,故C 正确;对于D ,当x =4时,y ^1=3×4-3=9,残差为8.9-9=-0.1,故D 错误.。

线性回归方程

线性回归方程

线性回归方程一、解答题1.为了适应高考改革,某中学推行“创新课堂”教学.高一平行甲班采用“传统教学”的教学方式授课,高一平行乙班采用“创新课堂”的教学方式授课,为了比较教学效果,期中考试后,分别从两个班中各随机抽取20名学生的成绩进行以上的把握认为“成绩优秀与教学方式有关”?2.现从上述样本“成绩不优秀”的学生中,抽取3?人进行考核,记“成绩不优秀”的乙班人数为X,求X的分布列和期望.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.100?名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”。

:附:随机变量22()()()()()n ad bcKa b c d a c b d-=++++(其中n a b c d=+++为样本总量).参考数据2()P K k≥0.150 0.100 0.050 0.025k 2.072 2.706 3.841 5.024.2.在高二的抽查中,已知随机抽到的女生共有55名,其中10名为“手机迷”.根据已知条件完成下面的22⨯列联表,并?非手机迷手机迷合计男女合计3.某中学为了解中学生的课外阅读时间,决定在该中学的1200名男生和800名女生中按分层抽样的方法抽取20?名学生,对他们的课外阅读时间进行问卷调查。

现在按课外阅读时间的情况将学生分成三类:A类(不参加课外阅读),B 类(参加课外阅读,但平均每周参加课外阅读的时间不超过3?小时),C类(参加课外阅读,且平均每周参加课外阅读的A类B类C类男生x 5 3女生y 3 390%的把握认为“参加课外阅读与否”与性别有关;男生女生总计不参加课外阅读参加课外阅读总计,记X为抽取的这3?名女生中A类人数和C类人数差的绝对值,求X的数学期望。

附:2 2()n ad bc k-=2()P k k≥0.10 0.05 0.01k 2.706 3.841 6.635模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门科目中自选3门参加考试(6选3),每科目满分100分.为了应对新高考,某高中从高一年级1500名学生(其中男生900人,女生600 人)中,采用分层抽样的方法从中抽取n 名学生进行调查. 1.已知抽取的n 名学生中含女生20人,求n 的值及抽取到的男生人数;2.学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对在1的条件下抽取到的n 名学生进行问卷调查(假定每名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的22⨯列联表. 请将列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说名,再从这5名学生中抽取2人了解学生对“地理”的选课意向情况,求2人中至少有1名男生的概率. 附:参考公式及数据()()()()()22n ad bc k a b c d a c b d -=++++2男性且休闲方式都是读书的概率是多少? .()()()()()2n ad bc k a b c d a c b d -=++++,其中n a b c d =+++.6.某市春节期间7家超市的广告费支出 x (万元)和销售额y (万元)数据如下:;2.用对数回归模型拟合y 与x 的关系,可得回归方程: 12l 22ˆn yx =+,经计算得出线性回归模型和对数模型的2R 分别约为0.75和0.97,请用说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.参数数据及公式: 772118,42,2794,708,i i i i i x y x y x ======∑∑1221,,l ˆˆˆn 20.7ni ii nii x y n xybay bx xnx ==--==-≈-∑∑ 7.一只药用昆虫的产卵数y 与一定范围内的温度x 有关, 现收集了该种药用昆虫的6组观测数据如下表:经计算得: 1266i i x x ===∑,1336i i y y ===∑,1()()557i i i x x y y =--=∑,621()84i i x x =-=∑,621()3930i i y y =-=∑线性回归模型的残差平方和621()236.64iii y y =-=∑,8.06053167e ≈,其中,i i x y 分别为观测数据中的温度和产卵数, 1,2,3,4,5,6i =1.若用线性回归模型,求y 关于x 的回归方程ˆˆˆybx a =+ (精确到0.1); 2.若用非线性回归模型求得y 关于x 的回归方程为0.23030.06ˆxye =,且相关指数20.9522.R =①试与1中的回归模型相比,用2R 说明哪种模型的拟合效果更好.②用拟合效果好的模型预测温度为35C 时该种药用昆虫的产卵数(结果取整数). 附:一组数据()()()1122,,?,,?...,,,?n n x y x y x y 其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计为121()()()ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-;相关指数22121()1()niii nii y y R y y ==-=--∑∑.8.《中华人民共和国道路交通安全法》第47条的相关规定:机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”,《中华人民共和国道路交通安全法》第90?条规定:对不礼让行人的驾驶员处以扣3?分,罚款50元的处罚.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员不“礼让斑马线”行为统计1.请利用所给数据求违章人数y 与月份之间的回归直线方程ˆˆˆybx a =+ 2.预测该路口7?月份的不“礼让斑马线”违章驾驶员人数3.交警从这5个月内通过该路口的驾驶员中随机抽查了50人,调查驾驶员不“礼让斑马线”行为与驾龄的关系,得到如?参考公式: 1122211()()ˆˆˆ,()nni iiii i nni ii i x y nx y x x y y bay bx x nxx x ====---===---∑∑∑∑, 22()()()()()n ad bc K a b c d a c b d -=++++ (其中n a b c d =+++)2()P K k ≥ 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k2.072 2.7063.841 5.024 6.635 7.879 10.8289.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位: t )和年利润z (单位:千元)的影响.对近8年的年宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.表中i i w x =18i i w w ==∑.1.根据散点图判断, y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)2.根据1的判断结果及表中数据,建立y 关于x 的回归方程.3.已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据2的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据()11,u v ,()22,u v ,…, (),n n u v 其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121ˆnii i ni i uu v v u u β==--=-∑∑,ˆˆv u αβ=-. 10.如今,中国的“双十一”已经从一个节日变成了全民狂欢的“电商购物日”.某淘宝电商分析近8年“双十一”期间的宣传费用x (单位:万元)和利润y (单位:十万元)之间的关系,得到下列数据:x 2 3 4 5 6 8 9 11y 1 2 3 3 4 5 681.请用相关系数r 说明y 与 x 之间是否存在线性相关关系(当0.81r >时,说明y 与 x 之间具有线性相关关系);2.根据1的判断结果,建立y 与 x 之间的回归方程,并预测当24x =时,对应的利润ˆy为多少(ˆˆˆ,,b a y 精确到0.1). 附参考公式:回归方程中ˆˆˆybx a =+中ˆb 和ˆa 最小二乘估计分别为1221ˆni ii nii x ynx y b xnx ==-=-∑∑,ˆˆay bx =-, 相关系数()()12211ni i i nniii i x ynx yr xx yy ===-=--∑∑∑参考数据: ()()88882221111241,356,8.25,6i i iiii i i i x y x xx yy ======-≈-=∑∑∑∑.11.为了监控某种零件的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm ).下面是检验员在一天内依次抽取的16个零件的尺寸抽取次序 1 2345 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 910111213141516零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得16119.9716i i x x ===∑,16162221111()(16)0.2121616i i i i s x x x x ===-=-≈∑∑, ()()()16162118.518.439,8.5 2.78i i i i x x i ==-≈--=-∑∑其中i x 为抽取的第i 个零件的尺寸, 1,2,16i =。

(完整版)高考线性回归方程总结

(完整版)高考线性回归方程总结

第二讲 线性回归方程1、相关关系:1、⎩⎨⎧<=1||1||r r 不确定关系:相关关系确定关系:函数关系2、相关系数:,其中:∑∑∑===-⋅---=ni i ni i ni iiy y x x y yx x r 12121)()(((1);(2)⎩⎨⎧<>负相关正相关0r r 相关性很弱;相关性很强;3.0||75.0||<>r r 例题1:下列两个变量具有相关关系的是( )A.正方形的体积与棱长;B.匀速行驶的车辆的行驶距离与行驶时间;C.人的身高和体重;D.人的身高与视力。

例题2:在一组样本数据的散点),,,2)(,(),,(),,(212211不全相等n n n x x x n y x y x y x ≥图中,若所有样本点都在直线上,则样本相关系数为),2,1)(,(n i y x i i =121+-=x y ( )21.21.1.1.--D C B A 例题3:是相关系数,则下列命题正确的是:r (1)时,两个变量负相关很强;(2)时,两个变量正相关]75.0,1[--∈r ]1,75.0[∈r 很强;(3)时,两个变量相关性一般;)75.0,3.0[]3.0,75.0(或--∈r (4)(4)时,两个变量相关性很弱。

1.0=r 3、散点图:初步判断两个变量的相关关系。

例题4:在画两个变量的散点图时,下列叙述正确的是( )A.预报变量在轴上,解释变量在轴上;x yB.解释变量在轴上,预报变量在轴上;x yC.可以选择两个变量中的任意一个变量在轴上;xD.可以选择两个变量中的任意一个变量在轴上;y 例题5:散点图在回归分析过程中的作用是( )A.查找个体个数B.比较个体数据的大小C.研究个体分类D.粗略判断变量是否线性相关2、线性回归方程:1、回归方程:a x b yˆˆˆ+=其中,(代入样本点的中心)2121121)()((ˆxn x yx n yx x x y yx x bn i i ni iini in i ii --=---=∑∑∑∑====x b y aˆˆ-=例题1:设是变量个样本点,直线是由这些样本),(),,(),,(2211n n y x y x y x n y x 的和l 点通过最小二乘法得到的线性回归直线(过一、二、四象限),以下结论正确的是()A.直线过点B.当为偶数时,分布在两侧的样本点的个数一定相同l ),(y x n lC.相关系数在0到1之间D.相关系数为直线的斜率的和y x 的和y x l 例题2:工人月工资(元)依劳动生产率(千元)变化的回归直线方程为y x ,下列判断正确的是( )x y9060ˆ+=A.劳动生产率为1000元时,工资为150元;B.劳动生产率提高1000元时,工资平均提高150元;C.劳动生产率提高1000元时,工资平均提高90元;D.劳动生产率为1000元时,工资为90元;例题3:设某大学的女生体重与身高具有线性相关关系,根据一组样本数)(kg y )(cm x 据,用最小二乘法建立的回归方程为,则不正确)2,1)(,(n i y x i i =71.8585.0ˆ-=x y的是( )A.与具有正的线性相关关系;B.回归直线过样本点的中心y x (y xC.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg例题4:为了了解儿子的身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高174176176176178儿子身高175175176177177则对的线性回归方程为( )A. B. C. D.y x 1-=x y 1+=x y x y 2188+=176=y 2、残差:(1)残差图:横坐标为样本编号,纵坐标为每个编号样本对应的残差。

线性回归方程高考真题教师版

线性回归方程高考真题教师版

线性回归方程一.选择题(共11小题)1.(2017•山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+,已知101225ii x==∑,1011600i i y ==∑,ˆ4b=,该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166 D .1702.(2015•福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆy bx a =+,其中ˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( ) A .11.4万元B .11.8万元C .12.0万元D .12.2万元3.(2014•重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能是( ) A .ˆ0.4 2.3yx =+ B .ˆ2 2.4yx =- C .ˆ29.5yx =-+ D .ˆ0.3 4.4yx =-+ 4.(2014•湖北)根据如下样本数据:得到了回归方程ˆˆy bx a =+,则( ) A .ˆ0a>,ˆ0b < B .ˆ0a>,ˆ0b > C .ˆ0a<,ˆ0b < D .ˆ0a<,ˆ0b > 5.(2014•湖北)根据如下样本数据,得到回归方程ˆybx a =+,则( )6.(2013•湖北)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且ˆ 2.347 6.423yx =-; ②y 与x 负相关且ˆ 3.476 5.648yx =-+; ③y 与x 正相关且ˆ 5.4378.493yx =+; ④y 与x 正相关且ˆ 4.326 4.578yx =--. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④7.(2013•福建)已知x 与y 之间的几组数据如表:假设根据上表数据所得线性回归直线方程为ˆˆy bx a =+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y b x a ='+',则以下结论正确的是( ) A .ˆbb >',ˆa a >' B .ˆbb >',ˆa a <' C .ˆbb <',ˆa a >' D .ˆbb <',ˆa a <' 8.(2011•陕西)设1(x ,1)y ,2(x ,2)y ,⋯,(n x ,)n y 是变量x 和y 的n 次方个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A .直线l 过点(,)x yB .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同9.(2011•江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下A .1y x =-B .1y x =+C .1882y x =+D .176y =10.(2011•陕西)设1(x ,1)y ,2(x ,2)y ,⋯,(n x ,)n y 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,)y11.(2011•山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆybx a =+的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元二.填空题(共3小题)12.(2011•辽宁)调查了某地若干户家庭的年收x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程ˆ0.2540.321yx =+.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.13.(2011•广东)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm .因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为 cm .14.(2011•广东)工人月工资y (元)与劳动生产率x (千元)变化的回归方程为ˆ5080yx =+,下列判断正确的是 ①劳动生产率为1千元时,工资为130元;②劳动生产率提高1千元,则工资提高80元;③劳动生产率提高1千元,则工资提高130元;④当月工资为210元时,劳动生产率为2千元.三.解答题(共2小题)15.(2013•重庆)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄i y (单位:千元)的数据资料,算得10180i i x ==∑,10120i i y ==∑,101184i i i x y ==∑,1021720i i x ==∑.(Ⅰ)求家庭的月储蓄y 对月收入x 的线性回归方程y bx a =+; (Ⅱ)判断变量x 与y 之间是正相关还是负相关;(Ⅲ)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y bx a =+中,1221ni ii nii x ynxyb xnx ==-=-∑∑,a y bx =-,其中x ,y 为样本平均值,线性回归方程也可写为ˆˆˆybx a =+. 16.(2012•福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:bx (Ⅱ)预计在今后的销售中,销量与单价仍然服从()I 中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)线性回归方程参考答案与试题解析一.选择题(共11小题)1.(2017•山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+,已知101225ii x==∑,1011600i i y ==∑,ˆ4b=,该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166 D .170【解答】解:由线性回归方程为ˆˆ4y x a =+, 则101122.510i i x x ===∑,101116010i i y y ===∑,则数据的样本中心点(22.5,160),由回归直线方程样本中心点,则ˆˆ4160422.570ay x =-=-⨯=, ∴回归直线方程为ˆ470yx =+, 当24x =时,ˆ42470166y=⨯+=, 则估计其身高为166, 故选:C .2.(2015•福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆy bx a =+,其中ˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( ) A .11.4万元B .11.8万元C .12.0万元D .12.2万元【解答】解:由题意可得1(8.28.610.011.311.9)105x =++++=,1(6.27.58.08.59.8)85y =++++=,代入回归方程可得ˆ80.76100.4a=-⨯=, ∴回归方程为ˆ0.760.4yx =+, 把15x =代入方程可得0.76150.411.8y =⨯+=, 故选:B .3.(2014•重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能是( )A .ˆ0.4 2.3y x =+B .ˆ2 2.4y x =-C .ˆ29.5y x =-+D .ˆ0.3 4.4yx =-+ 【解答】解:变量x 与y 正相关, ∴可以排除C ,D ;样本平均数3x =, 3.5y =,代入A 符合,B 不符合, 故选:A .4.(2014•湖北)根据如下样本数据:得到了回归方程ˆˆy bx a =+,则( ) A .ˆ0a>,ˆ0b < B .ˆ0a>,ˆ0b > C .ˆ0a<,ˆ0b < D .ˆ0a<,ˆ0b > 【解答】解:样本平均数 5.5x =,0.25y =,∴61()()24.5i i i x x y y =--=-∑,621()17.5i i x x =-=∑,24.51.417.5b ∴=-=-, 0.25( 1.4)5.57.95a ∴=--=,故选:A .5.(2014•湖北)根据如下样本数据,得到回归方程ˆybx a =+,则( )【解答】解:由题意可知:回归方程经过的样本数据对应的点附近,是减函数,所以0b <,且回归方程经过(3,4)与(4,2.5)附近,所以0a >. 故选:B .6.(2013•湖北)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且ˆ 2.347 6.423yx =-; ②y 与x 负相关且ˆ 3.476 5.648yx =-+; ③y 与x 正相关且ˆ 5.4378.493yx =+; ④y 与x 正相关且ˆ 4.326 4.578yx =--. 其中一定不正确的结论的序号是( ) A .①②B .②③C .③④D .①④【解答】解:①y 与x 负相关且ˆ 2.347 6.423yx =-;此结论误,由线性回归方程知,此两变量的关系是正相关; ②y 与x 负相关且ˆ 3.476 5.648yx =-+;此结论正确,线性回归方程符合负相关的特征; ③y 与x 正相关且ˆ 5.4378.493yx =+; 此结论正确,线性回归方程符合正相关的特征; ④y 与x 正相关且ˆ 4.326 4.578yx =--.此结论不正确,线性回归方程符合负相关的特征.综上判断知,①④是一定不正确的 故选:D .7.(2013•福建)已知x 与y 之间的几组数据如表:假设根据上表数据所得线性回归直线方程为ˆˆy bx a =+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y b x a ='+',则以下结论正确的是( ) A .ˆbb >',ˆa a >' B .ˆbb >',ˆa a <' C .ˆbb <',ˆa a >' D .ˆbb <',ˆa a <' 【解答】解:由题意可知6n =,1121762n ii x x n ====∑,11136n i i y y n ===∑, 故22217916()222nii x nx =-=-⨯=∑,171325586262ni i i x y nxy =-=-⨯⨯=∑,故可得12215ˆ7ni ii nii x ynxybxnx ==-==-∑∑,13571ˆ6723a y bx =-=-⨯=-, 而由直线方程的求解可得02212b -'==-,把(1,0)代入可得2a '=-, 比较可得?b b <',?a a >', 故选:C .8.(2011•陕西)设1(x ,1)y ,2(x ,2)y ,⋯,(n x ,)n y 是变量x 和y 的n 次方个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A .直线l 过点(,)x yB .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 【解答】解:回归直线一定过这组数据的样本中心点,故A 正确, 两个变量的相关系数不是直线的斜率,而是需要用公式做出,故B 不正确, 直线斜率为负,相关系数应在(1,0)-之间,故C 不正确,所有的样本点集中在回归直线附近,不一定两侧一样多,故D 不正确, 故选:A .9.(2011•江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下A .1y x =-B .1y x =+C .1882y x =+D .176y =【解答】解:1741761761761781765x ++++==,1751751761771771765y ++++==,∴本组数据的样本中心点是(176,176),根据样本中心点一定在线性回归直线上,把样本中心点代入四个选项中对应的方程,只有1882y x =+适合, 故选:C .10.(2011•陕西)设1(x ,1)y ,2(x ,2)y ,⋯,(n x ,)n y 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,)y【解答】解:直线l 是由这些样本点通过最小二乘法得到的线性回归直线,回归直线方程一定过样本中心点, 故选:D .11.(2011•山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆybx a =+的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元D .72.0万元【解答】解:42353.54x +++==, 49263954424y +++==,数据的样本中心点在线性回归直线上, 回归方程ˆˆˆybx a =+中的ˆb 为9.4, ˆ429.4 3.5a ∴=⨯+, ∴ˆ9.1a=, ∴线性回归方程是9.49.1y x =+,∴广告费用为6万元时销售额为9.469.165.5⨯+=,故选:B .二.填空题(共3小题)12.(2011•辽宁)调查了某地若干户家庭的年收x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程ˆ0.2540.321yx =+.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 0.254 万元. 【解答】解:对x 的回归直线方程ˆ0.2540.321y x =+. ∴1ˆ0.254(1)0.321yx =++, ∴1ˆˆ0.254(1)0.3210.2540.3210.254yy x x -=++--=. 故答案为:0.254.13.(2011•广东)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm .因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为 185 cm .【解答】解:设X 表示父亲的身高,Y 表示儿子的身高则Y 随X 的变化情况如下;建立这种线性模型:求解得线性回归方程3y x =+ 当182x =时,185y = 故答案为:185.14.(2011•广东)工人月工资y (元)与劳动生产率x (千元)变化的回归方程为ˆ5080yx =+,下列判断正确的是 ②①劳动生产率为1千元时,工资为130元;②劳动生产率提高1千元,则工资提高80元;③劳动生产率提高1千元,则工资提高130元;④当月工资为210元时,劳动生产率为2千元. 【解答】解::对x 的回归直线方程ˆ5080y x =+, ∴1ˆ80(1)50yx =++, ∴1ˆˆ80(1)50805080yy x x -=++--=.所以劳动生产率提高1千元,则工资提高80元,②正确,③不正确. ①④不满足回归方程的意义. 故答案为:②.三.解答题(共2小题)15.(2013•重庆)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄i y (单位:千元)的数据资料,算得10180i i x ==∑,10120i i y ==∑,101184i i i x y ==∑,1021720i i x ==∑.(Ⅰ)求家庭的月储蓄y 对月收入x 的线性回归方程y bx a =+; (Ⅱ)判断变量x 与y 之间是正相关还是负相关;(Ⅲ)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y bx a =+中,1221ni ii nii x ynxyb xnx==-=-∑∑,a y bx =-,其中x ,y 为样本平均值,线性回归方程也可写为ˆˆˆybx a =+. 【解答】解:(Ⅰ)由题意可知10n =,1180810n ii x x n ====∑,1120210n i i y y n ====∑, 故222172010880nxx ii l x nx ==-=-⨯=∑,1184108224nxy i i i l x y nxy ==-=-⨯⨯=∑,故可得240.380xy xxl b l ====,20.380.4a y bx =-=-⨯=-, 故所求的回归方程为:0.30.4y x =-;(Ⅱ)由(Ⅰ)可知0.30b =>,即变量y 随x 的增加而增加,故x 与y 之间是正相关;(Ⅲ)把7x =代入回归方程可预测该家庭的月储蓄为0.370.4 1.7y =⨯-=(千元).16.(2012•福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:bx (Ⅱ)预计在今后的销售中,销量与单价仍然服从()I 中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 【解答】解:88.28.48.68.89()8.56I x +++++==,1(908483807568)806y =+++++=20b =-,a y bx =-,11 / 11 80208.5250a ∴=+⨯=∴回归直线方程ˆ20250yx =-+; ()II 设工厂获得的利润为L 元,则233(20250)4(20250)20()361.254L x x x x =-+--+=--+ ∴该产品的单价应定为334元,工厂获得的利润最大.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归方程高考题
1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 应的生产能耗 (吨标准煤)的几组对照数据:
3
4
5
6
2.5
3
4
4.5
( 1)请画出上表数据的散点图;
(吨)与相
(2)请根据上表提供的数据,用最小二乘法求出 关于 的线性回归方程;
(3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准煤.试根据( 2)求出的 线性回归方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤 ?
(2)求出 y 关于 x 的线性回归方程
,并在坐标系中画出回归直线;
(3)试预测加工 10 个零件需要多少时间?

(注:
(参考数值:

2、假设关于某设备的使用年限 x 和所支出的维修费用 y( 万元 ) 统计数据如下 :
使用年限 x 2
3
4
5
6
维修费用 y 2.2 3.8 5.5 6.5 7.0
若有数据知 y 对 x 呈线性相关关系 . 求:
(1) 填出下图表并求出线性回归方程 =bx+a 的回归系数 , ;
序号 x
1
2
2
3
3
4
4
5
5
6

y
xy
x2
2.2
3.8
5.5
6.5
7.0
(2) 估计使用 10 年时 , 维修费用是多少 .
3、某车间为了规定工时定额, 需要确定加工零件所花费的时间, 为此作了四实试验, 得到的数据如下:
零件的个数 x(个) 2
3
4
5
加工的时间 y(小时) 2.5
3
4
4.5
( 1)在给定的坐标系中画出表中数据的散点图;
相关文档
最新文档