精品数学 高中数学人教A版选择性必修三第八章 §8.2 一元线性回归模型及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§8.2 一元线性回归模型及其应用
学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
知识点一 一元线性回归模型
称⎩
⎪⎨⎪⎧
Y =bx +a +e ,
E (e )=0,D (e )=σ2为Y 关于x 的一元线性回归模型.其中Y 称为因变量或响应变量,x 称为自变量或解释变量,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差,如果e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二 最小二乘法
将y ^
=b ^
x +a ^
称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b ^
,a ^
叫做b ,a 的最小二
乘估计,其中b ^

∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
,a ^=y -b ^
x 思考1 经验回归方程一定过成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的某一点吗? 答案 不一定.
思考2 点(x ,y )在经验回归直线上吗? 答案 在.
知识点三 残差与残差分析 1.残差
对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^
称为预测值,观测值减去预测值称为残差. 2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 知识点四 对模型刻画数据效果的分析 1.残差图法
在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系. 2
.残差平方和法
残差平方和∑i =1n
(y i -y ^
i )2越小,模型的拟合效果越好.
3.R 2法
可以用R 2=1-
∑i =1
n
(y i -y
^
i )2
∑i =1
n
(y i -y )2
来比较两个模型的拟合效果,R 2越大,模型拟合效果越好,R 2越
小,模型拟合效果越差.
思考 利用经验回归方程求得的函数值一定是真实值吗? 答案 不一定,他只是真实值的一个预测估计值.
1.求经验回归方程前可以不进行相关性检验.( × )
2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用经验回归方程求出的值是准确值.( × )
4.残差平方和越小,线性回归模型的拟合效果越好.( √ ) 5.R 2越小,线性回归模型的拟合效果越好.( × )
一、求经验回归方程
例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:
x 6 8 10 12 y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^
=b ^
x +a ^
; (3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.
⎝ ⎛⎭
⎪⎪

参考公式:b ^
=∑i =1
n
x i y i
-n x ·y ∑i =1
n
x 2
i
-n x 2
,a ^
=y -b ^
x 解 (1)散点图如图所示:
(2)x =
6+8+10+12
4
=9,
y =
2+3+5+6
4
=4, ∑i =1
4
x 2i =62+82+102+122=344,
∑i =1
4
x i y i =6×2+8×3+10×5+12×6=158,
b ^
=158-4×9×4344-4×92
=1420=0.7,
a ^=y -
b ^
x =4-0.7×9=-2.3, 故经验回归方程为y ^
=0.7x -2.3.
(3)由(2)中经验回归方程可知,当x =9时,y ^
=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.
反思感悟 求经验回归方程可分如下四步来完成 (1)列:列表表示x i ,y i ,x 2i ,x i y i . (2)算:计算x ,y ,∑
i =1n
x 2i ,∑i =1
n
x i y i .
(3)代:代入公式计算a ^
,b ^
的值.
(4)写:写出经验回归方程.
跟踪训练1 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
(1)求y 关于t 的经验回归方程y ^
=b ^
t +a ^

(2)用所求经验回归方程预测该地区2021年(t =7)的人民币储蓄存款.
⎝ ⎛⎭
⎪⎪⎫
参考公式:b ^
=∑i =1
n t i y i
-n t y ∑i =1
n t 2
i
-n t 2
,a ^
=y -b ^
t 解 (1)由题意可知,n =5,t =1n ∑i =1
n t i =15
5
=3,
y =1n ∑i =1
n y i =36
5
=7.2.
又∑i =1
n
t 2i =55,
∑i =1
n
t i y i =120,
计算得,b ^
=1.2,a ^
=y -b ^
t =7.2-1.2×3=3.6. 故所求经验回归方程为y ^
=1.2t +3.6.
(2)将t =7代入y ^
=1.2t +3.6,可得y ^
=1.2×7+3.6=12(千亿元), 所以预测该地区2021年的人民币储蓄存款为12千亿元. 二、线性回归分析
例2 已知某种商品的价格x (单位:元)与需求量y (单位:件)之间的关系有如下一组数据:
求y 关于x 的经验回归方程,并借助残差平方和和R 2说明回归模型拟合效果的好坏. 解 x =1
5×(14+16+18+20+22)=18,
y =1
5
×(12+10+7+5+3)=7.4,
∑i =1
5
x 2i =142+162+182+202+222=1 660,
∑i =1
5
x i y i =14×12+16×10+18×7+20×5+22×3=620,
所以b ^

∑i =1
5
x i y i -5x y
∑i =1
5
x 2i -5x
2
=620-5×18×7.4
1 660-5×182
=-1.15,
a ^
=7.4+1.15×18=28.1,
所以所求经验回归方程是y ^
=-1.15x +28.1. 列出残差表:
所以∑i =15
(y i -y ^
i )2=0.3,
∑i =1
5
(y i -y )2=53.2,
R 2=1-
∑i =15
(y i -y ^
i )2
∑i =1
5
(y i -y )2
≈0.994,
所以回归模型的拟合效果很好. 反思感悟 刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和∑i =1n
(y i -y ^
i )2越小,模型的拟合效果越好.
(3)R 2法:R 2=1-

i =1n
(y i -y ^
i )2
∑i =1
n
(y i -y )2
越接近1,表明模型的拟合效果越好.
跟踪训练2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x 5 10 15 20 25 30 y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求经验回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图 .
x =1
6
×(5+10+15+20+25+30)=17.5,
y =1
6
×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,

i =1
6
x 2i =2 275,∑
i =1
6
y 2i =554.659 4,∑i =1
6
x i y i =1 076.2,
计算得,b ^
≈0.183,a ^
≈6.285, 所求经验回归方程为y ^
=0.183x +6.285. (2)残差表如下:
y i -
y ^
i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y
-2.237
-1.367
-0.537
0.413
1.413
2.313
所以∑
i =16
(y i -y ^
i )2≈0.013 18,
∑i =1
6
(y i -y )2≈14.678 3.
所以R 2≈1-0.013 18
14.678 3≈0.999 1,
所以回归模型的拟合效果很好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系. 三、非线性回归
例3 下表为收集到的一组数据:
x 21 23 25 27 29 32 35 y
7
11
21
24
66
115
325
(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预测x =40时y 的值.
解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y =c 12e c x 的周围,其中c 1,c 2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用经验回归模型来建立y 与x 之间的非线性经验回归方程了,数据可以转化为
x 21 23 25 27 29 32 35 z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得经验回归方程为z ^
=0.272x -3.849, ∴y ^
=e 0.272x -3.849. 残差表如下:
y i 7 11 21 24 66 115 325 y ^
i 6.443 11.101 19.125 32.950 56.770 128.381 290.325 e ^
i 0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x =40时,y ^
=e 0.272
×40-3.849
≈1 131.
反思感悟 非线性回归问题的处理方法 (1)指数函数型y =e bx +a
①函数y =e bx +a 的图象,如图所示;
②处理方法:两边取对数得ln y =ln e bx +a ,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数函数型y =b ln x +a
①函数y =b ln x +a 的图象,如图所示;
②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型
处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b .
跟踪训练3为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:天数x 12345 6
繁殖个数y 612254995190
求y关于x的非线性经验回归方程.
解作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=c e bx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x 12345 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
由表中数据得到经验回归方程为z^=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为y^=e0.69x+1.115.
1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是()
答案AC
解析AC中的点分布在一条直线附近,适合线性回归模型.
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
甲 乙 丙 丁 R 2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好( ) A .甲 B .乙 C .丙 D .丁 答案 A
解析 决定系数R 2越大,表示回归模型的拟合效果越好.
3.已知人的年龄x 与人体脂肪含量的百分数y 的经验回归方程为y =0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( ) A .一定是20.3%
B .在20.3%附近的可能性比较大
C .无任何参考数据
D .以上解释都无道理 答案 B
解析 将x =36代入经验回归方程得y =0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.
4.由变量x 与y 相对应的一组成对样本数据(1,y 1),(5,y 2),(7,y 3),(13,y 4),(19,y 5)得到的经验回归方程为y ^
=2x +45,则y =________. 答案 63
解析 ∵x =1
5(1+5+7+13+19)=9,y =2x +45,
∴y =2×9+45=63.
5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx
+a
的周围.令z ^
=ln y ,求得经验回归方程为z ^
=0.25x -2.58,则该模型的非线性经验回归方程为________. 答案 y ^
=e 0.25x
-2.58
解析 因为z ^=0.25x -2.58,z ^
=ln y , 所以y ^
=e 0.25x -2.58.
1.知识清单: (1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R 2法. 2.方法归纳:数形结合、转化化归.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.
1.如果两个变量之间的线性相关程度很高,则其R 2的值应接近于( ) A .0.5 B .2 C .0 D .1 答案 D
解析 R 2越接近于1,相关程度越高,故选D.
2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
3.工人工资y (元)与劳动生产率x (千元)的相关关系的经验回归方程为y ^
=50+80x ,下列判断正确的是( )
A .劳动生产率为1 000元时,工人工资为130元
B .劳动生产率提高1 000元时,工人工资平均提高80元
C .劳动生产率提高1 000元时,工人工资平均提高130元
D .当月工资为250元时,劳动生产率为2 000元 答案 B
解析 因为经验回归方程的斜率为80,所以x 每增加1,y 平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.
4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是(
)
A .y =a ·x b
B .y =a +b ln x
C .y =a ·e bx
D .y =a ·e b
x
答案 B
解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y =a +b ln x 模型进行拟合. 5.(多选)对于经验回归方程y ^
=b ^
x +a ^
(b ^
>0),下列说法正确的是( ) A .当x 增加一个单位时,y ^
的值平均增加b ^
个单位 B .点(x ,y )一定在y ^
=b ^
x +a ^所表示的直线上 C .当x =t 时,一定有y =b ^
t +a ^
D .当x =t 时,y 的值近似为b ^
t +a ^
答案 ABD
解析 经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.
6.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^
=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1
解析 将x =15代入y ^
=0.8x +0.1,得y ^
=12.1.
7.若经验回归直线方程中的回归系数b ^
=0,则样本相关系数r =________. 答案 0
解析 样本相关系数r =
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x
)2∑i =1
n
(y i -y )2
与b ^

∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
的分子相同,
故r =0.
8.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间 二月
上旬 二月 中旬 二月 下旬 三月 上旬 旬平均气温x (℃) 3 8 12 17 旬销售量y (件)
55
m
33
24
由表中数据算出经验回归方程y ^
=b ^
x +a ^
中的b ^
=-2,样本点的中心为(10,38). (1)表中数据m =________;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件. 答案 (1)40 (2)14
解析 (1)由y =38,得m =40.
(2)由a ^
=y -b ^
x 得a ^
=58,故y ^=-2x +58, 当x =22时,y ^
=14,
故三月中旬的销售量约为14件. 9.已知变量x ,y 有如下对应数据:
x 1 2 3 4 y
1
3
4
5
(1)作出散点图;
(2)用最小二乘法求关于x ,y 的经验回归方程. 解 (1)散点图如图所示.
(2)x =1+2+3+44=52,y =1+3+4+54=13
4

∑i =1
4x i y i =1+6+12+20=39,∑i =1
4
x 2i =1+4+9+16=30,
b ^=39-4×52×13430-4×⎝⎛⎭
⎫522=1310,
a ^=134-1310×5
2
=0,
所以y ^
=13
10
x 即为所求的经验回归方程.
10.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =1
5
x 2i =
90,∑i =1
5
x i y i =112,∑i =1
5
x i =20,∑i =1
5
y i =25.
(1)求所支出的维修费y 关于使用年限x 的经验回归方程y ^
=b ^
x +a ^
; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少? 解 (1)∵∑i =1
5
x i =20,∑i =1
5
y i =25,
∴x =15∑i =1
5x i =4,y =15
∑i =1
5
y i =5,
∴b ^

∑i =1
5
x i y i -5x y
∑i =1
5
x 2i -5x
2

112-5×4×5
90-5×42
=1.2,
a ^
=y -b ^
x =5-1.2×4=0.2. ∴所求经验回归方程为y ^
=1.2x +0.2.
(2)①由(1)知b ^
=1.2>0,∴变量x 与y 之间是正相关. ②由(1)知,当x =8时,y ^
=1.2×8+0.2=9.8, 即使用年限为8年时,支出的维修费约是9.8万元.
11.设两个变量x 和Y 之间具有线性相关关系,它们的样本相关系数是r ,Y 关于x 的经验回归方程的回归系数为b ^
,回归截距是a ^
,那么必有( ) A.b ^
与r 的符号相同 B.a ^
与r 的符号相同 C.b ^与r 的符号相反 D.a ^
与r 的符号相反
答案 A
解析 b ^
与r 的符号相同.
12.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n (n ≥10)个城市职工购买食品的人均支出y (千元)与人均月消费支出x (千元)具有线性相关关系,且经验回归方程为y ^=0.4x +1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为( )
A .60%
B .64%
C .58%
D .55% 答案 B
解析 把x =5代入经验回归方程y ^
=0.4x +1.2中,得y ^
=0.4×5+1.2=3.2,则该城市职工的月恩格尔系数约为3.2
5
=0.64=64%,故选B.
13.(多选)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的经验回归方程为y ^
=0.85x -85.71,则下列结论中正确的是( ) A .y 与x 具有正的线性相关关系
B .经验回归方程过样本点的中心(x ,y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可判定其体重必为58.79 kg 答案 ABC
解析 A ,B ,C 均正确,是经验回归方程的性质,D 项是错误的,经验回归方程只能预测学生的体重,应为大约58.79 kg.
14.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185
解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y (单位:cm),父亲身高为X (单位:cm),根据数据列表:
X 173 170 176 Y
170
176
182
由表中数据,求得回归系数b ^
=1,a ^
=3. 于是儿子身高与父亲身高的关系式为Y =X +3, 当X =182时,Y =185.
故预测该老师的孙子的身高为185 cm.
15.已知变量y 关于x 的非线性经验回归方程为y ^
=e
b ^
x -0.5
,其一组数据如下表所示: x 1 2 3 4
y
e
e 3
e 4
e 6
若x =5,则预测y 的值可能为( ) A .e 5 B .112
e C .e 7 D .152
e 答案 D
解析 将式子两边取对数,得到ln y ^
=b ^
x -0.5, 令z =ln y ^
,得到z =b ^
x -0.5, 列出x ,z 的取值对应的表格如下:
x 1 2 3 4 z
1
3
4
6
则x =1+2+3+44=2.5,z =1+3+4+6
4=3.5,
∵(x ,z )满足z =b ^
x -0.5, ∴3.5=b ^
×2.5-0.5,解得b ^
=1.6, ∴z =1.6x -0.5,∴y ^
=e 1.6x -0.5,
当x =5时,y ^
=e
1.6×5-0.5
=152
e .
16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求经验回归方程y ^
=b ^
x +a ^
,其中b ^
=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)由于x =1
6×(8+8.2+8.4+8.6+8.8+9)=8.5,
y =1
6×(90+84+83+80+75+68)=80.
所以a ^
=y -b ^
x =80+20×8.5=250, 从而经验回归方程为y ^
=-20x +250.
(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25.
故当单价定为8.25元时,工厂可获得最大利润.。

相关文档
最新文档