线性回归方程(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摄氏温度 26 18 13 10 4 -1 热饮杯数 20 24 34 38 50 64
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间 关系的一般规律;
解: (1)散点图
热饮杯数 160 150 140 130 120 110
100 90 80 70 60 50 40
温度
-10
0
10
20
30
40
(2)气温与热饮杯数成负相关,即气温越高,卖出 去的热饮杯数越少。
人体脂肪含量百分比与年龄散点图
脂肪含量
散
40
点
20
图
0
0
20
40
60
80
年龄
回归直线:如果散点图中点的分布从整体上看大致在 一条直线附近,我们就称这两个变量之间具有线性相 关关系,这条直线就叫做回归直线。
这条回归直线的方程,简称为回归方程。
yi-Yi=yi-(bxi+a)(i=1,2,…,n)(x1,y1)
这样,用这n个偏差的和来刻画 “各点与此直线的整体偏差” 是比较合适的。
(x2,y2)
n
Σ(yi-Yi)的最小值
i=1
n
Σ|yi-Yi|的最小值
i=1
n
Σ(yi-Yi)2的最小值
i=1
n
Σ(xi-x)¯(yi-y) ¯
b=
i=1
n
1.回归方程被样本数据惟一确定,各样本点大致 分布在回归直线附近.对同一个总体,不同的样本 数据对应不同的回归直线,所以回归直线也具有 随机性.
2.对于任意一组样本数据,利用上述公式都可以 求得“回归方程”,如果这组数据不具有线性相 关关系,即不存在回归直线,那么所得的“回归 方程”是没有实际意义的.因此,对一组样本数据, 应先作散点图,在具有线性相关关系的前提下再 求回归方程.
从刚才的散点图发现:年龄越大,体内脂肪含量
越高,点的位置散布在从左下角到右上角的区域. 称
它们成正相关. 但有的两个变量的相关,如下图所示:
如高原含氧量与海拔高度 的相关关系,海平面以上, 海拔高度越高,含氧量越少.
作出散点图发现,它 们散布在从左上角到右下角 的区域内。又如汽车的载重 和汽车每消耗1升汽油所行 使的平均路程,称它们成负 相关.
xi 2
2
nx
,
i 1
yˆ bˆx aˆ
课堂总结
1、两种相关关系:正相关、负相关
2、线性回归方程: y bx a
回归直线所在方程的斜率与截距的一般公式:
n
n
(xi x)( yi y)
xi yi nx y
bˆ i1 n
aˆ
y
( xi
i 1
bˆ x.
x)2
i 1 n
例1:假设某设备的使用年限x(年)和所支出的维 修费用y(万元)有如下统计资料:
使用年限
x(年)
维修费用
y(万元)
2
34
5
6
2.2 3.8 5.5 6.5 7.0
由资料知 y对 x呈线性关系,试求:
(1)回归直线方程 yˆ bx a中的b, a的值;
(2)估计使用年限是10年时,维修费用估计是 多少?
如何具体的求出回归方程?
方案一:采用测量的方法:先画一条直线,测 量出各点到它的距离,然后移动直线,到达一 个使距离之和最小的位置,测量出此时直线的 斜率和截距,就得到回归方程。
脂肪
40 30 20 10
0 0
脂肪
20
40
60
80
我们应该如何具体的求出这个回归方程呢?
方案二、在图中选取两点画直线,使得直线两 侧的点的个数基本相同。
O
5个学生的数学和物理成绩如下表:
ABCDE 数学 80 75 70 65 60 物理 70 66 68 64 62
画出散点图,
解: 80
物理成绩
75
70
65
60
55
50
数学成绩
40
50
60
70
80
90
由散点图可见,两者之间具有正相关关系。
有一个同学家开了一个小卖部,他为了研究气 温对热饮销销售的影响,经过统计,得到一个 卖出的热饮杯数与当天气温的对比表:
2. 下列两个变量之间的关系哪个不是函数关系
( D)
A.角度和它的余弦值 B. 正方形边长和面积 C.正n边形的边数和它的内角和 D. 人的年龄和身高
在一次对人体的脂肪含量和年龄关系的?
年龄 23 27 39 41 45 49 50 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
2.3 变量间的相关关系
问题引入:
有些教师常说:“如果你的数学成绩好,那 么你的物理学习就不会有什么大问题” 按照这种 说法,似乎学生的物理成绩与数学成绩之间也存 在着某种关系。你如何认识它们之间存在的关系?
数学成绩
物理成绩
学习兴趣
学习时间
其他因素
结论:变量之间除了函数关系外,还有
。
思考:考察下列问题中两个变量之间的关系: (1)商品销售收入与广告支出经费; (2)粮食产量与施肥量; (3)人体内的脂肪含量与年龄; (4)圆的面积与半径; (5)匀速直线运动中的时间与路程。
n
( xi x)2
i 1
i1 n
xi 2
2
nx
,
i 1
a y b x
其中,b是回归方程的斜率,a是截距。
注:对具有线性相关关系的两个变量,其回归直线一定
通过样本点的中心
x,
y
求样本数据的线性回归方程,可按下列步骤进行:
第一步,计算平均数 x y ,
在一定的条件下可以相互转化.而对于具有线性相关关系 的两个变量来说,当求得其回归直线方程后,又可以用一 种确定性的关系对这两个变量间的取值进行估计:
1.下列关系中,是带有随机性相关关系的是 ②③④ .
①正方形的边长与面积的关系;②水稻产量与施肥量之 间的关系;③人的身高与年龄之间的关系;④降雪量与 交通事故发生之间的关系.
销售额(百万元) 80
(2)由散点图可知: 50
X与Y具有相关关系
30
5
x 5y 50 xi yi 1380 i 1
10
5
广告费(百万元)
xi2 145
i 1 5
13
579
故可得: b
xi yi 5x
i 1 5
y
6.5a
y bx
17.5
1.两变量之间的关系
(1)函数关系: 当自变量取值一定时,因变量取值由它唯一确定
正方形面积S与其边长x之间的函数关系S=x2 ,
对自变量边长的每一个确定值,都有唯一确定的面积的值
与之对应。
确定关系
(2)相关关系: 当自变量取值一定时,因变量的取值带有一定的随机
性
一块农田的水稻产量与施肥量之间的关系 。
i 1
i 1
b
ห้องสมุดไป่ตู้
112.3 5 4 90 5 42
5
12.3 10
1.23
a y b x 5 1.23 4 0.08
(2)估计使用年限是10年时,维修费用估计是多少?
(2)回归直线方程是yˆ 1.23x 0.08.
当x 10时, yˆ 1.2310 0.08 12.38 12.4(万元)
3.线性回归方程表示的直线 $y a bx 必定过( D )
A.(0,0) B.(x,0) C. (0,y) D.(x,y)
4.设有一个回归方程,$y 2 2.5x 变量x 增加1个单位
长度时,变量y( C )
A.平均增加2.5个单位长度 B.平均增加0.5个单位长度 C.平均减少2.5个单位长度 D.平均减少0.5个单位长度
40 30 20 10
0 0
脂肪
脂肪
20
40
60
80
我们应该如何具体的求出这个回归方程呢?
方案三、在散点图中多取几组点,确定几条直 线的方程,分别求出各条直线的斜率和截距的 平均数,将这两个平均数作为回归方程的斜率 和截距。
脂肪
40 30 20 10
0 0
脂肪
20
40
60
80
上述三种方案均有一定的道理,但可靠性不强,我们 回到回归直线的定义。
年龄 53
54
56
57
58
60
61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据上述数据,人体的脂肪含量和年龄之间有怎样的关 系?
下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标
系,作出各个点,称该图为散点图.
如图:
脂肪含量 40 35 30 25
1、散点图:将样 本中n个数据点 (xi,yi)(i=1, 2,…,n)描在平 面直角坐标系中, 以表示具有相关关 系的两个变量的一 组数据的图形叫做 散点图.
Σ(xi-x)¯
i=1
a=y¯-bx¯
Q=(y1-bx1-a) 2+(y2-bx2-a) 2+…+(yn-bxn-a) 2 当a,b取什么值时,Q的值最小,即总体偏差最小
计算回归方程的斜率和截距的一般公式:
n
n
( xi x)( yi y)
xi yi nx y
b i1
n
n
第二步,求和 xi yi xi2,
i 1n
i 1
n
(xi x)(yi y) xi yi nx y
第三步,计算 b i1 n
i1 n
,a y bx
(xi x)2
xi2 nx 2
i1
^
i1
第四步,写出回归方程 y bx a
答:估计使用10年时,维修费用估计是12.4 万元。
练习
某种产品是的广告费支出x(单位:百万元) 与销售额y(单位:百万元)之间有如下对 应数据
x 24568 y 30 40 60 50 70
(1)画出散点图; (2)如果x与y具有相关关系,求回归 直线方程,并说明b的意义
解(1)散点图如图 所示:
解:(1) 制表:
i 1 2 3 4 5 合计
xi 2 3 4 5 6 20
yi 2.2 3.8 5.5 6.5 7.0 25
xi2 4 9 16 25 36 90
xi yi
4.4
11.4 22.0 32.5 42.0 112.3
5
5
于是有 : x 4, y 5, xi2 90, xi yi 112 .3.
设已经得到具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn)
设所求的回归直线方程为Y=bx+a,其中a,b是待定 的系数。当变量x取x1,x2,…,xn时,可以得到
Yi=bxi+a(i=1,2,…,n) y
(xi ,yi )
它与实际收集得到的yi之间偏差是
yi-Yi
20
15
10
5
年龄
O
20 25 30 35 40 45 50 55 60 65
由散点图支持了我们从数据表中得出如下结论:
a. 如果所有的样本点都落在某一函数曲线上,就用 该函数来描述变量之间的关系。
b.如果所有的样本点都落在某一函数曲线附近,变 量之间就有相关关系。
c.如果所有的样本点都落在某一直线附近,变量之 间就有线性相关关系。
xi2 5x 2
所求回归直i1线方程为
^
y 6.5x 17.5
b表示广告每增加100万元,销售量平均增加650元
巩固练习:
1.由一组 5 个数据(xi,yi)算得 x 4, y 5,
n
n
xi yi 112.3, xi2 90, 则 b= 1.23,a= 0.08,
i 1
i 1
回归方程为 yˆ 1.23 x . 0.08
n
n
(xi x)( yi y)
xi yi n x y
b i1 n
(xi x)2
i 1 n
xi 2
2
nx
,a y bx;
i 1
i 1
2.对于回归方程 $y 4.75x 257 当x=28时,y的估计值是 390
水稻产量并不是由施肥量唯一确定,在取值上带有随机性
不确定关系
(1)相关关系与函数关系的异同点: 相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系 相关关系是一种非确定关系;
函数关系是一种因果关系,而相关关系不一定是因果关 系,也可能是随机关系.
(2)函数关系与相关关系之间有着密切联系:
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间 关系的一般规律;
解: (1)散点图
热饮杯数 160 150 140 130 120 110
100 90 80 70 60 50 40
温度
-10
0
10
20
30
40
(2)气温与热饮杯数成负相关,即气温越高,卖出 去的热饮杯数越少。
人体脂肪含量百分比与年龄散点图
脂肪含量
散
40
点
20
图
0
0
20
40
60
80
年龄
回归直线:如果散点图中点的分布从整体上看大致在 一条直线附近,我们就称这两个变量之间具有线性相 关关系,这条直线就叫做回归直线。
这条回归直线的方程,简称为回归方程。
yi-Yi=yi-(bxi+a)(i=1,2,…,n)(x1,y1)
这样,用这n个偏差的和来刻画 “各点与此直线的整体偏差” 是比较合适的。
(x2,y2)
n
Σ(yi-Yi)的最小值
i=1
n
Σ|yi-Yi|的最小值
i=1
n
Σ(yi-Yi)2的最小值
i=1
n
Σ(xi-x)¯(yi-y) ¯
b=
i=1
n
1.回归方程被样本数据惟一确定,各样本点大致 分布在回归直线附近.对同一个总体,不同的样本 数据对应不同的回归直线,所以回归直线也具有 随机性.
2.对于任意一组样本数据,利用上述公式都可以 求得“回归方程”,如果这组数据不具有线性相 关关系,即不存在回归直线,那么所得的“回归 方程”是没有实际意义的.因此,对一组样本数据, 应先作散点图,在具有线性相关关系的前提下再 求回归方程.
从刚才的散点图发现:年龄越大,体内脂肪含量
越高,点的位置散布在从左下角到右上角的区域. 称
它们成正相关. 但有的两个变量的相关,如下图所示:
如高原含氧量与海拔高度 的相关关系,海平面以上, 海拔高度越高,含氧量越少.
作出散点图发现,它 们散布在从左上角到右下角 的区域内。又如汽车的载重 和汽车每消耗1升汽油所行 使的平均路程,称它们成负 相关.
xi 2
2
nx
,
i 1
yˆ bˆx aˆ
课堂总结
1、两种相关关系:正相关、负相关
2、线性回归方程: y bx a
回归直线所在方程的斜率与截距的一般公式:
n
n
(xi x)( yi y)
xi yi nx y
bˆ i1 n
aˆ
y
( xi
i 1
bˆ x.
x)2
i 1 n
例1:假设某设备的使用年限x(年)和所支出的维 修费用y(万元)有如下统计资料:
使用年限
x(年)
维修费用
y(万元)
2
34
5
6
2.2 3.8 5.5 6.5 7.0
由资料知 y对 x呈线性关系,试求:
(1)回归直线方程 yˆ bx a中的b, a的值;
(2)估计使用年限是10年时,维修费用估计是 多少?
如何具体的求出回归方程?
方案一:采用测量的方法:先画一条直线,测 量出各点到它的距离,然后移动直线,到达一 个使距离之和最小的位置,测量出此时直线的 斜率和截距,就得到回归方程。
脂肪
40 30 20 10
0 0
脂肪
20
40
60
80
我们应该如何具体的求出这个回归方程呢?
方案二、在图中选取两点画直线,使得直线两 侧的点的个数基本相同。
O
5个学生的数学和物理成绩如下表:
ABCDE 数学 80 75 70 65 60 物理 70 66 68 64 62
画出散点图,
解: 80
物理成绩
75
70
65
60
55
50
数学成绩
40
50
60
70
80
90
由散点图可见,两者之间具有正相关关系。
有一个同学家开了一个小卖部,他为了研究气 温对热饮销销售的影响,经过统计,得到一个 卖出的热饮杯数与当天气温的对比表:
2. 下列两个变量之间的关系哪个不是函数关系
( D)
A.角度和它的余弦值 B. 正方形边长和面积 C.正n边形的边数和它的内角和 D. 人的年龄和身高
在一次对人体的脂肪含量和年龄关系的?
年龄 23 27 39 41 45 49 50 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
2.3 变量间的相关关系
问题引入:
有些教师常说:“如果你的数学成绩好,那 么你的物理学习就不会有什么大问题” 按照这种 说法,似乎学生的物理成绩与数学成绩之间也存 在着某种关系。你如何认识它们之间存在的关系?
数学成绩
物理成绩
学习兴趣
学习时间
其他因素
结论:变量之间除了函数关系外,还有
。
思考:考察下列问题中两个变量之间的关系: (1)商品销售收入与广告支出经费; (2)粮食产量与施肥量; (3)人体内的脂肪含量与年龄; (4)圆的面积与半径; (5)匀速直线运动中的时间与路程。
n
( xi x)2
i 1
i1 n
xi 2
2
nx
,
i 1
a y b x
其中,b是回归方程的斜率,a是截距。
注:对具有线性相关关系的两个变量,其回归直线一定
通过样本点的中心
x,
y
求样本数据的线性回归方程,可按下列步骤进行:
第一步,计算平均数 x y ,
在一定的条件下可以相互转化.而对于具有线性相关关系 的两个变量来说,当求得其回归直线方程后,又可以用一 种确定性的关系对这两个变量间的取值进行估计:
1.下列关系中,是带有随机性相关关系的是 ②③④ .
①正方形的边长与面积的关系;②水稻产量与施肥量之 间的关系;③人的身高与年龄之间的关系;④降雪量与 交通事故发生之间的关系.
销售额(百万元) 80
(2)由散点图可知: 50
X与Y具有相关关系
30
5
x 5y 50 xi yi 1380 i 1
10
5
广告费(百万元)
xi2 145
i 1 5
13
579
故可得: b
xi yi 5x
i 1 5
y
6.5a
y bx
17.5
1.两变量之间的关系
(1)函数关系: 当自变量取值一定时,因变量取值由它唯一确定
正方形面积S与其边长x之间的函数关系S=x2 ,
对自变量边长的每一个确定值,都有唯一确定的面积的值
与之对应。
确定关系
(2)相关关系: 当自变量取值一定时,因变量的取值带有一定的随机
性
一块农田的水稻产量与施肥量之间的关系 。
i 1
i 1
b
ห้องสมุดไป่ตู้
112.3 5 4 90 5 42
5
12.3 10
1.23
a y b x 5 1.23 4 0.08
(2)估计使用年限是10年时,维修费用估计是多少?
(2)回归直线方程是yˆ 1.23x 0.08.
当x 10时, yˆ 1.2310 0.08 12.38 12.4(万元)
3.线性回归方程表示的直线 $y a bx 必定过( D )
A.(0,0) B.(x,0) C. (0,y) D.(x,y)
4.设有一个回归方程,$y 2 2.5x 变量x 增加1个单位
长度时,变量y( C )
A.平均增加2.5个单位长度 B.平均增加0.5个单位长度 C.平均减少2.5个单位长度 D.平均减少0.5个单位长度
40 30 20 10
0 0
脂肪
脂肪
20
40
60
80
我们应该如何具体的求出这个回归方程呢?
方案三、在散点图中多取几组点,确定几条直 线的方程,分别求出各条直线的斜率和截距的 平均数,将这两个平均数作为回归方程的斜率 和截距。
脂肪
40 30 20 10
0 0
脂肪
20
40
60
80
上述三种方案均有一定的道理,但可靠性不强,我们 回到回归直线的定义。
年龄 53
54
56
57
58
60
61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据上述数据,人体的脂肪含量和年龄之间有怎样的关 系?
下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标
系,作出各个点,称该图为散点图.
如图:
脂肪含量 40 35 30 25
1、散点图:将样 本中n个数据点 (xi,yi)(i=1, 2,…,n)描在平 面直角坐标系中, 以表示具有相关关 系的两个变量的一 组数据的图形叫做 散点图.
Σ(xi-x)¯
i=1
a=y¯-bx¯
Q=(y1-bx1-a) 2+(y2-bx2-a) 2+…+(yn-bxn-a) 2 当a,b取什么值时,Q的值最小,即总体偏差最小
计算回归方程的斜率和截距的一般公式:
n
n
( xi x)( yi y)
xi yi nx y
b i1
n
n
第二步,求和 xi yi xi2,
i 1n
i 1
n
(xi x)(yi y) xi yi nx y
第三步,计算 b i1 n
i1 n
,a y bx
(xi x)2
xi2 nx 2
i1
^
i1
第四步,写出回归方程 y bx a
答:估计使用10年时,维修费用估计是12.4 万元。
练习
某种产品是的广告费支出x(单位:百万元) 与销售额y(单位:百万元)之间有如下对 应数据
x 24568 y 30 40 60 50 70
(1)画出散点图; (2)如果x与y具有相关关系,求回归 直线方程,并说明b的意义
解(1)散点图如图 所示:
解:(1) 制表:
i 1 2 3 4 5 合计
xi 2 3 4 5 6 20
yi 2.2 3.8 5.5 6.5 7.0 25
xi2 4 9 16 25 36 90
xi yi
4.4
11.4 22.0 32.5 42.0 112.3
5
5
于是有 : x 4, y 5, xi2 90, xi yi 112 .3.
设已经得到具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn)
设所求的回归直线方程为Y=bx+a,其中a,b是待定 的系数。当变量x取x1,x2,…,xn时,可以得到
Yi=bxi+a(i=1,2,…,n) y
(xi ,yi )
它与实际收集得到的yi之间偏差是
yi-Yi
20
15
10
5
年龄
O
20 25 30 35 40 45 50 55 60 65
由散点图支持了我们从数据表中得出如下结论:
a. 如果所有的样本点都落在某一函数曲线上,就用 该函数来描述变量之间的关系。
b.如果所有的样本点都落在某一函数曲线附近,变 量之间就有相关关系。
c.如果所有的样本点都落在某一直线附近,变量之 间就有线性相关关系。
xi2 5x 2
所求回归直i1线方程为
^
y 6.5x 17.5
b表示广告每增加100万元,销售量平均增加650元
巩固练习:
1.由一组 5 个数据(xi,yi)算得 x 4, y 5,
n
n
xi yi 112.3, xi2 90, 则 b= 1.23,a= 0.08,
i 1
i 1
回归方程为 yˆ 1.23 x . 0.08
n
n
(xi x)( yi y)
xi yi n x y
b i1 n
(xi x)2
i 1 n
xi 2
2
nx
,a y bx;
i 1
i 1
2.对于回归方程 $y 4.75x 257 当x=28时,y的估计值是 390
水稻产量并不是由施肥量唯一确定,在取值上带有随机性
不确定关系
(1)相关关系与函数关系的异同点: 相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系 相关关系是一种非确定关系;
函数关系是一种因果关系,而相关关系不一定是因果关 系,也可能是随机关系.
(2)函数关系与相关关系之间有着密切联系: