线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 因此所求的回归直线方程是 y =4.75x+257.
根据这个回归直线方程,可以求出相应于x 的估计值.例如当x=28(kg)时,y的估计
值是
ˆ y = 4.75×28+257=390(kg).
北京大峪中学高三数学组
线性回归
例1.一个工厂在某年里每月产品的总成本y
(万元)与该月产量x(万件)之间有如下一组
分析的方法叫做回归分析. 在现实生活中存在着大量的相关关系.人 的身高与年龄、产品的成本与生产数量、商品
的销售额与广告费、家庭的支出与收入等都是
相关关系.
北京大峪中学高三数学组
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2 确定性关系 问题2:某水田水稻产量y与施肥量x之间是 否有一个确定性的关系? (不确定关系) 例如:在7块并排、形状大小相同的试验田上进行 施肥量对水稻产量影响的试验,得到如下所示的一 组数据:
i 1 n
,即
表示从x1加到xn的和.这样,n个数的平均
1 n 数的公式可以写作 x xi .上面的③ n i 1 n 2 式可以写作Q= ( yi bxi a) .
i 1
北京大峪中学高三数用配方法,可以导出使Q取得最 小值的a,b的求值公式(详细推导过程请 见本小节后的阅读材料.P43页).
北京大峪中学高三数学组
线性回归
Q=(y1-bx1-a)2+(y2-bx2-a)2+……+(yn -bxn-a)2 ③
来表示n个点与相应直线在整体上的接近 程度. 于是我们的问题是,如何求得系数a, b,使Q取得最小值.
北京大峪中学高三数学组
线性回归
为了书写方便,我们先引进一个符号 “ ”.这个符号表示若干个数相加. 例如,可将x1+x2+……+xn记作 xi
xiyi
805
933
1118.6 1324.6 1446.9 1558
1638 1892
2140.8 2346
x=37.97
10
y=39.1 ∑ xiyi=15202.9
i=1 10
∑xi2=14663.67
i=1
∑ yi2=15857
i=1
10
b=(∑ xiyi –10 x y) /(∑xi2-10 x 2)
施化肥量x 水稻产量y
15
20
25 365
30
35
40
45
330 345
405 445
450 455
当施肥量x一定时,水稻产量y的值带有一定的随机性
北京大峪中学高三数学组
线性回归
借助科学计算器,可以完成下表中的有关计 算.
北京大峪中学高三数学组
线性回归
于是
87175 7 30 399.3 4.75 b 2 7000 7 30 a 399.3 4.75 30 257
个点最接近的一条直线.
北京大峪中学高三数学组
线性回归
设所求的直线的方程为
ˆ y =bx+a,
(在一般统计书中,习惯用b表示一次项系
数,用a表示常数项,这正好与我们表示
一次函数的习惯相反)
其中a,b是待确定的参数.于是,当变 量x取一组数值xi(i=1,2,……,n)时, ˆ y 相应地 =bxi+a(i=1,2,……,n)
数据:
(l)画出散点图; (2)求月总成本y与月产量x之间的回归直线方
程.
北京大峪中学高三数学组
线性回归
解:(1)画出的散点图如图1-10所示.
1--9 北京大峪中学高三数学组
线性回归
(2)列出下表,并用科学计算器计算,
北京大峪中学高三数学组
线性回归
于是可得
12 xi yi 12 xy 54.243 12 18.5 2.8475 1 12 b i 12 1.215 18.5 2 2 2 29.808 12 ( ) xi 12 x 12 i 1 18.5 0.974 a y bx 2.8475 1.215 12
近,但是按照上面的方法,同样可以就这
组数据求得一个回归直线方程.这显然是
毫无意义的.于是提出一个
问题:所求得的回归直线方
程,在什么情况下才能对相 应的一组观测值具有代表意 义呢?
北京大峪中学高三数学组
线性回归
对于变量y与x的一组观测值来说,我们把
r
( x x )( y y )
i 1 i i
北京大峪中学高三数学组
线性回归
1.正方形面积S与边长x之间的关系: 确定关系 正方形边长x 面积S x 2 2.一块农田的水稻产量与施肥量之间的关系: 气候情况 施肥量 不确定关系 水稻产量
浇水
除虫
北京大峪中学高三数学组
线性回归
与函数关系不同,相关关系是一种非确定性
关系.对具有相关关系的两个变量进行统计
线方程,相应的直线叫做回归直线,而对
两个变量所进行的上述统计分析叫做线性
回归分析.我们看到,求出了这种具有两
个变量的回归直线后,就可以根据其部分
观测值,获得对这两个变量之间整体关系
的了解.
北京大峪中学高三数学组
线性回归
下面根据公式④,来求前面例子水稻产量与施肥 量中的回归直线方程.
例如:在7块并排、形状大小相同的试验田上进行 施肥量对水稻产量影响的试验,得到如下所示的一 组数据:
因此,所求的回归直线方程是
ˆ y =1.215x+0.972.
北京大峪中学高三数学组
线性回归
阅读P38 例
i x y 1 32.2 25.0 2 31.1 30.0 3
练习:P40
4 35.8 37.0 5 37.1 39.0 6 38.9 41.0 7 38.0 42.0 8 39.0 44.0 9 43.0 48.0 10 44.6 51.0 32.9 34.0
施化肥量x 水稻产量y
15
20
25 365
30
35
40
45
330 345
405 445
450 455
当施肥量x一定时,水稻产量y的值带有一定的随机性
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330 345 365
405 445
450 455
y
500 450 400 350 300 0
水稻产量
北京大峪中学高三数学组
利用表的结果,我们来计算前面水稻产量与施化肥量的相关系数
r
x y 7 xy
i 1 i i
7
( xi2 7 x 2 )( yi2 7 y 2 )
i 1 i 1
7
7
0.9733
线性回归
线 性 回 归
北京大峪中学高三数学组
线性回归
对于两个变量之间的关系,我们以前学
过.函数关系是一种确定性关系.例如正
方形的面积 S 与边长 x 之间的关系 S=x2 就
是一种确定性关系,即对于自变量边长的
每一个确定的值,都有唯一确定的面积的
值与之对应.
北京大峪中学高三数学组
线性回归
两个变量之间的关系还有另外一种情 况.我们来看看一块农田的水稻产量与施 肥量之间的关系.在这个问题里,水稻产 量不仅受到施肥量的影响,还受到其他不 少因素(诸如气候情况、浇水、除虫等) 的影响.因此,当施肥量一定时,水稻产 量在取值上带有一定的随机性.像这种自 变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系叫做相关关 系.
n
(x x ) ( y y)
2 i 1 i i 1 i
n
n
即r
2
x y nxy
i 1 i i
n
( x nx )( yi2 ny 2 )
i 1 2 i 2 i 1
n
n
叫做变量y与x之间的样本相关系数,(简称相关系 数),用它来衡量它们之间的线性相关程度. 可以证明,|r|≤1,且|r|越接近于1,相关程度 越大;|r|越接近于0,相关程度越小.
n n ( xi x )( yi y ) xi yi nxy b i 1 n i 1 n ( xi x ) 2 xi2 nx 2 i 1 i 1 a y bx
④
北京大峪中学高三数学组
线性回归
这里,我们将所得到的方程叫做回归直
i=1 i=1
10
10
=(15202.9-10×37.97×39.1)/(14663.67-10×37.972)
≈1.447
a=y - bx= 39.1-1.447 × 37.97 ≈ -15.843
北京大峪中学高三数学组
线性回归
图1-11是一组观测值的散点图.我们看
到,图中的各点并不集中在一条直线的附
北京大峪中学高三数学组
线性回归
ˆ 于是得到各个偏差yi- y i=yi-(bxi+a) (i= 1,2,……,n).
容易看到,上面各个偏差的符号可能有 正有负,如果将它们相加会造成相互抵消, 因此它们的和不能代表n个点与相应直线在 整体上的接近程度.为了解决这一问题, 我们采用n个偏差的平方和,即
··
10 20
· · ·
30
· ·
散点图
施化肥量
40 50
x 发现:图中各点,大致分布在某条直线附近。
探索; 在这些点附近可画直线不止一条,哪条 直线最能代表x与y之间的关系呢?
线性回归
一般地,设x与y是具有相关关系的两个 变量,且相应于n个观测值的n个点大致分布 在一条直线的附近,我们来求在整体上与这n