最新01一元线性回归分析lm
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
01一元线性回归分析
l m
一元线性回归分析
1一元回归分析
在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。这种关系可以用Y 的函数的形式表示出来,即Y 是所谓的因变量,它仅仅依赖于自变量X ,它们之间的关系可以用方程式表示。在最简单的情况下,Y 与X 之间的关系是线性关系。用线性函数a+bX 来估计Y 的数学期望的问题称为一元线性回归问题。即,上述估计问题相当于对x 的每一个值,假设bx a y E +=)(,而且,),(~2σbx a N y +,其中a, b , σ2都是未知参数,并且不依赖于x 。对y 作这样的正态假设,相当于设:
ε++=bx a y
(3)
其中),0(~2σεN ,为随机误差,a, b, σ2都是未知参数。 这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y 与X 的散点图来初步确认。
对于公式(3)中的系数a 、b ,需要由观察值),(i i y x 来进行估
计。如果由样本得到了a ,b 的估计值为b a
ˆ,ˆ,则对于给定的x ,a+bx 的估计为x b a
ˆˆ+,记作y ˆ,它也就是我们对y 的估计。方程 x b a y
ˆˆˆ+= (4)
称为y 对x 的线性回归方程,或回归方程,其图形称为回归直线。
例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x 下,溶解于水中的数量y 如下表所示:
这里x 是自变量,y 是随机变量,我们要求y 对x 的回归。 其散点图如下:
2.确定回归系数(应用最小二乘法)
在样本的容量为n 的情况下,我们我们可以得到n 对观察值为
),(i i y x 。现在我们要利用这n 对观察值来估计参数a ,b 。显然,y
的估计值为:
bx a y
+=ˆ 在上式中a ,b 为待估计的参数。估计这两个参数的方法有极大
似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。
当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。
我们用i y 表示y 的样本观察值,i y
ˆ表示根据回归方程所得到的y 的估计值,则估计值与实际观察值之间的误差为,
i
i i i i x b a y y y e ˆˆˆ--=-= (5)
其总的误差,可以表示为误差的平方和的形式,
22
2)ˆˆ()ˆ()ˆ,ˆ(∑∑∑--=-==i
i i i i x b a y y y e b a Q (6)
现在要使上式取得极小值,只需令Q 对a ,b 的一阶偏导等于0,因此:
0)ˆˆ(2ˆ)ˆˆ(ˆ0)ˆˆ(2ˆ)ˆˆ(ˆ22
2=---=∂--∂=∂∂=---=∂--∂=∂∂∑∑∑∑∑∑
∑x b x a xy b
x b a y b Q x b a n y a
x b a y a
Q i i i
i
由此可解得如下结果:
()∑∑∑∑∑∑∑∑∑---=--=-=-=2
22
)())((ˆˆ1ˆ1ˆx x y y x x n x x n y
x xy b x b y x n
b y n a
其中b a
ˆ,ˆ就是参数a ,b 的无偏估计。此外,所谓最小二乘估计,实际上就是使误差的平方和最小的估计。
估计出了回归方程的系数,我们就可以在给定的x 值的情况下对y 进行估计,或预测。
例2:求例1中的y 关于x 的回归方程。
解:此处,n=9,有关回归方程计算所需要的数据如下:
1444.909
3.811,269234,9====
=y x n 4060)(2
9
1
=-∑=i i
x x
9822.3083)(2
9
1=-∑=i i
y y
8.3534))((9
1
=--∑=i i
i
y y
x x
5078.67ˆˆ8706.040608
.3534)()
)((ˆ9
1
2
9
1
=-===
---=∑∑==x b y a
x x
y y x x
b
i i
i i i
用Minitab 求得的结果如下:
因此所求的回归直线方程为:
x y
8706.05078.67ˆ+= 3.参数估计量的分布
为了对前面所作的y 与x 是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。
1).b
ˆ的分布:
由于∑∑==---=n
i i
n
i i i
x x
y y x x
b
1
2
1
)()
)((ˆ
按假定,n y y y ,,21相互独立,而且已知),(~2σbx a N y +,其中i
x 为常数,所以由b ˆ的表达式知b ˆ为独立正态变量n y y y ,,21的线性组合,于是b ˆ也是正态随机变量。可以证明))(/,(~ˆ122∑=-n
i i
x x b N b σ 另外,对于任意给定的0x x =,其对应的回归值0
0ˆˆˆx b a y +=,由于x b y a
ˆˆ-=,所以可以写成, )(ˆˆˆˆ0
00x x b y x b a y -+=+= 也就是说,在0x x =处y 所对应的估计值也是一个正态分布的随
机变量,可以证明,))()(1,(~ˆ2
122000σ⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎣⎡--++∑=n i i x x x x n bx a N y
2).方差σ2的估计:
为了估计方差,考查各个i x 处的i y 与其相对应的回归值
)(ˆˆx x b y y i
i -+=与其离差i i y y ˆ-的平方和SSD : ∑=-=n
i i i y
y SSD 12)ˆ( 可以证明,其期望值为,
2)2()(σ-=n SSD E
因此,)2/()(-n SSD E 是2σ的无偏估计,即,