一元线性回归分析和多元线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一元线性回归分析和多元线性回归分析
一元线性回归分析
1.简单介绍
当只有一个自变量时,称为一元回归分析(研究因变量y 和自变量x 之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量y 和自变量1x ,2x ,…,n x 之间的相关关系)。

如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。

在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。

这里讨论线性回归分析法。

2.回归分析法的基本步骤
回归分析法的基本步骤如下: (1) 搜集数据。

根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。

由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。

(2) 设定回归方程。

以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。

设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。

(3) 确定回归系数。

将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程。

这一步的工作量较大。

(4) 进行相关性检验。

相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。

一般有R 检验、t 检验和F 检验三种方法。

(5) 进行预测,并确定置信区间。

通过相关性检验后,我们就可以利用已确定的回归方程进行预测。

因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。

3. 一元线性回归分析的数学模型
用一元线性回归方程来描述i x 和i y 之间的关系,即
i i i x a a y ∆++=10 (i =1,2,…,n )(2-1)
式中,i x 和i y 分别是自变量x 和因变量y 的第i 观测值,0a 和1a 是回归系数,n 是
观测点的个数,i ∆为对应于y 的第i 观测值i y 的随机误差。

假设随机误差i ∆满足如下条件:①服从正态分布;②i ∆的均值为零,即()0=∆i E ;③i ∆的方差等于2σ;④各个i ∆间相互独立,即对于任何两个随机误差i ∆和j ∆,其协方差等于零,即,
()()j i j i ≠=∆∆0,cov 。

基于上述假定,随机变量的数学期望和方差分别是
()()i i x E a a y E 10+=
(2-2)
()I 2
σ
=∆∑
如果不考虑式中的误差项,我们就得到简化的式子
i
i x a a y 10+=
(2-3)
该式称为y 对x 的一元回归模型或一元回归方程,其相应的回归分析称为一元线性回归分析。

依据这一方程在直角坐标系中所作的直线就称为回归直线。

4. 回归参数的估计
回归模型中的参数0a 与1a 在一般情况下都是未知数,必须根据样本观测数据()i i y x ,来估计。

确定参数0a 与1a 值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。

为此,可以采用最小二乘法的办法来解决。

对应于每一个i x ,根据回归直线方程式(2-3)可以求出一个∧
i y ,它就是i y 的一个
估计值。

估计值和观测值之间的偏差⎪⎭

⎝⎛-=∆∧
i i i y y 。

要使模型的拟合状态最好,
就是说要使n 个偏差平方和最小为标准来确定回归模型。

为了方便起见,记
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y M 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∆∆∆=∆n M 21,⎥
⎥⎥⎥⎦

⎢⎢⎢
⎢⎣⎡=n x x x B 1
1121M M ,⎥
⎥⎦⎤⎢⎢⎣⎡=∧∧
∧10a a a 则式(2-1)用矩阵形式表示为

+=∧
a B y
(2-4)
设V 为误差∆的负估值,称为y 的改正数或残差,∧
a 为回归参数a 的估值,则可以写出类似于参数平差的误差方程
y
a B V -=∧
(2-5)
根据最小二乘原理min =V V T ,求自由极值,得
02==∂∂∧
B V a
V V T T
即 0=V B T (2-6)
将误差方程(2-5)代入,即得法方程为
y
B a B B T T
=∧
(2-7) 记
∑==n i i x n x 11,∑==n
i i y n y 11,()
∑∑==-=-=n i i n i i xx x n x x x S 12212,
()
∑∑==-=-=n
i i
n
i i yy y n y y y S 1
2
2
1
2
,()()
y x n y x y y x x S i n
i i n
i i i xy -=--=∑∑==1
1


⎦⎤⎢⎣⎡+=2x n S x n x n n B B xx T ,⎥⎥⎦
⎤⎢⎢⎣⎡+=y x n S y n y B xy T
于是可得回归参数的最小二乘估值为
()
y
B B
B a T T 1
-∧
=
(2-8)

⎥⎥⎦⎤⎢⎢⎣⎡-=⎥⎥⎦⎤⎢⎢⎣⎡+⎥⎥⎦⎤⎢⎢⎣⎡--⎪⎭⎫ ⎝⎛+=∧
xy xy xx xx xy xx xx S S x S y S y x n S y n x x n x n S S x 1112
参数∧
0a 与∧
1a 的具体表达形式为
xx xy S S x y a /0-=∧
(2-9)
xx xy S S a =∧
1
求出参数∧0a 与∧
1a 以后,就可以得到一元线性回归模型
x
a a y ∧


+=10
(2-10)
由此,只要给定了一个i x 值,就可以根据回归模型求得一个∧
i y 作为实际值i y 的预测值。

5. 精度分析
对于给定的i x ,根据回归模型就可以求出i y 的预测值。

但是用∧
i y 来预测y 的精度如何,产生的误差有多大是我们所关心的。

这里采用测量上常用的精度指标来度量回归方程的可靠性。

一个回归模型的精度或剩余标准离差定义式为
22112
-=⎪⎭⎫
⎝⎛--=∑=∧∧
n V V y y n T n i i i σ
(2-11)
由于参数的个数是2,观测值总数是n ,多余观测是()2-n ,因此式中分母是
()2-n 。

运用估计平均误差可以对回归方程的预测结果进行区间估计。

若观察值
围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在∧
±σ的范围内,有95.45%的点落在∧
±σ2的范围内,有99.73%的点落在∧
±σ3的范围内。

根据参数平差理论可知,∧
a 的协因数矩阵为
()
⎥⎥⎦
⎤⎢⎢⎣⎡--⎪⎭⎫ ⎝⎛+=
=-∧∧112
1
x x n x n S S B
B Q xx xx T a
a
(2-12)
从而,∧
a 的方差估值为
⎪⎪⎭

⎝⎛+
=∧∧∧xx a S x n 22
02
10
σσ (2-13)
xx
a S 12
21
∧∧=∧
σσ
6. 线性回归效果的显著性检验
对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验;二是对回归系数进行统计推断。

在一元线性回归分析中,线性回归效果的好坏取决于y 与x 的线性关系是否密切。

若||1∧
a 越大,y 随x 的变化趋势就越明显;若||1∧
a 越小,y 随x 的变化趋势就越不明显。

特别的,当01=∧
a 时,意味着y 与x 之间不存在线性相关关系,所建立的线性回归方程没有意义。

所以,只有当01≠∧
a 时,y 与x 之间才有线性相关关系,所建立的线性回归方程才有实际意义。

因此,对线性回归效果好坏的检验,就归结为对统计假设0:;0:1110≠=a H a H 的检验。

若拒绝0H ,就认为线性回归有意义;若不能拒绝0H ,就认为线性回归无意义。

下面介绍两种检验方法:F 检验法和相关系数检验法。

1. F 检验法
进行F 检验的关键在于确定一个合适的统计量及其所服从的分布。

当原假设成立时,根据F 分布的定义可知
()()
2,1~2/12
12
--⎪⎭⎫ ⎝
⎛-⎪⎭
⎫ ⎝⎛-=
∑∑=∧
=∧
n F n y y y y F n
i i i n
i i
(2-14)
当给定显著性水平α=0.05或0.01,由F 分布分位数值表得临界值
()2,11--n F α,由样本观测值计算出统计量F 的实测值。

若()2,11-≥-n F F α,则以
显著水平α拒绝0H ;若()2,11-<-n F F α则以显著水平α接受0H 。

一般按下述标准判断。

(1) 若()2,199.0-≥n F F ,则认为线性回归方程效果极显著。

(2) 若()()2,12,199.095.0-<≤-n F F n F ,则认为线性回归方程效果显著。

(3) 若()2,195.0-<n F F ,则认为线性回归效果不显著。

2.相关系数检验法
相关系数检验法是通过y 与x 之间的相关系数对回归方程的显著性进行检验的,由样本观测值,即()()()n n y x y x y x ,,,,,,2211Λ,可以得到相关系数的实测值为
()()
()()
∑∑∑===----=
=n
i i
n
i i
n
i i
i
yy
xx xy y y x x y y x x S S S r 1
2
1
21
(2-15)
相关系数10≤≤r ,现作如下进一步分析。

(1) 当0=r 时,0=xy S ,因而01=a ,此时线性回归方程∧

∧∧

=+=010a x a a y ,表
明y 与x 之间不存在线性相关关系。

(2) 当1||0<<r 时,y 与x 之间存在一定的线性相关关系,当0>r 时,01>∧
a ,
此时称y 与x 正相关;当0<r 时,01<∧
a ,此时称y 与x 负相关;当||r 越接近于0时,此时y 与x 的线性关系越微弱;当||r 越接近于1时,此时y 与x 的线性关系越强。

(3) 当||r =1时,y 与x 完全线性相关,表明y 与x 之间存在确定的线性函数
关系;当r=1时,称y 与x 正相关;当r=-1时,称y 与x 负相关。

当给定显著性水平α=0.05或0.01,由
()()α
α-=-≤-12||1n r r P
(2-16)
来判断线性回归方程的效果。

若本观测值算出的相关关系实测值()21-≥-n r r α,则以显著性水平的关系α拒绝0H ;若()21-<-n r r α,则以显著性水平的关系α接受0H 。

一般按下述标准判断。

(1) 若()299.0-≥n r r ,则认为线性回归方程效果极显著。

(2) 若()()2299.095.0-<≤-n r r n r ,则认为线性回归方程效果显著。

(3) 若()295.0-<n r r ,则认为线性回归效果不显著。

临界值()21--n r α可由下式确定
()()()()
22,12,12111-+--=
----n n F n F n r ααα
(2-17)
7. [实例解算]
设某线性回归问题的自变量i x 和观测值i y 的数据如表2-1所示,试求其回归方程。

⑴ 回归方程的建立。

由表中数据计算得
4.341034411===∑=n i i x n x ,38.3108.3311===∑=n i i y n y
()
4.37236.118310122082
12
12
=⨯-=-=-=∑∑==x n x x x S n
i i
n
i i xx
()
716.1244.1141096.1152
1
212=⨯-=-=-=∑∑==y n y y y S n
i i n
i i yy
()()
18.2472.11629.11861
1
=-=-=--=∑∑==y x n y x y y x x S n
i i i n
i i i xy
06493.04
.37218
.241==
=

xx
xy S S a 1464.14.3406493.038.310=⨯-=-=∧

x a y a
于是,就得到一元线性回归模型
x y 06493.01464.1+=∧
计算∧
y 值。

结果列于表2-2中。

——单位权中误差为
134.081437.02112
==⎪
⎭⎫
⎝⎛--=∑=∧∧
n i i i y y n σ ——回归方程系数中误差计算如下。


a 的权倒数
0027.04.37211,192.04.3724.3410111
02
====+=+=∧∧xx a xx a S Q S x n Q ∧
a 的方差估值为
520222
02
1084.4010.01
,0034.0110-∧∧∧∧⨯====⎪⎪⎭
⎫ ⎝⎛+=xx a xx a S S x n σσσσ 其中误差为
022.0,059.01
==∧
∧a a σσ
⑶ 显著性检验 设
原假设0:10=a H ;备选假设0:11≠a H
当原假设为真时,有
()7.938/134.05693
.12/1212
==-⎪⎭⎫

⎛-⎪⎭⎫ ⎝⎛-=∑∑=∧=∧n i i i n
i i n y y y y F
因多余观测(自由度)是8,查表得()26.118,199.0=F ,显然()8,199.0F F ≥,原假设不成立,所求得的线性回归效果极显著。

如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(2-15)计算,即
9565.0716
.14.37218
.24=⨯=
=
yy
xx xy S S S r
由式(2-17)计算相关系数临界值()765.021=--n r α,由于
765.09565.0>=r
故y 与x 的线性(正)相关关系极显著,此结果与F 检验法得到的结论完全一致。

多元线性回归分析
1.数学模型
多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。

多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系。

假设一个随机变量y 与m 个非随机变量i x 之间存在线性相关关系,则它们之间的关系可以用多元线性回归模型来表示,即

+++++=m m x a x a x a a y Λ22110
(3-1)
式中,y 是因变量,i x (m i ,,2,1Λ=)是自变量,i a (m i ,,2,1,0Λ=)是模型的参数,称为回归方程的系数。

∆是随机误差。

与一元线性回归模型类似,如果多元线性回归模型中的误差项∆服从正态性,并具有无偏性,则()2,0~σN ∆,则
()m m x a x a x a a y E ++++=Λ22110
(3-2)
()()2σ=∆∑=∑y
由此可见,()[]
2,~σy E N y 。

2.多元线性回归方程的确定
多元线性回归模型的参数i a (m i ,,2,1,0Λ=)及2σ在一般情况下都是未知数,必须根据样本观测数据来估计。

假设我们进行了n 次观测,得n 组观测数据(mj j j i x x x y ,,,,21Λ),n j ,,2,1Λ=。

它们应有的回归关系可写为
1121211101∆+++++=m m x a x a x a a y Λ 2222212102∆+++++=m m x a x a x a a y Λ
M
(3-3)
n mn m n n n x a x a x a a y ∆+++++=Λ22110

⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y M 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∆∆∆=∆n M 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=m a a a a M 10,⎥⎥⎥⎥⎦
⎤⎢⎢⎢
⎢⎣⎡=mn n n
m m x x x x x x x x x B Λ
M M M M ΛΛ
2122212121111
11 则式(3-3)用矩阵形式表示为

+=Ba y
(3-4)
与其对应的误差方程为
y
a B V -=∧
(3-5)
根据最小二乘原理min =V V T ,法方程为
y
B a B B T T
=∧
(3-6)
于是可得回归参数的最小二乘估值为
()
y
B B
B a T T 1
-∧
=
(3-7) 其中
(
)
⎥⎥⎥
⎥⎥⎦⎤⎢⎢⎢⎢

⎣⎡=∑∑∑∑∑∑∑∑2112111mi mi i mi
mi i i
i
mi
i T x x x x x
x x
x x x
n B B Λ
M M
M Λ
Λ,⎥⎥⎥⎥⎥

⎤⎢⎢⎢⎢⎢⎣⎡=∑∑∑i mi i i i T y x y x y y B M 1 当求出回归参数()m i a i ,,2,1,0Λ=∧
后,就可以得到多元线性回归模型
m
m i x a x a x a a y ∧




++++=Λ22110
(3-8)
由此,只要给定了i x 的值,就可以根据回归模型求得∧
i y 作为实际值i y 的预测值。

3. 精度分析
多元线性回归模型的中误差定义式为
()()
1112
+-=+-⎪⎭⎫ ⎝⎛-=∑=∧
∧m n V V m n y y T n
i i i σ
(3-9)
观测值个数是n ,参数个数为1+m ,多余观测为()[]1+-m n ,因此上式分母为()[]1+-m n 。

根据参数平差理论可知,∧
a 的协因数矩阵为
()
1
-=∧∧B
B Q T a
a
(3-10)
从而,∧
a 的方差估值为

∧∧
∧=⎪⎭
⎫ ⎝⎛∑a a Q a 2

(3-11)
至于∧
y 的方差,同样根据参数平差理论可得
T
a a B BQ y ∧∧∧
∧=⎪⎭
⎫ ⎝⎛∑2

(3-12)
4.多元线性回归效果的显著性检验
与一元线性回归模型一样,在得到多元线性回归模型以后也需要对模型中所
包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。

主要考察n y y y ,,,21Λ与m x x x ,,,21Λ是否具有线性相关关系,即需要检验统计假设
0:210====m a a a H Λ;m a a a H ,,,:211Λ不全为零
(3-13)
对于给定的显著性水平α,若拒绝0H ,就认为这个m 元线性整体回归效果
显著;若不能拒绝0H ,就认为这个m 元线性整体回归效果不显著。

为了进行上述检验,关键在于确定一个合适的统计量及其所服从的分布,着眼于统计量,参考一元线性回归检验,多元线性回归整体检验统计量为
()()1,~1//1212
----⎪⎭⎫ ⎝
⎛-⎪⎭⎫ ⎝⎛-=∑∑=∧
=∧m n m F m n y y m y y F n i i i n
i i
(3-14)
查表可得()1,1---m n m F α。

若()1,1--≥-m n m F F α,则以显著水平α拒绝0H ;若()1,1--<-m n m F F α,则以显著水平α接受0H 。

需要指出的是,对于多元回归来说,线性回归效果仅说明m a a a ,,,21Λ不全为零,但有可能接近于零。

也就是说,多元回归效果显著是就总体而言的,并不意味着各自变量i x 对因变量i y 的影响都是显著的,因此有必要从原来的回归方程中剔除那些无显著性影响的自变量,重新建立更为理想的线性回归方程。

为此,在检验完整体回归效果显著之后,还必须就每个自变量i x 对因变量i y 的线性影响是否显著进行检验,其检验统计假设
:0=i a H ;
:1≠i a H ()m i ,,2,1Λ=
(3-15)
对于多项式回归模型
112121101∆+++++=m m x a x a x a a y Λ
222222102∆+++++=m
m x a x a x a a y Λ
M
(3-16)
n m m m n n n x a x a x a a y ∆+++++=Λ2210
只要设
⎥⎥⎥⎥⎥⎦

⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢
⎢⎢⎢⎣⎡=m n n n
m m nm n n m m x x x x x x x x x z z z z z z z z z z Λ
M M M Λ
Λ
Λ
M M M ΛΛ222
221211
21222
2111211
(3-17)
就可以按线性回归方法进行回归计算。

5.举例解算
以某楼A1点累计沉降量为因变量,时间间隔和承受的荷载为自变量进行回归分析,设时间间隔为自变量X1,承受的荷载为自变量X2,累计变化为因变量Y,利用EXCEL软件的―工具中回归分析功能进行回归分析。

经计算得到:如下图的结果
可得出Y=-0.019X1-0.108X2-0.126
(1)回归方程的检验(F检验)通过回归分析可以知道,F统计量为101.782,取a=0.05,查F分布表可得到自由度为(p,n-p-1)的临界值为F0.05(2,12)=3.89。

显然地,F统计量远大于临界值,说明两个自变量联合起来对因变量有显著影响。

(2)回归系数的检验(t检验)从回归分析的结果可以看出,与时间间隔的参数所对应的t统计量为-2.585,承受的荷载的参数所对应的t统计量为-10.918。

取a=0.05,查t分布表可得t a/2(n-k)=t0.025(15-3)=2.178。

与分析计算的t统计量想比较可知,两个自变量的参数所对应的t统计量的绝对值都大于临界值2.178,说明两个自变量对沉降量累计变化量的影响都是显著的。

相关文档
最新文档