第3章 多元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1 3.2 3.3 3.4 3.5 3.6 3.7
多元线性回归模型 回归参数的估计 参数估计量的性质 回归方程的显著性检验 中心化和标准化 相关阵与偏相关系数 本章小结与评注
※1 · 一般形式
设随机变量y与变量x1,x2…,xp的线性回归模型为: y=β0+β1x1+β2x2+…+βpxp+ε 其中β0为回归常数,β1,,…,βp为回归系数,y为 被解释变量(响应变量),而 x1 ,..., x为p个可以精确测 p 量前可以控制的变量,称为解释变量(自变量)。 当p=1时,即为上一章所证的一元线性回归模型; 当p >=2时,称为多元线性回归模型。 ε 为随机误差
例3.1 国际旅游外汇收入是国民经济发展的重要组成部 分,影响一个国家或地区旅游收入的因素包括自然、文化、 社会、经济、交通等多方面的因素,本例研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业划分为12 个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管 理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮 业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和 社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺 术,x11党政机关,x12其他行业。采用1998年我国31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量y,以如上12 个行业为自变量做多元线性回归,数据见 表3.1,其中自变量单位为亿元人民币。
第二产业 增加值x2 7 717.4 9 102.2 11 699.5 16 428.5 22 372.2 28 537.9 33 612.9 37 222.7 38 619.3 40 557.8 44 935.3 48 750.0 52 980.2 61 274.1 72 387.2
第三产业 增加值x3
−n 2
(σ )
2 −n 2
exp( −
1 2σ
2
( y - Xβ )′ ( y - Xβ ))
其中β, 2为未知参数 β,σ β, 最大似然估计就是选取β,σ2使得似然函数L达到最大 β,σ
ln L = − n n 1 ln( 2 π ) − ln( σ 2 ) − 2 2 2σ
2
( y - Xβ )′ ( y - Xβ )
从而rank ( X ′X ) = p + 1 Q rank ( X ′X ) ≤ rank ( X )即rank ( X ) ≥ p + 1 而X为n × ( p + 1)阶矩阵,于是 n ≥ p + 1
3 、最大似然估计
从而似然函数为
L = ( 2π )
∵y=xβ 0,σ ∵y=xβ+ε ε~N(0, 2In) 0, ∴y~N(Xβ, 2In) Xβ,σ ∴y Xβ,
i =1
=
β 0 , β1 , β 2 ,L, β p
min
( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2 ∑
i =1
n
ˆ β ˆ ˆ ... 由此得到的ˆ0 , β1, β2 ,L, β p称为β0,β1,β2,,β p的最小二乘估计 ∂Q = −2 X ′(Y − Xβ ) = 0 ∂β −1 ˆ ˆ 由此得 ˆ满足X ′Xβ = X ′Y ⇒ β = ( X ′X ) X ′Y β
其中H = X(X′ X )-1 X′ 称为帽子矩阵
H的作用是把因变量y变为拟合值向量
ˆ y
帽子矩阵的性质: 帽子矩阵的性质: ①
H2 = H H′ = H 即H为对称幂等阵
② ③
ˆ H为一投影阵, y是y在H生成的空间中的投影
tr ( H ) = ∑ hii = p + 1
i =1 n
此式的证明只需根据迹的性质tr(AB AB)=tr(BA BA),因而 AB BA
若令:
y1 y2 y = M y n
1 1 X= M 1
x11 x21 M xn1
x12 L x1p x22 L x2p M M xn2 L xnp
n×( p +1)
β0 β1 β= M β p
通常假定:
E (ε ) = 0 2 var(ε ) = σ
称 E(y) = β0 + β1x1 +...+βpxp 为理论回归方程。 设(xi1, xi2,…,xip; yi), i=1,2,…,n,为变量x1,…xp,y的n组观 测数据,则线性回归模型表示为:
y1 = β0 + β1x11 + β2 x12 +L+ β p x1p + ε1 y2 = β0 + β1x21 + β2 x22 +L+ β p x2 p + ε2 LL yn = β0 + β1xn1 + β2 xn2 +L+ β p xnp + εn
Q( β 0 , β1 , β 2 ,L , β p ) = ∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2
i =1
达到极小 即:
ˆ ˆ ˆ ˆ β 0 , β1 , β 2 , L , β p 满足
n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ Q( β 0 , β1 , β 2 , L , β p ) = ∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2
E ( e ) = 0, D ( e ) = σ 2 ( I − H ) X ′e = 0
2 n 1 1 1 2 = ∑1 e i ∆ n − p − 1 SSE = n − p − 1 e ′e n − p − 1 i=
③ σˆ
− 因为(X′X)1存在,即X′X为一非奇异矩阵,即 X ′X ≠ 0
2、回归值与残差 、
ˆ ˆ ˆ ˆ ˆ 称 yi = β 0 + β1 xi1 + β 2 xi 2 + L + β p xip 为观测值yi的拟合值,
简称为回归值或拟合值。
ˆ ˆ 称 y = X β 为因变量 y 的回归值或拟合值 ˆ 由 β = ( X ′X) - 1 X ′Y 得
ˆ = X(X′ X )-1 X ′y ˆ y = Xβ
ˆ y = 5 289.9 + 1.855 4 x2
建立GDP对x1和x2的回归,得二元回归方程
ˆ y =2 914.6+0.607 x1+1.709 x2
你能够合理地 解释两个回归 系数吗 ?
※1、最小二乘估计 、
ˆ ˆ ˆ L ˆ L 就是寻找参数 β0,β1,β2, ,β p 的估计值 β 0,β1,β 2, ,β p 使离差平方和 n
tr(H) = tr(X(X′ X )-1 X′) = tr(X′X(X′ X )-1 ) = tr(I p +1 ) = p + 1
残差
ˆ e = y − y = y − Hy =(I - H)y 称为回归残差向量
cov(e,e)为残差向量e的协方差阵。 记 D(e)=cov(e,e)为残差向量e的协方差阵。 残差性质: 残差性质: ① ②
用矩阵形式即:
wk.baidu.comε~N(0, σ2In)
在正态假定下:
E(y)=Xβ
Var (y)= σ2In
∴ y~N(Xβ, σ2In)
※3、解释 、
空调机销售量:
y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。 y=β0+β1x1+β2x2+ε E(y)=β0+β1x1+β2x2 上式中,假如x2保持不变时, x0为常数时,则: ( y ) ∂E
n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) = 0 ˆ i =1 ∂β 0 β 0 = β 0 n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xi1 = 0 ˆ ∂β1 β1 = β1 i =1 n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xi 2 = 0 ˆ i =1 ∂β 2 β 2 = β 2 LL n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xip = 0 ˆ i =1 ∂β p β p = β p
E (εi ) = 0, i = 1, 2, L, n σ 2 , i = j cov(εi ,ε j ) = 0 , i ≠ j
(i ,j = 1, 2, L, n)
这个假定称为Gauss-Markov条件
③ 正态分布的假定条件为:
ε i ~ N (0, σ 2 ) , i = 1,2,L , n ε 1 , ε 2 , L , ε n 相互独立
∂x1
= β1
即β1可解释为在消费者收入为 x2保持不变时,空调机 价格x1每变动一个单位,对空调机销售量y的平均影响程度。 一般地,随着价格的提高,销售量是减少的。因此β1将是 负的。
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Standardized Coefficients Beta -.012 .023 .749 -.312 -.963 .760 .446 -.520 1.038 .221 -.780 .042
a Coefficients
Model 1
(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
Unstandardized Coefficients B Std. Error -205.388 117.019 -1.438 22.913 2.622 18.599 3.297 2.468 -.946 1.298 -5.521 4.514 4.068 3.960 4.162 5.079 -15.404 10.835 17.338 8.374 9.155 10.168 -10.536 5.622 1.370 5.006
∂l 1 = X ′(Y − X β ) = 0 2 ∂β σ ∂l n 1 = − + ( y − x β ) ′( y − x β ) = 0 2 2 2 ∂σ 2σ 2σ ⇓
βˆ = ( X ′X ) − 1 X ′y , σˆ
2
=
1 ( y − x βˆ ) ′ ( y − x βˆ ) n
5 813.5 7 227.0 9 138.6 11 323.8 14 930.0 17 947.2 20 427.5 23 028.7 25 173.5 27 037.7 29 904.6 33 153.0 36 074.8 39 188.0 43 720.6
考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3 现在做GDP对第二产业增加值x2的一元线性回归, 得回归方程
ε1 ε 2 ε= M ε n
写成矩阵形式为:
y=Xβ+ε,
n*(p+1)
n*1
X称为回归设计阵。在实验设计中X的元素是预先 设定并可以控制的。人的主观因素可作用于其中,因 而称X为设计矩阵。
※2、基本假定 、
① 解释变量x1,x2,…, xp是确定性变量,而非随机变量, 且rank(X)=p+1<n。 表明设计矩阵X中的自变量列之间不相关, X是列满秩矩阵。 ② 随机误差项具有0均值和等方差,即
GDP 18 547.9 21 617.8 26 638.1 34 634.4 46 759.4 58 478.1 67 884.6 74 462.6 78 345.2 82 067.5 89 468.1 97 314.8 105 172.3 117 390.2 136 875.9
第一产业 增加值x1 5 017.0 5 288.6 5 800.0 6 882.1 9 457.2 11 993.0 13 844.2 14 211.2 14 552.4 14 472.0 14 628.2 15 411.8 16 117.3 16 928.1 20 768.1
多元线性回归模型 回归参数的估计 参数估计量的性质 回归方程的显著性检验 中心化和标准化 相关阵与偏相关系数 本章小结与评注
※1 · 一般形式
设随机变量y与变量x1,x2…,xp的线性回归模型为: y=β0+β1x1+β2x2+…+βpxp+ε 其中β0为回归常数,β1,,…,βp为回归系数,y为 被解释变量(响应变量),而 x1 ,..., x为p个可以精确测 p 量前可以控制的变量,称为解释变量(自变量)。 当p=1时,即为上一章所证的一元线性回归模型; 当p >=2时,称为多元线性回归模型。 ε 为随机误差
例3.1 国际旅游外汇收入是国民经济发展的重要组成部 分,影响一个国家或地区旅游收入的因素包括自然、文化、 社会、经济、交通等多方面的因素,本例研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业划分为12 个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管 理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮 业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和 社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺 术,x11党政机关,x12其他行业。采用1998年我国31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量y,以如上12 个行业为自变量做多元线性回归,数据见 表3.1,其中自变量单位为亿元人民币。
第二产业 增加值x2 7 717.4 9 102.2 11 699.5 16 428.5 22 372.2 28 537.9 33 612.9 37 222.7 38 619.3 40 557.8 44 935.3 48 750.0 52 980.2 61 274.1 72 387.2
第三产业 增加值x3
−n 2
(σ )
2 −n 2
exp( −
1 2σ
2
( y - Xβ )′ ( y - Xβ ))
其中β, 2为未知参数 β,σ β, 最大似然估计就是选取β,σ2使得似然函数L达到最大 β,σ
ln L = − n n 1 ln( 2 π ) − ln( σ 2 ) − 2 2 2σ
2
( y - Xβ )′ ( y - Xβ )
从而rank ( X ′X ) = p + 1 Q rank ( X ′X ) ≤ rank ( X )即rank ( X ) ≥ p + 1 而X为n × ( p + 1)阶矩阵,于是 n ≥ p + 1
3 、最大似然估计
从而似然函数为
L = ( 2π )
∵y=xβ 0,σ ∵y=xβ+ε ε~N(0, 2In) 0, ∴y~N(Xβ, 2In) Xβ,σ ∴y Xβ,
i =1
=
β 0 , β1 , β 2 ,L, β p
min
( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2 ∑
i =1
n
ˆ β ˆ ˆ ... 由此得到的ˆ0 , β1, β2 ,L, β p称为β0,β1,β2,,β p的最小二乘估计 ∂Q = −2 X ′(Y − Xβ ) = 0 ∂β −1 ˆ ˆ 由此得 ˆ满足X ′Xβ = X ′Y ⇒ β = ( X ′X ) X ′Y β
其中H = X(X′ X )-1 X′ 称为帽子矩阵
H的作用是把因变量y变为拟合值向量
ˆ y
帽子矩阵的性质: 帽子矩阵的性质: ①
H2 = H H′ = H 即H为对称幂等阵
② ③
ˆ H为一投影阵, y是y在H生成的空间中的投影
tr ( H ) = ∑ hii = p + 1
i =1 n
此式的证明只需根据迹的性质tr(AB AB)=tr(BA BA),因而 AB BA
若令:
y1 y2 y = M y n
1 1 X= M 1
x11 x21 M xn1
x12 L x1p x22 L x2p M M xn2 L xnp
n×( p +1)
β0 β1 β= M β p
通常假定:
E (ε ) = 0 2 var(ε ) = σ
称 E(y) = β0 + β1x1 +...+βpxp 为理论回归方程。 设(xi1, xi2,…,xip; yi), i=1,2,…,n,为变量x1,…xp,y的n组观 测数据,则线性回归模型表示为:
y1 = β0 + β1x11 + β2 x12 +L+ β p x1p + ε1 y2 = β0 + β1x21 + β2 x22 +L+ β p x2 p + ε2 LL yn = β0 + β1xn1 + β2 xn2 +L+ β p xnp + εn
Q( β 0 , β1 , β 2 ,L , β p ) = ∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2
i =1
达到极小 即:
ˆ ˆ ˆ ˆ β 0 , β1 , β 2 , L , β p 满足
n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ Q( β 0 , β1 , β 2 , L , β p ) = ∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) 2
E ( e ) = 0, D ( e ) = σ 2 ( I − H ) X ′e = 0
2 n 1 1 1 2 = ∑1 e i ∆ n − p − 1 SSE = n − p − 1 e ′e n − p − 1 i=
③ σˆ
− 因为(X′X)1存在,即X′X为一非奇异矩阵,即 X ′X ≠ 0
2、回归值与残差 、
ˆ ˆ ˆ ˆ ˆ 称 yi = β 0 + β1 xi1 + β 2 xi 2 + L + β p xip 为观测值yi的拟合值,
简称为回归值或拟合值。
ˆ ˆ 称 y = X β 为因变量 y 的回归值或拟合值 ˆ 由 β = ( X ′X) - 1 X ′Y 得
ˆ = X(X′ X )-1 X ′y ˆ y = Xβ
ˆ y = 5 289.9 + 1.855 4 x2
建立GDP对x1和x2的回归,得二元回归方程
ˆ y =2 914.6+0.607 x1+1.709 x2
你能够合理地 解释两个回归 系数吗 ?
※1、最小二乘估计 、
ˆ ˆ ˆ L ˆ L 就是寻找参数 β0,β1,β2, ,β p 的估计值 β 0,β1,β 2, ,β p 使离差平方和 n
tr(H) = tr(X(X′ X )-1 X′) = tr(X′X(X′ X )-1 ) = tr(I p +1 ) = p + 1
残差
ˆ e = y − y = y − Hy =(I - H)y 称为回归残差向量
cov(e,e)为残差向量e的协方差阵。 记 D(e)=cov(e,e)为残差向量e的协方差阵。 残差性质: 残差性质: ① ②
用矩阵形式即:
wk.baidu.comε~N(0, σ2In)
在正态假定下:
E(y)=Xβ
Var (y)= σ2In
∴ y~N(Xβ, σ2In)
※3、解释 、
空调机销售量:
y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。 y=β0+β1x1+β2x2+ε E(y)=β0+β1x1+β2x2 上式中,假如x2保持不变时, x0为常数时,则: ( y ) ∂E
n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) = 0 ˆ i =1 ∂β 0 β 0 = β 0 n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xi1 = 0 ˆ ∂β1 β1 = β1 i =1 n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xi 2 = 0 ˆ i =1 ∂β 2 β 2 = β 2 LL n ∂Q ˆ ˆ ˆ ˆ = −2∑ ( yi − β 0 − β1 xi1 − β 2 xi 2 − L − β p xip ) xip = 0 ˆ i =1 ∂β p β p = β p
E (εi ) = 0, i = 1, 2, L, n σ 2 , i = j cov(εi ,ε j ) = 0 , i ≠ j
(i ,j = 1, 2, L, n)
这个假定称为Gauss-Markov条件
③ 正态分布的假定条件为:
ε i ~ N (0, σ 2 ) , i = 1,2,L , n ε 1 , ε 2 , L , ε n 相互独立
∂x1
= β1
即β1可解释为在消费者收入为 x2保持不变时,空调机 价格x1每变动一个单位,对空调机销售量y的平均影响程度。 一般地,随着价格的提高,销售量是减少的。因此β1将是 负的。
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Standardized Coefficients Beta -.012 .023 .749 -.312 -.963 .760 .446 -.520 1.038 .221 -.780 .042
a Coefficients
Model 1
(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
Unstandardized Coefficients B Std. Error -205.388 117.019 -1.438 22.913 2.622 18.599 3.297 2.468 -.946 1.298 -5.521 4.514 4.068 3.960 4.162 5.079 -15.404 10.835 17.338 8.374 9.155 10.168 -10.536 5.622 1.370 5.006
∂l 1 = X ′(Y − X β ) = 0 2 ∂β σ ∂l n 1 = − + ( y − x β ) ′( y − x β ) = 0 2 2 2 ∂σ 2σ 2σ ⇓
βˆ = ( X ′X ) − 1 X ′y , σˆ
2
=
1 ( y − x βˆ ) ′ ( y − x βˆ ) n
5 813.5 7 227.0 9 138.6 11 323.8 14 930.0 17 947.2 20 427.5 23 028.7 25 173.5 27 037.7 29 904.6 33 153.0 36 074.8 39 188.0 43 720.6
考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3 现在做GDP对第二产业增加值x2的一元线性回归, 得回归方程
ε1 ε 2 ε= M ε n
写成矩阵形式为:
y=Xβ+ε,
n*(p+1)
n*1
X称为回归设计阵。在实验设计中X的元素是预先 设定并可以控制的。人的主观因素可作用于其中,因 而称X为设计矩阵。
※2、基本假定 、
① 解释变量x1,x2,…, xp是确定性变量,而非随机变量, 且rank(X)=p+1<n。 表明设计矩阵X中的自变量列之间不相关, X是列满秩矩阵。 ② 随机误差项具有0均值和等方差,即
GDP 18 547.9 21 617.8 26 638.1 34 634.4 46 759.4 58 478.1 67 884.6 74 462.6 78 345.2 82 067.5 89 468.1 97 314.8 105 172.3 117 390.2 136 875.9
第一产业 增加值x1 5 017.0 5 288.6 5 800.0 6 882.1 9 457.2 11 993.0 13 844.2 14 211.2 14 552.4 14 472.0 14 628.2 15 411.8 16 117.3 16 928.1 20 768.1