第三章 多元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.2 回归参数的估计
一、回归参数的普通最小二乘估计
n Q ˆ ˆ x ˆ x ˆ x )0 2 ( y i 0 1 i 1 2 i 2 p ip ˆ 0 0 i 1 0 n Q ˆ ˆ x ˆ x ˆ x )x 0 2 ( yi 0 1 i1 2 i2 p ip i1 ˆ 1 1 1 i 1 n Q ˆ ˆ x ˆ x ˆ x )x 0 2 ( yi 0 1 i1 2 i2 p ip i2 ˆ 2 2 i 1 2 n Q ˆ ˆ x ˆ x ˆ x )x 0 2 ( yi 0 1 i1 2 i2 p ip ip ˆ p p i 1 p
3.2 回归参数的估计
二、回归值与残差 ˆ y Hy (I - H)y e y y
cov(e,e)=cov((I-H)Y,(I-H)Y) =(I-H)cov(Y,Y)(I-H)′
=σ 2(I-H)In(I-H)′=σ 2(I-H)
得 D(ei)=(1-hii)σ2,i=1,2,…,n
5 813.5
7 227.0 9 138.6 11 323.8
1994
1995 1996 1997
46 759.4
58 478.1 67 884.6 74 462.6
9 457.2
11 993.0 13 844.2 14 211.2
22 372.2
28 537.9 33 612.9 37 222.7
等价于使(y-Xβ )′(y-Xβ )达到最小,这又完全与 OLSE一样
3.2 回归参数的估计
例3.1 国际旅游外汇收入是国民经济发展的重要组成部 分,影响一个国家或地区旅游收入的因素包括自然、文化、 社会、经济、交通等多方面的因素,本例研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业划分为12 个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管 理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮 业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和 社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺 术,x11党政机关,x12其他行业。采用1998年我国31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量y,以如上12 个行业为自变量做多元线性回归,数据见 表3.1,其中自变量单位为亿元人民币。
3.1 多元线性回归模型
一、多元线性回归模型的一般形式
写成矩阵形式为:
y1 y2 y y n
y=Xβ +ε , 其中,
1 1 X 1 x11 x21 xn1 x12 x1p x22 x2p xn2 xnp
3.1 多元线性回归模型
年份 GDP 第一产业 增加值x1 第二产业 增加值x2 第三产业 增加值x3
1990
1991 1992 1993
18 547.9
21 617.8 26 638.1 34 634.4
5 017.0
5 288.6 5 800.0 6 882.1
7 717.4
9 102.2 11 699.5 16 428.5
14 930.0
17 947.2 20 427.5 23 028.7
1998
1999 2000 2001
78 345.2
82 067.5 89 468.1 97 314.8
14 552.4
14 472.0 14 628.2 15 411.8
38 619.3
40 557.8 44 935.3 48 750.0
3.1 多元线性回归模型
三、多元线性回归方程的解释
建立GDP对x1和x2的回归,得二元回归方程
ˆ =2 914.6+0.607 x1+1.709 x2 y
你能够合理地 解释两个回归 系数吗 ?
3.2 回归参数的估计
一、回归参数的普通最小二乘估计
ˆ , ˆ , ˆ, ˆ 最小二乘估计要寻找 0 1 2 , p , 使得
(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
a. Dependent Variable: y
3.3 参数估计量的性质
性质1
ˆ 是随机向量y的一个线性变换。 β
ˆ (X X)-1 Xy β
性质2
ˆ 是β的无偏估计。 β
ˆ ) E ((X X )-1 Xy) E( β (X X )-1 XE(y) (X X )-1 XE(Xβε ) (X X )-1 X Xββ
3.2 回归参数的估计
二、回归值与残差
得 E ( ei2 ) D(ei ) (n p 1) 2
i 1 i 1
n 1 1 1 2 ˆ SSE (ee) e i n p 1 n p 1 n p 1 i 1 2
n
n
是σ2的无偏估计
3.2 回归参数的估计
三 、回归参数的最大似然估计
y~N(Xβ ,σ 2In)
似然函数为
L (2 )
n 2
2 n 2
exp(
1 2
2
(y - Xβ )(y - Xβ ))
n n 1 2 ln L ln( 2 ) ln( ) (y - Xβ )(y - Xβ ) 2 2 2 2
3.2 回归参数的估计
一、回归参数的普通最小二乘估计
经整理后得用矩阵形式表示的正规方程组
移项得
当XX
1
ˆ) 0 X (y Xβ ˆ Xy X Xβ
存在时,即得回归参数的最小二乘估计为:
ˆ (X X)-1 X y β
3.2 回归参数的估计
二、回归值与残差
ˆ ˆ x ˆ x ˆ x 为回归值 ˆi 称y 0 1 i1 2 i2 p ip
E (εi ) 0, i 1, 2,, n 2 σ , i j cov(εi ,ε j ) 0 , i j
这个假定称为Gauss-Markov条件
(i ,j 1, 2,, n)
3.1 多元线性回归模型
二、多元线性回归模型的基本假定
3. 正态分布的假定条件为:
3.3 参数估计量的性质
ˆ )=σ 2(X′X)-1 性质 3 D(β
ˆ ) cov( ˆ, ˆ) D( β β β ˆ Eβ ˆ )(β ˆ Eβ ˆ ) ) E((β ˆ β ˆ β E((β )(β ) )
1 1 E X X X y β XX Xy β 1 1 E X X X (Xβε )β X X X (Xβε ) β 1 1 E( β XX Xε-β )( β XX Xε-β )
i ~ N (0, 2 ) , i 1,2,, n 1 , 2 , , n 相互独立
用矩阵形式(3.5)式表示为: ε~N(0, 2In)
y~N(Xβ, 2In)
E(y)=Xβ
var(y)= 2In
3.1 多元线性回归模型
三、多元线性回归方程的解释
y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。 y=β0+β1x1+β2x2+ε E(y)=β0+β1x1+β2x2 在x2保持不变时,有
n( p 1)
0 1 β p
1 2 ε n
3.1 多元线性回归模型
二、多元线性回归模型的基本假定
1. 解释变量x1,x2,…,xp是确定性变量,不是随机变量,且要求 rk(X)=p+1<n。表明设计矩阵X中的自变量列之间不相关, X是一满秩矩阵。 2 .随机误差项具有0均值和等方差,即
E ( ) 0 2 var( )
3.1 多元线性回归模型
一、多元线性回归模型的一般形式
对n组观测数据 (xi1, xi2,…,xip; yi), i=1,2,…,n, 线性回归模型表示为:
y1 0 1 x11 2 x12 p x1 p 1 y2 0 1 x21 2 x22 p x2 p 2 yn 0 1 xn1 2 xn 2 p xnp n
3.2 回归参数的估计
Coefficientsa Unstandardized Coefficients B Std. Error -205.388 117.019 -1.438 22.913 2.622 18.599 3.297 2.468 -.946 1.298 -5.521 4.514 4.068 3.960 4.162 5.079 -15.404 10.835 17.338 8.374 9.155 10.168 -10.536 5.622 1.370 5.006 Standardized Coefficients Beta -.012 .023 .749 -.312 -.963 .760 .446 -.520 1.038 .221 -.780 .042 Model 1 t -1.755 -.063 .141 1.336 -.729 -1.223 1.027 .819 -1.422 2.071 .900 -1.874 .274 Sig . .096 .951 .889 .198 .476 .237 .318 .423 .172 .053 .380 .077 .787
ˆ X(X X)-1 X y ˆ Xβ y
H X(X X)-1 X
称为帽子矩阵,其主对角线元素记为hii ,则
3.2 回归参数的估计
二、回归值与残差
tr ( H ) hii p 1
i 1 n
此式的证明只需根据迹的性质tr(AB)=tr(BA),因而
tr(H) tr(X (X X )-1 X) tr(XX(X X )-1 ) tr(Ip 1 ) p 1
E ( y) 1 x1
E ( y ) 2 在x1保持不变时,有 x2
3.1 多元线性回归模型
三、多元线性回归方程的解释
考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3 现在做GDP对第二产业增加值x2的一元线性回归, 得回归方程
ˆ 5 289.9 1.855 4 x2 y
第 3 章 多元线性回归
3.1 3.2 3.3 3.4 3.5 3.6 3.7 多元线性回归模型 回归参数的估计 参数估计量的性质 回归方程的显著性检验 中心化和标准化 相关阵与偏相关系数 本章小结与评注
3.1 多元线性回归模型
一、多元线性回归模型的一般形式
y=β0+β1x1+β2x2+…+βpxp+ε
ˆ , ˆ , ˆ , , ˆ ) (y Q( i ˆ0 ˆ1 xi1 ˆ2 xi 2 ˆ p xip )2 0 1 2 p
i 1 n
0 , 1 , 2 ,, p
min
(y
i 1 i
n
0
1 xi1 2 xi 2 p xip ) 2
25 173.5
27 037.7 29 904.6 33 153.0
2002
2003 2004
105 172.3
117 390.2 136 875.9
16 117.3
16 928.1 20 768.1
52 980.2
61 274.1 ຫໍສະໝຸດ Baidu2 387.2
36 074.8
39 188.0 43 720.6