3.2 多元线性回归参数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
称为原总体回归方程的一组矩条件,表明了原总 体回归方程所具有的内在特征。
1 X(Y Xβˆ ) 0 n
由此得到正规方程组
X' Xβˆ X' Y
解此正规方程组即得参数的MM估计量。 易知MM估计量与OLS、ML估计量等价。 19
矩方法是工具变量方法(Instrumental Variables,IV) 和广义矩估计方法(Generalized Moment Method, GMM)的基础
OLS估计是通过得到一个关于参数估计值的正 规方程组
(XX)βˆ XY
并对它进行求解而完成的。
该正规方程组 可以从另外一种思路来导出:
求期望 :
Y Xβμ
XY XXβ Xμ
X(Y Xβ) Xμ
E(X(Y Xβ) 0
18
E(X(Y Xβ) 0
1 Y1
X 1n Y2
X kn
Yn
即
(XX)βˆ XY
记住
由于X’X满秩,故有 βˆ (XX)1 XY
如何用矩阵证明 ?
5
将上述过程用矩阵表示如下:(见教材P61)
即求解方程组:
βˆ (Y Xβˆ )(Y Xβˆ ) 0
24
2、满足基本要求的样本容量
从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定
模型的良好性质只有在大样本下才能 得到理论上的证明
一般经验认为:
当n30或者至少n3(k+1)时,才能说满足
模型估计的基本要求。
25
六、多元线性回归模型的参数估计实例
例3.2.2 在例2.5.1中,已建立了中国居 民人均消费一元线性模型。这里我们再考 虑建立多元线性模型。 解释变量:人均GDP:GDPP
即为变量Y的似然函数
15
对数似然函数为
对对数或然函数求极大值,也就是对 求极小值。
寻找一组参数估计值 ,使得残差平方和最小。
因此,参数的最大或然估计与参数的普通最小二乘估 计相同,为:
16
2的最大似然估计
已知: 则有:
此估计量不同于OLS的估计联,不是无偏估计量
17
*三、矩估计(Moment Method, MM)
28
个人收集整理,仅供交流学习!
个人收集整理,仅供交流学习!
1 X 1
(X'X)
1 X1
1 X2
1 Xn
11
X 2
Xn
n Xi
Xi
X
2 i
10 21500
21500 53650000
XY
1 X1
可求得
Y1
1 X2
Adjusted R-squared 0.994920
S.D. dependent var
S.E. of regression Sum squared resid
26.56078 13404.02
Akaike info criterion Schwarz criterion
Log likelihood
最小。
2
根据微分运算,参数估计值应该是下列方程组的解
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
n
n
其中 Q ei2 (Yi Yˆi )2
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
1 X n
Y2
Yn
Yi X iYi
15674 39468400
(XX) 1
0.7226 0.0003
0.0003 1.35 E 07
于是
βˆ
ˆ1 ˆ 2
i 1
3
ˆ
0
Q
0
化简
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
• 在矩方法中关键是利用了
E(X’)=0 (X1,X2,…,Xn是工具变量)
• 如果某个解释变量与随机项相关,只要能找到1 个工具变量,仍然可以构成一组矩条件。这就是 IV。
• 如果存在>k+1个变量与随机项不相关,可以构 成一组包含>k+1方程的矩条件。这就是GMM。
20
四、参数估计量的性质
在满足基本假设的情况下,其结构参数的普通
可得样本回归函数的离差形式为:
yi ˆ1x1i ˆ2 x2i ˆk xki ei
i=1,2…n
如何得到?
9
样本回归函数的离差形式的矩阵表示
离差形式为: yi ˆ1x1i ˆ2 x2i ˆk xki ei i=1,2…n
令
y1
y
X ki) ) X 1i ) X 2i
Yi Yi X 1i Yi X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
(*)
方程组(*)称为正规方程组(normal equations)。
4
正规方程组的矩阵形式
n
X 1i
X ki
X 1i
X
2 1i
X ki X 1i
X ki
X 1i X
X
2 ki
ki
ˆ 0 ˆ1 ˆ k
1 X 11 X k1
1 X 12 X k2
最小二乘估计、最大或然估计及矩估计仍具有: 线性性、无偏性、有效性。
同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。
1、线性性 why?
βˆ (XX)1 XY CY
其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量
21
2、无偏性 why?
E(βˆ ) E((XX)1 XY) E((XX)1 X(Xβ μ )) β (XX)1 E(Xμ ) β
23
五、样本容量问题
⒈ 最小样本容量
所谓“最小样本容量”,即从最小二乘原理 和最大或然原理出发,欲得到参数估计量,不管 其质量如何,所要求的样本容量的下限。
样本最小容量必须不少于模型中解释变量 的数目(包括常数项),即不少于要估计的参 数的个数
n k+1 why? 因为,无多重共线性要求:秩(X)=k+1
y2
yn
x11 x21 xk1
x
x12
x1n
x22
x2n
xk2
xkn
ˆ1
βˆ
ˆ 2
ˆk
注意:此 处的 不 包括0
则离差形式可用矩阵形式为
y xβˆ e
在离差形式下,参数的最小二乘估计结果为
why?
ˆ0 Y ˆ1 X1 ˆk X k
10
2的最小二乘估计
随机误差项的方差的估计量为
ˆ 2
e
2 i
e e
n k 1 n k 1
其中,n- k+1是 ei2的自由度。
注意:该估计量为无偏估计量
why?
11
前期消费:CONSP(-1) 估计区间:1979~2000年
26
Eviews软件估计结果
LS // Dependent Variable is CONS Sample(adjusted): 1979 2000
Included observations: 22 after adjusting endpoints
-101.7516
F-statistic
Durbin-Watson stat 1.278500
Leabharlann Baidu
Prob(F-statistic)
Prob. 0.0037 0.0018 0.0158 928.4946 372.6424 6.684995 6.833774 2057.271 0.000000
27
练习
P 90:1、5
估计参数的方差-协方差矩阵(补充)
的方差-协方差矩阵如下:
Why?
Why?
12
多变量OLS回归线的性质
1. OLS回归线通过Y和X1, X2, …, Xk的样本均值点
Why?
2. 估计的Y
均值等于实测的Y均值
Why?
3. 残差 ei 的均值为零
即:
ei 0 或 e 0 Why?
13
4. 残差 ei 和Xi值不相关
Variable
Coefficient
Std. Error
t-Statistic
C
120.7000
36.51036
3.305912
GDPP CONSP(-1)
0.221327 0.451507
0.060969 0.170308
3.630145 2.651125
R-squared
0.995403
Mean dependent var
§3.2 多元线性回归模型的估计
一、普通最小二乘估计 *二、最大或然估计 *三、矩估计
四、参数估计量的性质 五、样本容量问题 六、估计实例
1
参数的普通最小二乘估计(OLS)
普通最小二乘法给出的判断标准是:观测值与回 归函数值二者之差的平方和最小。
对于随机抽取的n组观测值 (Yi , X ji ), i 1,2,, n, j 0,1,2,k 有:
这里利用了假设: E(X’)=0
3、有效性(最小方差性) why?
22
五、样本容量问题
一方面,计量经济学模型是从已经发生的经济活动的样 本数据中寻找经济活动中蕴涵的规律。因此,对样本数 据具有很强的依赖性。从建模需要的角度来讲,样本容 量越大越好。 另一方面,收集和整理样本数据是非常困难的工作(收 集,加工并以某种形式展现数据-经济统计学),从减 轻收集数据的困难角度,样本数据越少越好。 怎样选择合适的样本容量,使其既能满足建模的需要, 又能减少收集数据的困难? 需要讨论满足建模基本要求所需的样本容量和最小样本 容量。
0.7226 0.0003
0.0003 1.35E 07
15674 39648400
103 .172 0.7770
7
正规方程组 的另一种写法
对于正规方程组
XY XXβˆ
于是 或
XXβˆ Xe XXβˆ
Xe 0
(*)
ei 0
(**)
X ji ei 0
i
(*)或(**)是多元线性回归模型正规方程组的另一 种写法
8
参数的普通最小二乘估计的离差形式
记 和 X j
1 n
n i 1
X ji
xji xji X j 和
Y 1
n
n 1
Yi
yi Yi Y
为Xj和Y的样本均值 为Xji和Yi对均值的离差
得到:
βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0 βˆ (YY 2YXβˆ βˆ XXβˆ ) 0 XY XXβˆ 0
XY XXβˆ
于是: βˆ (XX)1 XY
记住
6
例3.2.1:在例2.1.1的家庭收入-消费支出例中,
即
X jiei 0
Why?
5. 残差 ei 和预测的Yi值不相关,
即
Y
i
e i
0
Why?
14
*二、最大似然估计
对于多元线性回归模型
Yi 0 1 X 1i 2 X 2i k X ki i
易知
Yi ~ N (Xiβ , 2 )
Y的随机抽取的n组样本观测值的联合概率
1 X(Y Xβˆ ) 0 n
由此得到正规方程组
X' Xβˆ X' Y
解此正规方程组即得参数的MM估计量。 易知MM估计量与OLS、ML估计量等价。 19
矩方法是工具变量方法(Instrumental Variables,IV) 和广义矩估计方法(Generalized Moment Method, GMM)的基础
OLS估计是通过得到一个关于参数估计值的正 规方程组
(XX)βˆ XY
并对它进行求解而完成的。
该正规方程组 可以从另外一种思路来导出:
求期望 :
Y Xβμ
XY XXβ Xμ
X(Y Xβ) Xμ
E(X(Y Xβ) 0
18
E(X(Y Xβ) 0
1 Y1
X 1n Y2
X kn
Yn
即
(XX)βˆ XY
记住
由于X’X满秩,故有 βˆ (XX)1 XY
如何用矩阵证明 ?
5
将上述过程用矩阵表示如下:(见教材P61)
即求解方程组:
βˆ (Y Xβˆ )(Y Xβˆ ) 0
24
2、满足基本要求的样本容量
从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定
模型的良好性质只有在大样本下才能 得到理论上的证明
一般经验认为:
当n30或者至少n3(k+1)时,才能说满足
模型估计的基本要求。
25
六、多元线性回归模型的参数估计实例
例3.2.2 在例2.5.1中,已建立了中国居 民人均消费一元线性模型。这里我们再考 虑建立多元线性模型。 解释变量:人均GDP:GDPP
即为变量Y的似然函数
15
对数似然函数为
对对数或然函数求极大值,也就是对 求极小值。
寻找一组参数估计值 ,使得残差平方和最小。
因此,参数的最大或然估计与参数的普通最小二乘估 计相同,为:
16
2的最大似然估计
已知: 则有:
此估计量不同于OLS的估计联,不是无偏估计量
17
*三、矩估计(Moment Method, MM)
28
个人收集整理,仅供交流学习!
个人收集整理,仅供交流学习!
1 X 1
(X'X)
1 X1
1 X2
1 Xn
11
X 2
Xn
n Xi
Xi
X
2 i
10 21500
21500 53650000
XY
1 X1
可求得
Y1
1 X2
Adjusted R-squared 0.994920
S.D. dependent var
S.E. of regression Sum squared resid
26.56078 13404.02
Akaike info criterion Schwarz criterion
Log likelihood
最小。
2
根据微分运算,参数估计值应该是下列方程组的解
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
n
n
其中 Q ei2 (Yi Yˆi )2
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
1 X n
Y2
Yn
Yi X iYi
15674 39468400
(XX) 1
0.7226 0.0003
0.0003 1.35 E 07
于是
βˆ
ˆ1 ˆ 2
i 1
3
ˆ
0
Q
0
化简
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
• 在矩方法中关键是利用了
E(X’)=0 (X1,X2,…,Xn是工具变量)
• 如果某个解释变量与随机项相关,只要能找到1 个工具变量,仍然可以构成一组矩条件。这就是 IV。
• 如果存在>k+1个变量与随机项不相关,可以构 成一组包含>k+1方程的矩条件。这就是GMM。
20
四、参数估计量的性质
在满足基本假设的情况下,其结构参数的普通
可得样本回归函数的离差形式为:
yi ˆ1x1i ˆ2 x2i ˆk xki ei
i=1,2…n
如何得到?
9
样本回归函数的离差形式的矩阵表示
离差形式为: yi ˆ1x1i ˆ2 x2i ˆk xki ei i=1,2…n
令
y1
y
X ki) ) X 1i ) X 2i
Yi Yi X 1i Yi X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
(*)
方程组(*)称为正规方程组(normal equations)。
4
正规方程组的矩阵形式
n
X 1i
X ki
X 1i
X
2 1i
X ki X 1i
X ki
X 1i X
X
2 ki
ki
ˆ 0 ˆ1 ˆ k
1 X 11 X k1
1 X 12 X k2
最小二乘估计、最大或然估计及矩估计仍具有: 线性性、无偏性、有效性。
同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。
1、线性性 why?
βˆ (XX)1 XY CY
其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量
21
2、无偏性 why?
E(βˆ ) E((XX)1 XY) E((XX)1 X(Xβ μ )) β (XX)1 E(Xμ ) β
23
五、样本容量问题
⒈ 最小样本容量
所谓“最小样本容量”,即从最小二乘原理 和最大或然原理出发,欲得到参数估计量,不管 其质量如何,所要求的样本容量的下限。
样本最小容量必须不少于模型中解释变量 的数目(包括常数项),即不少于要估计的参 数的个数
n k+1 why? 因为,无多重共线性要求:秩(X)=k+1
y2
yn
x11 x21 xk1
x
x12
x1n
x22
x2n
xk2
xkn
ˆ1
βˆ
ˆ 2
ˆk
注意:此 处的 不 包括0
则离差形式可用矩阵形式为
y xβˆ e
在离差形式下,参数的最小二乘估计结果为
why?
ˆ0 Y ˆ1 X1 ˆk X k
10
2的最小二乘估计
随机误差项的方差的估计量为
ˆ 2
e
2 i
e e
n k 1 n k 1
其中,n- k+1是 ei2的自由度。
注意:该估计量为无偏估计量
why?
11
前期消费:CONSP(-1) 估计区间:1979~2000年
26
Eviews软件估计结果
LS // Dependent Variable is CONS Sample(adjusted): 1979 2000
Included observations: 22 after adjusting endpoints
-101.7516
F-statistic
Durbin-Watson stat 1.278500
Leabharlann Baidu
Prob(F-statistic)
Prob. 0.0037 0.0018 0.0158 928.4946 372.6424 6.684995 6.833774 2057.271 0.000000
27
练习
P 90:1、5
估计参数的方差-协方差矩阵(补充)
的方差-协方差矩阵如下:
Why?
Why?
12
多变量OLS回归线的性质
1. OLS回归线通过Y和X1, X2, …, Xk的样本均值点
Why?
2. 估计的Y
均值等于实测的Y均值
Why?
3. 残差 ei 的均值为零
即:
ei 0 或 e 0 Why?
13
4. 残差 ei 和Xi值不相关
Variable
Coefficient
Std. Error
t-Statistic
C
120.7000
36.51036
3.305912
GDPP CONSP(-1)
0.221327 0.451507
0.060969 0.170308
3.630145 2.651125
R-squared
0.995403
Mean dependent var
§3.2 多元线性回归模型的估计
一、普通最小二乘估计 *二、最大或然估计 *三、矩估计
四、参数估计量的性质 五、样本容量问题 六、估计实例
1
参数的普通最小二乘估计(OLS)
普通最小二乘法给出的判断标准是:观测值与回 归函数值二者之差的平方和最小。
对于随机抽取的n组观测值 (Yi , X ji ), i 1,2,, n, j 0,1,2,k 有:
这里利用了假设: E(X’)=0
3、有效性(最小方差性) why?
22
五、样本容量问题
一方面,计量经济学模型是从已经发生的经济活动的样 本数据中寻找经济活动中蕴涵的规律。因此,对样本数 据具有很强的依赖性。从建模需要的角度来讲,样本容 量越大越好。 另一方面,收集和整理样本数据是非常困难的工作(收 集,加工并以某种形式展现数据-经济统计学),从减 轻收集数据的困难角度,样本数据越少越好。 怎样选择合适的样本容量,使其既能满足建模的需要, 又能减少收集数据的困难? 需要讨论满足建模基本要求所需的样本容量和最小样本 容量。
0.7226 0.0003
0.0003 1.35E 07
15674 39648400
103 .172 0.7770
7
正规方程组 的另一种写法
对于正规方程组
XY XXβˆ
于是 或
XXβˆ Xe XXβˆ
Xe 0
(*)
ei 0
(**)
X ji ei 0
i
(*)或(**)是多元线性回归模型正规方程组的另一 种写法
8
参数的普通最小二乘估计的离差形式
记 和 X j
1 n
n i 1
X ji
xji xji X j 和
Y 1
n
n 1
Yi
yi Yi Y
为Xj和Y的样本均值 为Xji和Yi对均值的离差
得到:
βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0 βˆ (YY 2YXβˆ βˆ XXβˆ ) 0 XY XXβˆ 0
XY XXβˆ
于是: βˆ (XX)1 XY
记住
6
例3.2.1:在例2.1.1的家庭收入-消费支出例中,
即
X jiei 0
Why?
5. 残差 ei 和预测的Yi值不相关,
即
Y
i
e i
0
Why?
14
*二、最大似然估计
对于多元线性回归模型
Yi 0 1 X 1i 2 X 2i k X ki i
易知
Yi ~ N (Xiβ , 2 )
Y的随机抽取的n组样本观测值的联合概率