第三章多元回归分析估计
学习笔记:伍德里奇《计量经济学》第五版-第三章 多元回归分析:估计

y = b 0+ b 1x 1+ b 2x 2+ . . . b k x k + u一、多元线性回归模型1.我们可以研究控制一些变量不变的条件下,其他变量对y的影响,而不是假定他们不相关。
Cons = b 0+ b 1inc+b 2inc 2 +u2.我们还能推广变量之间的函数关系如:通过在模型中包含更多的变量,我们更好的达到了SLR.4所表达的目的E(u|x 1,x 2, …,x k ) = 0 (3.8)HYP.1一般多元回归模型的关键假定(u和所有x都不相关):( )仍然是最小化残差和:对(3.12)求k +1次偏导得一阶条件(交给计算机计算)(此时假定k +1个方程只能得到估计值得唯一解2.1 如何得到OLS 估计值例3.1分析两个系数时,可得出当我们把其中一个因素涵盖在模型中时,另外一个因素的预测就变得不有力了1.系数表示局部效应(控制其他变量不变时,对y的效应)多元回归分析给了我们在收集不到“其他条件不变”时的数据仍有同样效果的能力2.“控制其他变量不变”的含义3.同时改变不止一个自变量(只需要将效应加和)2.2 对OLS 回归方程的解释从单变量情形加以推广,得:1.残差的样本平均值为02.每个自变量和OLS 残差之间的样本协方差为0。
因此OLS 拟合值和OLS 残差之间的样本协方差也为03.点总位于OLS 回归线上(性质1. 2.由一阶条件得,性质3.由1.可得2.3 OLS 的拟合值和残差( )其中 是x1对其他变量回归后的残差(即排除其他变量对x1的影响,类似矢量正交)2.4 对“排除其他变量影响”的解释( )(是 对 简单回归的斜率1.样本中x2对y的偏效应为0,即2.x1和x 2不相关,即(1. 2.可解释、 的差异由(3.23)知,在两种情况下利用矢量正交的理解考虑简单回归和两个自变量的回归:2.5简单回归和多元回归估计值比较可以证明,R2的另一种理解是 的实际值与其拟合值 的相关系数的平方,其中2.6 拟合优度(与简单回归大致相同)二、普通最小二乘法(多元线性回归模型的代数特征和对方程的解释)使用提示:1.该笔记是对伍德里奇《计量经济学》第五版第三章学习过程中的内容梳理2.由于本人水平有限,单独看该笔记估计会很吃力,且很可能出现错误,建议结合书本进行理解3.希望能够对想学习计量经济学的人起到一点点帮助第三章多元回归分析:估计2020年3月19日10:47由于定义下增加解释变量不会降低R2,所以判断一个解释变量是否应该放入模型的依据应该是该解释变量在总体中对y的偏效应是否非02.7 过原点的回归1.之前推导的性质不再成立,特别是OLS残差的样本平均值不再是02.计算R2没有特定的规则3.当截距项b0不等于0,斜率参数OLS估计量将有偏误;当截距项b0=0,估计带截距项方程的代价是,OLS斜率估计量的方差会更大2.8 OLS估计量的期望值MLR.1(线性于参数)MLR.2(随机抽样)MLR.3(不存在完全共线性,允许一定程度的相关)(在定义函数时要小心不要违背了MLR.3MLR.4(条件均值为0)(内生解释变量:解释变量可能与误差项相关定理3.1 OLS的无偏性()2.9 过度设定和设定不足(多了无关变量和少了解释变量)2.9.1过度设定(不影响OLS估计量的无偏性,但影响OLS估计量的方差)2.9.2设定不足1.简单情形:从一个斜率参数到两个斜率参数由(3.23):取均值得偏误为:(因此偏误的方向取决于两个符号,偏误的大小取决于两者之积,在应用中可以通过常识来判断偏误方向2.扩展情形:从两个斜率参数到三个斜率参数当你假设和不相关时,就可以证明和的关系和简单情形一样2.10 OLS估计量的方差MLR.5(同方差性,不仅可以简化公式,还得到了有效性)定理3.2 OLS斜率估计量的抽样方差在MLR.1-5下,以自变量的样本值为条件,有()(是的总样本波动,则是对所有其他自变量(并包含一个截距项)回归所得到的由(3.51)可知,估计量的抽样方差由三个要素决定:1.误差方差(噪声越大,越难估计)2.的总样本波动(越分散,越容易估计)3.自变量之间的线性关系(和其他自变量相关性越高,越不利于估计(很高的并不一定有问题,抽样方差的大小还要取决于剩下两个因素,可以通过收集更多的数据来削减多重共线性(当考虑某一个自变量 的方差时,若 和其他自变量均无关,那么其他自变量间的关系是不造成影响的,某些经济学家为了分离特定变量的因果效应,而在模型中包括许多控制因素,但这并不影响因果效应的证实( )当含有两个解释变量时:( )当含有一个解释变量时:((3.54)和(3.55)表明除非样本中x1和x2不相关,否则 <1.当 =0时,两个都无偏,但 < ,所以前者更好2.当不等于0时,不放x 2进去会导致有偏,放了x 2进去会导致方差增加,但我们喜欢把x2放进去的理由是:不放进去的偏误不会随着样本容量扩大而缩减,而放进去增加的方差却会随着样本容量的扩大逐渐缩小至0所以有两个结论:2.10.1 过度设定的方差(建立在过度设定无偏讨论的基础上)( )2.10.2 OLS 估计量的标准误(与简单回归相同)在假定MLR.1-5下,有(MLR .5若不满足(即异方差),会使标准误失效(第二种表达清楚说明了随着样本容量的扩大,在其他三项( 、 、 )都趋于常数的时候,估计量标准误是如何变小的因此得估计量的标准误:定理3.3 的无偏估计OLS 估计量是最优线性无偏估计量(如(3.22)所示的线性、无偏误、在线性无偏估计量中方差最小在MLR.1-5下,得定理3.4 高斯-马尔科夫定理2.11 对OLS 估计的一个正确认识。
武汉大学 计量经济学 多元回归分析:估计

ˆ 1 ˆ 2
(x
1i
x1 )( yi y ) ( x2i x2 ) 2 ( x2i x2 )( yi y ) (x1i x1 )( x2i x2 ) x2 )( yi y ) ( x1i x1 ) 2 ( x1i x1 )( yi y ) (x1i x1 )( x2i x2 ) (x1i x1 )( x2i x2 ) ( x1i x1 )2 ( x2i x2 )2
2
(x
(x1i x1 )( x2i x2 ) ( x1i x1 )2 ( x2i x2 )2
Note 3: 违背MLR.10的几种情形
c o n s 0 1 in c 2 in c 2 u 并 不 违 背 M L R .1 0
(1) 同一变量在不同单位的度量下几次进入同一回归方程。 y 0 1 x1 2 x2 3 x3 u x3 5x2 (2) 一个解释变量以隐蔽的方式成为另一变量的倍数, 如 log cons 0 1 log inc 2 log inc2 u (3) 一个解释变量恰好能表述成其他几个解释变量的线性函数 如 VoteA 0 1 exp endA 2 exp endB 3total exp end u 其中 total exp end exp endA exp endB 此时,试图在其他条件不变的情况下解释某个参数就会出现问题。
ˆ ( x 2 n( x ) 2 ) ˆ ( x x nx .x ) y x . y x n i 1i 1 1 2 1 1 1i 2 1i 2 i
OLS估计量求解
整理后得, (5) ( x1i x1 )( yi y ) ˆ1 ( x1i x1 )2 ˆ2 ( x1i x1 )( x2i x2 )
硕士计量第3章 多元回归分析:估计 [兼容模式]
![硕士计量第3章 多元回归分析:估计 [兼容模式]](https://img.taocdn.com/s3/m/95bc5f8dd4d8d15abe234ece.png)
简单回归是否给出了其他条件不变下的无偏估计量?
第三章 多元回归分析:估计
3.1 多元线性回归模型 3 2 偏回归系数的估计 3.2 3.3 案例:房地产特征价格模型
3 1 多元回归模型 3.1
例1(伍德里奇,pp.68) wage β0 β1educ β2 exp er u 例2(伍德里奇,pp.68)
0.765901 Sum squared resid 0.728656 Log likelihood 1.885351 F-statistic
P b(F t ti ti ) Prob(F-statistic)
12
多元线性回归模型
Y β0 β1 X 1 β2 X 2 β p X p ε E (Y ) β0 β1 X 1 β2 X 2 β p X p
0.765901 Sum squared resid 0.728656 Log likelihood 1.885351 F-statistic
P b(F t ti ti ) Prob(F-statistic)
11
多元回归模型的解释:例子 多元回归模 的解释 例子
例3.1(伍德里奇,pp.79)
Prob 0.000 0.013 3.05673 0.37231 0.83938 0.88121 0.85638 1.90873
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat
e X =b +b X +e2i e1i=a +a e2i+e
3多元线性回归模型参数估计

3多元线性回归模型参数估计多元线性回归是一种回归分析方法,用于建立多个自变量和一个因变量之间的关系模型。
多元线性回归模型可以表示为:Y=β0+β1X1+β2X2+…+βnXn+ε其中,Y表示因变量,X1,X2,…,Xn表示自变量,β0,β1,β2,…,βn表示模型参数,ε表示误差项。
多元线性回归模型的目标是估计出模型参数β0,β1,β2,…,βn,使得实际观测值与模型预测值之间的误差最小化。
参数估计的方法有很多,下面介绍两种常用的方法:最小二乘法和梯度下降法。
1. 最小二乘法(Ordinary Least Squares, OLS):最小二乘法是最常用的多元线性回归参数估计方法。
它的基本思想是找到一组参数估计值,使得模型预测值与实际观测值之间的残差平方和最小化。
首先,我们定义残差为每个观测值的实际值与模型预测值之间的差异:εi = Yi - (β0 + β1X1i + β2X2i + … + βnXni)其中,εi表示第i个观测值的残差,Yi表示第i个观测值的实际值,X1i, X2i, …, Xni表示第i个观测值的自变量,β0, β1, β2, …,βn表示参数估计值。
然后,我们定义残差平方和为所有观测值的残差平方的总和:RSS = ∑(Yi - (β0 + β1X1i + β2X2i + … + βnXni))^2我们的目标是找到一组参数估计值β0,β1,β2,…,βn,使得残差平方和最小化。
最小二乘法通过数学推导和求导等方法,可以得到参数估计值的解析解。
2. 梯度下降法(Gradient Descent):梯度下降法是一种迭代优化算法,可以用于估计多元线性回归模型的参数。
它的基本思想是通过迭代调整参数的值,使得目标函数逐渐收敛到最小值。
首先,我们定义目标函数为残差平方和:J(β) = 1/2m∑(Yi - (β0 + β1X1i + β2X2i + … + βnXni))^2其中,m表示样本数量。
第三章 多元线性回归模型

其中:n-k-1为残差平方和的自由度,n-1为总体平 方和的自由度。
检验) 三、方程的显著性检验(F检验 方程的显著性检验 检验
方程的显著性检验, 方程的显著性检验,旨在对模型中被解释变 量与解释变量之间的线性关系在总体上 在总体上是否显著 量与解释变量之间的线性关系在总体上是否显著 成立作出推断。 成立作出推断。 即检验模型
写成矩阵形式: 写成矩阵形式:
Y = Xb + µ
其中
Y1 Y2 Y = M Yn
1 1 X = M 1 X 11 X 12 M X 1n X 21 X 22 M X 2n L L L X k1 X k2 M X kn n × ( k +1 )
回归系数的显著性检验( 检验 检验) 第五节 回归系数的显著性检验(t检验)
方程的总体线性 总体线性关系显著≠每个解释变量 总体线性 ≠每个解释变量对被 解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。 检验完成的。 这一检验是由对变量的 t 检验完成的。
或
1 x ′x → Q n
其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量 的离差为元素组成的n×k阶矩阵
x11 L x k1 x= M L M x 1n L x kn
假设6,回归模型的设定是正确的。
第二节 参数的最小二乘估计
一、回归参数的最小二乘估计 二、随机项µ的方差的估计量 随机项 的方差的估计量
( )
( )
( )
= E ( X ′X
)
第三章多元线性回归模型的参数估计

第三章多元线性回归模型的参数估计多元线性回归模型的参数估计是指通过给定的数据样本,使用其中一种方法来计算出回归模型的参数值。
在多元线性回归模型中,我们有多个自变量与一个因变量之间的关系,因此需要估计出每个自变量的系数。
参数估计是回归模型的核心内容之一,它能够通过对样本数据的分析和处理,得到模型中的参数值,从而建立起模型与实际数据之间的映射关系。
常用的多元线性回归模型的参数估计方法有最小二乘法和最大似然估计法。
最小二乘法是一种最常用的参数估计方法。
它的基本思想是通过最小化因变量的观测值与模型预测值之间的平方误差,来确定模型参数的最佳估计值。
最小二乘法的优点是数学上简单且易于计算,但对于异常值的敏感性较强。
最大似然估计法是另一种常用的参数估计方法。
它的基本思想是找到最能使观测数据发生的概率最大的模型参数,从而得到最优的参数估计值。
最大似然估计法具有较好的统计性质,但它的计算复杂度较高,需要对似然函数进行极大化求解。
在实际应用中,我们需要根据实际情况选择合适的参数估计方法。
通常情况下,最小二乘法是首选的方法,因为它具有简单和直观的优点,适用于大多数情况。
但当样本数据存在异常值或者数据分布不符合正态分布假设时,最大似然估计法可能是更好的选择。
无论是最小二乘法还是最大似然估计法,其核心问题都是通过最优化方法找到使得模型和观测数据之间的误差最小的参数值。
这一过程需要使用数学工具和计算方法进行求解,可以使用迭代算法,如牛顿法或梯度下降法,来逐步逼近最优解。
参数估计的结果可以告诉我们每个自变量对因变量的贡献程度。
因此,一个良好的参数估计能够帮助我们更好地理解数据,预测因变量,以及识别自变量之间是否存在相互影响。
总而言之,多元线性回归模型的参数估计是通过最小化模型与观测数据之间的误差,找到最佳的模型参数值的过程。
合理选择参数估计方法,并进行有效的数学计算,能够为我们提供有关数据和模型之间的重要信息,并为进一步的分析和应用提供基础。
多元回归分析:估计

更多关于R2
考虑从一个解释变量开始,然后加入第二个。 OLS性质:最小化残差平方和。 如果OLS恰好使第二个解释变量系数取零,那
么不管回归是否加入此解释变量,SSR相同。 如果OLS使此解释变量取任何非零系数,那么
加入此变量之后,SSR降低了。 实际操作中,被估计系数精确取零是极其罕见
的,所以,当加入一个新解释变量后,一般来 说,SSR会降低。
那么所有系数的OLS估计量都有偏。
4
更一般的情形
假设总体模型
• 满足假定MLR.1~MLR.4。但我们遗漏了 变量x3,并估计了模型
• 假设X2和X3无关, X1和X3相关。 • 是β1的一个有偏估计量,但 是否有偏
?
更一般的情形
此时,我们通常假设X1和X2无关。
当X1和X2无关时,可以证明:
差项u的条件方差都是一样的。
▪ 如果这个假定不成立,我们说模型存在异方
差性。
OLS估计量的方差(续)
用x表示(x1, x2,…xk)
假定Var(u|x) = s2,也就意味着Var(y| x) = s2
假定MLR.1-5共同被称为高斯-马尔可夫假定 (Gauss-Markov assumptions)
效应) OLS的性质 什么时候简单回归和多元回归的估计值
相同 OLS的无偏性
多元回归分析:估计(2) Multiple Regression Analysis: Estimation
(2)
y = b0 + b1x1 + b2x2 + . . . bkxk + u
1
本章大纲
使用多元回归的动因 普通最小二乘法的操作和解释 OLS估计量的期望值 OLS估计量的方差 OLS的有效性:高斯-马尔科夫定理
3第三章多元线性回归模型分析(一)

例:
Ct
β 1
β
2
Dt
β3Lt
ut
其中,Ct=消费,Dt=居民可支配收入 Lt=居民拥有的流动资产水平
β 2的含义是,在流动资产不变的情况下,可支配收入变动一个 单位对消费额的影响。这是收入对消费额的直接影响。
收入变动对消费额的总影响=直接影响+间接影响。 (间接影响:收入流动资产拥有量消费额)
xiK
b2
bK
n
i 1
yi
根据数据的样本均值定义,则有:
x
1 n
n i1
xi1,
1 n
n
xi2,
i1
,1 n
n i1
xiK
也即: y x b
(3)的证明方法1
因为Σei=0,所以对 y y e两边求和即可。
(Y Y )(Y Y )
en
(Y X β)(Y X β)
(Y β X )(Y X β)
Y Y β X Y Y X β β X X β
注意到上式中所有项都是标量,且
(ˆ
X
Y
)
第三章 多元线性回归模型**
多元线性回归模型是我们课程的重点,原因 在于:
多元线性回归模型应用非常普遍;
原理和方法是理解更复杂计量经济学模型的 基础;
内容较为丰富。
从而,我们应不遗余力地学,甚至是不遗余 力地背!!!
计量经济学-多元线性回归分析

yi ˆ1 x1i ˆ2 x2i ˆk xki ei 其矩阵形式为
i=1,2…n
y xβˆ e
其中 :
y1
y
y2
yn
x11
x
x12
x 21
x 22
xk1 xk2
x1n x2n xkn
ˆ1
βˆ
ˆ 2
ˆk
在离差形式下,参数旳最小二乘估计成果为
模型中解释变量旳数目为(k)
模型:Yt 1 2t X 2t k X kt ut
也被称为总体回归函数旳随机体现形式。它 旳 非随机体现式为:
E(Yi | X 2i , X 3i , X ki ) 1 2 X 2i 3 X 3i k X ki
方程表达:各变量X值固定时Y旳平均响应。
0.17033
2.652155 0.0157
R-squared
0.9954 Mean dependent var
928.4909
Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)
βˆ (xx)1 xY
ˆ0 Y ˆ1 X 1 ˆk X k
⃟随机误差项旳方差旳无偏估计
能够证明,随机误差项旳方差旳无偏估计量为
ˆ 2 ei2 ee
nk nk
四、参数估计量旳性质
在满足基本假设旳情况下,其构造参数旳一般
最小二乘估计、最大或然估计及矩估计仍具有: 线性性、无偏性、有效性。
ˆ1
Байду номын сангаас
Q0
ˆ2
Q
3计量经济学(多元回归分析估计)

拟合优度
• 拟合优度:样本方差中被OLS回归线所解释的部分。
n
R2
( yˆ
y)
(y
y)
i 1
n
i 1
n
(y
i 1
i
y)
i
i
2
n
uˆ
2
1
2
i 1
n
(y
i
i 1
n
( yˆ
i 1
i
y)
2
2
i
y )2
n
uˆ
i 1
2
i
• 拟合优度介于0和1之间。
– 无论模型中包含了多少解释变量,总有一些因
素无法被包括进来,所有这些因素就包括在了
误差项中。
– 线性是指回归方程是诸参数的线性函数。
– 参数的解释,例4:
log( salary ) 0 1 log sales 2 ceoten 3ceoten 2 u
•
1
是其他条件不变的情况下薪水对销售量的弹性。
ˆ
0
i 1
i 1
n
n
L
2 xim rˆij 0 xim rˆij 0, m j
ˆ m
i 1
i 1
n
n
x rˆ (ˆ
ij ij
i 1
i 1
0
ˆ1 xi1 ˆ j 1 xi , j 1 ˆ j 1 xi , j 1 ˆ k xik rˆij )rˆij
Ƹ 是样本自变量的函数,因此
rˆ y
rˆ u
i n
ˆ j
n
第三章多元线性回归模型

( k + 1 )×1
1 2 μ= M n n ×1
用来估计总体回归函数的样本回归函数 : 样本回归函数为: 样本回归函数
Yi = β 0 + β1 X1i + β 2 X 2i + L+ β ki X ki
样本观测值: 样本观测值:
Yi = β0 +β1X1i +β2 X2i +L+βkiXki +ei
b10、 β1的经济涵义、先验符号?
例1 “期望扩充”菲利普斯曲线
估计结果
原始菲利普斯曲线
yt = 6.127172+ 0.244934x1t se : 4.285283 0.630456 t : 1.429817 0.388502 p : 0.180552 0.705058 R2 = 0.013536 F = 0.150934 p( F ) = 0.705058
1i 2 i 2 1i
2 2i
对有k 对有k个解释变量的多元回归模型
, 对于随机抽取的n组观测值 (Yi , X ji ),i =1,2,L n, j = 0,1,2,Lk
如果样本函数 样本函数的参数估计值已经得到,则有: 样本函数
Yi = β 0 + β 1 X 1i + β 2 X 2i + L + β ki X Ki
n n
n
i=1,2…n
2
Q = ∑ei2 = ∑(Yi Yi )2 = ∑(Yi (β0 + β1X1i + β2 X2i +L+ βk Xki ))
i =1 i=1
i=1
根据最小二乘原理 最小二乘原理, 最小二乘原理 参数估计值应该是右列 方程组的解
第三章-多元回归模型

由最小二乘
15
OLS估计式
由正规方程 X Xβˆ = X Y
多元回归中 参数的最小二乘估计量为:
无多重共线性( X X )kk 是满秩矩阵, 其逆存在
βˆ = (X X)-1 X Y
例如只有两个解释变量时: Yi 1 2 X 2i 3i X 3i ui
βˆ 的代数式可用离差简化地表示为:
ˆ1 Y ˆ2 X 2 ˆ3 X 3
这也是多元线性回归模型,只是这时变量为lnY、 lnL、lnK
7
多元总体回归函数
条件期望表现形式:
将Y的总体条件期望表示为多个解释变量的函数,如:
E(Yi X 2i , X 3i ,X ki ) 1 2 X 2i 3 X 3i k X ki
(i 1, 2, n) 注意:这时Y总体条件期望的轨迹是K维空间的一条线 个别值表现形式: 引入随机扰动项 ui Yi E(Yi X2i , X3i Xki )
2 未知时 βˆ 的标准化变换
因 2 是未知的, 可用 ˆ 2 代替 2 去估计参数的标
准误差:
● 当为大样本时,用估计的参数标准误差对 βˆ 作标
准化变换,所得 Z 统计量仍可视为服从正态分布
●当为小样本时,用估计的参数标准误差对 βˆ 作标准
化变换,所得的 t 统计量服从 t 分布:
t*
个别值形式: Yi ˆ1 ˆ 2 X 2i ˆ 3 X 3i ˆ k X ki ei
其中 i 1, 2, n , 由于有n组样本观测值,而且都满足这样
的关系, 象这样的方程事实上有n个.
9
二、多元线性回归模型的矩阵表示
Yi 1 2 X 2i 3 X 3i k X ki ui
^
SE
第三章 多元回归模型

r0i,12i1i1k
r r r 0i,12i1i1k 1 0k ,12k 1 ik ,12i1i1k 1
1 r02k,12k1
1
r2
ik ,12i1i1k
1
问题:在多元回归中 r12(i1)(i1)k ,0 是越大越好,
还是越小越好?
17
模型显著性检验(F检验): F统计量
核心思想:残差平方和最小准则
min ei2 min yi yˆi 2
min yi ˆ0 ˆ1x1i ˆ2x2i ˆk xki 2
求解原理
ei2
ˆ j
0
结论
j 0,1,2,, k
ˆ X ' X 1 X 'Y
8
例子
经过研究,发现家庭书刊消费水平受家庭 收入及户主教育年数的影响。现对某地区 的家庭进行抽样调查,得到的样本数据如 表所示,其中 y 表示家庭书刊消费水平
其中,n k 1为 ei2 的自由度,n 1 为 yi y2
的自由度
引入修正的样本决定系数R 2的作用:
用自由度调整后,可以消除拟合优度评价中解释变量多 少对决定系数计算的影响
对于包含的解释变量个数不同的模型,可以用调整后的 决定系数直接比较它们的拟合优度的高低,但不能用原 来未调整的决定系数来比较
零阶偏相关系数、一阶偏相关系数、k 1 阶偏相关系数
r01 为零阶偏相关系数、 r02,1 称为一阶偏相关系数、 r01,23 称
为二阶偏相关系数、r01,234 称为三阶偏相关系数,依此类推
16
偏相关系数:一般公式
一般地,在研究多个变量的偏相关系数时,因变量 y
与解释变量 xi i 1,2,, k 的k 1 阶偏相关系数时,
伍德里奇《计量经济学》chap3

问题 1:为何要用多元替代简单?
答案:3.1 多元回归的动因(脆弱 的假定,多样的函数形式)
问题 2:怎么实现多元估计?
3.2 OLS 的操作 最小化残差平方和 矩法估计
(3.22) (3.62)
问题 3:怎么解释多元估计?
3.2 OLS 的解释:(1)偏效应,(2)
其他条件不变,……(3)排除其他 变量影响后,……
i=1
i=1
均值总位于回归线上
3.3OLS 的期望:无偏
无偏的三个假定: MLR.1:线性于参数 MLR.2:随机抽样 MLR.3:无完全共线性 MLR.4:零条件均值 无偏:这个程序是无偏 的。
3.4OLS 的方差
MLR.5:同方差。方差成
( ) ( ) 分:Var bˆ j
=
s2 SSTj 1−
(∑ ) ∑ bˆ1 = rˆi1yi
rˆi12 ( 3.22 )
(∑ ) ∑ bˆ1 = b1 + rˆi1ui ( rˆi12 ), (3.62)
问题 4:OLS 有什么性质 代数性质 3.2 小 样 本 性 质 ( 优 势 ): 3.3~3.5
优势
三个代数性质:
n
∑ uˆi = 0
i=1
n
n
∑ ∑ xiuˆi = 0, yˆiuˆi = 0
遗漏变量
b% j = b垐j + bkd%j , (3.63)
问题 5:模型误设后果?
R
2 j
3.5OLS 的有效性
高斯马尔可夫假定 ->高斯马尔可夫 定理
s2
1
−
R
2 j
SST
无偏
标准误的 估计
第三讲 多元线性回归分析(整理)

F统计量的值:F=146.2973,n=18,n-k-1=18-2-1=15,在5%的显著性水平下,查自由度为(2,15)的F分布表,得临界值 ,因为F=146.2973 ,故模型总体是显著的。即家庭收入与户主受教育年限对家庭书刊消费水平的共同影响是相当显著的。
9
611.1
1768.8
10
1222.1
1981.2
18
793.2
1998.6
14
660.8
2196.0
10
792.7
2105.4
12
580.8
2147.4
8
612.7
2154.0
10
890.8
2231.4
14
1121.0
2611.8
18
1094.2
3143.4
16
1253.0
3624.6
20
因变量观测值向量和解释变量观测值矩阵分别为
检验模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立,即是检验方程:
中参数是否显著不为0。按照假设检验的原理与程序,提出原假设与备择假设为
(j=1,2,…,k)不全为零
由于 服从正态分布,根据数理统计学中的定义, 的一组样本的平方和服从 分布。所以有
~
~
即回归平方和、残差平方和分别服从自由度为k和(n-k-1)的 分布。将自由度考虑进去进行方差分析,有如下方差分析表(表3.2.1)。
F检验的具体步骤为:
(1)给定显著性水平 ,在F分布表中查出第一自由度为k和第二自由度为(n-k-1)的临界值 ;
(2)将样本观测值代入式(3.2.9)计算统计量F值;
第三章 第五节 多元线性回归分析的计算过程及实例 (1)

1222.1 1981.2 18
1253 3624.6 20
(1)根据n组观测样本原始数据,写出矩阵:
450
Y 507.7
1253
1 1027.2 8
1 1045.2
9
X
1
3143.4
16
1 3624.6 20
(2)计算X'X、(X'X)1、X'Y
在group栏,输入预测期的解释变量的数据/点quick/ estimate equation/键 入(y c x t)/ok,在equation栏,forecast/ok/得到变量期内,被解释变量每 一时期的预测值.
四、具体分析
(一) 设定模型
Yi 1 2 X i 3Ti ui
说明家庭收入对家庭书刊消费有显著影响
t3 2.131,小概率事件发生,拒绝3 0的假设
说明受教育年数对家庭书刊消费有显著影响
P{F F (k 1,n-k)}
F
ESS RSS
k n
1 k
nk n 1
ESS RSS
18 3 1082426 146.2973 18 1 55491.07
Mean dependent var
0.3279 0.0101 0.0000 755.1222
Adjusted R-squared
0.944732
S.D. dependent var
258.7206
S.E. of regression
(8)计算检验统计量t和F的值,作回归参数及回归 方程的检验。
在原假设 H0 : j 0 j 1,2,, n 下的t统计量为:
第三章 多元线性回归分析

CONSP:人均居民消费(以居民消费价格指数(1990=100)缩减)。
表 2.5.1 中国居民人均消费支出与人均 GDP(元 /人) 年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 人均居民消费 CONSP 395.8 437.0 464.1 501.9 533.5 572.8 635.6 716.0 746.5 788.3 836.4 779.7 人均 GDP GDPP 675.1 716.9 763.7 792.4 851.1 931.4 1059.2 1185.2 1269.6 1393.6 1527.0 1565.9 年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 人均居民消费 CONSP 797.1 861.4 966.6 1048.6 1108.7 1213.1 1322.8 1380.9 1460.6 1564.4 1690.8 人均 GDP GDPP 1602.3 1727.2 1949.8 2187.9 2436.1 2663.7 2889.1 3111.9 3323.1 3529.3 3789.7
解该k个方程组成的线性代数 方程组,即可以得到 k个 待估参数的估计值
正规方程组的矩阵形式
n X 1i X ki
X X
1i 2 1i
X X X
ki
X
ki
X 1i
ˆ 1 0 ˆ X 11 1i ki 1 2 ˆ X ki k X k 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ, u ˆ) 0 Cov( y
(4) 样本均值点总在OLS回归线上
ˆ + ˆx+ y 0 1 1
ˆx) k k
对“排除其他变量影响”的解释
对于模型:
ˆ ˆ x ˆx ˆ y 0 1 1 2 2 ˆx k k
ˆ 可以表示为: 系数 1
ˆ 1
第三章 多元回归分析:估计
多元回归分析可以:
更适合于“其他因素不变情况下”的分析 可用于建立更好的因变量预测模型 可用以引入相当一般化的函数关系
使用多元回归的动因
含有两个自变量的模型
wage=0 +1educ + 2exper + u avgscore=0 +1expend + 2avginc + u
关键假定: E(u|x1, x2 , … , xk ) = 0
普通最小二乘法的操作和解释
OLS估计
两种思路:
残差的平方和最小:
ˆ ˆ x ˆ x )2 min ( yi 0 1 i1 k ik
i 1
n
矩条件:
E(u) = 0 E(xju) = 0 j=1, 2, …, k
ˆ ˆ x ˆ x ˆ x )0 (yi 0 1 i1 2 i2 k ik ˆ ˆ x ˆ x ˆ x )0 xi1 (yi 0 1 i1 2 i2 k ik ˆ ˆ x ˆ x ˆ x )0 xi 2 (yi 0 1 i1 2 i2 k ik x (y ˆ ˆ x ˆ x ˆ x )0 0 1 i1 2 i2 k ik ik i
多元线性回归(矩阵形式)
模型的矩阵表示
总体回归模型
假设有k-1个解释变量x1,x2,…, x k,总体回归模型可以写作: yi= 0+1xi1 + 2xi2 +…+ kx ik+ ui
该模型对于所有的样本都成立,即对于i=1,2…n,该模型都成立,因而有:
y1 1 y 1 2 y n ( n1) 1
ˆ 和 的简单关系: 1 1
ˆ ˆ 1 1 2 1
1 是xi2对xi1简单回归的斜率系数。 简单回归和多元回归系数相同的两种情况:
ˆ 0 或者 0 2 1
含k个自变量的情形:
ˆ ˆ x ˆx ˆ y 0 1 1 2 2 y 0 1x1 ˆx k k
y=0 + 1 x1 + 2 x2 + u
扰动项u与解释变量x1和x2关系的假定:
E(u|x1, x2) = 0
但对于
cons=0 + 1 inc + 2 inc2 + u 关键假定通常写作: E(u|inc) = 0
k个自变量的模型
一般的多元线性回归模型:
y=0 + 1 x1 + 2 x2 + 3 x3 + …+ k xk + u
x11 x21 xn1
x12 x22 xn 2
x13 x23 xn 3
x1k 0 u1 x2 k u 1 2 xnk n( k 1) k ( k 1)1 un ( n1)
y1 1 y2 yi xn xi yi yn
n 1 ˆ β (X'X) X'y x i
y x x x y
i 2 i i i i
1 1 x11 xn1 1 x 21 xn 2 1 x n1 xnk
x12 x22 xn 2
x1k x2 k X'X xnk
于是有:
1 yi x11 xi1 yi x 12 xik yi x 1k
2 2 2 ˆ ˆ ( y y ) ( y y ) u i i i
SST = SSE + SSR
R2
SSE SSR 1 SST SST
2 2
r
2 ˆi yi , y
( yi y )( y ˆi y ˆ ) ˆi y u ˆi )( y ˆi y ) ( y 2 2 2 2 ˆ ( y y ) ( y y ) ˆ ˆ ( y y ) ( y y ) i i i i
n xi1
x x x
1 x21 x22 x2 k
i1 2 i1
x x x
i2
i 2 i1
x x x
ik
x
ik
i1 ik
x
x
i 2 ik
x
ki i1 2 x ik
1 x 11 x12 x1k
rˆ y
i 1 n 2 ˆ r i1 i 1
n
i1 i
ˆ1 为如下回归的残差: r
ˆ0 a ˆ2 x2 ˆ1 a x ˆk xk r ˆ a 1
简单回归和多元回归估计值的比较
考虑简单回归和二元回归的估计结果:
ˆ ˆ x ˆx ˆ y 0 1 1 2 2 y 0 1x1
ˆ x ˆ y 1 1
ˆ 为其他因素不变情况下, x1对y的边际影响。 1
多元回归中“保持其他因素不变”的含义
尽管不能在其他条件不变的情况下收集数据,但其提 供的系数可以做其他条件不变的解释。 多元回归分析是我们能在非实验环境中进行自然科学 家在受控实验中所能做的事情:保持其他因素不变。
1 x21 x22 x2 k
1 y1 xn1 y2 xn 2 X' y பைடு நூலகம்y n xnk
ˆ X'y X'Xβ
β的最小二乘(OLS)估计量为:
ˆ (X'X)1 X'y β
对于一元回归模型:
y1 y2 y yn ( n1)
y= X + u
y1 y2 y yn ( n1) 0 1 β k ( k 1) 1
1 1 X 1
x11 x21 xn1
x12 x22 xn 2
x13 x23 xn 3
x1k x2 k xnk n( k 1)
u1 u u 2 u n ( n1 )
ˆ1 u ˆ u2 u ˆn ( n1) u
样本回归模型
ˆ u y Xβ
OLS估计
ˆ β ˆ x β ˆ ˆ nβ β 0 1 i1 2 xi 2 k X ik yi ˆ ˆ x2 β ˆ ˆ x β β β 0 i1 1 i1 2 xi 2 xi1 k xik xi1 xi1 yi β 2 ˆ ˆ x x β ˆ ˆ x β x x β x 2 i 2 ik k ik xik yi 0 ik 1 i1 ik
过原点回归
模型形式:
y 1 x1 2 x2 k xk
残差平方和最小:
min ( y 1 x1 2 x2
i 1 n
k xk )2
注意:
可决系数(R2)可能为负 如果真实情况下0 0,使用过原点回归模型会导致1的 估计量有偏且不一致。 如果0 =0,使用含截距项的回归模型,由于没有利用 0=0的信息,会有信息损失。
1
OLS估计量的期望值
假定1:关于参数线性 y=0 + 1 x1 + 2 x2 + 3 x3 + …+ k xk + u 假定2:随机抽样 随机样本{(xi1 , xi2 , … xik , yi): i =1, 2, …, n},n为样本容量 假定3:不存在完全共线性 没有一个自变量是常数,自变量间不存在严格线性关系
2 ˆ ( y y ) ˆ ( y y ) i i 2 R 2 2 2 ˆ ( y y ) ( y y ) ( y y ) i i i 2 2
ˆ, u ˆ) 0 Cov( y
ˆ =y y
同时改变不止一个自变量
OLS的拟合值和残差
ˆ + ˆx + ˆi yi y ˆi yi u ( 0 1 i1
(1)残差和及样本均值都等于零 (2)每个回归元和残差的样本协方差为零
ˆx ) k ik
ˆ ( xi , u ˆ) 0 Cov
(3)拟合值和残差的样本协方差为零
n xi1
x x
i1 2 i1
x x x
i2
i 2 i1
x
ik
x x x
i1 ik
i 2 ik
x
ˆ 0 yi x ik ˆ 1 x y x x ki i1 ˆ i1 i 2 2 x y x ik ik i ˆ k
ˆ 和 的简单关系: 1 1
ˆ ˆ + ˆ + ˆ 1 1 2 21 3 31 k k1
简单回归和多元回归系数相同的两种情况: ˆ 、 、 ˆ 都为0 2 k x1与其他自变量都不相关。