第3章 多元回归分析:估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1 n
如何得到OLS估计值
• 如同简单回归里那样 ˆ ˆ x ˆ x ... ˆx ˆ y 0 1 1 2 2 k k ˆ , ˆ ,... ˆ ) 为斜 ˆ 为截距估计值, ( 称为OLS回归线, 1 2 k 0 率估计值。为了表明已经进行了一个OLS回归分 析,我们将方程中的y,x1,x2..xk用其变量名称取代 (如wage,educ,exper等)
i1 i
ˆ (x ˆ r ˆ )u ˆ x ˆ u ˆ r ˆu ˆ r ˆu ˆ 0 x u rˆ ( y ˆ ˆ x ˆ x ˆ x ) rˆ ( y ˆ x ˆr ˆr ˆ ˆ ) r ˆ (y ˆ ) 0 rˆ ( y ˆ x ˆy r ˆ ˆ rˆ y rˆ 0 rˆ
对多元回归“排除其他变量 影响”的解释
ˆ 1
rˆ y
i 1 n 2 ˆ ri1 i 1
n
i1 i
对多元回归“排除其他变量 影响”的解释 A “Partialling Out” Interpretation
• 对于估计的样本回归线 ˆ ˆ x ˆx ˆ y 0 1 1 2 2 •
1. 为获得其它因素不变的效应,控制更多的因素 • 在实证工作中使用简单回归模型,首要的困难在 于:要得到在其它因素不变的情况下, x1对y的 影响(ceteris paribus effect),非常困难。 • 在简单线性回归中,是否能够获得在其它条件 不变情况下,x1对y的影响,完全取决于零值条 件期望假设是否符合现实。 • 如果影响y的其它因素,与x1不相关,则改变x1, 可以确保u(均值)不变,从而识别出在其它条件 不变情况下x对y的影响。 • 不幸的是,影响y的其它因素(包含在u中),往往 与x1相关:改变x1,u(均值)也往往发生变化,从 而使得仅仅利用简单回归模型,无法识别出在 其它条件不变情况下x1对y的影响。
1. 控制更多的因素 • 一个策略就是,将与x1相关的其他因素从误差项u 中取出来,放在方程里,作为新的解释变量,这就 构成多元回归模型。 • 多元回归分析可以明确地控制许多其它同时影响因 变量的因素,而不是放在不可观测的误差项中,故 多元回归分析更适合于其它条件不变情况下 (ceteris paribus)的特定因素x对y的影响。 • 多元回归模型能容许很多解释变量,而这些变量可 以是相关的。 • 在使用非实验数据时,多元回归模型对推断y与解 释变量x间的因果关系很重要。
对OLS回归方程的解释
• 估计值具有偏效应或其他情况不变得解 ˆ x ˆ x 释。从方程中我们可以得到y ˆ 1 1 2 2 所以我们能在给定x1,x2的变化时预测y 值得变化。 ˆ x • 特别的,当 x2=0时,有 y ˆ 1 1 • 关键是通过把x2包含在模型中,我们所 得到的x1的系数可解释为在其他条件不 变的情况下的影响。这正是多元回归分 析如此有用的原因所在。
“保持其他因素不变”的含义
• 多元回归中,所得到的“其他因素不变 的效应”,并非是通过在实际抽样中, 固定其他因素不变。 • 在教育-经验-工资一例中,在获得教育对 的工资其他条件不变影响时,在实际抽 样中,也并非是固定工作经验,收集不 同教育年限的样本,来分析教育年限变 化,对于工资的影响。 • 对个体进行随机抽样,就可通过多元回 归分析得到“其他因素不变的效应”。 • 多元回归分析的优势,在于它使我们能 在非实验环境中去做自然科学家在受控 实验中所能做的事情:保持其它因素不 变。
2. 更好地预测 • 一个变量y的变化,不仅与一种因素有关, 可能决定于许多因素。 • 预测一个变量的变化,往往需要尽可能多 地知道影响该变量变化的因素。 • 简单回归模型,只包含一个解释变量,有 时只能解释y的变动的很小部分。(如,拟 合优度很低) • 多元回归模型由于可以控制更多地揭示变 量,因此,可以解释更多的因变量变动。
OLS的拟合值和残差
• 对观测i,其拟合值为 ˆ ˆ x ˆ x +...+ ˆx ˆi y 0 1 i1 2 i2 k ik 它只是将第i个自变量值代入回归方程所得 的预测值。 • OLS最小化了预测误差平方的平均值。第i ˆi yi y ˆi 个观测的残差被定义为: u ˆi yi y ˆi 0 ,意味着yi被预测的过低; • 若u 反之说明yi被预测的过高。
第3章 多元回归分析:估计
• 简单回归分析的有个缺陷,就是它很难得 到在其他条件不变情况下x对y的影响
• 多元回归分析能让我们明确地控制其他影 响因素 • 多元回归分析可以建立更好的因变量预测 模型 • 多元回归分析可以引入相当一般化的函数 关系
第3章 多元回归分析:估计
3.1 使用多元回归分析的动因
ˆ 1 。 • 然后,将y对 r1 进行简单回归得到 ˆ • 1 衡量的是,剔除了其他自变量的影响之 后,x1对于y的净影响。
22
对多元回归“排除其他变量 影响”的解释 • 上述过程表明:将y同时对x1和x2回归得出的 x1的影响,与先将x1对x2回归得到残差,再将 y对此残差回归得到的x1的影响相同。 • 同时说明,在多元回归模型中, x1的系数衡 量的是,x1中与其他自变量不相关的部分, 与y的相关关系。 • 即,在多元回归模型中,所估计的是,在其 他自变量对于x1的影响“被剔除(partialled out)”后,x1对y的影响。
i1 i1 i i1 i i1 i i1 i i i1 i 0 1 i1 2 i2 k ik 1 i1 i1 i1 i 1 i1 1 i1 i1 i i1 i 1 2 i1 1 i1 i 2 i1
1 i1
)0
25
简单回归与多元回归估计值的比较
• 用同一个样本: • 估计一个最简单的线性回归模型,得到:
例3.2:小时工资方程
• 我们在log(wage)的方程中包括educ(教育 水平),exper(工作经历), 和tenure(任现职的任期),估计的方程:
log (wage) 0.284 0.092educ 0.0041exp er 0.022tenure
系数0.092意味着,在保持tenure和exper不 变的情况下,多受一年教育者的log(wage) 提高0.092即9.2%。
3. 表达更多的函数关系
• 多元回归模型,可以包含多个解释变量, 因此,可以利用变量的函数变换,在模型 中表达多种函数关系。
• 因此,多元线性回归模型,是实证分析中 应用最广泛的分析工具。
多元线性回归模型的一般形式
y 0 1 x1 2 x2 ... k xk u
(1 , 2 ..., k )
E (u | x1 , x2 ,..., xk ) 0
多元回归的术语
3.2 普通最小二乘法的操作和解释
如何得到OLS估计值
• 首先考虑两个自变量的模型:
ˆ ˆ x ˆx ˆ y 0 1 1 2 2
n
建模的原理依旧是使得达到最小。
ˆ ˆ x ˆ x )2 ( y i 0 1 i1 2 i 2
23
“剔除其它变量影响” “Partialling Out”
• 在一个含有k个解释变量的一般模型中, 仍然可 以写成(3.22)式(证明见本章附录3A.2):
n n ˆ ˆi1 yi ) / i 1ຫໍສະໝຸດ Baidur ˆi12 1 ( i 1 r
是来自x 对x … , x 的回归。 • 残差 r 1 1 2 k
同时改变不止一个变量
• 有时我们想改变一个以上的变量,同时 看看由此对因变量的影响,通过回归方 程很容易做到。在例2中,当一人在同一 企业工作过1年,保持educ不变,exper和 tenure都增加一年时,对工资的总影响为:
log (wage) 0.0041 exp er 0.022tenure 0.0041*1+0.022*1=0.0261
~ ~ y 0 1x1
• 估计一个最简单的多元线性回归模型,得到:
ˆ ˆ x ˆ x y 0 1 1 2 2
ˆ ˆ 1 1 2 21 ~ ~
• 存在一个简单关系:
• ˆ21是x2对x1进行简单回归所得到的斜率系数估计 值。 • 证明上式
3.2 普通最小二乘法的操作和解释 3.3 OLS估计量的期望值 3.4 OLS估计量的方差 3.5 OLS的有效性:高斯-马尔科夫定理
3.1 使用多元回归模型的动因
实际研究中更多时候对因变量有影响的自 变量个数将不只一个,需要进行多元回归 • 例1: wage 0 1educ 2 exp er u 在对小时工资的研究中,除了教育水平 之外,工作经历也是一个显著的影响因素, 因此需要增加自变量个数,建立多元回归 模型。
ˆ 1 可以表示为:
n n ˆ ˆi1 yi ) / i 1 r ˆi12 1 ( i 1 r
ˆi1 ? • r
对多元回归“排除其他变量 影响”的解释
• 首先, 将第一个自变量x1对第二个自变量x2 ˆ0 ˆ1x ˆ1 ˆ 进行回归,得到样本回归函数 x , 2 ˆi1 xi1 x ˆi1 。 ˆi1 ,得到残差 r • 根据xi和拟合值 x 残差表示剔除了x2的影响之后,x1的其他部 分。它与x2不相关,样本均值为0。
OLS的拟合值和残差
• 直接从单变量模型推广,可得OLS拟合值 和残差的某些重要性质。 1. 残差的样本平均值为零 2. 每个自变量和OLS残差之间的样本协方 差为零,于是OLS拟合值和OLS残差之间 的样本协方差也为零 3. 点 ( x1 , x2 ..., xk , y ) 总位于样本OLS 回归线上。
i 1
• 要理解OLS在做什么,重要的是理解自变量角 标的含义。下标i表示观测序号,这里假设有n 个观测变量。第二个下标只是区别不同自变量 的方法。在之前的例子中,xi1 educi , xi 2 exp eri 分别表示样本中第i个人的教育程度和工作经历。
如何得到OLS估计值
• 在含有k个自变量的情形中。在选择估计值时, 我们最小化了残差平方和
ˆ 1 度量的是,在排除x … , x 等变量的影 • 因此, 2 k 响之后, x1对y的影响。
24
证明(3.22)式:
(1)
n n ˆ ˆi1 yi ) / i 1 r ˆi12 1 ( i 1 r
ˆ ˆx ˆ x ˆx ˆi y 0 1 i1 2 i2 k ik ˆ ˆx ˆ x ˆx ˆi yi y ˆ i yi u 0 1 i1 2 i2 k ik ˆi 1 a ˆ0 a ˆ2 xi 2 a ˆk xik ( 2) x ˆi1 xi1 x ˆi 1 r ˆi 1 r ˆi1 xi1 x (3) ( 4) (5) ( 6)
i 1 n n
ˆ ˆ x ˆ x ... ˆ x )2 0 min xi1 ( yi 0 1 i1 2 i2 k ik
i 1
...... ˆ ˆ x ˆ x ... ˆ x )2 0 min xik ( yi 0 1 i1 2 i2 k ik
2 ˆ ˆ ˆ ˆ min ( yi 0 1 xi1 2 xi 2 ... k xik ) i 1 n
这个最小化问题可以使用多元微积分求解。 • OLS的一阶条件:
ˆ ˆ x ˆ x ... ˆ x )2 0 min ( yi 0 1 i1 2 i2 k ik
如何得到OLS估计值
• 如同简单回归里那样 ˆ ˆ x ˆ x ... ˆx ˆ y 0 1 1 2 2 k k ˆ , ˆ ,... ˆ ) 为斜 ˆ 为截距估计值, ( 称为OLS回归线, 1 2 k 0 率估计值。为了表明已经进行了一个OLS回归分 析,我们将方程中的y,x1,x2..xk用其变量名称取代 (如wage,educ,exper等)
i1 i
ˆ (x ˆ r ˆ )u ˆ x ˆ u ˆ r ˆu ˆ r ˆu ˆ 0 x u rˆ ( y ˆ ˆ x ˆ x ˆ x ) rˆ ( y ˆ x ˆr ˆr ˆ ˆ ) r ˆ (y ˆ ) 0 rˆ ( y ˆ x ˆy r ˆ ˆ rˆ y rˆ 0 rˆ
对多元回归“排除其他变量 影响”的解释
ˆ 1
rˆ y
i 1 n 2 ˆ ri1 i 1
n
i1 i
对多元回归“排除其他变量 影响”的解释 A “Partialling Out” Interpretation
• 对于估计的样本回归线 ˆ ˆ x ˆx ˆ y 0 1 1 2 2 •
1. 为获得其它因素不变的效应,控制更多的因素 • 在实证工作中使用简单回归模型,首要的困难在 于:要得到在其它因素不变的情况下, x1对y的 影响(ceteris paribus effect),非常困难。 • 在简单线性回归中,是否能够获得在其它条件 不变情况下,x1对y的影响,完全取决于零值条 件期望假设是否符合现实。 • 如果影响y的其它因素,与x1不相关,则改变x1, 可以确保u(均值)不变,从而识别出在其它条件 不变情况下x对y的影响。 • 不幸的是,影响y的其它因素(包含在u中),往往 与x1相关:改变x1,u(均值)也往往发生变化,从 而使得仅仅利用简单回归模型,无法识别出在 其它条件不变情况下x1对y的影响。
1. 控制更多的因素 • 一个策略就是,将与x1相关的其他因素从误差项u 中取出来,放在方程里,作为新的解释变量,这就 构成多元回归模型。 • 多元回归分析可以明确地控制许多其它同时影响因 变量的因素,而不是放在不可观测的误差项中,故 多元回归分析更适合于其它条件不变情况下 (ceteris paribus)的特定因素x对y的影响。 • 多元回归模型能容许很多解释变量,而这些变量可 以是相关的。 • 在使用非实验数据时,多元回归模型对推断y与解 释变量x间的因果关系很重要。
对OLS回归方程的解释
• 估计值具有偏效应或其他情况不变得解 ˆ x ˆ x 释。从方程中我们可以得到y ˆ 1 1 2 2 所以我们能在给定x1,x2的变化时预测y 值得变化。 ˆ x • 特别的,当 x2=0时,有 y ˆ 1 1 • 关键是通过把x2包含在模型中,我们所 得到的x1的系数可解释为在其他条件不 变的情况下的影响。这正是多元回归分 析如此有用的原因所在。
“保持其他因素不变”的含义
• 多元回归中,所得到的“其他因素不变 的效应”,并非是通过在实际抽样中, 固定其他因素不变。 • 在教育-经验-工资一例中,在获得教育对 的工资其他条件不变影响时,在实际抽 样中,也并非是固定工作经验,收集不 同教育年限的样本,来分析教育年限变 化,对于工资的影响。 • 对个体进行随机抽样,就可通过多元回 归分析得到“其他因素不变的效应”。 • 多元回归分析的优势,在于它使我们能 在非实验环境中去做自然科学家在受控 实验中所能做的事情:保持其它因素不 变。
2. 更好地预测 • 一个变量y的变化,不仅与一种因素有关, 可能决定于许多因素。 • 预测一个变量的变化,往往需要尽可能多 地知道影响该变量变化的因素。 • 简单回归模型,只包含一个解释变量,有 时只能解释y的变动的很小部分。(如,拟 合优度很低) • 多元回归模型由于可以控制更多地揭示变 量,因此,可以解释更多的因变量变动。
OLS的拟合值和残差
• 对观测i,其拟合值为 ˆ ˆ x ˆ x +...+ ˆx ˆi y 0 1 i1 2 i2 k ik 它只是将第i个自变量值代入回归方程所得 的预测值。 • OLS最小化了预测误差平方的平均值。第i ˆi yi y ˆi 个观测的残差被定义为: u ˆi yi y ˆi 0 ,意味着yi被预测的过低; • 若u 反之说明yi被预测的过高。
第3章 多元回归分析:估计
• 简单回归分析的有个缺陷,就是它很难得 到在其他条件不变情况下x对y的影响
• 多元回归分析能让我们明确地控制其他影 响因素 • 多元回归分析可以建立更好的因变量预测 模型 • 多元回归分析可以引入相当一般化的函数 关系
第3章 多元回归分析:估计
3.1 使用多元回归分析的动因
ˆ 1 。 • 然后,将y对 r1 进行简单回归得到 ˆ • 1 衡量的是,剔除了其他自变量的影响之 后,x1对于y的净影响。
22
对多元回归“排除其他变量 影响”的解释 • 上述过程表明:将y同时对x1和x2回归得出的 x1的影响,与先将x1对x2回归得到残差,再将 y对此残差回归得到的x1的影响相同。 • 同时说明,在多元回归模型中, x1的系数衡 量的是,x1中与其他自变量不相关的部分, 与y的相关关系。 • 即,在多元回归模型中,所估计的是,在其 他自变量对于x1的影响“被剔除(partialled out)”后,x1对y的影响。
i1 i1 i i1 i i1 i i1 i i i1 i 0 1 i1 2 i2 k ik 1 i1 i1 i1 i 1 i1 1 i1 i1 i i1 i 1 2 i1 1 i1 i 2 i1
1 i1
)0
25
简单回归与多元回归估计值的比较
• 用同一个样本: • 估计一个最简单的线性回归模型,得到:
例3.2:小时工资方程
• 我们在log(wage)的方程中包括educ(教育 水平),exper(工作经历), 和tenure(任现职的任期),估计的方程:
log (wage) 0.284 0.092educ 0.0041exp er 0.022tenure
系数0.092意味着,在保持tenure和exper不 变的情况下,多受一年教育者的log(wage) 提高0.092即9.2%。
3. 表达更多的函数关系
• 多元回归模型,可以包含多个解释变量, 因此,可以利用变量的函数变换,在模型 中表达多种函数关系。
• 因此,多元线性回归模型,是实证分析中 应用最广泛的分析工具。
多元线性回归模型的一般形式
y 0 1 x1 2 x2 ... k xk u
(1 , 2 ..., k )
E (u | x1 , x2 ,..., xk ) 0
多元回归的术语
3.2 普通最小二乘法的操作和解释
如何得到OLS估计值
• 首先考虑两个自变量的模型:
ˆ ˆ x ˆx ˆ y 0 1 1 2 2
n
建模的原理依旧是使得达到最小。
ˆ ˆ x ˆ x )2 ( y i 0 1 i1 2 i 2
23
“剔除其它变量影响” “Partialling Out”
• 在一个含有k个解释变量的一般模型中, 仍然可 以写成(3.22)式(证明见本章附录3A.2):
n n ˆ ˆi1 yi ) / i 1ຫໍສະໝຸດ Baidur ˆi12 1 ( i 1 r
是来自x 对x … , x 的回归。 • 残差 r 1 1 2 k
同时改变不止一个变量
• 有时我们想改变一个以上的变量,同时 看看由此对因变量的影响,通过回归方 程很容易做到。在例2中,当一人在同一 企业工作过1年,保持educ不变,exper和 tenure都增加一年时,对工资的总影响为:
log (wage) 0.0041 exp er 0.022tenure 0.0041*1+0.022*1=0.0261
~ ~ y 0 1x1
• 估计一个最简单的多元线性回归模型,得到:
ˆ ˆ x ˆ x y 0 1 1 2 2
ˆ ˆ 1 1 2 21 ~ ~
• 存在一个简单关系:
• ˆ21是x2对x1进行简单回归所得到的斜率系数估计 值。 • 证明上式
3.2 普通最小二乘法的操作和解释 3.3 OLS估计量的期望值 3.4 OLS估计量的方差 3.5 OLS的有效性:高斯-马尔科夫定理
3.1 使用多元回归模型的动因
实际研究中更多时候对因变量有影响的自 变量个数将不只一个,需要进行多元回归 • 例1: wage 0 1educ 2 exp er u 在对小时工资的研究中,除了教育水平 之外,工作经历也是一个显著的影响因素, 因此需要增加自变量个数,建立多元回归 模型。
ˆ 1 可以表示为:
n n ˆ ˆi1 yi ) / i 1 r ˆi12 1 ( i 1 r
ˆi1 ? • r
对多元回归“排除其他变量 影响”的解释
• 首先, 将第一个自变量x1对第二个自变量x2 ˆ0 ˆ1x ˆ1 ˆ 进行回归,得到样本回归函数 x , 2 ˆi1 xi1 x ˆi1 。 ˆi1 ,得到残差 r • 根据xi和拟合值 x 残差表示剔除了x2的影响之后,x1的其他部 分。它与x2不相关,样本均值为0。
OLS的拟合值和残差
• 直接从单变量模型推广,可得OLS拟合值 和残差的某些重要性质。 1. 残差的样本平均值为零 2. 每个自变量和OLS残差之间的样本协方 差为零,于是OLS拟合值和OLS残差之间 的样本协方差也为零 3. 点 ( x1 , x2 ..., xk , y ) 总位于样本OLS 回归线上。
i 1
• 要理解OLS在做什么,重要的是理解自变量角 标的含义。下标i表示观测序号,这里假设有n 个观测变量。第二个下标只是区别不同自变量 的方法。在之前的例子中,xi1 educi , xi 2 exp eri 分别表示样本中第i个人的教育程度和工作经历。
如何得到OLS估计值
• 在含有k个自变量的情形中。在选择估计值时, 我们最小化了残差平方和
ˆ 1 度量的是,在排除x … , x 等变量的影 • 因此, 2 k 响之后, x1对y的影响。
24
证明(3.22)式:
(1)
n n ˆ ˆi1 yi ) / i 1 r ˆi12 1 ( i 1 r
ˆ ˆx ˆ x ˆx ˆi y 0 1 i1 2 i2 k ik ˆ ˆx ˆ x ˆx ˆi yi y ˆ i yi u 0 1 i1 2 i2 k ik ˆi 1 a ˆ0 a ˆ2 xi 2 a ˆk xik ( 2) x ˆi1 xi1 x ˆi 1 r ˆi 1 r ˆi1 xi1 x (3) ( 4) (5) ( 6)
i 1 n n
ˆ ˆ x ˆ x ... ˆ x )2 0 min xi1 ( yi 0 1 i1 2 i2 k ik
i 1
...... ˆ ˆ x ˆ x ... ˆ x )2 0 min xik ( yi 0 1 i1 2 i2 k ik
2 ˆ ˆ ˆ ˆ min ( yi 0 1 xi1 2 xi 2 ... k xik ) i 1 n
这个最小化问题可以使用多元微积分求解。 • OLS的一阶条件:
ˆ ˆ x ˆ x ... ˆ x )2 0 min ( yi 0 1 i1 2 i2 k ik