计量经济学多元线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
31
调整过的R2(The Adjusted R-squared)
因此, R2增加并不意味着加入新的变量一定 会提高模型拟合度。
调整过的R2是R2一个修正版本,当加入新的 解释变量,调整过的R2不一定增加。
R 21(SS /n (R (k 1 ) )1n(k 1 )SSR
SS /n (T 1 )
定义:
y i y 2 to su to a s m flqS ua S总 rT es平
y ˆi y 2exp slu o as m ifq nu e Sd a Sr解 E es释 u ˆi2 ressiu d os m u fq au S l a SrR 残 es 差平
SST= SSE + SSR
3
重新定义变量
为什么我们想这样做? 数据测度单位变换经常被用于减少被估参数小数
点后的零的个数,这样结果更好看一些。 既然这样做主要为了好看,我们希望本质的东西
不改变。
4
重新定义变量:一个例子
以下模型反映了婴儿出生体重与孕妇吸烟量和家 庭收入之间的关系:
(1) b w g h t ˆ 0 ˆ 1 c ig s ˆ 2 fa m in c
explog考虑如果我们想知道时的百分比变化我们不能只报告因为所以22含二次式的模型u的模型我们不能单独将b解释为关于xy变化的度量我们需要将b如果感兴趣的是给定x的初始值和变动预测y的变化那么可以直接使用1
课堂提纲
重新定义变量的影响
估计系数 R 平方 t 统计量
函数形式
对数函数形式 含二次式的模型 含交叉项的模型
24
wage
7.37
3.73
24.4
exper
25
对含二次式模型的进一步讨论
假如x的系数为正, x2的系数为负。 那么,y首先随x上升而上升,但最终转向随x上
升而下降。
对 于 ˆ 1 0 , ˆ 2 0 , 转 向 点 x * ˆ 12 ˆ 2。
26
对含二次式模型的进一步讨论
假如x的系数为负, x2的系数为正。
常被称为半弹性。
17
为什么使用对数模型?
取对数后变量的斜率系数,不随变量测度单位 改变。
如果回归元和回归子都取对数形式,斜率系数 给出对弹性的一个直接估计。
对于y>0的模型,条件分布经常偏斜或存在异 方差,而ln(y)就小多了,所以
ln(y)的分布窄多了,限制了异常(或极端)观 测值(outliers)的影响。
23
含二次式的模型
在许多情况下ˆ1 0,但ˆ2<0。
例如wage 3.73 0.298exper 0.0061exper2
(0.35) (0.041)
(0.0009)
以上式子意味着exper对工资有递减的影响: wage 0.298 2*0.0061* x
如 果 x 0 , 那 么 e x p e rie n c e 从 0 年 增 加 到 1 年 , 工 资 增 加 0 .2 9 8 美 元 。 如 果 x 1 , 那 么 e x p e rie n c e 从 0 年 增 加 到 1 年 , 值 额 外 的 0 .2 8 6 美 元 , 等 等 。 在 这 个 例 子 中 , 存 在 一 个 值 , 过 了 这 个 值 后 , x 对 y 有 负 的 影 响 。
29
拟合优度(续)
我们怎样衡量我们的样本回归线拟合样本数 据有多好呢? 可以计算总平方和(SST)中被模型解释的 部分,称此为回归R2
R2 = SSE/SST = 1 – SSR/SST
30
更多关于R2
当回归中加入另外的解释变量时,R2通常会 上升。 如果OLS使此解释变量取任何非零系数,那 么加入此变量之后,SSR降低了。 实际操作中,被估计系数精确取零是极其 罕见的,所以,当加入一个新解释变量后, 一般来说,SSR会降低。
18
一些经验法则
什么类型的变量经常用对数形式?
肯定为正的钱数:工资,薪水,企业销售额和企业市 值。
非常大的变量:如人口,雇员总数和学校注册人数等。
什么类型的变量经常用水平值形式?
用年测量的变量:如教育年限,工作经历,任期年限 和年龄
可以以水平值或对数形式出现的变量:
比例或百分比变量:失业率,养老保险金参与率等。
传统上bˆj被称为标准化系数或系数。
意思是,如果xij改变一单位标准离差,则yi改变bˆj单位标准离差。
14
例子
p r0 i1 c n e o 2 cx r 3 i rm o 4 o d e m i5 s stt s r u
zp iˆcr e0.34z0 n o0.1 x4 z3 cr i0 m .51 e z4 rooms 0.23 z5 d i0 s.2t7z0 stratio
(1) yˆ ˆ0 ˆ1x ˆ2 x2
(2) yˆ ˆ1 2ˆ2 x x, so
(3)
yˆ x
ˆ1
2 ˆ2 x
22
含二次式的模型
如果感兴趣的是,给定x的初始值和变动,预测y 的变化,那么可以直接使用(1)。
一般来说,我们可以使用x的平均值,中值,或 上下四分位数来预测y,取决于我们感兴趣的问 题。
考虑如下单位变换: (2) 出生体重单位由盎司变为磅 (3) 香烟的支数变为包数
估计结果列于下表
5
Y (column) X (rows) Cigs
Packs
Faminc
Intercept
Observations R-squared SSR SER
Table 6.1
(1) bwght
(2)bwghtlbs
8
重新定义变量
改变变量y的测度单位会导致系数和标准差相应的改变, 所以解释变量系数显著性和对其解释没有改变。
改变一个变量x的测度单位会导致该变量系数和标准差的 相应改变,所以所有解释变量显著性和对其解释没有改 变。
如果被解释变量以对数形式出现,改变被解释变量度量 单位对任何斜率系数没有影响。
33
比较R2和Adjusted R2
R2和调整过的R2告诉我们,解释变量是否很好 地预测了,或“解释”了,手头数据中被解释 变量的值。
R2和调整过的R2并没有告诉我们 被包含变量是否统计显著 解释变量是否是被解释变量变动的真正原因 是否有遗漏变量偏误,或 是否选取了最合适的解释变量组合
n 1 SST
32
调整过的R2
调整过的R2是1减去OLS残差的样本方差(修正 过自由度之后)与y的样本方差之比。
调整过的R2的三个有用性质:
因为(n-1)/(n-k-1)>1 ,所以调整过的R2总比R2小。 加入一个解释变量有两个相反的效果。(1)SSR降
低导致调整过的R2增加。(2) (n-1)/(n-k-1) 增加导 致调整过的R2降低。 调整过的R2可能是负的,发生在以下情况:所有解 释变量使残差平方和下降的太少,不足以抵消因子 (n-1)/(n-k-1)。 R2只有在过原点回归中才可能为负。
-0.4634 (0.0916) --
0.0927 (0.0292) 116.794 (1.049) 1388 0.0298 557,485.51 20.063
-0.0289 (0.0057) --
0.0058 (0.0018) 7.3109 (0.0656) 1388 0.0298 2177.5778 1.2539
7
改变解释变量测度单位的影响
现在香烟数量单位变为包。
b w g h t ˆ 0 ( ˆ 1 * 2 0 ) ( c i g s / 2 0 ) ˆ 2 f a m i n c
现在比较 第(1)列和第(3)列。 变量faminc系数和截距项的估计值和其标准差分析同上。 packs的系数估计值和标准差变为20倍。 t 统计量相同 R平方相同 SSR相同 SER相同
y x1
1
3 x2 ,
例 如 , y是 log(price), x1是 卧 室 数 , x2是 房 间 的 平 方 英 尺 数 。 所 以 , 要 总 述 x1对 y的 影 响 , 比 较 典 型 地 做 法 是 在 x2处 估 计 上 式 。
28
拟合优度
每一个观察值可被视为由解释部分和未解 释部分构成:
系数反映对于一单位x的标准离差的y的标准离差。
12
Beta系数
样本回归方程的标准形式是
Hale Waihona Puke y i ˆ 0 ˆ1 x1 ˆ 2 x 2 ... ˆ k x k
标准化
yi和
x i, z y
yi y , ˆ y
zxj
xij x j 。 ˆ j
现
在
将
z
y向
z
x
回
j
归
得
到
zˆ y bˆ1 z x 1 bˆ2 z x 2 . . . bˆk z x k
那么,y首先随x上升而下降,但最终转向随x上 升而上升。
对 于 ˆ10, ˆ20,
转 向 点 x*ˆ1 2ˆ2 , 与 ˆ10, ˆ20时 相 同 。
27
交叉项
对于形式为y = 0 + 1x1 + 2x2 + 3x1x2 + u的模 型,我们不能单独将1解释为关于x1,y变化的度 量,我们需要将3也考虑进来,因为
19
对数形式的限制
一个变量取零或负值,则不能使用对数。 如果y非负但可以取零,则有时使用log(1+y)。 当数据并非多数为零时,使用log(1+y) 估计,并
且假定变量为log(y),解释所得的估计值,是可 以接受的。
20
慎重使用对数形式
注意到,当y取对数形式时,更难以预测 原变量的值,因为原模型允许我们预测 log(y)而不是y。
15
函数形式
OLS也可以用在x和y不是严格线性的情况,通 过使用非线性方程,使得关于参数仍为线性。
可以取x,y(一个或全部)的自然对数 可以用x的平方形式 可以用x的交叉项
16
对数模型的解释
如果模型是 ln(y) = 0 + 1ln(x) + u 1是y对于x的弹性 如果模型是ln(y) = 0 + 1x + u 1近似是,给定一单位x的改变,y的百分比变化,
来自log(cy)=log(c)+log(y),改变y测度单位将改变截距, 不改变斜率系数。
9
Beta系数
考虑如下形式的样本回归方程:
ŷ=200+20,000x1 +0.2x2
我们能说x1是最重要的变量吗? 现在,查看以下各个变量的单位:
y单位:美元 x1单位:美分 x2单位:千美元
10
Beta系数
上例揭示了什么问题? 被估计系数的大小是不可比较的。 一个相关的问题是,当变量大小差别过大时,在
回归中因运算近似而导致的误差会比较大。
11
Beta系数
有时,我们会看见“标准化系数”或“Beta系 数”,这些名称有着特殊的意义
使用Beta系数是因为有时我们把y和各个x替换 为标准化版本——也就是,减去均值后除以标准 离差。
(3) bwght
--
-9.268 (1.832) 0.0927 (0.0292) 116.974 (1.049) 1388 0.0298 557.485.51 20.063
6
改变被解释变量测度单位的影响
因为1磅=16盎司,被解释变量被除以16。 b w g h t / 1 6 ˆ 0 / 1 6 ( ˆ 1 / 1 6 ) c i g s ( ˆ 2 / 1 6 ) f a m i n c 比较第1列与第2列。 (1)中被估参数/16= (2)中被估参数 (1)中被估参数的标准差/16= (2)中被估参数的标准差 (1)和(2)中 t 统计量相同 R平方相同 (1)中SSR/(16*16)= (2)中SSR (1)中SER(标准差)/16= (2)中SER
考虑log(y)ˆ0ˆ1x1.
如果我们想知道x11时,yˆ的百分比变化,
我们不能只报告ˆ1,因为log(y)ˆ1x1, 所以yˆ%yˆ'yˆ yˆ%exp(log(y))1100*(exp(ˆ1x1)1)
21
含二次式的模型
对于形式为y = 0 + 1x + 2x2 + u的模型,我 们不能单独将1解释为关于x,y变化的度量, 我们需要将2也考虑进来,因为
34
R2和Adjusted R2
在决定某个变量是否应该被加入模型时,R2和 Adjusted R2并非理想的工具。
决定一个解释变量是否属于模型的因素应该是, 该解释变量在总体中对y的局部效应是否为零。
注 意 (2)没 有 截 距 项
现 在 , bˆ j 与 ˆ j的 关 系 如 何 ?
13
Beta系数
可以看到
yˆi
ˆ y
y
ˆ1 ˆ y
ˆ1
xi1 x1
ˆ1
ˆ2 ˆ y
ˆ2
xi2 x2
ˆ2
... ˆk ˆ y
ˆk
xik xk
ˆk
令
bˆj
ˆ j ˆ y
ˆj ,
j
1, 2,..., k
调整过的R2(The Adjusted R-squared)
因此, R2增加并不意味着加入新的变量一定 会提高模型拟合度。
调整过的R2是R2一个修正版本,当加入新的 解释变量,调整过的R2不一定增加。
R 21(SS /n (R (k 1 ) )1n(k 1 )SSR
SS /n (T 1 )
定义:
y i y 2 to su to a s m flqS ua S总 rT es平
y ˆi y 2exp slu o as m ifq nu e Sd a Sr解 E es释 u ˆi2 ressiu d os m u fq au S l a SrR 残 es 差平
SST= SSE + SSR
3
重新定义变量
为什么我们想这样做? 数据测度单位变换经常被用于减少被估参数小数
点后的零的个数,这样结果更好看一些。 既然这样做主要为了好看,我们希望本质的东西
不改变。
4
重新定义变量:一个例子
以下模型反映了婴儿出生体重与孕妇吸烟量和家 庭收入之间的关系:
(1) b w g h t ˆ 0 ˆ 1 c ig s ˆ 2 fa m in c
explog考虑如果我们想知道时的百分比变化我们不能只报告因为所以22含二次式的模型u的模型我们不能单独将b解释为关于xy变化的度量我们需要将b如果感兴趣的是给定x的初始值和变动预测y的变化那么可以直接使用1
课堂提纲
重新定义变量的影响
估计系数 R 平方 t 统计量
函数形式
对数函数形式 含二次式的模型 含交叉项的模型
24
wage
7.37
3.73
24.4
exper
25
对含二次式模型的进一步讨论
假如x的系数为正, x2的系数为负。 那么,y首先随x上升而上升,但最终转向随x上
升而下降。
对 于 ˆ 1 0 , ˆ 2 0 , 转 向 点 x * ˆ 12 ˆ 2。
26
对含二次式模型的进一步讨论
假如x的系数为负, x2的系数为正。
常被称为半弹性。
17
为什么使用对数模型?
取对数后变量的斜率系数,不随变量测度单位 改变。
如果回归元和回归子都取对数形式,斜率系数 给出对弹性的一个直接估计。
对于y>0的模型,条件分布经常偏斜或存在异 方差,而ln(y)就小多了,所以
ln(y)的分布窄多了,限制了异常(或极端)观 测值(outliers)的影响。
23
含二次式的模型
在许多情况下ˆ1 0,但ˆ2<0。
例如wage 3.73 0.298exper 0.0061exper2
(0.35) (0.041)
(0.0009)
以上式子意味着exper对工资有递减的影响: wage 0.298 2*0.0061* x
如 果 x 0 , 那 么 e x p e rie n c e 从 0 年 增 加 到 1 年 , 工 资 增 加 0 .2 9 8 美 元 。 如 果 x 1 , 那 么 e x p e rie n c e 从 0 年 增 加 到 1 年 , 值 额 外 的 0 .2 8 6 美 元 , 等 等 。 在 这 个 例 子 中 , 存 在 一 个 值 , 过 了 这 个 值 后 , x 对 y 有 负 的 影 响 。
29
拟合优度(续)
我们怎样衡量我们的样本回归线拟合样本数 据有多好呢? 可以计算总平方和(SST)中被模型解释的 部分,称此为回归R2
R2 = SSE/SST = 1 – SSR/SST
30
更多关于R2
当回归中加入另外的解释变量时,R2通常会 上升。 如果OLS使此解释变量取任何非零系数,那 么加入此变量之后,SSR降低了。 实际操作中,被估计系数精确取零是极其 罕见的,所以,当加入一个新解释变量后, 一般来说,SSR会降低。
18
一些经验法则
什么类型的变量经常用对数形式?
肯定为正的钱数:工资,薪水,企业销售额和企业市 值。
非常大的变量:如人口,雇员总数和学校注册人数等。
什么类型的变量经常用水平值形式?
用年测量的变量:如教育年限,工作经历,任期年限 和年龄
可以以水平值或对数形式出现的变量:
比例或百分比变量:失业率,养老保险金参与率等。
传统上bˆj被称为标准化系数或系数。
意思是,如果xij改变一单位标准离差,则yi改变bˆj单位标准离差。
14
例子
p r0 i1 c n e o 2 cx r 3 i rm o 4 o d e m i5 s stt s r u
zp iˆcr e0.34z0 n o0.1 x4 z3 cr i0 m .51 e z4 rooms 0.23 z5 d i0 s.2t7z0 stratio
(1) yˆ ˆ0 ˆ1x ˆ2 x2
(2) yˆ ˆ1 2ˆ2 x x, so
(3)
yˆ x
ˆ1
2 ˆ2 x
22
含二次式的模型
如果感兴趣的是,给定x的初始值和变动,预测y 的变化,那么可以直接使用(1)。
一般来说,我们可以使用x的平均值,中值,或 上下四分位数来预测y,取决于我们感兴趣的问 题。
考虑如下单位变换: (2) 出生体重单位由盎司变为磅 (3) 香烟的支数变为包数
估计结果列于下表
5
Y (column) X (rows) Cigs
Packs
Faminc
Intercept
Observations R-squared SSR SER
Table 6.1
(1) bwght
(2)bwghtlbs
8
重新定义变量
改变变量y的测度单位会导致系数和标准差相应的改变, 所以解释变量系数显著性和对其解释没有改变。
改变一个变量x的测度单位会导致该变量系数和标准差的 相应改变,所以所有解释变量显著性和对其解释没有改 变。
如果被解释变量以对数形式出现,改变被解释变量度量 单位对任何斜率系数没有影响。
33
比较R2和Adjusted R2
R2和调整过的R2告诉我们,解释变量是否很好 地预测了,或“解释”了,手头数据中被解释 变量的值。
R2和调整过的R2并没有告诉我们 被包含变量是否统计显著 解释变量是否是被解释变量变动的真正原因 是否有遗漏变量偏误,或 是否选取了最合适的解释变量组合
n 1 SST
32
调整过的R2
调整过的R2是1减去OLS残差的样本方差(修正 过自由度之后)与y的样本方差之比。
调整过的R2的三个有用性质:
因为(n-1)/(n-k-1)>1 ,所以调整过的R2总比R2小。 加入一个解释变量有两个相反的效果。(1)SSR降
低导致调整过的R2增加。(2) (n-1)/(n-k-1) 增加导 致调整过的R2降低。 调整过的R2可能是负的,发生在以下情况:所有解 释变量使残差平方和下降的太少,不足以抵消因子 (n-1)/(n-k-1)。 R2只有在过原点回归中才可能为负。
-0.4634 (0.0916) --
0.0927 (0.0292) 116.794 (1.049) 1388 0.0298 557,485.51 20.063
-0.0289 (0.0057) --
0.0058 (0.0018) 7.3109 (0.0656) 1388 0.0298 2177.5778 1.2539
7
改变解释变量测度单位的影响
现在香烟数量单位变为包。
b w g h t ˆ 0 ( ˆ 1 * 2 0 ) ( c i g s / 2 0 ) ˆ 2 f a m i n c
现在比较 第(1)列和第(3)列。 变量faminc系数和截距项的估计值和其标准差分析同上。 packs的系数估计值和标准差变为20倍。 t 统计量相同 R平方相同 SSR相同 SER相同
y x1
1
3 x2 ,
例 如 , y是 log(price), x1是 卧 室 数 , x2是 房 间 的 平 方 英 尺 数 。 所 以 , 要 总 述 x1对 y的 影 响 , 比 较 典 型 地 做 法 是 在 x2处 估 计 上 式 。
28
拟合优度
每一个观察值可被视为由解释部分和未解 释部分构成:
系数反映对于一单位x的标准离差的y的标准离差。
12
Beta系数
样本回归方程的标准形式是
Hale Waihona Puke y i ˆ 0 ˆ1 x1 ˆ 2 x 2 ... ˆ k x k
标准化
yi和
x i, z y
yi y , ˆ y
zxj
xij x j 。 ˆ j
现
在
将
z
y向
z
x
回
j
归
得
到
zˆ y bˆ1 z x 1 bˆ2 z x 2 . . . bˆk z x k
那么,y首先随x上升而下降,但最终转向随x上 升而上升。
对 于 ˆ10, ˆ20,
转 向 点 x*ˆ1 2ˆ2 , 与 ˆ10, ˆ20时 相 同 。
27
交叉项
对于形式为y = 0 + 1x1 + 2x2 + 3x1x2 + u的模 型,我们不能单独将1解释为关于x1,y变化的度 量,我们需要将3也考虑进来,因为
19
对数形式的限制
一个变量取零或负值,则不能使用对数。 如果y非负但可以取零,则有时使用log(1+y)。 当数据并非多数为零时,使用log(1+y) 估计,并
且假定变量为log(y),解释所得的估计值,是可 以接受的。
20
慎重使用对数形式
注意到,当y取对数形式时,更难以预测 原变量的值,因为原模型允许我们预测 log(y)而不是y。
15
函数形式
OLS也可以用在x和y不是严格线性的情况,通 过使用非线性方程,使得关于参数仍为线性。
可以取x,y(一个或全部)的自然对数 可以用x的平方形式 可以用x的交叉项
16
对数模型的解释
如果模型是 ln(y) = 0 + 1ln(x) + u 1是y对于x的弹性 如果模型是ln(y) = 0 + 1x + u 1近似是,给定一单位x的改变,y的百分比变化,
来自log(cy)=log(c)+log(y),改变y测度单位将改变截距, 不改变斜率系数。
9
Beta系数
考虑如下形式的样本回归方程:
ŷ=200+20,000x1 +0.2x2
我们能说x1是最重要的变量吗? 现在,查看以下各个变量的单位:
y单位:美元 x1单位:美分 x2单位:千美元
10
Beta系数
上例揭示了什么问题? 被估计系数的大小是不可比较的。 一个相关的问题是,当变量大小差别过大时,在
回归中因运算近似而导致的误差会比较大。
11
Beta系数
有时,我们会看见“标准化系数”或“Beta系 数”,这些名称有着特殊的意义
使用Beta系数是因为有时我们把y和各个x替换 为标准化版本——也就是,减去均值后除以标准 离差。
(3) bwght
--
-9.268 (1.832) 0.0927 (0.0292) 116.974 (1.049) 1388 0.0298 557.485.51 20.063
6
改变被解释变量测度单位的影响
因为1磅=16盎司,被解释变量被除以16。 b w g h t / 1 6 ˆ 0 / 1 6 ( ˆ 1 / 1 6 ) c i g s ( ˆ 2 / 1 6 ) f a m i n c 比较第1列与第2列。 (1)中被估参数/16= (2)中被估参数 (1)中被估参数的标准差/16= (2)中被估参数的标准差 (1)和(2)中 t 统计量相同 R平方相同 (1)中SSR/(16*16)= (2)中SSR (1)中SER(标准差)/16= (2)中SER
考虑log(y)ˆ0ˆ1x1.
如果我们想知道x11时,yˆ的百分比变化,
我们不能只报告ˆ1,因为log(y)ˆ1x1, 所以yˆ%yˆ'yˆ yˆ%exp(log(y))1100*(exp(ˆ1x1)1)
21
含二次式的模型
对于形式为y = 0 + 1x + 2x2 + u的模型,我 们不能单独将1解释为关于x,y变化的度量, 我们需要将2也考虑进来,因为
34
R2和Adjusted R2
在决定某个变量是否应该被加入模型时,R2和 Adjusted R2并非理想的工具。
决定一个解释变量是否属于模型的因素应该是, 该解释变量在总体中对y的局部效应是否为零。
注 意 (2)没 有 截 距 项
现 在 , bˆ j 与 ˆ j的 关 系 如 何 ?
13
Beta系数
可以看到
yˆi
ˆ y
y
ˆ1 ˆ y
ˆ1
xi1 x1
ˆ1
ˆ2 ˆ y
ˆ2
xi2 x2
ˆ2
... ˆk ˆ y
ˆk
xik xk
ˆk
令
bˆj
ˆ j ˆ y
ˆj ,
j
1, 2,..., k