第2讲 简单线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
43
例:CEO的薪水和资本权益报酬率
obsno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 salary 1095 1001 1122 578 1368 1145 1078 1094 1237 833 567 933 1339 937 2011 roe 14.1 10.9 23.5 5.9 13.8 20 16.4 16.3 10.5 26.3 25.9 26.8 14.8 22.3 56.3 salaryhat 1224 1165 1398 1072 1219 1333 1267 1265 1157 1450 1442 1459 1237 1375 2005 uhat -129 -164 -276 -494 149 -188 -189 -171 80 -617 -875 -526 102 -439 6
ˆ ˆ ˆ ui yi b 0 b1xi
2 i 1 i 1
n
n
2
10
推导方法(一)
如果直接解上述方程我们得到下面两式:
ˆ y b
n i 1 n i
ˆ x 0 b 0 1 i
ˆ b ˆ x 0 x y b i i 0 1i
i 1
12
n
n
因此OLS估计出的斜率为
ˆ b 1
x x y y
i 1 i i
n
x x
i 1 i n i 1
n
2
给定条件: xi x 0
2
13
普通最小二乘法的推导
根据样本均值的定义以及加总的性质,可将第一个条件 写为
ˆ b ˆ x, yb 0 1 or ˆ yb ˆx b 0 1
b0 , b1被称为回归系数。 b0也被称为常数项或截矩项,或 截矩参数。 b1代表了回归元x的边际效果,也被成为斜率 参数。
u 为误差项或扰动项,它代表了除了x之外可以影响y的 因素。
5
线性的含义: y 和x 之间并不一定存在线性关系, 但是,只要通过转换可以使y的转换形式和x的转 换形式存在相对于参数的线性关系,该模型即称 为线性模型。 如, y=eb0+b1x+u 。
ˆ y ˆ y y y y y ˆ y ˆ y u ˆ 2 u ˆ y ˆ y y ˆ y u ˆ y ˆ y SSE SSR 2 u
2 i i i i 2 i i 2 i i i i i i
在Stata中进行回归非常简单,要让y对x进行回归,只需 要输入
reg y x
47
测量单位
假定薪水的单位是美元,而不是千美元,salarys.
14
普通最小二乘法的推导(二):矩方法
回归的基本思想是从样本去估计总体参数。
我们用{(xi,yi): i=1, …,n} 来表示一个随机样本,
并假定每一观测值满足yi = b0 + b1xi + ui。
15
普通最小二乘法的推导
首先由E(u|x) = E(u) = 0 可知: Cov(x,u) = E(xu) = 0 为什么?
23
条件期望零值假定
假设期末成绩分数取决于出勤次数和影响学生现 场发挥的因素,如学生个人素质。 score =b0 + b1attend +u
那么上述模型中假设(2.6)何时能够成立?
24
OLS斜率估计法总结
斜率估计量等于样本中x 和 y 的协方差除以x的方 差。
若x 和 y 正相关则斜率为正,反之为负。
ˆ E (u ˆ E( x u ˆ ˆ b ) b 0 i 1 i i) 0
35
更多术语:拟合优度
定义总平方和为
SST ( yi y )
i 1 n 2
总平方和SST是对y在样本中所有变动的度量,
即它度量了y在样本中的分散程度
将总平方和除以n-1,我们得到y的样本方差。
36
45
例:CEO的薪水和资本权益报酬率
对估计量的解释:
963.19:常数项的估计值衡量了当roe为零时CEO的薪 水。
18.5:b1 的估计值反应了ROE若增加一个百分点工资 将增加18500美元。 如果 roe=30, 估计的薪水应该是多少?
46
使用 Stata 进行OLS回归
我们已经推导出公式计算参数的OLS估计值,所幸的是 我们不必亲手去计算它们。
ˆ b 1
x x y
i 1 i n i 1 i
n
i
y
2
x x
25
关于OLS的更多信息
OLS法是要找到一条直线,使残差平方和最小。 残差是对误差项的估计,因此,它是拟合直线 (样本回归函数)和样本点之间的距离。
26
讲义总结
介绍简单线性回归模型 介绍通过随机样本的数据运用普通最小二乘法估 计斜率和截距的参数值
计量经济学
(1) 简单二元回归 y = b0 + b1x + u
1
本章大纲
简单回归模型的定义 普通最小二乘法的推导 OLS的操作技巧
测量单位和函数形式
OLS估计量的期望值和方差 过原点回归
2
讲义大纲
一些术语的注解 一个简单假定 条件期望零值假定 何为普通最小二乘法 普通最小二乘法的推导
更多术语
解释平方和定义为
SSE ( y i y )
i 1
n
2
它度量了y的预测值的在样本中的变动
2 ˆ SSR= ui
残差平方和定义为
残差平方和度量了残差的样本变异
37
SST, SSR 和 SSE
y 的总变动可以表示为已解释的变动SSE和 未解释的变动SSR之和,即: SST=SSE+SSR
ˆi , u ˆi ) E ( y ˆi E ( y ˆ i ))(u ˆi E (u ˆi )) cov(y ˆ i E ( yi ))u ˆi ) E (( y ˆiu ˆi ) yE (u ˆi ) E( y ˆ b ˆ x )u ˆ] E[(b
0 1 i i
27
(2) 简单二元回归
y = b0 + b1x + u
28
本章大纲
简单回归模型的定义 推导普通最小二乘法的估计量 OLS的操作技巧 测量单位和回归方程形式 OLS估计量的期望值和方差 过原点的回归
29
讲义大纲
OLS的代数特性
拟合优度Goodness of fit 使用stata做OLS 回归 改变测量单位对OLS统计量的效果
Cov(x,u) = E(xu) – E(x)E(u)
而由E(u|x) = E(u) = 0 可得Cov(x,u) = E(xu) =0。
16
普通最小二乘法的推导
可将u = y – b0 – b1x代入以得上述两个矩条件。 这样我们可以得到两个矩条件约束: E(y – b0 – b1x) = 0 E[x(y – b0 – b1x)] = 0
6
简单二元回归模型例子
如:简单的工资方程 wage= b0 + b1(years of education) + u
上述简单工资函数描述了受教育年限和工资之间的关 系, b1 衡量了多接受一年教育工资可以增加多少。
7
总体回归线,样本观察点和相应误差 y E(y|x) = b0 + b1x . y4 u4 { y3 y2
n
i
0
32
OLS的代数性质
OLS回归线总是通过样本的均值。
ˆ b ˆx yb 0 1
33
OLS的代数性质
我们可把每一次观测看作由被解释部分和 未解释部分构成. ˆi u ˆi yi y 预测值和残差在样本中是不相关的
ˆi , u ˆi ) 0 cov(y
34
OLS的代数性质
3
术语注解
在简单二元回归模型y = b0 + b1x + u中, y通常被称
为因变量,左边变量,被解释变量,或回归子。
x通常被称为自变量,右边变量,解释变量,回归元, 协变量,或控制变量。
4
等式y = b0 + b1x + u只有一个非常数回归元。我们称之为 简单回归模型, 两变量回归模型或双变量回归模型.
44
例:CEO的薪水和资本权益报酬率
变量salary衡量了已1000美元为单位的年薪,其最小值, 均值和最大值分别为:(min, mean, max)=(223, 1281, 14822). Roe=净收入/所有者权益,为三年平均值。 N=209. 估计得到的关系为: (estimated salary)=963.191 + 18.501 roe.
39
拟合优度
我们如何衡量样本回归线是否很好地拟合了样本
数据呢?
可以计算模型解释的总平方和的比例,并把它定
义为回归的R-平方
R2 = SSE/SST = 1 – SSR/SST
40
拟合优度
R-平方是已解释的变动占所有变动的比例
它因此可被看作是y的样本变动中被可以被x解释
的部分
R-平方的值总是在0和1之间
41
拟合优度
在社会科学中,特别是在截面数据分析中, 回归
方程得到小的R-平方值并不罕见。
值得强调的是表面上低的R-平方值不一定说明
OLS回归方程是没有价值的
42
拟合优度
Example 2.8
CEO薪水和净资产回报
Example 2.9 竞选结果和选举活动开支
R 0.0132
2
R 0.856
u2 {.
.} u3
y1
.
} u1
x1
x2
x3
x4
x
8
样本回归线,样本数据点和相关的误差估计项
y y4
û 4{
.
ˆ b ˆx ˆ b y 0 1
y3 y2
û } . 1 x1
. û { 2
.} û3
y1
x2
x3
x4
x
9
推导方法(一):OLS
正式解一个最小化问题,即通过选取参数而使下列值最 小:
30
OLS的代数性质
OLS 的样本残差平均值也为零.
ˆ b ˆ x) 0 ˆ ˆ u ( y b i i 0 1
i 1 i 1
n
n
1 n ˆi 0 进而, u n i 1
31
OLS的代数性质
解释变量和OLS残差之间的样本协方差为 零:
ˆ xu
i 1 i
17
普通最小二乘法的推导(二)
目标是通过选择参数值,使得在样本中矩条件也可以成立。 样本中矩条件可以表示为:
n n
1
y
n i 1 n i 1
Байду номын сангаас
i
ˆ b ˆ x 0 b 0 1 i
1
ˆ b ˆ x 0 x y b i i 0 1 i
18
关于u的假定
假定总体中误差项u的平均值为零 E(u) = 0 (2.5)
11
普通最小二乘法的推导
ˆ x b ˆ x 0 x y y b i i 1 1 i
i 1 n
n
ˆ x y y b i i 1 xi xi x
i 1 n i 1 2 ˆ xi x yi y b1 xi x i 1 i 1
21
条件期望零值假定
由于我们已经假定了E(u) = 0,因此有E(u|x) = E(u) = 0。该假定是何含义? E(u|x) = E(u) = 0. (2.6)
22
条件期望零值假定 在教育一例中,假定u 代表内在能力,条件期望 零值假定说明不管解释教育的年限如何,该能力 的平均值相同。 E(ability|edu=6)=E(ability|edu=18)=0.
2
2
38
证明 SST = SSE + SSR
ˆi 0, i 1 xi u ˆi 0 利用 i 1 u
n n
ˆy 因此拟合的平均值与样本平均值: y ˆi ( y ˆi y ) 0. i 1 u
n
因此我们得到: SST = SSE + SSR. 该证明中我们使用了一个事实, 即样本中因变量的拟合值 和残差不相关.
该假定是否具有很大的限制性呢?
19
关于u的假定
比如, E(u)=5. 那么 y = (b0 +5)+ b1x + (u-5), 所以, E(u*)=E(u-5)=0. 上述推导说明我们总可以通过调整常数项来实现 误差项的均值为零, 因此该假定的限制性不大。
20
条件期望零值假定
我们需要对u和 x之间的关系做一个关键假定。理 想状况是对x的了解并不增加对u的任何信息。换 句话说,我们需要u和x完全不相关: E(u|x) = E(u)
43
例:CEO的薪水和资本权益报酬率
obsno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 salary 1095 1001 1122 578 1368 1145 1078 1094 1237 833 567 933 1339 937 2011 roe 14.1 10.9 23.5 5.9 13.8 20 16.4 16.3 10.5 26.3 25.9 26.8 14.8 22.3 56.3 salaryhat 1224 1165 1398 1072 1219 1333 1267 1265 1157 1450 1442 1459 1237 1375 2005 uhat -129 -164 -276 -494 149 -188 -189 -171 80 -617 -875 -526 102 -439 6
ˆ ˆ ˆ ui yi b 0 b1xi
2 i 1 i 1
n
n
2
10
推导方法(一)
如果直接解上述方程我们得到下面两式:
ˆ y b
n i 1 n i
ˆ x 0 b 0 1 i
ˆ b ˆ x 0 x y b i i 0 1i
i 1
12
n
n
因此OLS估计出的斜率为
ˆ b 1
x x y y
i 1 i i
n
x x
i 1 i n i 1
n
2
给定条件: xi x 0
2
13
普通最小二乘法的推导
根据样本均值的定义以及加总的性质,可将第一个条件 写为
ˆ b ˆ x, yb 0 1 or ˆ yb ˆx b 0 1
b0 , b1被称为回归系数。 b0也被称为常数项或截矩项,或 截矩参数。 b1代表了回归元x的边际效果,也被成为斜率 参数。
u 为误差项或扰动项,它代表了除了x之外可以影响y的 因素。
5
线性的含义: y 和x 之间并不一定存在线性关系, 但是,只要通过转换可以使y的转换形式和x的转 换形式存在相对于参数的线性关系,该模型即称 为线性模型。 如, y=eb0+b1x+u 。
ˆ y ˆ y y y y y ˆ y ˆ y u ˆ 2 u ˆ y ˆ y y ˆ y u ˆ y ˆ y SSE SSR 2 u
2 i i i i 2 i i 2 i i i i i i
在Stata中进行回归非常简单,要让y对x进行回归,只需 要输入
reg y x
47
测量单位
假定薪水的单位是美元,而不是千美元,salarys.
14
普通最小二乘法的推导(二):矩方法
回归的基本思想是从样本去估计总体参数。
我们用{(xi,yi): i=1, …,n} 来表示一个随机样本,
并假定每一观测值满足yi = b0 + b1xi + ui。
15
普通最小二乘法的推导
首先由E(u|x) = E(u) = 0 可知: Cov(x,u) = E(xu) = 0 为什么?
23
条件期望零值假定
假设期末成绩分数取决于出勤次数和影响学生现 场发挥的因素,如学生个人素质。 score =b0 + b1attend +u
那么上述模型中假设(2.6)何时能够成立?
24
OLS斜率估计法总结
斜率估计量等于样本中x 和 y 的协方差除以x的方 差。
若x 和 y 正相关则斜率为正,反之为负。
ˆ E (u ˆ E( x u ˆ ˆ b ) b 0 i 1 i i) 0
35
更多术语:拟合优度
定义总平方和为
SST ( yi y )
i 1 n 2
总平方和SST是对y在样本中所有变动的度量,
即它度量了y在样本中的分散程度
将总平方和除以n-1,我们得到y的样本方差。
36
45
例:CEO的薪水和资本权益报酬率
对估计量的解释:
963.19:常数项的估计值衡量了当roe为零时CEO的薪 水。
18.5:b1 的估计值反应了ROE若增加一个百分点工资 将增加18500美元。 如果 roe=30, 估计的薪水应该是多少?
46
使用 Stata 进行OLS回归
我们已经推导出公式计算参数的OLS估计值,所幸的是 我们不必亲手去计算它们。
ˆ b 1
x x y
i 1 i n i 1 i
n
i
y
2
x x
25
关于OLS的更多信息
OLS法是要找到一条直线,使残差平方和最小。 残差是对误差项的估计,因此,它是拟合直线 (样本回归函数)和样本点之间的距离。
26
讲义总结
介绍简单线性回归模型 介绍通过随机样本的数据运用普通最小二乘法估 计斜率和截距的参数值
计量经济学
(1) 简单二元回归 y = b0 + b1x + u
1
本章大纲
简单回归模型的定义 普通最小二乘法的推导 OLS的操作技巧
测量单位和函数形式
OLS估计量的期望值和方差 过原点回归
2
讲义大纲
一些术语的注解 一个简单假定 条件期望零值假定 何为普通最小二乘法 普通最小二乘法的推导
更多术语
解释平方和定义为
SSE ( y i y )
i 1
n
2
它度量了y的预测值的在样本中的变动
2 ˆ SSR= ui
残差平方和定义为
残差平方和度量了残差的样本变异
37
SST, SSR 和 SSE
y 的总变动可以表示为已解释的变动SSE和 未解释的变动SSR之和,即: SST=SSE+SSR
ˆi , u ˆi ) E ( y ˆi E ( y ˆ i ))(u ˆi E (u ˆi )) cov(y ˆ i E ( yi ))u ˆi ) E (( y ˆiu ˆi ) yE (u ˆi ) E( y ˆ b ˆ x )u ˆ] E[(b
0 1 i i
27
(2) 简单二元回归
y = b0 + b1x + u
28
本章大纲
简单回归模型的定义 推导普通最小二乘法的估计量 OLS的操作技巧 测量单位和回归方程形式 OLS估计量的期望值和方差 过原点的回归
29
讲义大纲
OLS的代数特性
拟合优度Goodness of fit 使用stata做OLS 回归 改变测量单位对OLS统计量的效果
Cov(x,u) = E(xu) – E(x)E(u)
而由E(u|x) = E(u) = 0 可得Cov(x,u) = E(xu) =0。
16
普通最小二乘法的推导
可将u = y – b0 – b1x代入以得上述两个矩条件。 这样我们可以得到两个矩条件约束: E(y – b0 – b1x) = 0 E[x(y – b0 – b1x)] = 0
6
简单二元回归模型例子
如:简单的工资方程 wage= b0 + b1(years of education) + u
上述简单工资函数描述了受教育年限和工资之间的关 系, b1 衡量了多接受一年教育工资可以增加多少。
7
总体回归线,样本观察点和相应误差 y E(y|x) = b0 + b1x . y4 u4 { y3 y2
n
i
0
32
OLS的代数性质
OLS回归线总是通过样本的均值。
ˆ b ˆx yb 0 1
33
OLS的代数性质
我们可把每一次观测看作由被解释部分和 未解释部分构成. ˆi u ˆi yi y 预测值和残差在样本中是不相关的
ˆi , u ˆi ) 0 cov(y
34
OLS的代数性质
3
术语注解
在简单二元回归模型y = b0 + b1x + u中, y通常被称
为因变量,左边变量,被解释变量,或回归子。
x通常被称为自变量,右边变量,解释变量,回归元, 协变量,或控制变量。
4
等式y = b0 + b1x + u只有一个非常数回归元。我们称之为 简单回归模型, 两变量回归模型或双变量回归模型.
44
例:CEO的薪水和资本权益报酬率
变量salary衡量了已1000美元为单位的年薪,其最小值, 均值和最大值分别为:(min, mean, max)=(223, 1281, 14822). Roe=净收入/所有者权益,为三年平均值。 N=209. 估计得到的关系为: (estimated salary)=963.191 + 18.501 roe.
39
拟合优度
我们如何衡量样本回归线是否很好地拟合了样本
数据呢?
可以计算模型解释的总平方和的比例,并把它定
义为回归的R-平方
R2 = SSE/SST = 1 – SSR/SST
40
拟合优度
R-平方是已解释的变动占所有变动的比例
它因此可被看作是y的样本变动中被可以被x解释
的部分
R-平方的值总是在0和1之间
41
拟合优度
在社会科学中,特别是在截面数据分析中, 回归
方程得到小的R-平方值并不罕见。
值得强调的是表面上低的R-平方值不一定说明
OLS回归方程是没有价值的
42
拟合优度
Example 2.8
CEO薪水和净资产回报
Example 2.9 竞选结果和选举活动开支
R 0.0132
2
R 0.856
u2 {.
.} u3
y1
.
} u1
x1
x2
x3
x4
x
8
样本回归线,样本数据点和相关的误差估计项
y y4
û 4{
.
ˆ b ˆx ˆ b y 0 1
y3 y2
û } . 1 x1
. û { 2
.} û3
y1
x2
x3
x4
x
9
推导方法(一):OLS
正式解一个最小化问题,即通过选取参数而使下列值最 小:
30
OLS的代数性质
OLS 的样本残差平均值也为零.
ˆ b ˆ x) 0 ˆ ˆ u ( y b i i 0 1
i 1 i 1
n
n
1 n ˆi 0 进而, u n i 1
31
OLS的代数性质
解释变量和OLS残差之间的样本协方差为 零:
ˆ xu
i 1 i
17
普通最小二乘法的推导(二)
目标是通过选择参数值,使得在样本中矩条件也可以成立。 样本中矩条件可以表示为:
n n
1
y
n i 1 n i 1
Байду номын сангаас
i
ˆ b ˆ x 0 b 0 1 i
1
ˆ b ˆ x 0 x y b i i 0 1 i
18
关于u的假定
假定总体中误差项u的平均值为零 E(u) = 0 (2.5)
11
普通最小二乘法的推导
ˆ x b ˆ x 0 x y y b i i 1 1 i
i 1 n
n
ˆ x y y b i i 1 xi xi x
i 1 n i 1 2 ˆ xi x yi y b1 xi x i 1 i 1
21
条件期望零值假定
由于我们已经假定了E(u) = 0,因此有E(u|x) = E(u) = 0。该假定是何含义? E(u|x) = E(u) = 0. (2.6)
22
条件期望零值假定 在教育一例中,假定u 代表内在能力,条件期望 零值假定说明不管解释教育的年限如何,该能力 的平均值相同。 E(ability|edu=6)=E(ability|edu=18)=0.
2
2
38
证明 SST = SSE + SSR
ˆi 0, i 1 xi u ˆi 0 利用 i 1 u
n n
ˆy 因此拟合的平均值与样本平均值: y ˆi ( y ˆi y ) 0. i 1 u
n
因此我们得到: SST = SSE + SSR. 该证明中我们使用了一个事实, 即样本中因变量的拟合值 和残差不相关.
该假定是否具有很大的限制性呢?
19
关于u的假定
比如, E(u)=5. 那么 y = (b0 +5)+ b1x + (u-5), 所以, E(u*)=E(u-5)=0. 上述推导说明我们总可以通过调整常数项来实现 误差项的均值为零, 因此该假定的限制性不大。
20
条件期望零值假定
我们需要对u和 x之间的关系做一个关键假定。理 想状况是对x的了解并不增加对u的任何信息。换 句话说,我们需要u和x完全不相关: E(u|x) = E(u)