第二章 简单回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OLS估计量的方差(接上页)
• Var(u|x) = E(u2|x)-[E(u|x)]2 • E(u|x) = 0, 所以 σ2 = E(u2|x) = E(u2) = Var(u) • 因此σ2 也是无条件方差,成为误差项方差 • 误差项方差的平方根σ 被称为误差项的标准 差(standard deviation) • 我们可以说: E(y|x)=β0 + β1x 及 Var(y|x) =
OLS的无偏性
假设(1):总体模型是参数线性的:y = β0 + β 1x + u 假设(2):我们可以使用一个从总体中随机抽取 的样本 {(xi, yi): i=1, 2, …, n} 。那么我们可 以把样本模型写成:yi = β0 + β1xi + ui 假设(3):E(u|x) = 0,从而有:E(ui|xi) = 0 假设(4):xi有足够的变异性
n n
−1
∑ (y
n i =1 n
i
ˆ −β ˆ x = 0 −β 0 1 i
)
−1
∑
i =1
ˆ −β ˆ x = 0 xi yi − β 0 1 i
(
)
更多的OLS推导
• 定义 y , x 分别为y, x的样本均值,我们可 以把上述第一个条件写成:
ˆ ˆ y = β 0 + β1 x , or ˆ ˆ β 0 = y − β1 x
∑ (y
n i =1 n
i
ˆ −β ˆx =0 −β 0 1 i
)
∑
i =1
ˆ −β ˆx =0 xi y i − β 0 1 i
(
)
OLS的代数性质
• OLS残差之和为0 • 因此,OLS残差的样本均值也为0 • 回归量和OLS残差的样本斜方差为0 • OLS回归线总是通过样本的均值点
OLS的代数性质(精确表达)
第二章 简单回归模型
• • • • • • • 定义 模型的假设 参数估计 OLS的代数性质 拟合度 OLS的统计性质 其它
简单回归模型
• y = β 0 + β 1x + u (2.1)
几个术语
• 在简单线性回归模型y = β0 + β1x + u中, 我们统称y为:
– – – – 因变量(Dependent Variable)或者 左手边变量(Left-Hand Side Variable)或者 被解释变量(Explained Variable)或者 从属量(Regressand)
n
ˆi = 0 因此有, ∑u
i =1 n
ˆ ∑u
i =1
n
i
n
=0
ˆ ∑xu
i =1
i i
=0
ˆ +β ˆx y=β 0 1
更多的术语定义
我可以认为每一观察值都是由一被解释部分 和一未被解释部分构成的:
∑( y − y ) ˆ − y) ∑( y
i
ˆi + u ˆi yi = y
2
于是我们定义: 是总平方和(SST) 是被解释部分平方和(SSE) 是残差平方和(SSR)
y
f(y)
.
x1 x2
. E(y|x) = β + β x
0 1
普通最小二乘法(OLS)
• OLS回归的基本思想是从样本中估计总体 参数 • 令 {(xi,yi): i=1, …,n} 表示一个从总体中随 机抽取的大小为n 的样本 • 对于样本中的每一个观察都有: • yi = β0 + β1xi + ui
条件均值为0
• 我们需要一个关键假设来约定u 和 x 之间 的关系 • 我们希望关于x的信息不会透露关于u的任 何信息,也就是说,两者是完全无关的, 即: • E(u|x) = E(u) = 0, 也就意味着: • E(y|x) = β0 + β1x
E(y|x) 是x的线性方程,对于任何的 x ,y 的分布以E(y|x)为中心
( )
无偏性总结
β1 和 β0 的OLS估计是无偏的
• 无偏性的证明依赖于我们的4个假设——任 何一个假设不成立,无偏性就不一定成立 • 记住无偏性是估计量的一个特征——给定 一个特定的样本,我们可能离真值远也可 能离真值近
OLS估计量的方差
• 现在我们知道,我们的估计量的样本分布 是以真值为中心的(无偏的), 我们想要 知道这个分布式怎样的, 为了使对方差的 考察容易一些,我们增加一个假设: 假设(5): Var(u|x) = σ2 (同方差 (Homoskedasticity))
2 i i i i 2 i i 2 i 2 i i i i i i i 2
拟合优度
• 我们如何判断我们的样本回归线对我们的 样本数据拟合的好不好呢? • 可以计算被解释部分在总平方和(SST)中所 占的比例,这个比例被称为回归的R2 (Rsquared)。 R2也叫拟合度。 • R2 = SSE/SST = 1 – SSR/SST
2
i
2 ˆ ∑ ui
所以有:SST=SSE+SSR
SST = SSE + SSR的证明
ˆ ˆ − + − y y y y ⎤ ( ) ( ) ∑( y − y ) = ∑ ⎡ ⎣ ⎦ ˆ +( y ˆ − y )⎤ = ∑⎡ ⎣u ⎦ ˆ + 2∑ u ˆ (y ˆ − y ) + ∑( y ˆ − y) = ∑u ˆ (y ˆ − y ) + SSE = SSR + 2∑ u ˆ (y ˆ − y) = 0 而我知道: ∑u
2 2 2 i 2 2 2 2
( )
∑ d Var (u )
2 i i 2 2 d ∑ i =
⎛ 1 ⎞ 2⎟ ∑d σ =σ ⎜ ⎝ sx ⎠
2
⎛ 1 ⎞ 2 σ2 ˆ σ ⎜ 2 ⎟ sx = 2 = Var β 1 sx ⎝ sx ⎠
( )
OLS估计量的方差总结
• 误差项方差σ2越大,斜率估计量的方差也 越大 • xi的变异性越大,斜率估计量的方差就越小 • 因此,大样本可以降低斜率估计量的方差 • 误差项方差未知的问题
n
因此斜率的OLS估计值是:
ˆ = β 1
∑ ( x − x )( y − y )
i =1 i i
n
∑( x − x )
i =1 i n 2 i =1
n
2
其中 ∑ ( xi − x ) > 0
OLS斜率估计总结
• 斜率的估计值等于x和 y 的协方差除以x的 样本方差 • 如果 x 和 y 正相关,那么斜率为正 • 如果 x 和 y 负相关,那么斜率为负 • 我们的样本中只需要x 变化
σ2
同方差的例子
y
f(y|x)
.
x1 x2
. E(y|x) = β + β x
0 1
异方差的例子
f(y|x)
y
.
x1 x2 x3
.
.
E(y|x) = β0 + β1x
x
OLS估计量的方差(接上)
⎛ ⎞ ⎛ 1 ⎞ ˆ Var β 1 = Var ⎜ ⎜ β1 + ⎜ s 2 ⎟∑ d i ui ⎟ ⎟= x ⎠ ⎝ ⎝ ⎠ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎜ 2 ⎟ Var (∑ d i u i ) = ⎜ 2⎟ ⎝ sx ⎠ ⎝ sx ⎠ ⎛ 1 ⎞ =⎜ 2⎟ ⎝ sx ⎠
i i i i 0 1 i i 0 i 1 i i i 0 i 1 i i i
i
OLS的无偏性(接上页)
∑ ( x − x ) = 0, ∑(x − x ) x = ∑(x − x )
i i i i
2
因此, 分子可以成:
β s + ∑ ( xi − x )ui , 于是:
2 1 x
ˆ =β β 1 1
OLS估计量的推导(接上页)
• 我们可以把我们的两个约束条件用含有x, y, β0 和 β1 的表达式表示,因为 u = y – β0 – β1x • E(y – β0 – β1x) = 0 • E[x(y – β0 – β1x)] = 0 • 这两个式子被称为:距条件(moment restrictions)
OLS的无偏性(接上页)
• 要考察无偏性,我们需要把估计量写成总体参数 的表达式 • 从一个简单的写法开始:
ˆ β
1
(x − x) y ∑ , 其中 =
i i 2 sx 2
s ≡ ∑ ( xi − x )
2 x
OLS的无偏性(接上页)
∑( x − x ) y = ∑ ( x − x )( β + β x + u ) = ∑ ( x − x )β + ∑ ( x − x )β x + ∑ ( x − x )u = β ∑ ( x − x ) + β ∑ ( x − x )x + ∑ ( x − x )u
û2 { .
.} û3
y1
x2
x3
x4
x
Байду номын сангаас
使用Eviews进行OLS回归
• 我们推导出了计算OLS估计参数的表达 式,如果现在告诉你,你不需要用手计 算,那一定是好消息 • 在Eviews中回归非常简单,要进行y对x 的 回归,只需键入: • reg y x
例2.3 首席执行官的薪水和净资产回报率 salary = β 0 + β1roe + u Ceosal1.raw 例2.4 工资和教育 wage = β 0 + β1educ + u Wage1.raw 例2.5选举结果和竞选支出 Vote1.raw voteA = β + β shareA + u
几个术语(接上页)
• 在y对x的简单线性回归中,我们通常称x 为:
– – – – – – 自变量(Independent Variable)或者 右手边变量(Right-Hand Side Variable)或 解释变量(Explanatory Variable)或 回归量(Regressor)或 共变量(Covariate)或 控制变量(Control Variables)
0 1
其他的推导方法
• 在拟合一条线的直观思想的基础上,我们可以建 立一个规范的最小化问题 • 也就是说,我们要选择我们的参数使得下面的式 子达到最小:
ˆ −β ˆx) ˆ ( ( ) u = y − β ∑ i ∑ i 0 1i
n 2 n i =1 i =1
2
其他的推导方法(接上页)
• 如果用微积分学的办法来解这个最小化问题,我 们可以得到下面的一阶条件,而这个条件两边同 乘以n就和前面用距方法得到的条件一模一样:
总体回归线、样本数据点和相应的误差项:
y y4 E(y|x) = β0 + β1x . u4 {
y3 y2
u2 {.
.}u3
y1
.
} u1
x1
x2
x3
x4
x
OLS估计量的推导
• 要导出OLS估计量,我们需要意识到我们 的主要假设E(u|x) = E(u) = 0 ,这也意味 着: • Cov(x,u) = E(xu) = 0 • 为什么?记住基本的概率论原理: Cov(X,Y) = E(XY) – E(X)E(Y)
( x − x )u ∑ +
i
i
s
2 x
OLS的无偏性(接上页)
令di = ( xi − x ) , 于是有 ⎛ 1 ⎞ ˆ βi = β1 + ⎜ 2 ⎟ ∑ diui , 所以 ⎝ sx ⎠ ⎛ 1 ⎞ ˆ E β1 = β1 + ⎜ 2 ⎟ ∑ di E ( ui ) = β1 ⎝ sx ⎠
几个术语(接上页)
• 在简单线性回归模型y = β0 + β1x + u中, 我们称u为误差项或随机扰动项 • 误差项或随机扰动项的来源:
– – – – 被忽略的因素 测量误差 随机误差 模型的设定误差
一个简单的假设
• y = β 0 + β 1x + u 中 • 误差项u的平均值在总体中应为,即: • E(u) = 0 • 这个假设不具有限制性,因为我们总可以 利用β0 把 E(u)标准化为0
用距方法(Method of Moment) 推导OLS估计量
• 用距方法进行估计的意思是把总体的距 条件加在样本距上 • 什么意思? • 记得总体的分布均值 E(X) 吧,E(X)的样 本估计量就是样本的数学平均值。
更多的OLS推导
• 我们希望选择参数的值,使得样本的距满 足相应的总体距条件 • 样本距满足总体距条件是指:
更多关于OLS
• 直观上讲,OLS 是用一条线拟合样本点, 使得残差项的平方和最小——这就是“最小 二乘”的含义 • 残差项û是误差项u的估计,是拟合线(样 本回归方程)和样本点之间的差
样本回归线、样本点和相应的误差项
y y4
û4 {
.
ˆ +β ˆx ˆ=β y 0 1
y3 y2 û1 } . x1
更多的OLS推导
ˆ x −β ˆ x =0 x y − y − β ∑i i 1 1 i
i =1 n n
( (
)
)
ˆ ( ) x y − y = β ∑i i 1 ∑ xi ( xi − x )
i =1 n i =1 2 ˆ ∑ (xi − x )( yi − y ) = β1 ∑ (xi − x ) i =1 i =1 n