一元线性回归模型及参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 方差 σ µ 。
1、普通最小二乘法 OLS) (Ordinary Least Square, OLS)
给定一组样本观测值( ),i=1,2,…n,假如 给定一组样本观测值(Xi, Yi), , 模型参数估计量已经求得, 模型参数估计量已经求得,并且是最合理的参数估 计量, 计量,那么样本回归函数应该能够最好地拟合样本 数据,即样本回归线上的点与真实观测点的“总体 数据,即样本回归线上的点与真实观测点的“ 误差”应该尽可能地小。 误差”应该尽可能地小。 最小二乘法给出的判断标准是 最小二乘法给出的判断标准是:二者之差的平方 给出的判断标准 和最小, 和最小,即
≠j
n 组样本观测值 Yi , X i ( i=1,2, … n),就 ),就
模型参数估计的任务
• 模型参数估计的任务为两项: 模型参数估计的任务为两项: 为两项 一是求得反映变量之间数量关系的结构参数的估计量, 一是求得反映变量之间数量关系的结构参数的估计量, 求得反映变量之间数量关系的结构参数的估计量 在一元线性回归模型即是参数 β0 和 β 1 的估计量; 的估计量; 二是求得随机误差项的分布参数, 二是求得随机误差项的分布参数,由于随机误差项 求得随机误差项的分布参数 的均值已经被假定为0,所以所要求的分布参数只有 所以所要求的分布参数只有 的均值已经被假定
Q=
n ∑ (Y i =1 i
ˆ −Y ) =
2 i
n ∑ (Y i =1 i
ˆ + β X )) 2 ˆ − (β
0 1 i
→ 最小
n ˆ ˆ ˆ ) 2 = ∑ (Y − ( β + β X )) 2 是 β$ 、 β$ 的二次函 由于 Q = ∑ (Yi − Yi 0 1 i 0 1 i 1 1
= 1
n (2π ) σ µ
n 2
−
1 2σ µ
2
ˆ ˆ Σ (Yi − β 0 − β1 X i ) 2
e
将该或然函数极大化,即可求得到模型参数的 极大或然估计量。
由于或然函数的极大化与或然函数的对数的极 大化是等价的,所以,取对数或然函数如下:
L* = ln(L) = −n ln( 2π σ µ ) − 1
最小二乘参数估计量的离差形式 (deviation form)
1 X = ∑ Xi n 1 Y = ∑ Yi 记 = n − xi X i X y i = Yi − Y
,
ˆ ˆ β0 = Y − β1X 则参数估计量可以写成: ˆ 则参数估计量可以写成: β1 = ∑ xi yi ∑ x2 i
i i i
i
=1
n∑
故:
ˆ β 0 = β 0 + ∑ wi µi ˆ E(β 0 ) = E(β 0 + ∑ wi µi ) = E(β 0 ) + ∑ wi E(µi ) = β 0
3、有效性:在所有线性无偏估计量中,最 、有效性:在所有线性无偏估计量中, 小二乘参数估计量具有最小方差。 小二乘参数估计量具有最小方差。
对于一元线性回归模型:
Yi = β 0 + β 1 X i + µ i
i=1,2, …n
,假如模型的参数 随机抽取 n 组样本观测值 Yi , X i (i=1,2,…n)
$ 那么 Y 服从如下的正态分布: 估计量已经求得到, β0 和 β1 , 为 $ i
2 ˆ ˆ Yi ~ N ( β 0 + β 1 X i , σ µ )
在计量经济学中, 注:在计量经济学中,往往以大写字母表示原始数据 (观测值),而以小写字母表示对均值的离差 (deviation)。
随机误差项方差的估计量
ˆ 为第i个样本观测点的残差, 记 ei = Yi − Yi 为第i个样本观测点的残差,即被
解释变量的估计值与观测值之差 解释变量的估计值与观测值之差,则随机误差项方 差的估计量为 差的估计量为:
i
i
2 i
∑ ki X i
∑x X = ∑x
i 2 i
i
∑ x ( X − X + X ) = ∑ x (x + X ) = ∑ x = ∑x ∑x ∑x
i i i i 2 i 2 i
2 i 2 i
∑x +X ∑x
i
2 i
=1
故: βˆ
1
= β1 + ∑ ki µ i
ˆ E ( β1 ) = E ( β1 + ∑ ki µ i ) = β1 + ∑ ki E (µ i ) = β1
于是,Yi 的概率函数为
P(Yi ) = 1
− 1 2σ µ
2
ˆ ˆ (Yi −β0 −β1 Xi )2
σ 2π
e
i=1,2,…,n
因为 Yi 是相互独立的,所以 Y 的所有样本观测值的联合概率, 也即或然函数 或然函数(likelihood function)为: 或然函数
ˆ ˆ 2 L( β 0 , β 1 , σ µ ) = P (Y1 , Y2 ,⋅ ⋅ ⋅, Yn )
ˆ 证: β1 = ∑ xi yi
2 i
∑x
∑ x (Y − Y ) = ∑ x Y = ∑x ∑x
i i 2 i 2 i
i i
+
Y ∑ xi xi2 ∑
令k
i
xi = ∑ xi2
,因∑ x = ∑( X
i
i
− X ) = 0 ,故有
xi ˆ = β1 ∑ Y = ∑ kiYi 2 i ∑ xi
ˆ ˆ β 0 = Y − β1 X = 1 1 Yi − ∑ kiYi X = ∑ ( − Xki )Yi = ∑ wiYi ∑ n n
解得: 解得:
β = Y − β X ˆ ˆ 0 1 ˆ nΣ Yi X i − Σ Yi Σ X i β1 = nΣ X i2 − (Σ X i ) 2
ˆ ˆ 的估计结果是从最小二乘原理得到的, 由于 β 0 、 β 1 的估计结果是从最小二乘原理得到的,故称为
最小二乘估计量 (least-squares estimators) 。
∑e
n
2 i
样本回归线的数值性质(numerical properties) 3、样本回归线的数值性质 • 样本回归线通过Y和X的样本均值; • Y估计值的均值等于观测值的均值; • 残差的均值为0。
二、最小二乘参数估计量的统计性质 高斯-马尔可夫定理 高斯 马尔可夫定理
当模型参数估计完成后, 当模型参数估计完成后,需考虑参数估计值的精 即是否能代表总体参数的真值, 度,即是否能代表总体参数的真值,或者说需考察 参数估计量的统计性质。 参数估计量的统计性质。
解得模型的参数估计量为:
ˆ ΣX i2 ΣYi − ΣX i ΣYi X i β 0 = nΣX i2 − (ΣX i ) 2 ˆ β 1 = nΣYi X i − ΣYi ΣX i nΣYi 2 − (ΣX i ) 2
可见,在满足一系列基本假设的情况下,模型 可见,在满足一系列基本假设的情况下, 结构参数的最大或然估计量 最大或然估计量与 结构参数的最大或然估计量与普通最小二乘估计 是相同的。 量是相同的。
ˆ ˆ (1)先求 β0 和 β1 的方差
x σ2 µ ˆ Var ( β ) = Var (∑ k Y ) = ∑ k 2Var ( β + β X + µ ) = ∑ i 2 σ 2 = 2 1 0 1 i i i i i ∑ x µ Σx i i
2
ˆ ) = Var ∑ w Y = ∑ w2Var ( β + β X + µ ) = ∑ 1 − Xk σ 2 Var ( β 0 0 1 i i i i i i µ n 1 2 = ∑ n
高斯—马尔可夫定理 高斯 马尔可夫定理 (Gauss-Markov theorem) 在给定经典线性回归的假定下, 在给定经典线性回归的假定下 , 最小二乘 参数估计量是具有最小方差的线性无偏估计 量。
1、线性性:最小二乘参数估计量是Y的线 、线性性:最小二乘参数估计量是 的线 性函数。 性函数。
E(µi ) = 0 2 Var ( µ i ) = σ µ Cov ( µ i , µ j ) = 0 Cov ( xi , µ i ) = 0 期望或均方值 同方差 协方差
i=1,2, … ,n j=1,2, 的情况下, 的情况下,随机抽取 可以估计模型的参数。 可以估计模型的参数。
… ,n i
2 2 2 ˆ2 ∑ ei = ∑ y i − β1 ∑ xi
其中
2 2 2 2 ∑yi =∑(Y −Y) =∑Y −nY i i 2 2 2 2 ∑xi =∑(Xi − X) =∑Xi −nX
2、最大似然法( Maximum Likelihood, ML) 最大似然法( ) • 最大或然法,也称最大似然法,是不同于最小二乘 最大或然法,也称最大似然法 最大似然法,
一元线性回归模型及其参数估计
一、一元线性回归模型的参数估计 二、最小二乘参数估计量的统计性质 三、最小二乘参数估计量的概率分布
一、一元线性回归模型的参数估计
一元线性回归模型的一般形式
一元线性回归模型的一般形式
Yi = β 0 + β 1 X i + µ i
是: i=1 , 2 ,…, n
在满足 基本假设: 基本假设
2 2σ µ
ˆ ˆ Σ(Yi − β0 − β1 X i )2
ˆ ˆ 对 L* 求极大值,等价于对 Σ(Yi − β 0 − β1 X i ) 2 求极小值:
∂ ˆ ˆ Σ(Yi − β 0 − β 1 X i ) 2 = 0 ∂β ˆ0 ∂ ˆ ˆ Σ(Yi − β 0 − β 1 X i ) 2 = 0 ˆ ∂β 1
但是,随机误差项的方差的估计量是不同的。 随机误差项的方差的估计量是不同的 随机误差项的方差的估计量是不同的
解或然方程
∂ * n 1 ˆ ˆ L =− 2 + Σ(Yi − β 0 − β1 X i ) 2 = 0 2 4 ∂σ µ 2σ µ 2σ µ
2 σ µ 的最大或然估计量为: 即可得到
1 ˆ ˆ ˆ2 σ µ = Σ(Yi − β 0 − β1 X i ) 2 = n
2 $µ σ
Σ e i2 = n − 2
1.用原始数据(观测值)Xi,Yi计算 用原始数据(观测值) 简捷公式为 简捷公式为
∑ e i = ∑ Yi
∑ ei
2
2
2 − β ∑Y − β ∑Y X ˆ ˆ 0 i 1 i i
2 ∑ ei
2.用离差形式的数据xi,yi计算 用离差形式的数据 简捷公式为 简捷公式为
ˆ β 0 = ∑ wiYi = ∑ wi (β 0 + β1 X i + µi ) = β 0 ∑ wi + β1 ∑ wi X i + ∑ wi µi
由于:∑w = ∑(1/ n − Xk ) = 1 − X ∑k
i i
i
=1
X i − X ∑ ki X i = X − X = 0
∑w X = ∑(1/ n − Xk ) X
n
数,并且非负,所以其极小值总是存在的。 并且非负,所以其极小值总是存在的。 条件 ,当
Q 对 β$0 、 β$1 的一阶偏导数为
根据极值存在的
Q 达到最小。即 达到最小。
0 时,
∂Q ˆ =0 ˆ ˆ ˆ ˆ Σ Yi = nβ 0 + β 1Σ X i ∑ (β + β X − Y ) = 0 ∂β 0 0 1 i i ⇒ ⇒ ∂ 2 ˆ ˆ ˆ + β X − Y )X = 0 ˆ Q ∑ (β 0 Σ Yi X i = β 0 Σ X i + β 1Σ X i 1 i i i =0 ˆ ∂β1
2、无偏性:最小二乘参数估计量的均值等于 、无偏性: 总体回归参数真值。 总体回归参数真值。
证: βˆ = ∑ k Y = ∑ k ( β + β X ∑x = 0, 由于 ∑k = x ∑
1 i i i 0 1 i
+ µ i ) = β 0 ∑ ki + β1 ∑ ki X iwenku.baidu.com+ ∑ ki µ i
法的另一种参数估计方法, 法的另一种参数估计方法,是从最大或然原理出发发 展起来的其它估计方法的基础。 展起来的其它估计方法的基础。 • 基本原理: 基本原理: 对于最大或然法,当从模型总体随机抽取n组样本 对于最大或然法,当从模型总体随机抽取 组样本 最大或然法 观测值后, 观测值后,最合理的参数估计量应该使得从模型总体 中抽取该n组样本观测值的联合概率最大 组样本观测值的联合概率最大。 中抽取该 组样本观测值的联合概率最大。
1、普通最小二乘法 OLS) (Ordinary Least Square, OLS)
给定一组样本观测值( ),i=1,2,…n,假如 给定一组样本观测值(Xi, Yi), , 模型参数估计量已经求得, 模型参数估计量已经求得,并且是最合理的参数估 计量, 计量,那么样本回归函数应该能够最好地拟合样本 数据,即样本回归线上的点与真实观测点的“总体 数据,即样本回归线上的点与真实观测点的“ 误差”应该尽可能地小。 误差”应该尽可能地小。 最小二乘法给出的判断标准是 最小二乘法给出的判断标准是:二者之差的平方 给出的判断标准 和最小, 和最小,即
≠j
n 组样本观测值 Yi , X i ( i=1,2, … n),就 ),就
模型参数估计的任务
• 模型参数估计的任务为两项: 模型参数估计的任务为两项: 为两项 一是求得反映变量之间数量关系的结构参数的估计量, 一是求得反映变量之间数量关系的结构参数的估计量, 求得反映变量之间数量关系的结构参数的估计量 在一元线性回归模型即是参数 β0 和 β 1 的估计量; 的估计量; 二是求得随机误差项的分布参数, 二是求得随机误差项的分布参数,由于随机误差项 求得随机误差项的分布参数 的均值已经被假定为0,所以所要求的分布参数只有 所以所要求的分布参数只有 的均值已经被假定
Q=
n ∑ (Y i =1 i
ˆ −Y ) =
2 i
n ∑ (Y i =1 i
ˆ + β X )) 2 ˆ − (β
0 1 i
→ 最小
n ˆ ˆ ˆ ) 2 = ∑ (Y − ( β + β X )) 2 是 β$ 、 β$ 的二次函 由于 Q = ∑ (Yi − Yi 0 1 i 0 1 i 1 1
= 1
n (2π ) σ µ
n 2
−
1 2σ µ
2
ˆ ˆ Σ (Yi − β 0 − β1 X i ) 2
e
将该或然函数极大化,即可求得到模型参数的 极大或然估计量。
由于或然函数的极大化与或然函数的对数的极 大化是等价的,所以,取对数或然函数如下:
L* = ln(L) = −n ln( 2π σ µ ) − 1
最小二乘参数估计量的离差形式 (deviation form)
1 X = ∑ Xi n 1 Y = ∑ Yi 记 = n − xi X i X y i = Yi − Y
,
ˆ ˆ β0 = Y − β1X 则参数估计量可以写成: ˆ 则参数估计量可以写成: β1 = ∑ xi yi ∑ x2 i
i i i
i
=1
n∑
故:
ˆ β 0 = β 0 + ∑ wi µi ˆ E(β 0 ) = E(β 0 + ∑ wi µi ) = E(β 0 ) + ∑ wi E(µi ) = β 0
3、有效性:在所有线性无偏估计量中,最 、有效性:在所有线性无偏估计量中, 小二乘参数估计量具有最小方差。 小二乘参数估计量具有最小方差。
对于一元线性回归模型:
Yi = β 0 + β 1 X i + µ i
i=1,2, …n
,假如模型的参数 随机抽取 n 组样本观测值 Yi , X i (i=1,2,…n)
$ 那么 Y 服从如下的正态分布: 估计量已经求得到, β0 和 β1 , 为 $ i
2 ˆ ˆ Yi ~ N ( β 0 + β 1 X i , σ µ )
在计量经济学中, 注:在计量经济学中,往往以大写字母表示原始数据 (观测值),而以小写字母表示对均值的离差 (deviation)。
随机误差项方差的估计量
ˆ 为第i个样本观测点的残差, 记 ei = Yi − Yi 为第i个样本观测点的残差,即被
解释变量的估计值与观测值之差 解释变量的估计值与观测值之差,则随机误差项方 差的估计量为 差的估计量为:
i
i
2 i
∑ ki X i
∑x X = ∑x
i 2 i
i
∑ x ( X − X + X ) = ∑ x (x + X ) = ∑ x = ∑x ∑x ∑x
i i i i 2 i 2 i
2 i 2 i
∑x +X ∑x
i
2 i
=1
故: βˆ
1
= β1 + ∑ ki µ i
ˆ E ( β1 ) = E ( β1 + ∑ ki µ i ) = β1 + ∑ ki E (µ i ) = β1
于是,Yi 的概率函数为
P(Yi ) = 1
− 1 2σ µ
2
ˆ ˆ (Yi −β0 −β1 Xi )2
σ 2π
e
i=1,2,…,n
因为 Yi 是相互独立的,所以 Y 的所有样本观测值的联合概率, 也即或然函数 或然函数(likelihood function)为: 或然函数
ˆ ˆ 2 L( β 0 , β 1 , σ µ ) = P (Y1 , Y2 ,⋅ ⋅ ⋅, Yn )
ˆ 证: β1 = ∑ xi yi
2 i
∑x
∑ x (Y − Y ) = ∑ x Y = ∑x ∑x
i i 2 i 2 i
i i
+
Y ∑ xi xi2 ∑
令k
i
xi = ∑ xi2
,因∑ x = ∑( X
i
i
− X ) = 0 ,故有
xi ˆ = β1 ∑ Y = ∑ kiYi 2 i ∑ xi
ˆ ˆ β 0 = Y − β1 X = 1 1 Yi − ∑ kiYi X = ∑ ( − Xki )Yi = ∑ wiYi ∑ n n
解得: 解得:
β = Y − β X ˆ ˆ 0 1 ˆ nΣ Yi X i − Σ Yi Σ X i β1 = nΣ X i2 − (Σ X i ) 2
ˆ ˆ 的估计结果是从最小二乘原理得到的, 由于 β 0 、 β 1 的估计结果是从最小二乘原理得到的,故称为
最小二乘估计量 (least-squares estimators) 。
∑e
n
2 i
样本回归线的数值性质(numerical properties) 3、样本回归线的数值性质 • 样本回归线通过Y和X的样本均值; • Y估计值的均值等于观测值的均值; • 残差的均值为0。
二、最小二乘参数估计量的统计性质 高斯-马尔可夫定理 高斯 马尔可夫定理
当模型参数估计完成后, 当模型参数估计完成后,需考虑参数估计值的精 即是否能代表总体参数的真值, 度,即是否能代表总体参数的真值,或者说需考察 参数估计量的统计性质。 参数估计量的统计性质。
解得模型的参数估计量为:
ˆ ΣX i2 ΣYi − ΣX i ΣYi X i β 0 = nΣX i2 − (ΣX i ) 2 ˆ β 1 = nΣYi X i − ΣYi ΣX i nΣYi 2 − (ΣX i ) 2
可见,在满足一系列基本假设的情况下,模型 可见,在满足一系列基本假设的情况下, 结构参数的最大或然估计量 最大或然估计量与 结构参数的最大或然估计量与普通最小二乘估计 是相同的。 量是相同的。
ˆ ˆ (1)先求 β0 和 β1 的方差
x σ2 µ ˆ Var ( β ) = Var (∑ k Y ) = ∑ k 2Var ( β + β X + µ ) = ∑ i 2 σ 2 = 2 1 0 1 i i i i i ∑ x µ Σx i i
2
ˆ ) = Var ∑ w Y = ∑ w2Var ( β + β X + µ ) = ∑ 1 − Xk σ 2 Var ( β 0 0 1 i i i i i i µ n 1 2 = ∑ n
高斯—马尔可夫定理 高斯 马尔可夫定理 (Gauss-Markov theorem) 在给定经典线性回归的假定下, 在给定经典线性回归的假定下 , 最小二乘 参数估计量是具有最小方差的线性无偏估计 量。
1、线性性:最小二乘参数估计量是Y的线 、线性性:最小二乘参数估计量是 的线 性函数。 性函数。
E(µi ) = 0 2 Var ( µ i ) = σ µ Cov ( µ i , µ j ) = 0 Cov ( xi , µ i ) = 0 期望或均方值 同方差 协方差
i=1,2, … ,n j=1,2, 的情况下, 的情况下,随机抽取 可以估计模型的参数。 可以估计模型的参数。
… ,n i
2 2 2 ˆ2 ∑ ei = ∑ y i − β1 ∑ xi
其中
2 2 2 2 ∑yi =∑(Y −Y) =∑Y −nY i i 2 2 2 2 ∑xi =∑(Xi − X) =∑Xi −nX
2、最大似然法( Maximum Likelihood, ML) 最大似然法( ) • 最大或然法,也称最大似然法,是不同于最小二乘 最大或然法,也称最大似然法 最大似然法,
一元线性回归模型及其参数估计
一、一元线性回归模型的参数估计 二、最小二乘参数估计量的统计性质 三、最小二乘参数估计量的概率分布
一、一元线性回归模型的参数估计
一元线性回归模型的一般形式
一元线性回归模型的一般形式
Yi = β 0 + β 1 X i + µ i
是: i=1 , 2 ,…, n
在满足 基本假设: 基本假设
2 2σ µ
ˆ ˆ Σ(Yi − β0 − β1 X i )2
ˆ ˆ 对 L* 求极大值,等价于对 Σ(Yi − β 0 − β1 X i ) 2 求极小值:
∂ ˆ ˆ Σ(Yi − β 0 − β 1 X i ) 2 = 0 ∂β ˆ0 ∂ ˆ ˆ Σ(Yi − β 0 − β 1 X i ) 2 = 0 ˆ ∂β 1
但是,随机误差项的方差的估计量是不同的。 随机误差项的方差的估计量是不同的 随机误差项的方差的估计量是不同的
解或然方程
∂ * n 1 ˆ ˆ L =− 2 + Σ(Yi − β 0 − β1 X i ) 2 = 0 2 4 ∂σ µ 2σ µ 2σ µ
2 σ µ 的最大或然估计量为: 即可得到
1 ˆ ˆ ˆ2 σ µ = Σ(Yi − β 0 − β1 X i ) 2 = n
2 $µ σ
Σ e i2 = n − 2
1.用原始数据(观测值)Xi,Yi计算 用原始数据(观测值) 简捷公式为 简捷公式为
∑ e i = ∑ Yi
∑ ei
2
2
2 − β ∑Y − β ∑Y X ˆ ˆ 0 i 1 i i
2 ∑ ei
2.用离差形式的数据xi,yi计算 用离差形式的数据 简捷公式为 简捷公式为
ˆ β 0 = ∑ wiYi = ∑ wi (β 0 + β1 X i + µi ) = β 0 ∑ wi + β1 ∑ wi X i + ∑ wi µi
由于:∑w = ∑(1/ n − Xk ) = 1 − X ∑k
i i
i
=1
X i − X ∑ ki X i = X − X = 0
∑w X = ∑(1/ n − Xk ) X
n
数,并且非负,所以其极小值总是存在的。 并且非负,所以其极小值总是存在的。 条件 ,当
Q 对 β$0 、 β$1 的一阶偏导数为
根据极值存在的
Q 达到最小。即 达到最小。
0 时,
∂Q ˆ =0 ˆ ˆ ˆ ˆ Σ Yi = nβ 0 + β 1Σ X i ∑ (β + β X − Y ) = 0 ∂β 0 0 1 i i ⇒ ⇒ ∂ 2 ˆ ˆ ˆ + β X − Y )X = 0 ˆ Q ∑ (β 0 Σ Yi X i = β 0 Σ X i + β 1Σ X i 1 i i i =0 ˆ ∂β1
2、无偏性:最小二乘参数估计量的均值等于 、无偏性: 总体回归参数真值。 总体回归参数真值。
证: βˆ = ∑ k Y = ∑ k ( β + β X ∑x = 0, 由于 ∑k = x ∑
1 i i i 0 1 i
+ µ i ) = β 0 ∑ ki + β1 ∑ ki X iwenku.baidu.com+ ∑ ki µ i
法的另一种参数估计方法, 法的另一种参数估计方法,是从最大或然原理出发发 展起来的其它估计方法的基础。 展起来的其它估计方法的基础。 • 基本原理: 基本原理: 对于最大或然法,当从模型总体随机抽取n组样本 对于最大或然法,当从模型总体随机抽取 组样本 最大或然法 观测值后, 观测值后,最合理的参数估计量应该使得从模型总体 中抽取该n组样本观测值的联合概率最大 组样本观测值的联合概率最大。 中抽取该 组样本观测值的联合概率最大。