第二章:双变量线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章:双变量线性回归分析
[计量经济学] 第二章:双变量线性回归分析
§1 经典正态线性回归模型(CNLRM)
一、一些基本概念
1、一个例子
条件分布:以X取定值为条件的Y的条件分布
条件概率:给定X的Y的概率,记为P(Y|X)。

例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。

条件期望(conditional Expectation):给定X的Y的期望值,记为E(Y|X)。

例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65
总体回归曲线(Popular Regression Curve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。

2、总体回归函数(PRF)
E(Y|X i)=f(X i)
当PRF的函数形式为线性函数,则有,
E(Y|X i)=β1+β2X i
其中β1和β2为未知而固定的参数,称为回归系数。

β1和β2也分别称为截距和斜率系数。

上述方程也称为线性总体回归函数。

3、PRF的随机设定
将个别的Y I围绕其期望值的离差(Deviation)表述如下:
u i=Y i-E(Y|X i)
或Y i=E(Y|X i)+u i
其中u i是一个不可观测的可正可负的随机变量,称为随机扰动项或随机误差项。

4、“线性”的含义
“线性”可作两种解释:对变量为线性,对参数为线性。

本课“线性”回归一词总是指对参数β为线性的一种回归(即参数只以它的1次方出现)。

模型对参数为线性?模型对变量为线性?
是不是
是LRM LRM
不是NLRM NLRM
注:LRM=线性回归模型;NLRM=非线性回归模型。

5、随机干扰项的意义
随机扰动项是从模型中省略下来的而又集体地影响着Y 的全部变量的替代物。

显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的:(1)理论的含糊性(2)数据的欠缺(3)核心变量与周边变量(4)内在随机性(5)替代变量(6)省略原则
(7)错误的函数形式
6、样本回归函数(SRF )(1)样本回归函数
i
Y ?=1?β+2?βi X 其中Y ?=E(Y|X i )的估计量;1?β=1β的估计量;2
β=2β的估计量。

估计量(Estimator ):一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。

在应用中,由估计量算出的数值称为估计值。

样本回归函数的随机形式为:
其中i u ?表示(样本)残差项(residual )。

(2)样本回归线的几何意义
二、经典线性回归模型(CLRM )的基本假定:假定1:干扰项的均值为零。

即,E(u i |X i )=0
假定2:同方差性或u i 的方差相等。

即,Var(u i |X i )=σ2
假定3:各个干扰项无自相关。

即,Cov(u i ,u j |X i ,X j )=0 假定4:u i 和X i 的协方差为零。

即,Cov(u i ,X i )=E(u i X i )=0 假定5:在重复抽样中X 的值是固定的(非随机)
§2 估计问题(β和σ2
)一、普通最小二乘法 1、问题:
PRF :Y i =β1+β2X i +u i
SRF :i Y =1?β+2?βi X +i u ?=i Y ?+i u ? i u ?=i Y -i
Y ?=i Y -(1?β+2?βi X ) minf(1?β,2?β)=min ∑i u ?2
=min ∑[i Y -(1?β+2
βi X )]2
2、正规方程(Normal equation )由
1
β??f
=0,以及2
β
f =0得到的方程组称为正规方程。

即,
二、β的估计 1、公式:
解上述正规方程组得到1?β和2
β估计值:
其中X 和Y 是X 和Y 的样本均值。

定义离差:i x =i X -X ,i y =i Y -Y 。

用小写字母表示对均值的离差。

2、对OLS 估计量的说明
(1)OLS 估计量可由观测值计算; (2) OLS 估计量是点估计量;
(3)一旦从样本数据得到OLS 估计值,就可画出样本回归线。

3、样本回归线的性质:
(1)通过Y 和X 的样本均值:Y =1?β+2?βX ;(2)估计的Y 的均值等于实际的Y 的均值:Y ?=Y ;(3)残差i u
的均值为零:E(i u ?)=0;(4)残差i u ?与i
Y ?不相关:∑i u ?i y ?=0;
(5)残差i u
与i X 不相关:∑i u ?i x =0。

三、σ2
的估计
五、OLS 的性质(高斯-马尔可夫定理)
OLS 估计量1?β和2
β是BLUE (Best Linear Unbiased Estimator )的。

(1)线性:它是一个随机变量,如因变量Y 的线性函数。

(2)无偏:它的均值等于真值,E(2
β)=β2 (3)最小方差:在所有线性无偏估计量中OLS 下的估计量有最小方差。

注:有最小方差的无偏估计量叫有效估计量。

§3 拟合优度检验
拟合优度检验是指样本回归线与样本观测值之间拟合程度的检验。

度量拟合程度的指标是判
定系数R 2。

一、平方和公式
总平方和(TSS ):∑-=∑2
2
)(Y Y y i i =实测的Y 值围绕其均值的总变异;
解释平方和(ESS ):∑-=∑22)??(?Y Y y i
i =估计的Y 值围绕其均值的总变异;
残差平方和(RSS ):∑-=∑22)?(?i
i i Y Y u =未被解释的围绕回归线的Y 值的变异。

二、R 2
公式
性质:102
≤≤R ;
三、R 2
与相关系数r 不同
在回归分析中,R 2
是一个比r 更有意义的度量,因为前者告诉我们在因变量的变异中由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量。

§4 置信区间
本节要解决的问题: OLS 估计值2
β是一个点估计值,它离真实值2β有多近?一、区间估计的一些基本概念
为了回答上述问题,我们试求两个正数δ和α,α位于0与1之间,使得随机区间(2?β-δ,2
β+δ)包含2β的概率为1-α。

用符号表示,
Pr(2?β-δ≤2β≤2
β+δ)=1-α 这样的一个区间如果存在的话,就称为置信区间(Confidence interval );
1-α称为置信系数(Confidence coefficient );
α(0<α<1)称为显著(性)水平(Level of significance );置信区间的端点称为置信限(Confidence limits );
2?β-δ为置信下限(Lower Confidence limit );2
β+δ为置信上限(Upper Confidence limit )。

二、回归系数β1和β2的置信区间
在u i 的正态性假定下,OLS 估计量1?β和2
β本身就是正态分布的, ),0(~2
σN u i ?),(?2222∑i x N σββ~?)1,0(~/?2
222N x Z i
∑-=σββ 但是2σ很少能知道,在实践中用无偏估计量2
σ来代替,则统计量t 服从自由度为n-2的t
分布:
)2(~/??)?(?222
2222-∑-=-=n t x se t i σ
βββββ
其中∑=2
2
2/?)?(i x se σβ表示估计量2
β的标准差(∑2
2
/i x σ)的估计值。

由ααα-=≤≤-1)Pr(2
2
t t t 得:
同样,β1显著水平为α的置信区间为:)](),([1
2
112
1ββββααse t se t +- 三、σ2
的置信区间
在正态性的假设下,变量222
)2(σ
σ
χ-=n
服从自由度为n-2的2χ分布。

故可以用其来建立σ2
的置信区间。

由αχχχαα-=≤≤-1)Pr(2
2/222/1得,
§5假设检验(t )
问题:某一给定的观测或发现是否与某一声称的假设(stated hypothesis )相符?此处用“相符”一词表示观测的值与假设的值“足够相近”,因而我们不拒绝所声称的假设。

虚拟假设(Null hypothesis ):一种信以为真的、意在维护的或理论上的假设,并用H 0表示。

与之对立的假设称为对立假设(alternative hypothesis ),记为H 1。

对立假设可以是简单的或复合的。

例如,H 1:β2=1是一个简单假设,但是H 1:β2≠1则是一个复合假设。

方法:有显著性检验和置信区间两种方法。

一、显著性检验
1、t 检验(检验系数)方法:
H 0:*
22ββ=;H 1:*
2
2ββ≠
如果H 0为真,则因为)2(~/??)?(?222
2222-∑-=-=
n t x se t i σ
βββββ 所以有,ασ
ββαα-=≤∑-≤
-1)/??Pr(2
2
2
*222t x t i
从而,)]?(),?([?2
2
*
222
*
22βββββααse t se t +-∈ 检验2
β的估计值是否在此区间,如果在则接受H 0假设,否则拒绝H 0假设。

2、置信区间方法
H 0:*
22ββ=;H 1:*
2
2ββ≠ 构造一个β2的显著水平为α的置信区间为:)]?(?),?(?[2 2
222
2ββββααse t se t +-。

若β2在假设H 0:*
2
2ββ=之下落入此区间,就不要拒绝H 0假设,但落在区间之外,就拒绝H 0假设。

3、t 检验方法的直接计算:
H 0:*
22ββ=;H 1:*
2
2ββ≠。

计算∑-=-=222
2222/??)?(?i x se t σ
βββββ
比较|t |与2
αt :
|t |>2
αt (t 值大)
“统计量的值落入临界域上
统计量是统计上显著的 ?拒绝H 0假设
Pr(t)<α(P 值小)。

二、σ2检验的显著性(χ2
检验) H 0:22
*σσ
=;H 1:22*σσ≠。

构造σ2
显著水平为α的置信区间:]?)2(,?)2[(22
/1222/2ααχσ
χσ---n n
检验σ2
的检验值2
*σ是否在此区间内,在则接受,不在就拒绝。

三、假设检验中的两类错误第一类错误:拒绝真实;第二类错误:接受错误。

两类错误之间存在一种替代关系(Trade-off)。

§6 F 检验(总显著水平)
)2,1(~??2/??)(/)(/ 2
22222-∑=∑-∑===n F x n u x RSS df RSS ESS df ESS RSS of MSS ESS of MSS F i
i i σ
ββ 算出F 的估计值,与F 分布表在选定显著水平上读出的F 临界值相比较;
或查找F 统计量的估计值的P 值。

§7 预测
样本回归函数的一个用途是“预测”或“预报”对应于给定X 的未来的Y 值。

包括两种预测:一、均值预测(mean prediction) 对应于选定的X 比方说X 0,预测Y 的条件均值E(Y 0)。

1、点估计
210X Y ββ+=
2
二、个值预测(individual prediction) 1、点估计
210X Y ββ+=
2
三、比较
1、Y 0的置信区间比Y 0的均值E(Y 0)的置信区间宽;
2、这些区域的宽度在X =X 达到最小。

相关文档
最新文档