第二章 经典线性回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

24
Y
Yt * *
** *
Y X
ˆ Yt
et
* * * *
*
*
*
Y
*
* *
ˆ Yt *
*
Yt
Xt 图2
X
25
残差
拟合的直线 Y X
称为拟合的回归线.
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分 ˆ 成两部分。 第一部分是Yt的拟合值或预测值 Yt : ˆ ˆ Yˆ αβX t t , t=1,2,……,n
显然, E (uu) I n 仅当 E(ui uj)=0 , i≠j E(ut2) = σ2, t=1,2,…,n 这两个条件成立时才成立,因此, 此条件相当前面条件 (2), (3)两条,即各期扰动项互不相关,并具有常数方差。 17
A3. X 是一个非随机元素矩阵。
A4. Rank(X) = (K+1) < n. ------相当于前面 (5) 即矩阵X的秩 =(K+1)< n
第二章 经典线性 回归模型
(Classical Linear Regression Model)
第一节 线性回归模型的概念
第二节 线性回归模型的估计
第三节
拟合优度
第四节 非线性关系的处理 第五节 假设检验
第六节 预测
第七节 虚拟变量
第一节 线性回归模型的概念
一、 双变量线性回归模型 我们在上一章给出的需求函数的例子 Q =α+βP + u (2.1) 是一个双变量线性回归模型,模型中只有两个变量, 一个因变量,一个解释变量,由解释变量的变动来解 释因变量的变动,或者说用因变量对解释变量进行线 性回归,因而称为双变量线性回归模型,亦称简单线 性回归模型。
ˆ y 33.73 0.516 x
这种趋势及回归方程表明父亲平均身高x每增加一 个单位时,其成年儿子的身高y也平均增加0.516个单 位。
21
这个结果表明,虽然高个子父辈确有生高个子儿 子的趋势,但父辈身高增加一个单位,儿子身高仅 增加半个单位左右。平均说来,一群高个子父辈的 儿子们的平均高度要低于他们父辈的平均高度。 低个子父辈的儿子们虽然仍为低儿子,平均身高 却比他们的父辈增加了,也就是说,子代的平均身 高没有比他们的父辈更低。 正是因为子代的身高有回归到父辈平均身高的这 种趋势,才使人类的身高在一定时间内相对稳定, 没有出现父辈个子高其子女更高,父辈个子低其子 女更低的两极化现象。
22
这个例子生动地说明了生物学中“种”的概念 的稳定性。正是为了描述这种有趣的现象, Galton引进了“回归”这个名词来描述父辈身高x 与子代身高y的关系。 尽管“回归”这个名称的由来具有特定的含义 ,人们在研究大量的问题中变量x与y之间的关系 并不具有这种“回归”的含义,但借用这个名词 把研究变量x与y之间统计关系的数学方法称为“ 回归”分析。
20
1. F.Gallton关于父辈身高与子辈身高之间关系的研 究 1889年F.Gallton和他的学生、现代统计学的奠基者 之一K.Pearson(1856-1911)收集了1078个家庭的身
高、臂长和腿长的记录。企图寻找出儿子身高与父亲身高 之间关系的具体表现形式。在观看散点图时,发现近乎于 一条直线。计算出的回归直线方程为:
R 2 0.99
Y和X的计量单位为10亿美元 (按1972不变价格计算).
P 食品价格平减指数 100,( 1972 100) 总消费支出价格平减指数
9
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升10 亿美元(1个billion),食品消费支出增加1.12亿 元(0.112个 billion)。
(6)各解释变量之间不存在严格的线性关系。
上述假设条件可用矩阵表示为以下四个条件:
16
A1. E(u)=0 A2. E (uu) 2 I n
由于
u1 u2 uu u1 u2 ... u n
2
u12 u1u2 ...... u1un 2 u2u1 u2 ...... u2un ... un ................................. 2 unu1 unu2 ...... un
11
其矩阵形式为: Y X u
其中
Y1 Y2 Y ... Y n
1 X 11 1 X 12 X ... ... 1 X 1n
... X K 1 ... X K 2 ... ... ... X Kn
例2.2
食品需求方程
Y β 0 β 1 X β 2 P u
其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数 用美国1959-1983年的数据,得到如下回归结果(括号中数 字为标准误差):
ˆ Y 116.7 0.112 X 0.739 P (9.6) (0.003) (0.114)
27
最小二乘法就是选择一条直线,使其残差平方和 ˆ 达到最小值的方法。即选择 α和 ,使得
ˆ S et (Yt Yt ) 2
2
ˆ ˆ (Yt X t ) 2
达到最小值。
28
运用微积分知识,使上式达到最小值的必要条件为:
S S 0 ˆ ˆ
第二部分,et 代表观测点对于回归线的误差,称 为拟合或预测的残差 (residuals):
ˆ et Yt Yt

t=1,2,……,n t=1,2,……,n
ˆ ˆ et Yt X t
26
如何决定估计值 和 ? 残差平方和
我们的目标是使拟合出来的直线在某种 意义上是最佳的,直观地看,也就是要求估 计直线尽可能地靠近各观测点,这意味着应 使各残差尽可能地小。要做到这一点,就必 须用某种方法将每个点相应的残差加在一起, 使其达到最小。理想的测度是残差平方和, 2 即 ˆ et (Yt Yt ) 2
让我们再看一个例子。 C =α+βD + u (2.2) 这是凯恩斯消费函数,其中C为消费支出,D为 个人可支配收入,u为扰动项(或误差项)。 此模型中,方程左端的消费支出(C)为因变 量(或被解释变量),方程右端的个人可支配收入 (D)为解释变量(或自变量)。α和β是未知参数, 由于双变量线性回归模型的图形是一条直线,因而 α和β习惯上又分别称为截距和斜率。
23
(二)最小二乘原理 1. 一元线性回归模型的最小二乘估计 我们的任务是, 在给定X和Y的一组观测值 (X1, Y1), (X2, Y2) , ..., (Xn, Yn) 的情况下, 如何 求出
Yt = + Xt + ut 中 和 的估计值,使得拟 合的直线为最佳。 直观上看,也就是要求在X和Y的散点图上穿过 各观测点画出一条“最佳”直线,如下图所示。

S ˆ ˆ 2(1)(Yt X t ) 0 ˆ S ˆ ˆ 2( X t )(Yt X t ) 0 ˆ
5
在教学中,我们习惯上采用Y表示因变量,X表示 解释变量,双变量线性回归模型的一般形式为: Y =α+βX + u 在实践中,此模型被应用于因变量和解释变量的一组 具体观测值 Yt 和 x t(t=1,2,…,n),因而模型表示为 :
Yt xt ut
t 1,2,...,n
(2.3)
0 u1 1 , u u2 2 ... ... u n K
12
第二节 线性回归模型的估计
一、经典线性回归模型的统计假设
(1)E(ut)=0,
t=1,2,…,n 即各期扰动项的均值(期望值)均为0。均值为 0的假设反映了这样一个事实:扰动项被假定为对 因变量的那些不能列为模型主要部分的微小影响。 没有理由相信这样一些影响会以一种系统的方式使 因变量增加或减小。因此扰动项均值为0的假设是 合理的。
(6) 两 条
满足条件(A1)—(A4)的线性回归模型称为经 典线性回归模型或古典线性回归模型(CLR模型)。 当然,为了后面区间估计和假设检验的需要,还 要加上一条:
A5.各期扰动项服从正态分布。
u t ~ N (0, 2 )
,t=1,2,…n
18
满足基本要求的样本容量
从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定 一般经验认为: 当n30或者至少n3(k+1)时,才能说满足 模型估计的基本要求。
收入不变的情况下,价格指数每上升一个点, 食品消费支出减少7.39亿元(0.739个billion)
10
回到一般模型
Yt β 0 β 1 X 1t β 2 X 2t ... β k X kt u t
t=1,2,… ,n 即对于n组观测值,有
Y1 β 0 β 1 X 11 β 2 X 21 β 3 X 31 ... β K X K 1 u1 Y2 β 0 β 1 X 12 β 2 X 22 β 3 X 32 ... β K X K 2 u2 ...... Yn β 0 β 1 X 1n β 2 X 2 n β 3 X 3n ... β K X Kn un
模型的良好性质只有在大样本下才能 得到理论上的证明
19
二、最小二乘估计
(一)关于最小二乘法的历史回顾 最小二乘法最早称为回归分析法。由著名的英国 生物学家、统计学家道尔顿(F.Gallton,1822-1911) 。早年,道尔顿致力于化学和遗传学领域的研究。道 尔顿研究英国男子中父亲们的身高与儿子们的身高之 间的关系时,创立了回归分析法。
t=1,2,…,n 在这个模型中,Y由X1、X2、X3、… XK所解释, 有K+1个未知参数β 0、β 1、β 2、…β K 。
这里,“斜率”β j 的含义是 其它变量不变的情况 下,Xj改变一个单位对因变量所1 X 1t β 2 X 2t ... β k X kt u t
它表明,对于n个时期t =1,2,…,n,该模型成立。
6
更一般的形式为:
Yi xi ui
i 1,2,...,n
(2.4)
即模型对X和Y的n对观测值(i=1,2,…,n)成立。 (2.3)式一般用于观测值为时间序列的情形,在横 截面数据的情形,通常采用(2.4) 式。
7
二、 多元线性回归模型 在许多实际问题中,我们所研究的因变量的变动 可能不仅与一个解释变量有关。因此,有必要考虑 线性模型的更一般形式,即多元线性回归模型:
13
(2)E(ui uj)=0, i≠j 即各期扰动项互不相关。也就是假定它们之间无 自相关或无序列相关。 实际上该假设等同于: cov( ui, uj) = 0, i≠j 这是因为: cov(ui, uj) = E{[ui - E(ui)][uj - E(uj)]} = E(uiuj) ——根据假设(1)
4
这里斜率β的含义是解释变量增加一个单位所引起 的因变量的变动。例如在(2.2)式中,β的含义是个人可 支配收入增加一个单位所引起的消费的增加量,经济 学中称之为边际消费倾向(MPC)。截距α的含义是 解释变量为0时α的值。截距α有时有经济含义,但大 多数情况下没有,因此,在计量经济分析中,通常不 大关注α的取值如何。
14
(3)E(ut2)=σ2, t=1,2,…,n 即各期扰动项的方差是一常数,也就是假定各 扰动项具有同方差性。 这是因为: Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设(1)
15
(4)Xjt是非随机量, j=1,2, … k
t=1,2, … n
(5)(K+1)< n; 即观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。
相关文档
最新文档