第三章多元线形回归模型)
多元线性回归模型
本节重点内容
1.多元线性回归模型一般形式 2.偏回归系数的含义 3.多元线性回归模型的基本假设(与一元
相比,多元的基本假设的不同点)
多元线性回归模型的一般形式
• P72例3.2.2:考虑2006年中国内地城镇居民家 庭全年人均消费支出与人均可支配收入及其上 一年人均消费支出的关系
总体回归模型——一般采用的形式
• 总体回归模型:总体回归函数的随机表达形式
Y 0 1X1 2 X2 k X k
该模型表示Y可表现为对总体均值的波动。源自样本回归函数与样本回归模型
• 从一次抽样中获得的总体回归函数的近似,称为样 本回归函数(sample regression function)。
3. 理解以一元为基础,注意多元中出现的新概 念及其与一元的不同点。
本章内容
• 多元线性回归模型概述 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 可化为线性的非线性模型 • 受约束回归 • 注:本章矩阵表述部分不涉及
§3.1 多元线性回归模型概述 (Regression Analysis)
• 样本回归函数:
Yˆ ˆ0 ˆ1X1 ˆ2 X2
• 样本回归模型: Y ˆ0 ˆ1X1 ˆ2X2 e
总体回归函数
• 总体回归函数:描述在给定解释变量X条件下 被解释变量Y的条件均值。
E(Y | X1, X 2, X k ) 0 1X1 2 X 2 k X k
k为解释变量的数目(采用此说法)。 习惯上,把常数项看成为虚变量的系数,该虚 变量的样本观测值始终取1。 于是,模型中解释变量的数目为(k+1)。
• 多元模型(二元) • PRF-某类家庭人均消费支出与两个相关因素之
第三章 多元线性回归模型
即
Y Xb U
X 称为数据矩阵或设计矩阵。
6
二、古典假定
假定1:零均值假定 E(ui ) 0 (i 1,2,...,n)
1 E ( 1 ) E ( ) 2 2 E (μ) E 0 n E ( n )
写成矩阵形式:
Y1 1 X 21 Y 1 X 22 2 Yn 1 X 2 n X 31 X k 1 b 1 u1 X 32 X k 2 b 2 u 2 X 3 n X kn b k un
或
ei 1 X 21 X e 1 X 22 2i i X ki ei 1 X 2 n X 31 X k 1 e1 X 32 X k 2 e2 X e 0 X 3 n X kn en
9
当总体观测值难于得到时,回归系数向 量 b 是未知的,这时可以由样本观测值进行 估计,可表示为
ˆ ˆ Xb Y
但实际观测值与计算值有偏差,记为:
ˆ e Y Y
于是
ˆ e Y Xb
称为多元样本回归函数。
10
ˆ b 1 ˆ b2 ˆ b ˆ b k
同理
ˆ x x b ˆ x 2 x3 i yi b 2 2i 3i 3 3i
x2 i yi x x3 i yi x2 i x3 i ˆ b2 2 2 2 x2 x ( x x ) i 3i 2i 3i
2 3i
x3 i yi x x2 i yi x2 i x3 i ˆ b3 2 2 2 x2 x ( x x ) i 3i 2i 3i
第三章多元线性回归模型(计量经济学,南京审计学院)
Yˆ 116.7 0.112X 0.739P
R2 0.99
(9.6) (0.003) (0.114)
Y和X的计量单位为10亿美元 (按1972不变价格计算).
P
食品价格平减指数 总消费支出价格平减指数
100,(1972
100)
3
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升10
c (X X )1 X D
从而将 的任意线性无偏估计量 * 与OLS估计量 ˆ 联系
起来。
28
cX I
由
可推出:
(X X )1 X X DX I
即 I DX I
因而有 D X 0
cc (X X )1 X D (X X )1 X D ( X X )1 X D X ( X X )1 D
第三章 多元线性回归模型
简单线性回归模型的推广
1
第一节 多元线性回归模型的概念
在许多实际问题中,我们所研究的因变量的变动 可能不仅与一个解释变量有关。因此,有必要考虑线 性模型的更一般形式,即多元线性回归模型:
Yt β0 β1X1t β2 X 2t ... βk X kt ut t=1,2,…,n
Yt
ˆ0
βˆ 1
X
1t
... βˆ K X Kt
2
为最小,则应有:
S
S
S
ˆ0 0, ˆ1 0, ..., ˆ K 0
我们得到如下K+1个方程(即正规方程):
13
β0 n
β1 X1t ...... β K X Kt Yt
β 0 X 1t β1 X 1t 2 ...... β K X 1t X Kt X 1tYt
第三章 多元线性回归模型
ˆ β1 ˆ ˆ = β2 β M ˆ βk
βˆ ——未知参数的 k × 1 阶估计值列向量; 阶估计值列向量; 阶列向量。 e ——残差项的 n × 1 阶列向量。
ˆ Y ——被解释变量样本观测值的 n × 1阶拟合值列向量; 阶拟合值列向量;
总体回归函数 样本回归函数
多元线性样本回归模型矩阵表达式: 多元线性样本回归模型矩阵表达式: 估计的样本回归方程矩阵表达式: 估计的样本回归方程矩阵表达式:
ˆ Y = Xβ + e ˆ ˆ Y = Xβ
e1 e 2 e= M en
其中
ˆ Y 1 ˆ ˆ = Y2 Y M ˆ Yn
Var(U ) = E[(U − EU)(U − EU)′] = E(UU ′)
u1 u12 u 2 u 2 u1 ( u1 , u 2 , L , u n ) = E = E M M u u n u1 n E (u12 ) E ( u 2 u1 ) = M E ( u n u1 ) σ 2 0 = M 0 0 E (u1u 2 )
Yi = β1 + β 2 X 2 i + β 3 X 3i + ... + β k X ki + ui
模型中参数 β j 为 是偏回归系数, ( j = 2,3,L, k)是偏回归系数,样本容量
n
偏回归系数:控制其它解释量不变的条件下, 偏回归系数:控制其它解释量不变的条件下,第 个解释变量的单位变动对应变量平均值的影响。 j 个解释变量的单位变动对应变量平均值的影响。
M
Yn = β1 + β2 X2n + β3 X3n + ... + βk Xkn + un
第三章 多元线性回归模型 知识点
第三章 多元线性回归模型一、知识点列表二、关键词1、多元线性回归模型的代数和矩阵表示形式 关键词: 多元线性总体回归模型多元线性总体回归模型是指被解释变量y 与多个解释变量12,,,n x x x 之间具有线性关系,是解释变量的多元线性函数。
可以表达为:01122(1,2,3,,)i i i k ki iy x x x i n ββββμ=++++=多元线性回归模型相对于一元线性回归模型来说,其解释变量较多,因而计算公式比较复杂。
必要时需要借助计算机来进行。
2、多元线性回归模型的基本假设 关键词: 线性于参数总体回归模型是关于参数是线性的,因此称其为线性于参数。
关键词:完全共线性在样本中,没有一个自变量是常数,自变量之间也不存在严格(完全)的线性关系。
如果方程中有一个自变量是其他自变量的线性组合,那么我们说这个模型遇到了完全共线性问题。
关键词:零条件数学期望给定解释变量的任何值,误差的期望值为零,即:12(|,,,)0n E u x x x =。
关键词:内生解释变量和外生解释变量如果解释变量满足零条件数学期望,则称该自编为内生解释变量;反之,则为外生解释变量。
关键词:同方差对于解释变量的所有观测值,随机误差项有相同的方差,即:22()(),(1,2,3,,)i i Var u E u i n δ===关键词:无序列相关性随机误差项两两不相关。
即(,)(,)0,(,,1,2,3,,)i i i i Cov u u E u u i j i j n ==≠=关键词:最优线性无偏估计量满足以下假设条件的OLS 估计量称为最优线性无偏估计量:(1)线性与参数;(2)X 固定;(3)X 有变异;(4)不存在完全共线性;(5)零条件数学期望;(6)同方差;(7)无序列相关性。
关键词:经典正态线性回归模型如果回归模型的OLS 估计量为最优线性无偏估计量,并且随机误差项u 服从均值为零,方差为2δ的正态分布,则称该线性回归模型为经典正态线性回归模型。
多元线性回归模型
第二节 多元线性回归模型的参数估计
一、多元线性回归参数的最小二乘估计
二、最小二乘估计量的数值性质
三、最小二乘估计量的统计性质
四、参数的估计误差与置信区间
二 、最小二乘估计量的数值性质
ˆ ˆ ˆ 1.样本均值点在样本平面上,即Y 0 1 X 1 2 X 2
2.剩余项(残差)ei的均值为零,即 e
另外两个要求 假定8:无设定偏误,模型被正确地设定。
假定9:解释变量之间不存在完全共线性,没有精确的线性
关系。
三、多元线性回归模型的基本假定
无多重共线性假定: 各解释变量之间不存在严格的线性关系,或者说各解
释变量之间线性无关;亦即解释变量之间不存在精确的线
性关系,即是说不存在一列不全为0的数 1 , 2 , , k , 能使下式成立:
其中,残差项ei是随机扰动项ui的估计。
二 、样本线性回归模型
特别地,当K=2时,二元线性样本回归函数为
ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i
二元线性样本回归模型为:
ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ei
2 ei ˆ X X ) 0 2X 2i Yi ( 0 1 1i 2 2i ˆ 2
e i 0 ei X 1i 0 e i X 2 i 0
2.化简得正规方程
ˆ ˆ ˆ n 0 X 1i X 2i Y i
四、参数的估计误差与置信区间
三、最小二乘估计量的统计性质
在古典线性回归模型的基本假定下,一元线性回 归模型的OLS估计量是最优线性无偏估计量,这个性
第三章多元线性回归模型(stata)
一、邹式检验(突变点检验、稳定性检验)1.突变点检验1985—2002年中国家用汽车拥有量(t y ,万辆)与城镇居民家庭人均可支配收入(t x ,元),数据见表。
表 中国家用汽车拥有量(t y )与城镇居民家庭人均可支配收入(t x )数据年份 t y (万辆) t x (元)年份 t y (万辆) t x (元)1985 1994 1986 1995 4283 1987 1996 1988 1997 1989 1998 1990 1999 5854 1991 2000 6280 1992 2001 19932002下图是关于t y 和t x 的散点图:从上图可以看出,1996年是一个突变点,当城镇居民家庭人均可支配收入突破元之后,城镇居民家庭购买家用汽车的能力大大提高。
现在用邹突变点检验法检验1996年是不是一个突变点。
:两个字样本(1985—1995年,1996—2002年)相对应的模型回归参数相等HH:备择假设是两个子样本对应的回归参数不等。
1在1985—2002年样本范围内做回归。
在回归结果中作如下步骤(邹氏检验):1、 Chow 模型稳定性检验(lrtest)用似然比作chow检验,chow检验的零假设:无结构变化,小概率发生结果变化* 估计前阶段模型* 估计后阶段模型* 整个区间上的估计结果保存为All* 用似然比检验检验结构没有发生变化的约束得到结果如下;(如何解释)2.稳定性检验(邹氏稳定性检验)以表为例,在用1985—1999年数据建立的模型基础上,检验当把2000—2002年数据加入样本后,模型的回归参数时候出现显著性变化。
* 用F-test作chow间断点检验检验模型稳定性* chow检验的零假设:无结构变化,小概率发生结果变化* 估计前阶段模型* 估计后阶段模型* 整个区间上的估计结果保存为All* 用F 检验检验结构没有发生变化的约束*计算和显示 F 检验统计量公式,零假设:无结构变化然后 dis f_test 则 得到结果;* F 统计量的临界概率然后 得到结果* F 统计量的临界值然后 得到结果(如何解释)二、似然比(LR )检验有中国国债发行总量(t DEBT ,亿元)模型如下:0123t t t t t DEBT GDP DEF REPAY u ββββ=++++其中t GDP 表示国内生产总值(百亿元),t DEF 表示年财政赤字额(亿元),t REPAY 表示年还本付息额(亿元)。
第三章多元线性回归模型
第三章 多元线性回归模型一、名词解释1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数2R :又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程度的统计量,克服了2R 随解释变量的增加而增大的缺陷,与2R 的关系为2211(1)1n R R n k -=----。
3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。
4、正规方程组:采用OLS 方法估计线性回归模型时,对残差平方和关于各参数求偏导,并令偏导数为0后得到的方程组,其矩阵形式为ˆX X X Y β''=。
5、方程显著性检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断。
二、单项选择题1、C :F 统计量的意义2、A :F 统计量的定义3、B :随机误差项方差的估计值1ˆ22--=∑k n e iσ4、A :书上P92和P93公式5、C :A 参看导论部分内容;B 在判断多重共线等问题的时候,很有必要;D 在相同解释变量情况下可以衡量6、C :书上P99,比较F 统计量和可决系数的公式即可7、A :书P818、D :A 截距项可以不管它;B 不考虑beta0;C 相关关系与因果关系的辨析 9、B :注意!只是在服从基本假设的前提下,统计量才服从相应的分布10、D :AB 不能简单通过可决系数判断模型好坏,还要考虑样本量、异方差等问题;三、多项选择题1、ACDE :概念性2、BD :概念性3、BCD :总体显著,则至少一个参数不为04、BC :参考可决系数和F 统计量的公式5、AD :考虑极端情况,ESS=0,可发现CE 错四、判断题、 1、√2、√3、×4、×:调整的可决系数5、√五、简答题 1、 答:多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更为复杂。
3 多元线性回归模型
经济问题的复杂性
几乎所有的经济问题,影响因素都不止一个。 例如:房地产价格的影响因素 收入水平、地价、建筑成本、地段、预期、政策因素、 贷款利率、性别比、丈母娘需求、别的投资渠道是否 顺畅等等。 再如:某只股票的价格 所属行业、盈利水平、知名度、国家政策、交易费率、 发行量、银行存款利率、国家整体发展情况、重大人 事变动等等。
总体回归函数:
E(Y) = β + βX + βX + ...+ β X 0 1 1 2 2 k k
或
E(Yi ) = β + βX + βX + ...+ β X 0 1 1i 2 2i k ki
E(Y1 ) = β + βX +β X + ...+ β X 0 1 11 2 21 k k1 + βX +β X + ...+ β X E(Y2 ) = β 0 1 12 2 22 k k2 E(Y ) = β + βX + β X + ...+ β X n 0 1 1n 2 2n k kn
Y1 Y 2 令 Y = Y N
1X 11X 21 X k 1 1X 12 X 22 X k 2 X β= 1X X X 1n 2n kn
β 0 β 1 β k
1 E(Y1 ) 总体回归模型: 2 E (Y2 ) Y = Xβ + = E(Y) = 总体回归函数: E(Y ) n N E(Y) = Xβ
样本回归模型:
计量经济学 詹姆斯斯托克 第3章 多元线性回归模型
i 2 i
10 21500 21500 53650000
1 X Y X1
1 X2
Y1 1 Y2 Yi 15674 X n X iYi 39468400 Yn
i i
638 1122 1155 1408 1595 1969 2078 2585 2530
ˆ 1
x y x
2 i
5769300 0.777 7425000
ˆ Y ˆ X 1567 0.777 2150 103 .172 0 0
因此,由该样本估计的回归方程(样本回归函数) 为:
i 1
n
2
ˆ ˆ X ˆ X ˆ X ))2 Q (Yi ( 0 1 1i 2 2i k ki
i 1
n
于是得到关于待估参数估计值的正规方程组:
ˆ ˆ X ˆ X ˆ X ) Y ( 0 1 1i 2 2i k ki i ˆ ˆ X ˆ X ˆ X ) X Y X ( 0 1 1i 2 2i k ki 1i i 1i ˆ ˆ X ˆ X ˆ X ) X Y X ( 0 1 1i 2i 2i k ki 2i i 2i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2 i k X ki ) X ki Yi X ki
习惯上:把常数项看成为一个虚变量的系 数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k +1)。
Yi 0 1 X 1i 2 X 2 i k X ki i
也被称为 总体回归函数 的 随机表达形式 。它的 非随机表达式为:
多元线性回归模型
2 i= j
0 (i j )
Cov( X ji , ui ) 0
j 2,3,, k
假定5:无多重共线性假定
(多元特有)
假定各解释变量之间不存在线性关系,或各个
解释变量观测值之间线性无关。或解释变量观
测值矩阵 X列满秩(k 列)。
Rank ( X ) k
即 X X 可逆 假定6:正态性假定
Rank ( X X ) K
ui ~ N (0, σ )
2
第二节 多元线性回归模型的估计
本节基本内容:
● 普通最小二乘法(OLS) ● OLS估计式的性质
2 ● OLS估计的分布性质
● 随机扰动项方差 的估计
● 回归系数的区间估计
一、普通最小二乘法(OLS)
Y 的总体条件均值表示为多个解释变量的函数
E(Yi X 2i , X 3i ,..., X ki ) 1 2 X 2i 3 X3i ... k X ki
总体回归函数也可表示为:
Yi 1 2 X 2i 3 X 3i ... k X ki ui
Y
Y
n 1
矩阵形式
X
nk
β
k 1
Y X U
u
n 1
总体回归函数 E(Y) = Xβ ˆ 样本回归函数 Y ˆ = Xβ
或 Y = Xβ + u ˆ +e 或 Y = Xβ
ˆ 其中: 都是有 n 个元素的列向量 Y,Y,u,e
ˆ 是有 k 个元素的列向量 β, β
X 是第一列为1的n
取值为1)
二、多元线性回归中的基本假定
假定1:零均值假定 E(ui ) 0 ( i 1,2,, n) 或
第三章多元线性回归模型(stata)
第三章多元线性回归模型(stata)⼀、邹式检验(突变点检验、稳定性检验)1.突变点检验1985—2002年中国家⽤汽车拥有量(t y ,万辆)与城镇居民家庭⼈均可⽀配收⼊(t x ,元),数据见表。
表中国家⽤汽车拥有量(t y )与城镇居民家庭⼈均可⽀配收⼊(t x )数据年份 t y (万辆) t x (元)年份 t y (万辆) t x (元)1985 1994 1986 1995 4283 1987 1996 1988 1997 1989 1998 1990 1999 5854 1991 2000 6280 1992 2001 19932002下图是关于t y 和t x 的散点图:从上图可以看出,1996年是⼀个突变点,当城镇居民家庭⼈均可⽀配收⼊突破元之后,城镇居民家庭购买家⽤汽车的能⼒⼤⼤提⾼。
现在⽤邹突变点检验法检验1996年是不是⼀个突变点。
:两个字样本(1985—1995年,1996—2002年)相对应的模型回归参数相等HH:备择假设是两个⼦样本对应的回归参数不等。
1在1985—2002年样本范围内做回归。
在回归结果中作如下步骤(邹⽒检验):1、 Chow 模型稳定性检验(lrtest)⽤似然⽐作chow检验,chow检验的零假设:⽆结构变化,⼩概率发⽣结果变化* 估计前阶段模型* 估计后阶段模型* 整个区间上的估计结果保存为All* ⽤似然⽐检验检验结构没有发⽣变化的约束得到结果如下;(如何解释)2.稳定性检验(邹⽒稳定性检验)以表为例,在⽤1985—1999年数据建⽴的模型基础上,检验当把2000—2002年数据加⼊样本后,模型的回归参数时候出现显著性变化。
* ⽤F-test作chow间断点检验检验模型稳定性* chow检验的零假设:⽆结构变化,⼩概率发⽣结果变化* 估计前阶段模型* 估计后阶段模型* 整个区间上的估计结果保存为All* ⽤F 检验检验结构没有发⽣变化的约束*计算和显⽰ F 检验统计量公式,零假设:⽆结构变化然后 dis f_test 则得到结果;* F 统计量的临界概率然后得到结果* F 统计量的临界值然后得到结果(如何解释)⼆、似然⽐(LR )检验有中国国债发⾏总量(t DEBT ,亿元)模型如下:0123t t t t t DEBT GDP DEF REPAY u ββββ=++++其中t GDP 表⽰国内⽣产总值(百亿元),t DEF 表⽰年财政⾚字额(亿元),t REPAY 表⽰年还本付息额(亿元)。
计量经济学第三章第3节多元线性回归模型的显著性检验
当增加一个对被解释变量有较大影响的解释变量时, 残差平方和减小的比n-k-1 减小的更显著,拟合优度 就增大,这时就可以考虑将该变量放进模型。 如果增加一个对被解释变量没有多大影响的解释变量, 残差平方和减小没有n-k-1减小的显著,拟合优度会减 小,其说明模型中不应该引入这个不重要的解释变量, 可以将其剔除。
在对话框中输入:
y c x y(-1)
y c x y(-1) y(-2)
字母之间用空格分隔。 注:滞后变量不需重新形成新的时间序列,软件 自动运算实现,k期滞后变量,用y(-k)表示。
• 使用k期滞后变量,数据将损失k个样本观察值, 例如:
序号 2000 2001 2002 2003 2004 2005 2006 2007 2008 y 3 4 5 6 7 8 9 10 11 Y(-1) Y(-2) Y(-3)
2
2
2
*赤池信息准则和施瓦茨准则
• 为了比较所含解释变量个数不同的多元回归模型的 拟合优度,常用的标准还有: 赤池信息准则(Akaike information criterion, AIC) e e 2( k 1) AIC ln n n 施瓦茨准则(Schwarz criterion,SC)
一元、二元模型的系数均大于0,符合经济意义,三元模型 系数的符号与经济意义不符。 用一元回归模型的预测值是1758.7,二元回归模型的预测值 是1767.4,2001年的实际值是1782.2。一元、二元模型预测 的绝对误差分别是23.5、14.8。
3) 三个模型的拟合优度与残差
二元:R2 =0.9954,E2 ei2 13405 三元:R2 =0.9957,E3 ei2 9707
746.5 788.3
[整理版]第三章多元线性回归模型
第三章 多元线性回归模型一、名词解释1、多元线性回归模型2、调整的决定系数2R3、偏回归系数4、正规方程组5、方程显著性检验二、单项选择题1、在模型0112233t t t t t Y X X X ββββμ=++++的回归分析结果中,有462.58F =,0.000000F p =的值,则表明 ( )A 、解释变量2t X 对t Y 的影响不显著B 、解释变量1t X 对t Y 的影响显著C 、模型所描述的变量之间的线性关系总体上显著D 、解释变量2t X 和1t X 对t Y 的影响显著2、设k 为回归模型中的实解释变量的个数,n 为样本容量。
则对回归模型进行总体显著性检验(F 检验)时构造的F 统计量为 ( )A 、(1)ESS k F RSS n k =-- B 、(1)()ESS k F RSS n k -=-C 、ESS F RSS =D 、1RSSF TSS=-3、已知二元线性回归模型估计的残差平方和为2800ie=∑,估计用样本容量为23n =,则随机误差项t μ的方差的OLS 估计值为 ( )A 、33.33B 、 40C 、 38.09D 、36.364、在多元回归中,调整后的决定系数2R 与决定系数2R 的关系为 ( )A 、22R R <B 、22R R >C 、22R R =D 、2R 与2R 的关系不能确定5、下面说法正确的有 ( )A 、时间序列数据和横截面数据没有差异B 、对回归模型的总体显著性检验没有必要C 、总体回归方程与样本回归方程是有区别的D 、决定系数2R 不可以用于衡量拟合优度6、根据调整的可决系数2R 与F 统计量的关系可知,当21R =时,有 ( )A 、F=0B 、F=-1C 、F →+∞D 、F=-∞7、线性回归模型的参数估计量ˆβ是随机向量Y 的函数,即1ˆ()X X X Y β-''=。
ˆβ是 ( )A 、随机向量B 、非随机向量C 、确定性向量D 、常量8、下面哪一表述是正确的 ( )A 、线性回归模型01i i i Y X ββμ=++的零均值假设是指110ni i n μ==∑B 、对模型01122i i i i Y X X βββμ=+++进行方程显著性检验(即F 检验),检验的零假设是0012:0H βββ===C 、相关系数较大意味着两个变量存在较强的因果关系D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系9、对于01122ˆˆˆˆi i i k ki iY X X X e ββββ=+++++…,如果原模型满足线性模型的基本假设则在零假设0j β=下,统计量ˆˆ()j j s ββ(其中ˆ()js β是j β的标准误差)服从 ( )A 、()t n k -B 、(1)t n k --C 、(1,)F k n k --D 、(,1)F k n k --10、下列说法中正确的是 ( )A 、如果模型的R 2很高,我们可以认为此模型的质量较好B 、如果模型的R 2很低,我们可以认为此模型的质量较差C 、如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 、如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量三、多项选择题1、残差平方和是指 ( )A 、随机因素影响所引起的被解释变量的变差B 、解释变量变动所引起的被解释变量的变差C 、被解释变量的变差中,回归方程不能作出解释的部分D 、被解释变量的总离差平方和回归平方之差E 、被解释变量的实际值与拟合值的离差平方和2、回归平方和是指 ( )A 、被解释变量的观测值i Y 与其均值Y 的离差平方和B 、被解释变量的回归值ˆiY 与其均值Y 的离差平方和C 、被解释变量的总体平方和2i Y ∑与残差平方和2i e ∑之差D 、解释变量变动所引起的被解释变量的离差的大小E 、随机因素影响所引起的被解释变量的离差大小3、对模型满足所有假定条件的模型01122i i i i Y X X βββμ=+++进行总体显著性检验,如果检验结果总体线性关系显著,则很可能出现 ( )A 、120ββ==B 、120,0ββ≠=C 、120,0ββ≠≠D 、120,0ββ=≠E 、120,0ββ==4、设k 为回归模型中的参数个数(包含截距项)则总体线性回归模型进行显著性检验时所用的F 统计量可以表示为 ( )A 、22ˆ()/(1)/i i iY Y n k e k---∑∑ B 、22ˆ()//(1)iiiY Y k e n k ---∑∑C 、22/(1)/(1)R kR n k --- D 、22(1)/(1)/R n k R k ---E 、22/(1)(1)/R n k R k---5、在多元回归分析中,调整的可决系数2R 与可决系数2R 之间 ( )A 、22R R <B 、22R R ≥C 、2R 只可能大于零D 、2R 可能为负值E 、2R 不可能为负值四、判断题1、满足基本假设条件下,样本容量略大于解释变量个数时,可以得到各参数的唯一确定的估计值,但参数估计结果的可靠性得不到保证 ( )2、在多元线性回归中,t 检验和F 检验缺一不可。
三章多元线回归模型
X 11 X 12
X 1n
X 21
X 22
X 2n
X k1
X k2
X kn
u1
U
u
2
u n
二. 参数估计(OLS)
参数值估计 参数估计量旳性质 偏回归系数旳含义 正规方程 样本容量问题
1.参数值估计(OLS)
e n
Q
n
2
i
yi
2
yˆi
i 1
i 1
n
Q (Y BˆX )(Y XBˆ )
(Y Y Y XBˆ BˆX Y BˆX XBˆ ) 为什么Y XBˆ BˆX Y ?
Y Y 2BˆX Y BˆX XBˆ
Q Bˆ
0
X Y X XBˆ 0
Bˆ X X 1 X Y
ˆ 2 ee n k 1
2.1最小二乘估计量旳性质
多元模型旳矩阵体现式
Y 1 1
Y
2
1
Y n 1
X 11 X 12
X 1n
X 21
X 22
X 2n
XXX bbbb uuu
k1 k2
kn
0
1 2
k
1
2
n
Y XB U
矩阵形式
Y XB U
Y 1
Y
Y 2
Y n
b0
b1
B
b2
bk
1
X
1
1
0
bˆ
1
bˆ2
Y
X
i
Y
1i i
X 2 ki
bˆk
X
Y
ki i
正规方程
矩阵形式
n
X
第三章多元线性回归模型
( k + 1 )×1
1 2 μ= M n n ×1
用来估计总体回归函数的样本回归函数 : 样本回归函数为: 样本回归函数
Yi = β 0 + β1 X1i + β 2 X 2i + L+ β ki X ki
样本观测值: 样本观测值:
Yi = β0 +β1X1i +β2 X2i +L+βkiXki +ei
b10、 β1的经济涵义、先验符号?
例1 “期望扩充”菲利普斯曲线
估计结果
原始菲利普斯曲线
yt = 6.127172+ 0.244934x1t se : 4.285283 0.630456 t : 1.429817 0.388502 p : 0.180552 0.705058 R2 = 0.013536 F = 0.150934 p( F ) = 0.705058
1i 2 i 2 1i
2 2i
对有k 对有k个解释变量的多元回归模型
, 对于随机抽取的n组观测值 (Yi , X ji ),i =1,2,L n, j = 0,1,2,Lk
如果样本函数 样本函数的参数估计值已经得到,则有: 样本函数
Yi = β 0 + β 1 X 1i + β 2 X 2i + L + β ki X Ki
n n
n
i=1,2…n
2
Q = ∑ei2 = ∑(Yi Yi )2 = ∑(Yi (β0 + β1X1i + β2 X2i +L+ βk Xki ))
i =1 i=1
i=1
根据最小二乘原理 最小二乘原理, 最小二乘原理 参数估计值应该是右列 方程组的解
第三章 多元回归模型
r0i,12i1i1k
r r r 0i,12i1i1k 1 0k ,12k 1 ik ,12i1i1k 1
1 r02k,12k1
1
r2
ik ,12i1i1k
1
问题:在多元回归中 r12(i1)(i1)k ,0 是越大越好,
还是越小越好?
17
模型显著性检验(F检验): F统计量
核心思想:残差平方和最小准则
min ei2 min yi yˆi 2
min yi ˆ0 ˆ1x1i ˆ2x2i ˆk xki 2
求解原理
ei2
ˆ j
0
结论
j 0,1,2,, k
ˆ X ' X 1 X 'Y
8
例子
经过研究,发现家庭书刊消费水平受家庭 收入及户主教育年数的影响。现对某地区 的家庭进行抽样调查,得到的样本数据如 表所示,其中 y 表示家庭书刊消费水平
其中,n k 1为 ei2 的自由度,n 1 为 yi y2
的自由度
引入修正的样本决定系数R 2的作用:
用自由度调整后,可以消除拟合优度评价中解释变量多 少对决定系数计算的影响
对于包含的解释变量个数不同的模型,可以用调整后的 决定系数直接比较它们的拟合优度的高低,但不能用原 来未调整的决定系数来比较
零阶偏相关系数、一阶偏相关系数、k 1 阶偏相关系数
r01 为零阶偏相关系数、 r02,1 称为一阶偏相关系数、 r01,23 称
为二阶偏相关系数、r01,234 称为三阶偏相关系数,依此类推
16
偏相关系数:一般公式
一般地,在研究多个变量的偏相关系数时,因变量 y
与解释变量 xi i 1,2,, k 的k 1 阶偏相关系数时,
第3章 多元线性回归模型
TSS
TSS
该统计量越接近于1,模型的拟合优度越高。
问题:在应用过程中发现,如果在模型中增加一个解 释变量, R2往往增大(Why?)
因为残差平方和往往随着解释变量个数的增加而减少。
这就给人一个错觉:要使得模型拟合得好,只要增加 解释变量即可。—— 但是,现实情况往往是,由增加 解释变量个数引起的R2的增大与拟合好坏无关,因此在 多元回归模型之间比较拟合优度,R2 就不是一个合适 的指标,必须加以调整。
所以,在多元线性回归模型中,依然有
n
n
即
yi2 ([ Yˆi Y) ei ]2
i 1
i 1
n
n
n
(Yˆi Y)2 ei2 2 e(i Yˆi Y)
i 1
i 1
i 1
n
n
(Yˆi Y)2 ei2
i 1
i 1
(3-20)
TSS ESS RSS
(3-21)
可决系数
R 2 ESS 1 RSS
μ~ N(0, 2I)
假设5,回归模型的设定是正确的。
第二节 多元线性回归模型的 参数估计
任务
模型结构参数 0 、1、2 、L 、k 的估计
随机误差项的方差 2 的估计
方法
普通最小二乘法
内容
一、参数的普通最小二乘估计 二、参数的普通最小二乘估计量的性质 三、普通最小二乘样本回归函数性质 四、随机误差项的方差的普通最小二乘估计 五、样本容量问题
第三章 经典单方程计量经济学模型: 多元线性回归模型
• 多元线性回归模型 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测
§3.1 多元线性回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章、经典单方程计量经济学模型:多元线性回归模型一、内容提要本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。
主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。
只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。
本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。
与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。
本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。
这里需要注意各回归参数的具体经济含义。
本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。
参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。
检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。
参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。
它们仍以估计无约束模型与受约束模型为基础,但以最大似然原χ分布为检验统计量理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2的分布特征。
非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。
二、典型例题分析例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为..010++=-09436.0fedusibsmedu131.0edu210R2=0.214式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。
问(1)sibs是否具有预期的影响?为什么?若medu与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?(2)请对medu 的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少? 解答:(1)预期sibs 对劳动者受教育的年数有影响。
因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。
根据多元回归模型偏回归系数的含义,sibs 前的参数估计值-0.094表明,在其他条件不变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年,因此,要减少1年受教育的时间,兄弟姐妹需增加1/0.094=10.6个。
(2)medu 的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1年受教育的机会,其子女作为劳动者就会预期增加0.131年的教育机会。
(3)首先计算两人受教育的年数分别为 10.36+0.13112+0.21012=14.452 10.36+0.13116+0.21016=15.816因此,两人的受教育年限的差别为15.816-14.452=1.364例2.以企业研发支出(R&D )占销售额的比重为被解释变量(Y ),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32容量的样本企业的估计结果如下:099.0)046.0()22.0()37.1(05.0)log(32.0472.0221=++=R X X Y其中括号中为系数估计值的标准差。
(1)解释log(X1)的系数。
如果X1增加10%,估计Y 会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D 强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。
分别在5%和10%的显著性水平上进行这个检验。
(3)利润占销售额的比重X2对R&D 强度Y 是否在统计上有显著的影响? 解答:(1)log(x1)的系数表明在其他条件不变时,log(x1)变化1个单位,Y 变化的单位数,即Y=0.32log(X1)0.32(X1/X1)=0.32100%,换言之,当企业销售X1增长100%时,企业研发支出占销售额的比重Y 会增加0.32个百分点。
由此,如果X1增加10%,Y 会增加0.032个百分点。
这在经济上不是一个较大的影响。
(2)针对备择假设H1:01>β,检验原假设H0:01=β。
易知计算的t 统计量的值为t=0.32/0.22=1.468。
在5%的显著性水平下,自由度为32-3=29的t 分布的临界值为1.699(单侧),计算的t 值小于该临界值,所以不拒绝原假设。
意味着R&D 强度不随销售额的增加而变化。
在10%的显著性水平下,t 分布的临界值为1.311,计算的t 值小于该值,拒绝原假设,意味着R&D 强度随销售额的增加而增加。
(3)对X2,参数估计值的t 统计值为0.05/0.46=1.087,它比在10%的显著性水平下的临界值还小,因此可以认为它对Y 在统计上没有显著的影响。
例3.下表为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值(括号内为p-值)(如果某项为空,则意味着模型中没有此变量)。
数据为美国40个城市的数据。
模型如下:μββββββββ++++++++=statetax localtax unemp popchangincome value density g hou 76543210sin式中housing ——实际颁发的建筑许可证数量,density ——每平方英里的人口密度,value ——自由房屋的均值(单位:百美元),income ——平均家庭的收入(单位:千美元),popchang ——1980~1992年的人口增长百分比,unemp ——失业率,localtax ——人均交纳的地方税,statetax ——人均缴纳的州税 变量 模型A 模型B 模型C 模型D C 813 (0.74) -392 (0.81) -1279 (0.34) -973 (0.44) Density 0.075 (0.43) 0.062 (0.32) 0.042 (0.47)Value -0.855 (0.13) -0.873 (0.11) -0.994 (0.06) -0.778 (0.07) Income 110.41 (0.14) 133.03 (0.04) 125.71 (0.05) 116.60 (0.06) Popchang 26.77 (0.11) 29.19 (0.06) 29.41 (0.001) 24.86 (0.08) Unemp -76.55 (0.48) Localtax -0.061 (0.95)Statetax -1.006 (0.40) -1.004 (0.37) RSS 4.763e+7 4.843e+7 4.962e+7 5.038e+7 R 20.349 0.338 0.322 0.312 2ˆσ1.488e+6 1.424e+6 1.418e+6 1.399e+6 AIC1.776e+61.634e+61.593e+61.538e+6(1)检验模型A 中的每一个回归系数在10%水平下是否为零(括号中的值为双边备择p-值)。
根据检验结果,你认为应该把变量保留在模型中还是去掉?(2)在模型A 中,在10%水平下检验联合假设H 0:i =0(i=1,5,6,7)。
说明被择假设,计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。
说明你的结论。
(3)哪个模型是“最优的”?解释你的选择标准。
(4)说明最优模型中有哪些系数的符号是“错误的”。
说明你的预期符号并解释原因。
确认其是否为正确符号。
解答:(1)直接给出了P-值,所以没有必要计算t-统计值以及查t 分布表。
根据题意,如果p-值<0.10,则我们拒绝参数为零的原假设。
由于表中所有参数的p-值都超过了10%,所以没有系数是显著不为零的。
但由此去掉所有解释变量,则会得到非常奇怪的结果。
其实正如我们所知道的,多元回去归中在省略变量时一定要谨慎,要有所选择。
本例中,value 、income 、popchang 的p-值仅比0.1稍大一点,在略掉unemp 、localtax 、statetax 的模型C 中,这些变量的系数都是显著的。
(2)针对联合假设H 0:i =0(i=1,5,6,7)的备择假设为H1:i =0(i=1,5,6,7) 中至少有一个不为零。
检验假设H0,实际上就是参数的约束性检验,非约束模型为模型A ,约束模型为模型D ,检验统计值为462.0)840/()7763.4()37/()7763.47038.5()1/()/()(=-+-+-+=----=e e e k n RSS k k RSS RSS F U U R U U R显然,在H0假设下,上述统计量满足F 分布,在10%的显著性水平下,自由度为(4,32)的F 分布的临界值位于2.09和2.14之间。
显然,计算的F 值小于临界值,我们不能拒绝H0,所以βi(i=1,5,6,7)是联合不显著的。
(3)模型D 中的3个解释变量全部通过显著性检验。
尽管R2与残差平方和较大,但相对来说其AIC 值最低,所以我们选择该模型为最优的模型。
(4)随着收入的增加,我们预期住房需要会随之增加。
所以可以预期β3>0,事实上其估计值确是大于零的。
同样地,随着人口的增加,住房需求也会随之增加,所以我们预期β4>0,事实其估计值也是如此。
随着房屋价格的上升,我们预期对住房的需求人数减少,即我们预期β3估计值的符号为负,回归结果与直觉相符。
出乎预料的是,地方税与州税为不显著的。
由于税收的增加将使可支配收入降低,所以我们预期住房的需求将下降。
虽然模型A 是这种情况,但它们的影响却非常微弱。
4、在经典线性模型基本假定下,对含有三个自变量的多元回归模型:μββββ++++=3322110X X X Y你想检验的虚拟假设是H0:1221=-ββ。
(1)用21ˆ,ˆββ的方差及其协方差求出)ˆ2ˆ(21ββ-Var 。
(2)写出检验H0:1221=-ββ的t 统计量。
(3)如果定义θββ=-212,写出一个涉及、、2和3的回归方程,以便能直接得到估计值θˆ及其标准误。
解答:(1)由数理统计学知识易知)ˆ(4)ˆ,ˆ(4)ˆ()ˆ2ˆ(221121ββββββVar Cov Var Var +-=- (2)由数理统计学知识易知)ˆ2ˆ(1ˆ2ˆ2121ββββ---=se t ,其中)ˆ2ˆ(21ββ-se 为)ˆ2ˆ(21ββ-的标准差。