第二讲 面板数据线性回归模型
最新第二章-简单线性回归模型-计量经济学PPT课件
利用回归模型进行结构分析、经济预测、政策评价等。
16
注意几个概念
● Y 的条件分布
当解释变量 X 取某固定值时(条件),Y 的值不
确定,Y 的不同取值形成一定的分布,即Y 的条
件分布。
1966 2048 2122 2213 2315 2357 2369 2398 2452 2501 2534 2568 2610 2659 2723
4300
2197 2286 2315 2386 2467 2581 2623 2677 2710 2985 3004 3082 3119 3102
4800
由于是对总体的考察,由表2-1可求得家庭可支配收入X为某一特定数值
时家庭消费支出Y的条件分布(conditional distribution)
例如,X=2300条件下,Y=1371的条件概率等于1/11,即
P ( Y 1 3 7 1 / X 2 3 0 0 ) 1 / 1 1
由此可求得对应于家庭可支配收入X的各个水平的家庭消费支出Y的条件
u i Y i E (Y i X i) Y i12X i
或 Yi 12Xiui
•
ui
•
Xi X
23
3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。
●总体回归函数中 Y与 的X 关系可是线性的,也可是
非线性的。 对线性回归模型的“线性”有两种解释
1874 1906 1068 2066 2185 2210 2289 2313 2398 2423 2453 2487 2586
计量经济学第2章 简单线性回归模型
1.1回归分析与回归函数
对回归的现代解释与古典意义有很大的不同 定义:是关于研究一个叫做被解释变量(Y)的变量
对另一个或多个叫做解释变量(X)的变量的依赖 关系,其用意在于通过后者的已知或设定值去估计 或预测前者的均值。其中“依赖关系”,反映在一 定的函数形式上:
注意: E(Y X ) F(X1, X2,, Xk )
1.1回归分析与回归函数
1855年,高尔顿发表《遗传的身高 向平均数方向的回归》一文,他和 他的学生通过观察1078对夫妇,以 每对夫妇的平均身高作为自变量, 取他们的一个成年儿子的身高作为 因变量,分析儿子身高与父母身高 之间的关系。 发现: 当父母越高或越矮时,子女的身高 会比一般儿童高或矮,但是,当父 母身高走向极端,子女的身高不会 象父母身高那样极端化,其身高要 比父母们的身高更接近平均身高, 即有“回归”到平均数去的趋势。
其中,μ为随机误差项(stochastic error)或随机扰动 项(stochastic disturbance ),表明除X之外影响Y的因素: 忽略无数可能事件的影响 测量误差
1.1回归分析与回归函数
例:假定E(Y|Xi)对X是线性的:
E(Y Xi ) 1 2 Xi 线性总体回归函数
-1.2 -0.8 -0.4 0.0 0.4 0.8 Nhomakorabea1.2 Y
因而,要进一步研究变量之间的相关关系,就需要学习回归 分析方法。
1.1回归分析与回归函数
二、回归分析
“回归”这个词最早由英国生物学家高尔顿在遗传学
中提出。
法兰西斯·高尔顿(1822.2.16-1911.1.17), 英国人类学家、生物统计学家、英国探险家、 优生学家、心理学家、差异心理学之父,也 是心理测量学上生理计量法的创始人,遗传 决定论的代表人物。 高尔顿平生著书15种,撰写各种学术论文220 篇,涉猎范围包括地理、天文、气象、物理、 机械、人类学、民族学、社会学、统计学、 教育学、医学、生理学、心理学、遗传学、 优生学、指纹学、照像术、登山术、音乐、 美术、宗教等,是一位百科全书式的学者。
《线性回归模型》ppt课件
判别相关关系是线性相关还是非线性相 关、正相关还是负相关;
计算变量之间的相关系数
度量变量之间的线性相关的程度、判别线 性相关关系是正相关还是负相关
相关系数
十九世纪末——英国著名统计学家卡尔·皮尔逊〔Karl Pearson〕 ——度量两个变量之间的线性相关程度的简单相关系数〔简称相关系数〕
两个变量X和Y的总体相关系数为
4〕利用回归模型处理实践经济问题。
例如:
居民消费C与可支配收入Y之间不仅存在相关关系而且存在因 果关系,不仅可以利用相关分析研讨两者之间的相关程度,还可 以利用回归分析研讨两者之间的详细依存关系。可以将C作为被 解释变量、Y作为解释变量,根据相关经济实际,设定含有待估 参数 、 的实际模型C = + Y,估计模型中的参数 、 ,得 到回归方程,进展相关统计检验和推断,利用回归模型进展构造 分析、经济预测、政策评价等。
函数关系与相关关系的区别
确定的函数关系可以直接用于经济活动,无需分析。 不确定的相关关系,隐含着某种经济规律,是有关研讨的重点
一、相关分析与回归分析
2. 相关分析
研讨变量之间的相关关系的方式和程度的一种统计分析方法,主要
经过绘制变量之间关系的散点图和计算变量之间的相关系数进展。
例如:
绘制变量之间关系的散点图
计量经济学模型用随机方程提示经济变量之间的因果关系,对于这 一经济活动,与上述数理经济模型相对应,描画为
QAetKLe
或描画为对数线性函数方式 l n Q l n A t l n K l n L
其中, 是随机误差项。
随机误差项——称为随机扰动项或随机干扰项〔stochastic distur
对于含有多个解释变量 X
1 、X
《线性回归模型》课件
THANKS FOR WATCHING
感谢您的观看
线性回归模型的假设条件
独立观测值
假设数据点之间相互独立,不 存在相互依赖关系。
无异常值或离群点
假设数据集中没有异常值或离 群点,因为它们可能会对回归 线的拟合产生不利影响。
线性关系
假设因变量与自变量之间存在 线性关系,即它们之间的关系 可以用一条直线来描述。
无多重共线性
假设自变量之间不存在多重共 线性,即它们之间不存在高度 的线性相关性。
详细描述
线性回归模型可以通过分析历史股票数据,找到影响股票价格的关键因素,如市场情绪 、公司业绩、宏观经济指标等。通过建立线性回归方程,可以预测未来股票价格的走势
,为投资者提供参考。
销售预测
总结词
线性回归模型可以用于预测公司未来销售额 ,帮助企业制定合理的销售计划和市场策略 。
详细描述
通过收集历史销售数据,线性回归模型可以 分析影响销售额的关键因素,如市场需求、 产品价格、竞争对手情况等。通过建立线性 回归方程,可以预测未来一段时间内的销售 额,帮助企业制定合理的销售计划和市场策 略。
疾病风险预测
总结词
线性回归模型可以用于预测个体患某种疾病 的风险,帮助医生制定个性化的预防和治疗 方案。
详细描述
线性回归模型可以通过分析个体的基因、生 活习惯、家族病史等数据,找到与疾病风险 相关的因素。通过建立线性回归方程,可以 预测个体患某种疾病的风险,帮助医生制定 个性化的预防和治疗方案,提高疾病的预防
它使用最小二乘法或其它优化方法来 找到最佳拟合直线,使得因变量的预 测值与实际值之间的平方误差最小化 。
线性回归模型的应用场景
预测连续值
解释变量关系
简单线性回归模型PPT课件
940 1030 1160 1300 1440 1520 1650
980 1080 1180 1350 1450 1570 1750
-
1130 1250 1400 -
1600 1890
-
1150 -
-
-
1620 -
2600 1500 1520 1750 1780 1800 1850 1910
y (消费)
出-
表2
1000 650 700 740 800 850 880 -
每月家庭收入支出表(元)
1200 1400 1600 1800 2000 2200 2400
790 800 1020 1100 1200 1350 1370
840 930 1070 1150 1360 1370 1450
900 950 1100 1200 1400 1400 1550
ui N (0, 2 ) (i 1,2,..., n)
或 Yi N (1 1X i , 2 ) (i 1,2,..., n)
以上假定也称高斯假定或古典假定。
二、普通最小二乘法
在不知道总体回归直线的情况下,利用样本信 息建立的样本回归函数应尽可能接近总体回归 函数,有多种方法。
普通最小二乘法(Ordinary Least Squares) 由德国数学家高斯(C.F.Gauss)提出。
Y
e1
Yˆi ˆ1 ˆ2 Xi e3
e4
e2
X1
X2
X
X3
X4
ei Yi Yˆi
Yi (ˆ1 ˆ2 Xi )
对于给定的 Y 和 X的观测值,我们希望这 样决定SRF,使得SRF上的值尽可能接近 实际的 Y。
就是使得残差平方和
第16章:面板数据回归模型
提供更多个体动态行为的信息 例如,对于失业问题,截面数据能告诉 我们在某个时点上哪些人失业,而时间序列 数据能告诉我们某个人就业与失业的历史, 但这两种数据均无法告诉我们是否失业的总 是同一批人(意味着低流转率,low turnover rate),还是失业的人群总在变动 (意味着高流转率,high turnover rate) 面板数据可能解决此类问题
477.6000 488.1951 512.0038 529.4399 595.4147 627.1859 720.5337 754.6824 756.4338 738.1251
412.4400 445.6976 450.5022 474.4142 510.8094 571.2644 639.0028 666.0424 707.5816 650.5806
陈文静
22
为什么使用面板数据?
(7)解决遗漏变量问题 在计量经济建模过程中,遗漏变量偏差是 一个普遍存在的问题,遗漏变量常常是不可 观测的个体差异或“异质性”造成的,如果 这种个体差异“不随时间而改变”,则面板 数据提供了解决遗漏变量的方法。
暨南大学经济学院统计系
陈文静
23
为什么使用面板数据?
352.8409
356.1099 376.3157 389.0615 417.7114 459.3653 519.7328 550.2303 574.9075
300.5505
311.4781 316.4172 324.9145 347.8568 381.5282 424.2052 425.7236 422.8841
暨南大学经济学院统计系 陈文静 14
表
中国城乡居民消费——收入统计数据
线性回归ppt课件
d的值域为[0,4],在误差不存在序列相关时,d值应该在2左 右。d值小于2时意味着相邻的误差之间存在正相关;d值大于2 意味着相邻的误差存在负相关。
不一定只有时间序列数据才存在序列相关问题,各自独立的 变量之间出现序列相关的原因:
第六节 统计软件在线性回归分析中的应用
SPSS软件
模型设置、统计量选择、检验图形设置 分析结果的解释
STATA软件
各种设置的命令 分析结果的解释
SPSS图形的检验功能
检验误差项是否呈正态分布(Histogram of *zresid):
做法:以回归方程的标准化误差为横坐标,以标准化误差 的频数为纵坐标,并提供正态分布参照线 ;
当多重共线性发生时,方程的回归系数不可靠。
注意:
多重共线性指的是自变量之间的线性相关,当自变量 之间为非线性相关时,不一定产生严重的多重共线性 问题 。
多重共线性的检验
多重共线性的存在依据:
方程的确定系数很高,且y与各自变量的相关系数 也很高,但自变量的回归系数均不显著;
多个自变量的情形,某一自变量可被其他变量线 性表达出来;
回归方程预测值与误差项的关系图(散点图):
做法:
以回归方程标准化预测值为横坐标,以标准化误差为纵坐标。
作用:
线性关系的检查:若实际数据中变量间真为线性关系,该散点 图无明显趋势;
均方差性的检查:若均方差性存在,横轴各点上散点的纵向分 布宽度应该相等;
特异值的检查:若存在超出正负2区间的标准化误差值,便可 认为是特异值。
condition indexes)。
多重共线性的检验
检验指标及其计算
第二章经典线性回归模型双变量线性回归模型.ppt
i~N(0, 2 )
i=1,2, …,n
2020-11-9
谢谢欣赏
30
注意:
1. 如果假设1、2满足,则假设3也满足; 2. 如果假设4满足,则假设2也满足。
以上假设也称为线性回归模型的经典假 设或高斯(Gauss)假设,满足该假设的线性 回归模型,也称为经典线性回归模型 (Classical Linear Regression Model, CLRM)。
2020-11-9
谢谢欣赏
14
• 例2.1中,给定收入水平Xi ,个别家庭的支出可 表示为两部分之和:(1)该收入水平下所有 家庭的平均消费支出E(Y|Xi),称为系统性 (systematic)或确定性(deterministic)部分; (2)其他随机或非确定性(nonsystematic)部
• 相应的函数:
E(Y | X i ) f (X i )
称为(双变量)总体回归函数(population regression function, PRF)。
2020-11-9
谢谢欣赏
12
• 含义:回归函数(PRF)说明被解释变量Y的 平均状态(总体条件期望)随解释变量X变化 的规律。
• 函数形式:可以是线性或非线性的。
• 该例中:E(Y | X=800)=605 • 描出散点图发现:随着收入的增加,消费
“平均地说”也在增加,且Y的条件均值均 落在一根正斜率的直线上。这条直线称为总 体回归线。
2020-11-9
谢谢欣赏
10
3500
每 月 消 费 支 出 Y (元)
3000 2500 2000 1500 1000
500
谢谢欣赏
3
2. 回归分析的基本概念
第二讲 面板数据回归模型
第二讲 面板数据回归模型2.1面板数据回归模型的一般形式 面板数据模型的一般形式如下:it Kk kit ki it u x y +=∑=1β (2.1)其中,N ,,,,i "321=,表示N 个个体;T ,,,,t "321=,表示已知的T 个时点。
it y 是被解释变量对个体i 在t 时的观测值;kit x 是第k 个非随机解释变量对于个体i 在t 时的观测值;ki β是待估计的参数;it u 是随机误差项。
用矩阵表示为i i i i =+Y X βU (N ,,,,i "321=) (2.1’)其中,121i i i iT T y y y ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#Y ,112111222212i i Ki i i Ki i iTiTKiT T K x x x x x x x x x ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦""##"#"X , 121×⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=K Ki i i i βββ#β,121i i iiT T u u u ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#U .2.2 面板数据回归模型的分类通常,对模型(2.1)将做许多限制性假设,使其成为不同类型的面板数据回归模型。
一般来说,常用的面板数据回归模型有如下九种模型,下面分别介绍它们。
1混合回归模型从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起,用普通最小二乘法(OLS )估计参数。
即估计模型12Kit k kit it k y x u ββ==++∑ (2.2)=+Y X U β (2.2’)其中,121N NT ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#Y Y Y Y ,12N NT K×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#X X X X ,121×⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=K K βββ#β,121N NT ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#U U U U .实际上,混合回归模型(Pooled Regression Models )假设了解释变量对被解释变量的影响与个体无关。
第二章 简单线性回归模型2PPT课件
(TSS) (ESS) (RSS)
19
总变差 y(i2 TSS):应变量Y的观测值与其平均
值的离差平方和(总平方和)
解释了的变差
^
y
2 i
(ESS):应变量Y的估计值与
其平均值的离差平方和(回归平方和)
剩余平方和 ei2(RSS):应变量观测值与估计
值之差的平方和(未解释的平方和)
20
变差分解的图示
u 在给定 X
的条件下,
ui
i 的条件方差为某个常数
2
V ar(u i X i)E [u iE (u i X i)]22
6
假定3:无自相关假定
随机扰动项 u i 的逐次值互不相关
C o v ( u i,u j) E [ u i E ( u i) ] [ u j E ( u j) ] E (u iuj)0 (ij)
Y
Yi
• ei来自残差
^
(Yi-Y)总变差
SRF
^
(Yi-Y)来自 回归
Y
Xi
X
21
三、可决系数ห้องสมุดไป่ตู้
以TSS同除总变差等式两边:
TSSESSRSS 或 TSS TSS TSS
计量经济学
第二章 简单线性回归模型
标题添加
点击此处输入相 关文本内容
前言
点击此处输入 相关文本内容
标题添加
点击此处输入相 关文本内容
点击此处输入 相关文本内容
第二节 简单线性回归模型的最小二乘估计
本节基本内容:
● 简单线性回归的基本假定 ● 普通最小二乘法 ● OLS回归线的性质 ● 参数估计式的统计性质
假定3:无自相关假定 C ov(Y i,Yj)0 (ij)
线性回归模型(计量经济学)
REPORTING
定义与目的
定义
线性回归模型是一种预测模型, 用于描述因变量与一个或多个自 变量之间的线性关系。
目的
基于历史数据,通过建立线性回 归模型,预测因变量的未来趋势 ,并分析自变量对因变量的影响 程度。
线性回归模型的基本假设
线性关系
因变量与自变量之间存在线性关系, 即它们之间的关系可以用一条直线来 近似表示。
优点
能够给出参数的最优解, 具有一致性和无偏性,适 用于多种类型的数据。
工具变量法
原理
工具变量法是一种用于处理内生 性问题的估计方法,通过引入与 内生解释变量相关,但与误差项 无关的工具变量来估计参数。
计算方法
工具变量法通过最小化误差平方 和,同时利用工具变量与内生解 释变量的相关性,求解出最佳拟 合直线的参数。
计的参数不准确。
原因
自变量之间可能存在某种关联 ,或者由于数据收集过程中的 误差导致自变量测量误差。
影响
参数估计值不稳定,可能导致 预测失效。
处理方法
减少自变量数量、使用主成分 分析、逐步回归等方法。
自相关问题
定义
自相关是指时间序列数据中,当前值与过去 值之间的相关性。
影响
模型的估计参数不准确,导致预测误差。
原因
时间序列数据中,同一数据点之间存在某种 关联性。
处理方法
使用差分法、ARIMA模型等方法处理自相 关问题。
异方差性检验与处理
定义
异方差性是指模型残差项的方差不恒定,即方差随预测变量的变化而变化。
原因
模型未正确反映自变量与因变量之间的关系,或者数据存在异常值。
影响
模型的估计参数不准确,导致预测误差。
计量经济学课件:第二章 简单线性回归模型
第二章 简单线性回归模型第一节 回归分析与回归方程一、回归与相关 1、变量之间的关系(1)函数关系:()Y f X =,其中Y 为应变量,X 为自变量。
(2)相关关系或统计关系:当一个变量X 或若干个变量12,,,k X X X 变化时,Y 发生相应的变化(可能是不确定的),反之亦然。
在相关关系中,变量X 与变量Y 均为不确定的,并且它们之间的影响是双向的(双向因果关系)。
(3)单向因果关系:(,)Y f X u =,其中u 为随机变量。
在计量经济模型中,单一线性函数要求变量必须是单向因果关系。
在(单向)因果关系中,变量Y 是不确定的,变量X 是确定的(或可控制的)。
要注意的是,对因果关系的解释不是靠相关关系或统计关系来确定的,并且,相关关系与统计关系也给不出变量之间的具体数学形式,而是要通过其它相关理论来解释,如经济学理论。
例如,我们说消费支出依赖于实际收入是引用了消费理论的观点。
2、相关关系的类型 (1) 简单相关 (2) 复相关或多重相关 (3) 线性相关 (4) 非线性相关 (5) 正相关 (6) 负相关 (7) 不相关3、用图形法表示相关的类型上述相关类型可直观地用(EViews 软件)画图形来判断。
例如,美国个人可支配收入与个人消费支出之间的相关关系可由下列图形看出,它们为正相关关系。
15002000250030003500150020002500300035004000PDIP C E其中,PDI 为(美)个人可支配收入,PCE 为个人消费支出。
PDI 和PCE 分别对时间的折线图如下PROFIT 对STOCK 的散点图为05010015020025050100150STOCKP R O F I T其中,STOCK 为(美)公司股票利息,PROFIT 为公司税后利润,表现出明显的非线性特征。
以下是利润与股息分别对时间的序列图(或称趋势图)05010015020025020406080100120140GDP 对M2的散点图为02000040000600008000010000050000100000150000M2G D P其中M2为(中国)广义货币供应量,GDP 为国内生产总值。
面板数据模型 (2)
面板数据模型1.面板数据定义。
时间序列数据或截面数据都是一维数据。
例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。
面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。
面板数据是同时在时间和截面空间上取得的二维数据。
面板数据示意图见图1。
面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
面板数据用双下标变量表示。
例如y i t, i = 1, 2, …, N; t = 1, 2, …, TN表示面板数据中含有N个个体。
T表示时间序列的最大长度。
若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
图1 N=7,T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。
固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。
面板数据由30个个体组成。
共有330个观测值。
对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。
若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。
线性回归模型PPT课件
(2)
Var(u
i
)
σ
2 u
i 1,2,,n
等方差性
(3)Cov(ui,u j ) 0 (4) Cov(ui,X i ) 0
i j,i,j 1,2,,n i 1,2,,n
无序列相关
进一步假定
u~N(
0,σ
2 u
)
6
1 回归模型的一般描述
五、回归分析预测的一般步骤
1. 以预测对象为因变量建立回归模型; 2. 利用样本数据对模型的参数进行估计; 3. 对参数的估计值及回归方程进行显著性检验; 4. 利用通过检验的方程进行预测。
σ 2(e0 )
σ u2 [1
1 n
(x0 (xi
x)2 -x)2
]
3. 给定置信水平1 ,置信区间为 ( yˆ tα σˆ(e ),yˆ tα σˆ(e, ))其中, 是自t由α 度为年n-2的t分布临界值,
ˆ (e0 ) ˆu
1 1 n
解:使用Excel实现回归
b
(yi
y)(xi (xi x)
x)
.
b y βˆx .
于是所求的方程为 yˆi 138.3480 6.9712 xi
这说明,该厂电的供应量每增加一 万度,年产值增加6.9712万元。
产值(万元)Y 213 242 286 305 306 342 351 373 379 377 384 395 387 402 418
1. 定义:假定Y与X的回归方程为 yˆi bo bxi ,对于给定的 自变量 X x,0 求得 yˆ0 bo bx0 ,称这种预测为点预测。
面板数据模型计量经济学
xKiT
xiT
二、 面板数据回归模型的分类
根据对截距项和解释变量系数的不同假设,面板数 据回归模型常用:混合回归模型、变截距回归 模型和变系数回归模型3种类型。
Y i ie T X i i U i i 1 , 2 , , N
K
i1,2 ,N
yit i
k1
kixkituit
t1,2
,T
ˆ 为 b 、 ˆ 之差的方差,即 ˆ V a r [ b ˆ ]
Hausman证明在原假设下,统计量W服从自由度 为K(模型中解释变量的个数)的 2 分布,即
4. 计数面板模型:
被解释变量是计数面板数据的例子很多。例如, 一段时间内一家公司的竟标次数、一个人去看 医生的次数、每天吸烟者的数量及一个研发机 构登记专利的数目。虽然可以运用传统面板回 归模型对计数面板数据建模,但鉴于被解释变 量具有0及非负离散取值的特征,运用泊松面 板回归模型建模更为合适。
Y2 eT X 2 U 2
YZBU
1 Y N 2 eT X N N U N ,
1 2 N
一、混合回归模型假设 假设1:随机干扰项向量U的期望为零向量。 假设2:不同个体随机干扰项之间相互独立。 假设3:随机误差项方差为常数。 假设4:随机误差项与解释变量相互独立。 假设5:解释变量之间不存在多重共线性。 假设6:随机误差项向量服从正态分布,即
2. 轮换面板模型:
同一个个体可能不愿被一次又一次的被回访,为 了保持调查中个体数目相同,在第二期调查中退 出的部分个体,被相同数目的新的个体所替代, 这种允许研究者检验 “抽样时间”偏倚效应 (初次采访和随后的采访之间的回答有显著的改 变)的存在性叫轮换面板。对于轮换面板,每批 加到面板的新个体组提供了检验抽样时间偏倚效 应的方法。
面板数据回归分析ppt课件
20
7.2 固定效应模型估计
7.2.2 用EViews7.2估计固定效应模型
例子7.1 的EViews操作:
点击Panel Options选项,进入面板数据模型设定 界
Yit Yi 0 (1 ) 1( X1it X1i ) 2 ( X 2it X 2i ) 3( X 3it X 3i ) it it vit vi (1 )i (uit ui ) (习题7.6证明)
i 1,2,, N; t 1,2,,T
上述模型的OLS估计称之为随机效应模型估计 (random effect)
10
7.1 面板数据模型
7.1.2 面板数据模型
Yit i 0 1X1it 2 X 2it 3 X3it uit ,
i 1,2,, N; t 1,2,,T
➢
假设
2:
Var (uit
)
2 u
,
Cov(uit ,uis ) E(uituis ) 0, t s,
Cov(uit ,u jt ) E(uitu jt ) 0, i j,
15
7.2 固定效应模型估计
7.2.1 固定效应模型估计
核心是消掉个体异质性变量 i
Yit i 0 1X1it 2 X 2it 3 X 3it uit ,
i 1,2,, N; t 1,2,,T
Yi i 0 1X1i 2 X 2i 3 X 3i ui , i 1,2,, N
面。第一栏选择固定效应(fixed),第二栏选择 无时间异质性 变量(none),第三栏选择GLS时 的权重(Cross-section weight), 第四栏选择协方差估计
第二讲 面板数据线性回归模型
第二讲 面板数据线性回归模型估计、检验和应用 第一节 单因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it it it y αε′=++X βit i it u εξ=+ 1,,;1,,i N t T ==""为单因素误差面板数据线性回归模型,其中,i ξ表示不可观测的个体特殊效应,it u 表示剩余的随机扰动。
案例:Grunfeld(1958)建立了下面的投资方程:12it it it it I F C αββε=+++这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。
案例中的数据是来源于10个大型的美国制造业公司1935-1954共20年的面板数据。
在EViews6中设定面板数据(GRUNFELD.wf1)Eviews6 中建立面板数据EViews 中建立单因素固定效应模型1.1 混合回归模型1 面板数据混合回归模型 假设1 ε ~ N (0, σ2I NT )对于面板数据y i 和X i ,无约束的线性回归模型是y i = Z i δi + εi i =1, 2, … , N(4.1)其中'i y = ( y i 1, … , y iT ),Z i = [ ιT , X i ]并且X i 是T×K 的,'i δ是1×(K +1)的,εi 是T×1的。
注意:各个体的回归系数δi 是不同的。
如果面板数据可混合,则得到有约束模型y = Z δ + ε(4.2)其中Z ′ = ('1Z ,'2Z , … ,'N Z ),u ′ = ('1ε,'2ε, … ,'N ε)。
2 混合回归模型的估计当满足可混合回归假设时,()1''ˆZ Z Z Y −=δ在假设1下,对于Grunfeld 数据,基于EViews6建立的混合回归模型3 面板数据的可混合性检验假设检验原理:基于OLS/ML 估计,对约束条件的检验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二讲 面板数据线性回归模型估计、检验和应用 第一节 单因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it it it y αε′=++X βit i it u εξ=+ 1,,;1,,i N t T ==""为单因素误差面板数据线性回归模型,其中,i ξ表示不可观测的个体特殊效应,it u 表示剩余的随机扰动。
案例:Grunfeld(1958)建立了下面的投资方程:12it it it it I F C αββε=+++这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。
案例中的数据是来源于10个大型的美国制造业公司1935-1954共20年的面板数据。
在EViews6中设定面板数据(GRUNFELD.wf1)Eviews6 中建立面板数据EViews 中建立单因素固定效应模型1.1 混合回归模型1 面板数据混合回归模型 假设1 ε ~ N (0, σ2I NT )对于面板数据y i 和X i ,无约束的线性回归模型是y i = Z i δi + εi i =1, 2, … , N(4.1)其中'i y = ( y i 1, … , y iT ),Z i = [ ιT , X i ]并且X i 是T×K 的,'i δ是1×(K +1)的,εi 是T×1的。
注意:各个体的回归系数δi 是不同的。
如果面板数据可混合,则得到有约束模型y = Z δ + ε(4.2)其中Z ′ = ('1Z ,'2Z , … ,'N Z ),u ′ = ('1ε,'2ε, … ,'N ε)。
2 混合回归模型的估计当满足可混合回归假设时,()1''ˆZ Z Z Y −=δ在假设1下,对于Grunfeld 数据,基于EViews6建立的混合回归模型3 面板数据的可混合性检验假设检验原理:基于OLS/ML 估计,对约束条件的检验。
(1) 面板数据可混合的检验 推断面板数据可混合的零假设是:1H :对于所有的i 都有δi = δ. 检验约束条件的统计量是Chow 检验的F 统计量()()1res ures 'uresSSE SSE (N )K'F SSE N T K −−=−其中,1'K K =+,1Nures ii SSE SSE ==∑.在10H 条件下,F obs ~ F [(N -1)K ′, N (T - K ′ )]分布。
对于Grunfeld 数据,在零假设10H 下,混合OLS 估计得到res SSE = 1755850.48;无约束模型的ures SSE 由10个公司的OLS 回归SSE 之和得到,即ures SSE = 324728.47,每个回归有17个自由度,总的自由度为170;共有27(=3*9)个约束;Chow 检验的F 统计量取值为27.75;经检验拒绝了所有系数可混合性的零假设10H 。
(2) 斜率系数的可混合性检验(剔除非时变异质性因素后的可混合性检验)另外,也可以利用Chow 检验的F 统计量只斜率系数的可混合性进行检验(允许截距不完全相同),即检验零假设2H :β1 =β2 =,…,=βN 这时,有约束模型是带有个体虚拟变量的组内回归,无约束模型与前面相同。
对于Grunfeld 数据,在零假设20H 下,组内估计得到res SSE = 523478;同样,无约束模型的ures SSE 由10个公司的OLS 回归SSE 之和得到,即ures SSE = 324728.47,每个回归有17个自由度,总的自由度为170;共有18(=2*9)个约束;得到F 统计量等于5.78;因此拒绝了斜率系数具有可混合性的零假设20H 。
类似地,还可以检验系数是否随时间变化的可混合性问题。
1.2 个体固定效应模型(Fixed-effects (FE) model )面板数据混合回归模型没有考虑不可观测的非时变异质因素,当考虑了这些因素对模型参数估计的影响时,并且,它们与解释变量(可观测的时变异质性因素)相关时,为了保证回归参数估计的无偏性,需要在面板数据回归模型中特别剔除个体固定效应的影响,即将模型设定为个体固定效应模型。
1 个体固定效应模型及其估计 对于面板数据个体固定效应回归模型it it i it y X u αξ=+++β其中,i ξ即为不可观测的非时变异质因素。
其矩阵形式为()NT N T α=++⊗+Y X I ξU ιβι令[]NT N T =⊗X I Z ιι,()'''δα=ξβ,则LSDV 估计是()1''ˆ−=δZ Z Z Y 另外,通过进行组内离差,组内离差模型()()it i it i it i y y X x u u −=−+−...β的OLS 估计ˆwithin β也是无偏估计,被称为组内估计,并且,ˆˆwithin y x α=−....β.EViews 估计结果2 个体固定效应检验检验面板数据固定效应模型设定的零假设是:30H :ξ1 =ξ2 = … =ξN-1=0.检验约束条件的统计量是Chow 检验的F 统计量()()()()311H res ures ures SSE SSE N F ~FN ,NT N K SSE NT N K −−=−−−−−在30H 条件下,对应于混合回归模型,无约束模型是LSDV 回归模型。
如果N 较大,组内均值回归的残差平方和可作为ures SSE .对于Grunfeld 数据,F = 49.18,拒绝了混合回归模型的设定。
1.3 个体随机效应模型(GLS random-effects (RE) model )面板数据回归模型it it i it y x u αβξ=+++,ξi ~IID(0, σξ2),it u ~IID(0,σu 2),被称为随机效应回归模型。
其中,ξi 是独立于it u ,对于所有的i 和t ,X it 也独立于ξi 和it u .通过设定个体效应(ξi )为随机误差项,并假设个体效应(ξi )与X it 独立,以避免固定效应模型参数估计的有偏。
同时,增加模型估计的自由度;另外,也可将模型应用于(个体)样本之外。
1个体随机效应模型的估计 随机效应模型误差项的协方差矩阵'22(')()(')()()N T uN T E E E ξξξσσ′==+=⊗+⊗Ωvv Z ξξZ uu I J I I通过估计Ω,利用FGLS 估计随机效应模型。
并且,12ˆˆ GLS Within Between=+βW βW β .(Baltagi ,2008,P20) 其中,时间均值模型()i i i i y x u αβξ=+++...的OLS 估计称为组间估计ˆBetween β.实际上,在实证分析中,需要估计2ξσ和σu 2,常用的估计方法有三种,分别是Swamy-Arora 、Wallace-Hussain 和Wansbeek-Kapteyn 估计方法,在EViews 中,缺省选择是“Swamy-Arora”方法,详细内容参考Baltagi (2008)。
使用Swamy-Arora 的方差分解估计(Swamy-Arora estimator of the variance components )的EViewsFGLS 估计结果。
2 固定效应和随机效应的Hausman 检验 Hausman 检验H 0:E (εit | X it ) = 0,其中,εit =ξi + u it i =1, … , N ; t =1, … , T因素误差回归模型的一个关键假设是E (εit | X it ) = 0。
因为误差项含有未观测到的个体效应(ξi ),并可能与X it 相关。
例如,在收入方程中,ξi 可能代表不可观测的个人能力,它可能与方程右边的受教育变量相关。
在E (εit | X it ) ≠ 0的情况下,β的GLS 估计量GLSβˆ不仅是有偏,而且也是非一致的。
但是,组内变换消除了这些ξi ,因此,β的组内估计量Within β~是无偏的和一致的。
在零假设H 0:E (ξit | X it ) = 0下二者都是一致的,但如果H 0不成立,二者具有不同的概率极限。
事实上,无论H 0是否成立,Within β~都是一致的,而GLS βˆ仅仅在H 0下是BLUE 的、一致和渐近有效的。
但是,如果H 0不成立,则GLSβˆ是非一致的。
因此,Hausman (1978)构造了一个较自然的检验统计量1~q =GLS βˆ-Within β~因为,在零假设H 0下,plim 1ˆq =0,cov(1ˆq ,GLSβˆ)=0,于是可得到类似于Wald 型检验的Hausman 检验统计量m 1 =111'1ˆ)]ˆ[var(ˆq q q− 其中,var(1ˆq ) = var(Within β~) - var(GLSβˆ) =2v σ(X ′QX )-1 - (X ′Ω-1X )-1 在零假设H 0下,m 1渐近服从2K χ分布,其中K 表示斜率向量β的维度。
显然,m 1拒绝零假设,即,选择固定效应模型较合理。
否则,应该选择随机效应模型。
FE 模型与RE 模型的Hausman 检验在EViews6中,EViews 的Hausman 检验过程:View/Fixed/Random Effects Testing/Correlated Random Effects- Hausman Test 检验结果:可以看到m 1=2.13,m 1不能拒绝零假设。
即,选择随机效应模型较合理。
第二节 双因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it itit y αε′=++X β εit =ξi +λt +u it 1,,;1,,i N t T =="" (2.1)为双因素误差面板数据线性回归模型,其中,ξi 表示未观测到的个体效应,λt 表示未观测到的时间效应,u it 表示剩余的随机误差项。
显然,与单因素误差面板数据线性回归模型比较,双因素误差模型包含了面板数据中不可观测的同质时变因素。
以Grunfeld 数据为例,基于EViews6讨论双因素误差模型的估计及其检验。
12it it it it I F C αββε=+++ εit =ξi +λt +u it这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。