第十一讲 二元选择模型(高级计量经济学课件-对外经济贸易大学 潘红宇)
二计量经济学模型共34页35页PPT
解释变量与被解释变量
lY n A a lK n b lL n
被解释变量
解释变量
如何正确地选择解释变量?
(1) 需 要 正 确 理 解 和 把 握 所 研 究的经济现象中暗含的经济学 理论和经济行为规律。 (2) 选 择 变 量 要 考 虑 数 据 的 可 得性。 (3) 选 择 变 量 时 要 考 虑 所 有 入 选变量之间的关系,使得每一 个解释变量都是独立的。
前定变量
• 滞后内生变量的数值是前期所决定的, • 因此,它和外生变量都是在求解本期内生
变量之前已经确定了的变量 • 滞后变量与外生变量合称为前定变量 • 用作解释变量
前定变量用法
1. 滞后内生变量的作用视着外生变量。 2. 在单一模型中,前定变量多作为自变量,
内生变量一般作为应变量;在联立方程模 型中内生变量既可以作为应变量也可以作 为自变量。
如何解决
图1-2
一、理论模型的设计 1.确定模型所包含的变量 2.确定模型的数学形式 3.拟定理论模型中待估参数的理论 期望值 二、样本数据的收集 三、模型参数的估计 四、模型的检验 五、模型的应用
一、理论模型的设计
1.确定模型所包含的变量
在单方程模型中,变量分为两类。作 为研究对象的变量,也就是因果关系中 的“果”,是模型中的被解释变量;而 作为“原因”的变量,是模型中的解释 变量。确定模型所包含的变量,主要是 指确定解释变量。可以作为解释变量的 有下列几类变量:外生经济变量、外生 条件变量、外生政策变量和滞后被解释 变量。
初级水平。
3.理论计量经济学与应用计量经济学
二元选择模型
Λ ( β1 + β 2 ( q + 10) + β3v )
Λ ( β1 + β 2 q + β3v )
结论:数量分析成绩相对平均成绩增加 分可提高 分可提高20%被录取的可能性 结论:数量分析成绩相对平均成绩增加10分可提高 被录取的可能性
计算词汇能力成绩相对平均分增加10分时被录取概率增加值 计算词汇能力成绩相对平均分增加 分时被录取概率增加值
线性概率模型
修正
转换函数 Probit模型 模型
yt = F ( xt β ) + ut
Logit模型 模型
例题
讨论GRE考试成绩与研究生入学情况的关系 考试成绩与研究生入学情况的关系 讨论 成绩( 将GRE成绩(数量分析成绩和词汇能力成绩)与取得研究生入学资格的概率作为 成绩 数量分析成绩和词汇能力成绩) 二元选择模型的研究对象
β1 + β 2 q + β3v
'数量分析成绩相对平均分高出 分时被录取的概率 数量分析成绩相对平均分高出10分时被录取的概率 数量分析成绩相对平均分高出 分时被录取的概率' series xqplus2=@cnorm(common2+eq2.@coefs(2)*(@mean(q)+10-@mean(q))) '数量分析成绩达到平均分时被录取的概率 数量分析成绩达到平均分时被录取的概率' 数量分析成绩达到平均分时被录取的概率 series xq2=@cnorm(common2) '计算数量分析成绩相对平均分增加 分时被录取概率增加值 计算数量分析成绩相对平均分增加10分时被录取概率增加值 计算数量分析成绩相对平均分增加 分时被录取概率增加值' series var12=xqplus2-xq2
《高级计量经济学》幻灯片
• 高雪梅主编(2005).?计量经济分析方法与建模:
EVIEWS应用及实例?.北京:清华大学出版社.
4
△ 初、中、高级计量经济学
• 初级以计量经济学的数理统计学根底知识和经
典的线性单方程模型理论与方法为主要内容;
• 中级以用矩阵描述的经典的线性单方程模型理
论与方法、经典的线性联立方程模型理论与方 法,以及传统的应用模型为主要内容;
概率论根底
• 克莱因成为其理论与应用的集大成者
6
• 经典计量经济学在理论方法方面特征是: • ⑴ 模型类型—随机模型; • ⑵ 模型导向—理论导向; • ⑶ 模型构造—线性或者可以化为线性,因
果分析,解释变量具有同等地位,模型具有明 确的形式和参数;
• ⑷ 数据类型—以时间序列数据或者截面数
据为样本,被解释变量为服从正态分布的连续 随机变量;
2
参考书目 7.William H. Greene?计量经济学分析?,中国社会 科学出版社。 清华大学出版社出了该书的英文影印本 8. Michael Intriligator, Ronald Bodkin and Cheng Hsiao.?Econometric models, techniques, and applications?, Prentice Hall Inc. 9.Robert S. Pindyck and Daniel L. Rubinfeld?计 量经济学模型与经济预测?,机械工业出版社。 10.Ramu Ramanathan.?应用经济计量学?,机械 工业出版社。
11
• 宏观计量经济学名称由来已久,但是它的主要
内容和研究方向发生了变化。
• 经典宏观计量经济学:利用计量经济学理论方
高级计量经济学消费行为模型(共48张PPT)
Ct≡CPt+CTt,Yt≡YPt+YTt 假定现期的偶然性消费独立于过去的偶然性收入,并独立于持久性收入,其期望
值等于零。
持久性消费仅取决于持久性收入 CPt=YPt+ut
YP可以用现期和过去收入的加权平均值来表示,过去收入的效应随时间 推移而逐步减小到零。 Ct=+tYt+ut
也可以用微观个体调查的截面数据估计模型。
案例分析:商品组模型
(我国城镇居民这肉类N消个费) 方程反映了商品需求的决定因素;
同X 时i 也可D 以i 解P 1 出, P ,2 , 该值, 为P 收n , 入I 的 边际效i 用 。1 , 2 ,, n
10 第10页,共48页。
微观消费模型:理论基础
被看作是质量价格。
消除质量因素的价格可以按下式计算:
pi*h pih ˆjzijh
思考:这种处理方式j 可能引起什么问题?
14
第14页,共48页。
单一商品需求模型:理论基础
标准模型
微观消费行为理论(收入、商品的自身价格和替代商品的价 格)
局部均衡分析框架(假定该商品市场上发生的变化不会影响到 其他市场)
需要将未来的效用折现
模型选择主要受到研究目的和数据的限制
8
第8页,共48页。
微观消费模型:理论基础
基本模型形式:
Ma U X x1 ,X 2, ,X n
s.t. P 1 X 1 P 2X 2 P nX nI
写成拉格朗日方程形式
L= U(X1,X2,Xn)+ ( I-P1X1-P2X2--PnXn) 一阶条件:
n
viP i iiV P j ju i, i 1 ,2 , ,n j 1
经济计量模型分析及预测ppt
则称该时间 yt为 序移 列动平均序列 这。 种具 形有 式的模型
称为 q阶移动平均模型 M, A(q)。 记其 为中 1、2、 、q
为移动平均系数 型, 的是 待模 估计参数。
二、ARMA模型(5): ARMA模型
如果时间序列yt是它的当期和前期的随机误差项以及其前期值 的线性函数,即
一、数据整理和分析(2)
季节性判断
季节调整前
季节调整后
二、ARMA模型(1)
ARMA模型是一类常用的随机时序模型,由博克斯(Box)、詹 金斯(Jenkins)创立,亦称B-J方法。它是一种精度较高的时序短期 预测方法。其基本思想是:某些时间序列是依赖于时间t的一族随机变 量,构成该时序的单个序列值虽然具有不确定性,但整个序列的变化 却有一定的规律性,可以用相应的数学模型近似描述。通过对该数学 模型的分析研究,能够更本质地认识时间序列的结构与特征,达到最 小方差意义下的最优预测。
偏自相关:指对于时间序列yt ,在给定yt-1,yt-2,…, yt-k的条件 下, yt与yt-k之间的条件相关关系。滞后k阶的偏自相关系数是当yt 对yt-1,yt-2,…, yt-k作回归时的系数。称之为偏相关是因为它度 量了k期间距的相关而不考虑k-1期的相关。
二、ARMA模型(8): 相关性分析的Eviews实际操作
yt 1 yt1 2 yt 2 p yt p et 则称该时间序列为自回 归序列。
上式表示的模型为
p阶自回归模型,缩写为
AR
(
p
)。
、
1
、
2
、 p为自回归参数,是模型
的待估计参数。
et
~
N
第十章定性选择模型计量经济学潘省初
log F (zi ) 1 F (zi )
exp(zi )
exp(zi )
log 1 exp(zi ) log
1 exp(zi )
1 exp(zi )
1 exp(zi ) exp(zi )
1 exp(zi )
1 exp(zi )
exp(zi )
log 1 exp(zi ) 1
log exp(zi )
INCOME的系数估计值0.002表明,一个学生的成 绩不变,而家庭收入增加1000美元,该生决定去读研 的概率的估计值增加0.002。
LPM模型中,解释变量的变动与虚拟因变量值为1 的概率线性相关,因而称为线性概率模型。
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。 (2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。
由于累积正态分布和累积logistic分布很接近,
只是尾部有点区别,因此,我们无论用(10.11)还
பைடு நூலகம்
是(10.12),也就是无论用logit法还是probit法,
得到的结果都不会有很大不同。可是,两种方法得
到的参数估计值不是直接可比的。由于logistic分布
的方差为
2
3
,因此,logit模型得到的的估计值必
Variable Coefficient Standard error t-Statistic
Constant
-0.51
0.19
-2.65
INCOME
0.0098
0.003
3.25
AGE
0.016
0.0053
3.08
高级计量经济学 第五章 二元选择模型
一个问题是,由线性概率方程推断得出的概率值可能落在
区间[0,1]之外,因而只有在均值附近才较为可靠。
由于线性概率函数的取值仅为0或1,因而误差项与模型参
数β出现相关,即e或是等于-β΄X,或是等于1-β΄X,因而存
,现在已经很少使用线性 概率模型。
不同统计分布的特征
Probit 模型
G(z)的一种可选形式是标准正态累积分布函数, 此即Probit模型。
Pi GZi
1 2
e Zi u22du
式中u是误差项,假定服从标准正态分布;
P代表事件发生的概率。
估计指标Z,需要应用累计正态分布函数的逆函数
Z iG 1P iX i
由于Probit模型是参数非线性函数,因而需要用最 大似然法来估计。
不同的选择)或连续值(反映选择强度)。
二元选择模型是因变量取值仅为0或1的特殊情况。
二元行为选择
可以简化表述为涉及“是”或“否”的决策
例如是否攻读研究生
净效用函数:U读研 = +1 X1 + 2 X2 + 1 Z1 + 2 Z2+ e
当U读研>0,那么选择读研究生。
使用的数据
因变量基于显示出的偏好
高级计量经济学 第五章 二元选择模型
本章内容
反映选择行为的模型 线性概率模型 经典二元选择模型
PROBIT模型 LOGIT模型 极端值模型
拟合优度测定 案例分析
用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 每个行为主体都有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
行为主体选择第一项活动意味着Ui1t > Ui2t
高级经济计量学课件(绪论——第三章)
变量“线性”,参数”非线
24
随机扰动项ui
◆概念 各个 Yi 值与条件均值 E(Yi X i ) 的偏差 u i 代表排除在模型以外的 所有因素对Y的影响。
Y
u
Xi
X
◆性质: u i 是期望为0有一定分布的随机变量 重要性:随机扰动项的性质决定着计量经济方法的选择
25
◆引入随机扰动项的原因
13
高级计量经济学——本课程核心 第4部分 时间序列计量模型
第10章 第11章 第12章 第13章
时间序列模型 协整与误差修正模型 向量自回归模型 时间序列条件异方差模型
14
高级计量经济学——本课程核心 第5部分 回归分析的深入议题
第14章 面板数据计量模型 ——固定效应与随机效应模型 第15章 二元因变量模型 ——probit与logit回归模型 第16章 计量经济模型的建立 ——传统与现代计量经济学方法论
i
31
第二节 一元线性回归模型的参数估计
1、普通最小二乘法OLS
◆OLS的基本思想: ●不同的估计方法可得到不同的样本回归参 ˆ ˆ ˆ 数 1和 2 ,所估计的 Yi 也不同。 ˆ ●理想的估计方法应使 Yi 与 Yi 的差即剩余 ei 越小越好 ●因 ei 可正可负,所以可以取 ei 2 最小 即 ^ ^ 2 2 min ei min (Yi 1 2 X i )
三、一元线性回归模型
一元线性回归模型形式如下
Yi 0 1 X i ui
上式表示变量Yi和Xi之间的真实关系。其中Yi 称被解释变量(因变量),Xi称解释变量(自变 量),ui称随机误差项,0称常数项,1称回归系 数(通常未知)。 上述模型可以分为两部分。 (1)回归函数部分,E(Yi) = 0 + 1 Xi, (2)随机部分, ui 。
第十三章 二元选择模型
本次您浏览到是第十四页,共二十六页。
图7.2 二元选择模型估计对话框
15
本次您浏览到是第十五页,共二十六页。
例7.1的估计输出结果如下:
16
本次您浏览到是第十六页,共二十六页。
参数估计结果的上半部分包含与一般的回归结 果类似的基本信息,标题包含关于估计方法(ML表 示极大似然估计)和估计中所使用的样本的基本信 息,也包括达到收敛要求的迭代次数。和计算系数 协方差矩阵所使用方法的信息。在其下面显示的是 系数的估计、渐近的标准误差、z-统计量和相应的 概率值及各种有关统计量。
3
本次您浏览到是第三页,共二十六页。
1、 线性概率模型及二元选择模型的形式
为了深刻地理解二元选择模型,首先从最简单的线性概率 模型开始讨论。线性概率模型的回归形式为:
yi 1x1i 2 x2i k xki ui (7.1.1)
i 1, 2 ,, N
其中:N是样本容量;k是解释变量个数;xj为第j个个体特征 的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费 者的偏好等。设 yi 表示取值为0和1的离散型随机变量:
yi 1 F xi β ui
即yi关于它的条件均值的一个回归。
(7.1.10)
9
本次您浏览到是第九页,共二十六页。
分布函数的类型决定了二元选择模型的类型,根据分布函 数F的不同,二元选择模型可以有不同的类型,常用的二元选择 模型如表7.1所示:
表7.1 常用的二元选择模型
ui*对应的分布
标准正态分布 逻辑分布 极值分布
yi 1
即
N
L [F ( xi β)]yi [1 F ( xi β)]1yi i1
对数似然函数为
(7.1.11) (7.1.12)
高级计量课件-第二章
(三)分布函数
• 连续型随机变量的可能取值无穷多,而每个值取到的 概率都是无穷小,无法用直接罗列概率的方法表达和 研究,只能用反映随机变量取特定范围值可能性大小 的分布函数,也称“累积分布函数”(accumulated distribution function),进行描述和研究。
2020/5/23
• 依分布收敛: 设随机变量序列{ n}的分布函数序列为{ }
,F随n ( x机) 变量 的分布函数为 ,如F (果x) Fn ( x) 弱收敛于F (x) ,则称“ n 依分布收敛于
”。
2020/5/23
• 依概率收敛:
对于随机变量序列{ n }和随机变量,如果
n l i m P{n}0
2020/5/23
三、概率分布的数字特征
(一)期望 也称“数学期望”。衡量随机变量取值的平均水平, 定义为随机变量的可能取值,以相应概率为权重加权 的概率均值。
(二)方差 衡量随机变量取值发散程度的指标,定义为随机变量 与其数学期望偏差平方的概率加权和。
(三)期望和方差的性质
2020/5/23
(四)条件期望、全数学期望和条件方差 • 条件期望即给定条件下所考察随机变量的概率均值。
2020/5/23
提要
• 介绍计量经济学的概率统计基础知识 • 包括随机变量、统计推断和随机过程知识 • 假设有基本的概率论知识 • 本教材的计量经济模型和分析方法的需要 • 对于学习和理解计量经济分析方法有启发
2020/5/23
第一节 随机变量和概率分布
一、随机变量及其概率分布 二、多元分布和条件分布 三、概率分布的数字特征 四、常见分布 五、随机变量的收敛性和极限理论
布。 • 数学期望等于自由度 k ,方差为2k
《二元选择模型》课件
与其他模型的比较研究
比较二元选择模型与其他分类模型的 优缺点,为实际应用提供参考。
应用领域的拓展
将二元选择模型应用于更多领域,如 生物医学、环境科学等,以挖掘更多 有价值的信息。
谢谢观看
实证结果分析
边际效应分析
通过实证分析,我们得到了每个解释变量的边际效应,这些边际效应可以帮助我们了解各 个变量对二元选择结果的影响程度。
条件概率分析
在二元选择模型中,我们计算了每个解释变量的条件概率,这些条件概率可以帮助我们了 解在控制其他变量的情况下,某个变量对二元选择结果的影响程度。
稳健性检验
Probit模型
另一种统计方法,与Logit模型类似,用于估计二元选择概率 的优势。Probit模型同样将因变量的取值概率为0到1之间的 连续变量转换为二分类的离散变量,并使用最大似然估计法 估计模型参数。
概率优势的检验方法
显著性检验
检验解释变量对概率优势的影响是否 显著。通过比较模型拟合优度、参数 估计值等指标,判断解释变量是否对 二元选择结果产生了显著影响。
最小二乘估计法
总结词
最小二乘估计法是一种线性回归分析中的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
详细描述
最小二乘估计法的基本思想是,对于一组样本数据,选择参数值使得预测值与实 际值之间的平方误差最小。通过最小化误差平方和,可以得到参数的估计值。这 种方法在二元选择模型中有时也被用来估计模型参数。
二元选择模型的重要性
预测和决策支持
二元选择模型能够预测二 元结果,帮助决策者了解 不同因素对结果的影响, 从而做出更好的决策。
深入了解影响因素
通过分析影响二元结果的 因素,可以深入了解这些 因素的作用机制和影响程 度。
高级计量经济学二元选择模型
本章内容
反映选择行为的模型 线性概率模型 经典二元选择模型
PROBIT模型 LOGIT模型 极端值模型
拟合优度测定 案例分析
用计量经济模型反映选择行为
行为主体从事的每项活动都可以看作是一种选择; 每个行为主体都有其偏好; 人们的行为有其规则; 在经济分析中,通常认为选择基于效用最大化标准。 研究中需要考虑:
不同统计分布的特征
Probit 模型
G(z)的一种可选形式是标准正态累积分布函数, 此即Probit模型。
Pi GZi
1 2
e Zi u22du
式中u是误差项,假定服从标准正态分布;
P代表事件发生的概率。
估计指标Z,需要应用累计正态分布函数的逆函数
Z iG 1P iX i
由于Probit模型是参数非线性函数,因而需要用最 大似然法来估计。
我们可以估计有系数限制和没有系数限制的模型,然后利 用得到的两个对数似然值进行检验,相应的统计值为:
LR = 2(Lur – Lr) ~ χ2q
拟合优度
对于线性概率模型,可以直接用得到R2来判断拟合优度; Probit 模型和Logit模型没有R2,因而需要利用其他方法来
反映拟合优度。 一种方法是利用对数似然值计算伪R2(pseudo R2),该值
推断个人的行为
哪些学生最有可能报考研究生
二元选择模型可用于评价政策
在评价某项政策计划(或技术应用)产生的影响 时,常常可以用虚变量作为模型的因变量,例如:
是否参与某政策计划:
当所分析对象参与该某政策计划时D=1,否则D=0;
是否采纳某种(新)技术
当所分析对象采纳该技术时D=1,否则D=0;
也被称作对数似然值比值指数,定义为1 – Lur/Lr
计量经济学72二元选择模型60页PPT
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 。—— 朱熹 59、我的努力求学没有得到别的好处, 只不过 是愈来 愈发觉 自己的 无知。 ——笛 卡儿
计量经济学72二元选择模型
1、战鼓一响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲道理 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前人 人是平 等的。 ——波 洛克
财经-财务会计专业计量经济学及Stata应用-PPT-第11章-二值选择模型课件
第11章二值选择模型11.1 二值选择模型如果被解释变量y离散,称为“离散选择模型”(discrete choice model)或“定性反应模型”(qualitative response model)。
最常见的离散选择模型是二值选择行为(binary choices)。
比如:考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回12国;战争或和平;生或死。
假设个体只有两种选择,比如1y =(考研)或0y =(不考研)。
最简单的建模方法为“线性概率模型”(Linear Probability Model ,LPM):1122(1,,)i i i K iK i i i y x x x i n βββεε'=+=+= +++x β (11.1)其中,解释变量12()i i i iK x x x '≡ x ,而参数12()K βββ'≡ β。
LPM 的优点是,计算方便,容易得到边际效应(即回归系数)。
3LPM 的缺点是,虽然y 的取值非0即1,但根据线性概率模型所作的预测值却可能出现ˆ1y>或ˆ0y <的不现实情形。
图11.1 线性概率模型4为使y 的预测值介于[0,1]之间,在给定x 的情况下,考虑y 的两点分布概率:P(1|)(,)P(0|)1(,)y F y F ==⎧⎨==-⎩x x x x ββ (11.2)函数(,)F x β称为“连接函数”(link function) ,因为它将x 与y 连接起来。
y 的取值要么为0,要么为1,故y 肯定服从两点分布。
连接函数的选择具有一定灵活性。
通过选择合适的连接函数(,)F x β(比如,某随机变量的累积分布函数),可保证ˆ01y≤≤,并将ˆy 理解为“1y =”发生的概率,因为5E(|)1P(1|)0P(0|)P(1|)y y y y =⋅=+⋅===x x x x (11.3)如果(,)F x β为标准正态的累积分布函数,则P(1|)(,)()()y F t dt φ'-∞'===Φ≡⎰x x x x βββ (11.4)()φ⋅与()Φ⋅分别为标准正态的密度与累积分布函数;此模型称为“Probit ”。
高级计量经济学 第五章 二元选择模型
我们可以估计有系数限制和没有系数限制的模型,然后利 用得到的两个对数似然值进行检验,相应的统计值为:
LR = 2(Lur – Lr) ~ χ2q
拟合优度
对于线性概率模型,可以直接用得到R2来判断拟合优度; Probit 模型和Logit模型没有R2,因而需要利用其他方法来
有些计量经济学软件(如Stata/SPSS)可以直接提 供这些结果;
EVIEWS需要调用适当的统计分布函数计算得出 。
似然值比率检验
对于线性概率模型,我们可以利用F统计值或LM统计值检 验是否可以排除某些变量;
对于Probit 模型和Logit模型,则需要采取新的方式进行这 样的检验;
当所分析对象采纳该技术时D=1,否则D=0;
农业劳动力转移
当农户家庭中有劳动力实现转移时D=1,否则D=0。
农户土地流转、借贷行为、政府提价…
自我选择问题
在很多情况下,是否选择参与某政策计划或是否 采用某生产技术是由微观行为主体选择的,由此 导致了自我选择问题。
如果我们掌握有哪些因素影响到是否参与,那么 就可以对选择行为做分析。
行为主体选择第一项活动意味着Ui1t > Ui2t
随机效用函数 (Random Utility Functions)
形式:Uij = j + i’xij + i’zi + eij
j为与特定选择j相联系的常数项
xij 为选择j所具有的特性(Attributes)
i为反映行为主体偏好的权重
反映拟合优度。 一种方法是利用对数似然值计算伪R2(pseudo R2),该值
计量经济学课件
WEEK 10: MACROECONOMETRICS Introduction1.The concept of stationarity2.Spurious regressions3.Testing for unit roots4.Cointegration analysis1. S TATIONARITYConditions for t y to be a stationary time series process i. t E y constant t ii. t Var y constant tiii. ,t t k Cov y y constant t and all k≠0 Autoregressive time series1t t t y y- Notice no constant and t is a white noise error term.- AR(1) model – time series behaviour of t y is largely explained by its value in the previous period.- Necessary condition for stationarity 1 , if , 1 series is explosive and if 1 have a unit root.Example 1 – Stationary AR(1) ModelSTATA codeset obs 500 /*set number of observations*/gen time=_n /*create time trend*/gen y=0 if time==1 /* first observation set y=0*/gen e=rnormal(0, 1) /*create a random number*/replace y=(0.67*y[_n-1])+e if time~=1 /*AR(1) model =0.67*/ twoway (line y time) /*line plot*/Example 2 – Explosive AR(1) ModelSTATA codeset obs 500 /*set number of observations*/gen time=_n /*create time trend*/gen y=0 if time==1 /* first observation set y=0*/gen e=rnormal(0, 1) /*create a random number*/replace y=(1.16*y[_n-1])+e if time~=1 /*AR(1) model =1.16*/ twoway (line y time) /*line plot*/Example 3 – Non-stationary AR(1) ModelSTATA codeset obs 500 /*set number of observations*/gen time=_n /*create time trend*/gen y=0 if time==1 /* first observation set y=0*/ gen e=rnormal(0, 1) /*create a random number*/ replace y=y[_n-1]+e if time~=1 /*AR(1) model =1*/ twoway (line x time) /*line plot*/ Noticety is not mean reverting. Random walk =1In the model:1t t t y yif 1 then t y is said to contain a UNIT ROOT i.e. is non-stationarySo 1t t t y y subtract 1t y from the LHS and RHS:111t t t t t y y y yt t y and because t is white noise t y is a stationary series.Example 3 (continued) – Non-stationary AR(1) Model and First Difference- A series t y is integrated of order one, i.e. t y I (1), and contains a unit root if t y is non-stationary but t y is a stationary series.- Possible that the series t y needs to be differenced more than once to achieve a stationary process.- A series t y is integrated of order d , i.e. t y I (d) if t y is non-stationary but d t y is a stationary series: Note: 211t t t t t t t y y y y y y y2.S PURIOUS REGRESSIONWhy worry whether t y is stationary?Most macroeconomic time series are trended and in most cases non-stationary processes.Using OLS to model non-stationary data can lead to problems and incorrect conclusions.a.high R squared often >0.95b.high t valuesc.theoretically variables in the analysis have no interrelationship Why does non-stationarity arise in macro data?Economic time series e.g. GDP, money supply, employment, all tend to grow at an annual rate.Such series non-stationary as the mean is continually rising. Even after differencing the series cannot be made stationary.So, usually take logarithms of time series data before undertaking econometric analysis.Take logarithm of a series which exhibits an average growth rate it will follow a linear trend and become an integrated series, i.e. one which is stationarity after differencing.Consider t y which grows by 10% per period, thus11.1t t y yTake the log of both the LHS and RHS, then1log log 1.1log t t y yThe lagged dependent variable has a unit coefficient and log 1.1 is a constant. The series would now be I(1), see example 3.Consider the model01t t t y xCLRM assumptions require that both variables have zero mean and constant variance (i.e. stationary, see (1i and 1ii)).If these assumption are violated and the series are non-stationary Granger and Newbold (1974) proved that results obtained are totally spurious. Granger, C. and P. Newbold (1974) Spurious regressions in econometrics. Journal of Econometrics, 2, 111-120.‘Rule of thumb’ for detecting a spurious regression:or,a.2R DWRb.12Logic behind spurious regression.Consider two unrelated series that are non-stationary, then:– both either together, or one will whilst the other .– Either way likely to find a +ve or –ve significant relationship.PROFESSOR KARL TAYLOR ECN6540 2017-18 Example 4 – Spurious Regression: Artificial DataSource | SS df MS Number of obs = 500-------------+------------------------------ F( 1, 498) = 143.04Model | 9096.19185 1 9096.19185 Prob > F = 0.0000Residual | 31668.4706 498 63.5913065 R-squared = 0.2231-------------+------------------------------ Adj R-squared = 0.2216Total | 40764.6625 499 81.6927104 Root MSE = 7.9744------------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------x | .9443085 .0789556 11.96 0.000 .7891813 1.099436_cons | 3.505432 .4156699 8.43 0.000 2.688749 4.322114------------------------------------------------------------------------------ Durbin-Watson d-statistic (2, 500) = 0.0316917Example 5 – Spurious Regression: Economic DataRegress by OLS the logarithm of GDP against the logarithm of M2. Quarterly time series data over the period 1975Q1 until 1997Q4.01log log tt t gdp muse "C:\Karl's files\2016-17\ECN6540\LECTURES\spurious1.dta", cleargen date=q(1975q1)+_n-1format date %tq tsset dategen lgdp=log(gdp) gen lm=log(m) reg lgdp lm estat dwatsonSource | SS df MS Number of obs = 92 -------------+------------------------------ F( 1, 90) = 547.56 Model | 1.78659606 1 1.78659606 Prob > F = 0.0000 Residual | .29365627 90 .003262847 R-squared = 0.8588 -------------+------------------------------ Adj R-squared = 0.8573 Total | 2.08025233 91 .022859916 Root MSE = .05712 ------------------------------------------------------------------------------ lgdp | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lm | .219892 .0093971 23.40 0.000 .201223 .2385611 _cons | 3.075618 .0571457 53.82 0.000 2.962088 3.189147 ------------------------------------------------------------------------------ Durbin-Watson d-statistic( 2, 92) = 0.032836Regression fits the data well – both variables trended.Why is this regression spurious?In the model 01t t t y x there are four possible scenarios:a. Both t y and t x are stationary processes and so the CLRM is appropriate and OLS is BLUE;b. t y and t x are integrated of difference orders, e.g. I(0) and I(1), – the regression is now meaningless, since t y has a constant mean and t x drifts over time;c. t y and t x are integrated of the same order, e.g. I(1), and t contains a stochastic trend, i.e. I(1). This is the case of a spurious regression. Could re-estimate the model in first differences.d. t y and t x are integrated of the same order,e.g. I(1), and t is a stationary process, i.e. I(0). In this special case t y and t x are said to be cointegrated .Hence testing for non-stationarity is extremely important.3. T ESTING FOR UNIT ROOTSTesting the order of integration is a test for the number of unit roots.i. Test t y to see if stationary. If stationary then t y I (0); if not stationary then t y I (d); d >0.ii. Take first differences of t y i.e. 1t t t y y y then test t y to see ifstationary. If stationary then t y I (1); if not stationary then t y I (d); d >0.iii. Take the second difference of t y i.e. 21t t t t y y y y then test 2t yto see if stationary. If stationary then t y I (2); if not stationary then t y I (d); d >0.Continue process until stationary.Dickey-Fuller Test for Unit RootsDickey and Fuller (1979) Distribution of the estimators for autoregressive time series with a unit root. Journal of the American Statistical Association , 74, 427-431.Dickey and Fuller (1981) Likelihood ratio statistics for autoregressive time series with a unit root. Econometrica , 49, 1057-1072.Test based on testing for the existence of a unit root.Start with an AR(1) model:1t t t y yTo test for a unit root 0:1H 1:1HCan re-write the above model by subtracting 1t y from both sides:111111t t t t t tt t t t y y y y y y y(1)1To test for a unit root the null and alternative hypotheses are 0:0H 1:0HDickey and Fuller proposed two alternative regression equations which can be used for testing the presence of a unit root:1t t t y y (2)Testing for a unit root based upon eq. (1) is only valid if the d.g.p has a zero mean and no trend. So eq. (2) includes a constant in the random walk process.1t t t y t y (3)Allows for a non zero mean and trend component in the series.The DF test for a unit root is based upon a conventional t test on from one of the three models.Critical values (based upon Mackinnon, 1991): MODEL 1% 5% 10% 1t t t y y 1t t t y y -3.43 -2.86 -2.57 1t t t y t y -3.96 -3.41 -3.13 Standard critical values -2.33 -1.65 -1.28If t statistic is greater than the critical value then the null hypothesis of a unit root is rejected and can conclude that t y is a stationary process.3.1 Augmented Dickey-Fuller Test for Unit RootsUnlikely that the error term t in eqs. (1) to (3) is white noise – auto/serial correlation.Dickey and Fuller proposed augmenting the DF test by including extra lagged terms of the dependent variable to eliminate the presence of autocorrelation.11p k t k k t t t y y y (4)11p k t k k t t t y y y (5)11p k t k k t t t y y y t (6)Again the difference between eqs. (4) to (6) concerns the inclusion of a constant and trend.An important consideration is the optimal lag length p.-If p is too small then the remaining autocorrelation will bias the test.-If p is too large then the power of the test will suffer.Ng and Perron (1995) suggest firstly, set an upper bound for p i.e. p . Then estimate the ADF test based on the p lag length.If the absolute value of the t-statistic for testing the significance of the last lagged difference is greater than 1.6 then set p=p and perform the unit root test. Otherwise, reduce the lag length by one and repeat the process.Rule of thumb (Schwert, 1989),0.25int12100Tp3.2 Kwiatkowski-Phillips-Schmidt-Shin (1992)Testing the null hypothesis of stationarity against the alternative of a unit root. How sure are we that economic time series have a unit root? Journal of Econometrics , 54, 159-178.KPSS test differs to the DF and ADF null hypothesis is stationarity. Model decomposed into trend, random walk (t r ) and a stationary error term:21,0u t tt t tt t IID u u r r r t yThe initial value of t r is fixed and serves the role of the intercept 0r . Thestationary null hypothesis is that 20u since tis stationary, hence under the null hypothesis t y is trend stationary.To undertake the test:i. Regress t y of on an intercept and time trend, i.e. t t y t ;ii. Save the OLS residuals from (i) ˆt t eand compute the partial sum process, i.e. 1t s t s S e ;iii. Test statistic is LM, given by:221ˆT tt KPSS S .2ˆis an estimate of the error variance RSS/T (may be corrected for autocorrelation);iv. Critical value at 5% level 0.145. If trend omitted from (i) then the criticalvalue at the 5% level is 0.463.Example 6 – Unit Root Tests – ADF test: Nelson & Plosser U.S. Data Nelson, C.R. and Plosser, C.I. (1982), Trends and Random Walks in Macroeconomic Time Series, Journal of Monetary Economics, 10, 139–162.clear all /*clear memory*/use /ec-p/data/macro/nelsonplosser.dta /*load data*/ keep year lip lsp500 /*keep a subset of Nelson and Plosser variables*/drop if lip==. | lsp500==. /*drop any missing observation*/tsset year /*set year as time identifier*/twoway (line lip year) (line lsp500 year, yaxis(2)) /*plot data over time*//*ADF tests on industrial production*/dfuller lip, regress noconstant lags(3) /*ADF test no constant or trend eq.(4) */ dfuller lip, regress lags(3) /*ADF test constant no trend eq.(5) */dfuller lip, regress trend lags(3) /*ADF test constant and trend eq.(6) *//*ADF tests on S&P 500 index*/dfuller lsp500, regress noconstant lags(3) /*ADF test no constant or trend eq.(4) */ dfuller lsp500, regress lags(3) /*ADF test constant no trend eq.(5) */dfuller lsp500, regress trend lags(3) /*ADF test constant and trend eq.(6) *//*ADF tests on industrial production*/dfuller lip, regress noconstant lags(3) /*ADF test no constant or trend eq.(4) */ Augmented Dickey-Fuller test for unit root Number of obs = 96---------- Interpolated Dickey-Fuller ---------Test 1% Critical 5% Critical 10% CriticalStatistic Value Value Value------------------------------------------------------------------------------Z(t) 2.640 -2.602 -1.950 -1.610------------------------------------------------------------------------------D.lip | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lip |L1. | .0121854 .0046149 2.64 0.010 .0030198 .0213511LD. | .0855473 .1060297 0.81 0.422 -.1250368 .2961313L2D. | -.0727104 .1059196 -0.69 0.494 -.2830758 .1376551L3D. | .0177574 .1045445 0.17 0.865 -.189877 .2253918------------------------------------------------------------------------------dfuller lip, regress lags(3) /*ADF test constant no trend eq.(5) */Augmented Dickey-Fuller test for unit root Number of obs = 96 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -0.687 -3.516 -2.893 -2.582 ------------------------------------------------------------------------------------------------------------------------------------------------------------ D.lip | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lip |L1. | -.006546 .0095294 -0.69 0.494 -.025475 .0123831 LD. | .05638 .1046247 0.54 0.591 -.1514442 .2642041 L2D. | -.0932085 .1041037 -0.90 0.373 -.2999977 .1135807 L3D. | -.0161771 .1034743 -0.16 0.876 -.2217161 .1893618 _cons | .0627725 .0281174 2.23 0.028 .0069208 .1186242 ------------------------------------------------------------------------------dfuller lip, regress trend lags(3) /*ADF test constant and trend eq.(6) */Augmented Dickey-Fuller test for unit root Number of obs = 96---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -3.298 -4.049 -3.454 -3.152 ------------------------------------------------------------------------------------------------------------------------------------------------------------ D.lip | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lip |L1. | -.2207902 .0669447 -3.30 0.001 -.3537874 -.0877929 LD. | .168619 .1054778 1.60 0.113 -.040931 .378169 L2D. | .0151678 .10462 0.14 0.885 -.1926782 .2230138 L3D. | .0831198 .1031807 0.81 0.423 -.1218666 .2881062 _trend | .0088867 .0027512 3.23 0.002 .0034209 .0143524 _cons | .1611592 .0405474 3.97 0.000 .0806046 .2417137 ------------------------------------------------------------------------------Note can find given 10.220810.220810.7792/*ADF tests on S&P 500 index*/dfuller lsp500, regress noconstant lags(3) /*ADF test no constant & trend eq.(4) */ Augmented Dickey-Fuller test for unit root Number of obs = 96---------- Interpolated Dickey-Fuller ---------Test 1% Critical 5% Critical 10% CriticalStatistic Value Value Value------------------------------------------------------------------------------Z(t) 1.567 -2.602 -1.950 -1.610------------------------------------------------------------------------------D.lsp500 | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lsp500 |L1. | .0106279 .0067804 1.57 0.120 -.0028386 .0240944LD. | .2531512 .1064478 2.38 0.019 .0417367 .4645658L2D. | -.1932357 .107425 -1.80 0.075 -.406591 .0201196L3D. | -.017031 .1064838 -0.16 0.873 -.228517 .194455------------------------------------------------------------------------------dfuller lsp500, regress lags(3) /*ADF test constant no trend eq.(5) */ Augmented Dickey-Fuller test for unit root Number of obs = 96 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) 0.059 -3.516 -2.893 -2.582 ------------------------------------------------------------------------------------------------------------------------------------------------------------ D.lsp500 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lsp500 |L1. | .0011734 .0200279 0.06 0.953 -.0386096 .0409564 LD. | .2612615 .1080976 2.42 0.018 .046539 .475984 L2D. | -.1856923 .1089062 -1.71 0.092 -.4020212 .0306366 L3D. | -.0079754 .1084307 -0.07 0.942 -.2233596 .2074089 _cons | .0252099 .0502234 0.50 0.617 -.0745527 .1249725 ------------------------------------------------------------------------------dfuller lsp500, regress trend lags(3) /*ADF test constant and trend eq.(6) */ Augmented Dickey-Fuller test for unit root Number of obs = 96---------- Interpolated Dickey-Fuller ---------Test 1% Critical 5% Critical 10% CriticalStatistic Value Value Value------------------------------------------------------------------------------Z(t) -2.121 -4.049 -3.454 -3.152------------------------------------------------------------------------------------------------------------------------------------------------------------D.lsp500 | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lsp500 |L1. | -.0969978 .0457218 -2.12 0.037 -.1878321 -.0061635LD. | .3015991 .1068021 2.82 0.006 .0894181 .5137802L2D. | -.1405117 .1079217 -1.30 0.196 -.3549171 .0738936L3D. | .0396776 .1076543 0.37 0.713 -.1741965 .2535517_trend | .0032803 .0013813 2.37 0.020 .0005362 .0060245_cons | .0942689 .0569704 1.65 0.101 -.0189127 .2074505------------------------------------------------------------------------------So both industrial production and the S&P 500 index definitely not stationary over the period, i.e. not I(0).Order of integration?Take first difference then undertake test again.In STATA the first difference operator is D, second difference operator is D2 /*ADF tests on industrial production first differenced*/dfuller D.lip, lags(3) /*ADF test constant no trend eq.(5) */dfuller D.lip, trend lags(3) /*ADF test constant and trend eq.(6) *//*ADF tests on S&P 500 index first differenced*/dfuller D.lsp500, lags(3) /*ADF test constant no trend eq.(5) */dfuller D.lsp500, trend lags(3) /*ADF test constant and trend eq.(6) *//*ADF tests on industrial production first differenced*/dfuller D.lip, lags(3) /*ADF test constant no trend eq.(5) */Augmented Dickey-Fuller test for unit root Number of obs = 95 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -5.624 -3.517 -2.894 -2.582 ------------------------------------------------------------------------------dfuller D.lip, trend lags(3) /*ADF test constant and trend eq.(6) */ Augmented Dickey-Fuller test for unit root Number of obs = 95---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -5.600 -4.051 -3.455 -3.153 ------------------------------------------------------------------------------/*ADF tests on S&P 500 index first differenced*/dfuller D.lsp500, lags(3) /*ADF test constant no trend eq.(5) */Augmented Dickey-Fuller test for unit root Number of obs = 95 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -5.996 -3.517 -2.894 -2.582 ------------------------------------------------------------------------------dfuller D.lsp500, trend lags(3) /*ADF test constant and trend eq.(6) */ Augmented Dickey-Fuller test for unit root Number of obs = 95---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -6.149 -4.051 -3.455 -3.153 ------------------------------------------------------------------------------Hence both industrial production and the S&P 500 index are I(1).4.C OINTEGRATION-Trended data can create problems due to spurious regressions.-Most macro variables are trended and hence non-stationary.-Hence the problem of spurious regressions is likely in macro models. Solution?Difference the data until it becomes stationary.Problemsi.If the model is correctly specified in both y and x then differencing bothvariables means the error process is also differenced non-invertibleMA process, estimation difficulties;ii.Once the model is differenced it can no longer have a unique long run solution.4.1 Cointegration DefinitionsWhere the regression of one non-stationary variable y on one or more non-stationary variables ,,,12k x x x results in a non spurious regression.Then a long run equilibrium relationship exists between the variables.Hence cointegration should only occur where there is a relationship linking the variables.We will only consider the case of two variables t y and t x i.e. not multivariate cointegration.If there is a long run equilibrium relationship between t y and t x , despite them both rising over time (trended), then a linear combination of the two variables must be I(0).A linear combination can be taken from the model:01t t t y xConsider the residuals:01ˆˆˆt t t t e y xIf t e I (0) then t y and t x are said to be cointegrated.10, is known as the cointegrating vector.Definitions:i. Time series t y and t x cointegrated of order d , b where d ≥b ≥0, which canbe written as t t x y , CI (d,b ), if both series are I(d ) and a linear combinationexists between the variables integrated of order I(d-b ). Then ,12 is the cointegrating vector (there is only one).ii. Generalisation, multivariate cointegration: let t Z denote an n×1 vector ofthe series ,,,,123nt t t t Z Z Z Z , if each it Z is I(d ) and an n×1 vector exists such that ' t Z I (d-b ) then it Z CI (d,b ). Can be more than one cointegrating vector.4.2Testing for Cointegration in single equationsEngle, R. and C. Granger (1987) Cointegration and error correction: Representation, estimation and testing. Econometrica, 35, 251-276.Step 1-By definition cointegration requires that the variables are integrated of the same order I(d).-So apply ADF tests to infer the number of unit roots in each variable.i.If both t y and t x are I(0) then OLS and appropriate.ii.If t y and t x are integrated to different orders, e.g. I(0) and I(1), then they can-not be cointegrated.iii.If both t y and t x are integrated to the same order, e.g. I(1), then go to step 2.Step 2- If both t y and t x are integrated to the same order, in macro data usually I(1), then estimate the long run equilibrium relationship:01t t t y x- Obtain the residuals from the model, t e .- If there is no cointegration then the results will be spurious (see section 2).- If the variables are cointegrated then OLS yields super-consistent estimatesfor the cointegrating parameter 1ˆ .Step 3- Test the residuals from step 2 for stationarity using the ADF test:11p k t k k t t t u e e e- If t e I (0) then t y and t x are cointegrated.- Note critical value differ to those standard ADF tests:Critical values (based upon Engle-Granger, 1987): MODEL 1% 5% 10%Lags (ADF) -3.73 -3.17-2.91Example 7 – Engle Granger Cointegration Use King et al. data for the U.S.:King, R. G., C. I. Plosser, J. H. Stock, and M. W. Watson. 1991. Stochastic trends and economic fluctuations. American Economic Review , 81, 819–840.Model logarithm of consumption (c) as a function of the logarithm of gdp (y).01log log t t t c yclear all /*clear memory*/use /data/r11/balance2 /*load data*/ tsset time /*set year as time identifier*/ twoway (line y time) (line c time, yaxis(2))/*STEP 1 - order of integration*//*ADF tests on real gdp*/dfuller y, regress trend lags(4) /*ADF test constant and trend eq.(6)*/ /*ADF tests on consumption*/dfuller c, regress trend lags(4) /*ADF test constant and trend eq.(6)*/ /*STEP 2 - estimate long run relationship*/regress c ypredict e, resid /*gain residuals*/estat dwatson /*durbin watson statistic*//*STEP 3 - test residuals for stationarity*/dfuller e, regress noconstant lags(4) /*ADF test on residual*//*step 1 - order of integration*//*ADF tests on real gdp*/Dfuller y, regress trend lags(4) /*ADF test constant and trend eq.(6)*/Augmented Dickey-Fuller test for unit root Number of obs = 91---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -2.133 -4.060 -3.459 -3.155 ------------------------------------------------------------------------------------------------------------------------------------------------------------ D.y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- y |L1. | -.0089805 .0042109 -2.13 0.036 -.0173543 -.0006067 LD. | .6394239 .1096428 5.83 0.000 .4213873 .8574606 L2D. | -.0055359 .1296175 -0.04 0.966 -.2632945 .2522227 L3D. | .0906288 .1302257 0.70 0.488 -.1683393 .3495969 L4D. | .0008952 .1130575 0.01 0.994 -.2239321 .2257225 _trend | .0001668 .0000632 2.64 0.010 .0000411 .0002926 _cons | .0260383 .0118528 2.20 0.031 .0024678 .0496088 ------------------------------------------------------------------------------/*ADF tests on consumption*/dfuller c, regress trend lags(4) /*ADF test constant and trend eq.(6)*/ Augmented Dickey-Fuller test for unit root Number of obs = 91 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------------------ Z(t) -1.622 -4.060 -3.459 -3.155 ------------------------------------------------------------------------------------------------------------------------------------------------------------ D.c | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- c |L1. | -.0063104 .0038897 -1.62 0.108 -.0140456 .0014248 LD. | .6579478 .1068026 6.16 0.000 .4455591 .8703365 L2D. | .1038069 .1289307 0.81 0.423 -.152586 .3601998 L3D. | .2031445 .1317853 1.54 0.127 -.0589249 .465214 L4D. | -.2282238 .1125153 -2.03 0.046 -.4519729 -.0044747 _trend | .0001326 .0000526 2.52 0.014 .0000279 .0002372 _cons | .0180606 .0109068 1.66 0.101 -.0036288 .0397499 ------------------------------------------------------------------------------。
4.2 二元选择模型-高级应用计量经济学课件
ln L
fi yi 0 1 Fi
Xi
yi 1
fi Fi
Xi
n i 1
qi
f
(qi
Xi) Βιβλιοθήκη F (qi X i ) Xi
n
i X i
i 1
0
qi 2yi 1
• 关于参数的非线性函数,不能直接求解,需采用 完全信息最大似然法中所采用的迭代方法。
• 应用计量经济学软件。
• 这里所谓“重复观测值不可以得到”,是指对每 个决策者只有一个观测值。如果有多个观测值, 也将其看成为多个不同的决策者。
4、重复观测值可以得到情况下二元Probit离 散选择模型的参数估计
• 思路
– 对每个决策者有多个重复(例如10次左右)观测值。 – 对第i个决策者重复观测ni次,选择yi=1的次数比例为pi,
那么可以将pi作为真实概率Pi的一个估计量。 – 建立 “概率单位模型” ,采用广义最小二乘法估计 。 – 实际中并不常用。
1 -5.000
0
0.0000
0 326.0
2
1.0000
0 261.0
1
0.0000
1 -2.000 -1
0.0000
0 14.00 -2
1.0000
1 22.00
0
0.0000
0 113.0
1
1.0000
1 42.00
1
0.0000
1 57.00
2
0.9906
0 146.0
0
0.9979
1 15.00
• 本节只介绍二元选择模型。
• 离散选择模型起源于Fechner于1860年进行的动物 条件二元反射研究。
对外经贸大学施丹宏观ppt课件
精选课件ppt
18
● WAPM的运用
ΔpΔy-Δp1Δx1- Δp2Δx2≧0 ◆产品价格变动而要素价格不变
★产量是产品价格的增函数
ΔpΔy ≧0 ★利润函数对产品价格的一阶导数 即为供给函数 y
精选课件ppt
28
●供给函数
◆供给函数
厂商愿意并且能够提供的供给量与 产品价格及要素价格之间的对应关系
◆性质
供给函数中的每一个产量都是给定 要素价格和产品价格下,使厂商利润最 大的产量
精选课件ppt
29
◆推导 ★由利润函数导出供给函数
利润函数对价格的偏导即为供给函数
★由生产函数导出供给函数
由生产函数得到要素的条件需求函数 将条件需求函数带入生产函数
价格(B-D)+C+E出售x1
TR=2B+C+(E-2D)
C
CS1=A’<A,
x1 数量数量
精选课件ppt
35
★三级价格歧视的定价分析
先决定产量
MR1(y1)=MR2(y2)=MC (y1+y2)
再决定价格
需求价格弹性较高的市场,产品售 价较低,反之较高
例:教材P365
精选课件ppt
36
市场1 P
★短期成本函数
C ( y ,x 2 ) M 1 x 1 ( p i 1 ,p 2 n ,x 2 ,y p ) p 2 x 2
精选课件ppt
27
★长期成本函数
C ( y ) M [ p 1 x 1 ( p 1 , i p 2 , y n ) p 2 x 2 ( p 1 , p 2 , y ) C (y)C s[y,x2(y)] C (y*)C s(y*,k*)
第11章-二值选择模型
© 陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。
第11章二值选择模型11.1 离散被解释变量的例子二值选择(binary choices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;生或死。
多值选择(multiple choices):对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。
这类模型被称为“离散选择模型”(discrete choice model)或“定1性反应模型”(qualitative response model)。
有时被解释变量只能取非负整数:企业在某段时间内获得的专利数;某人在一定时间内去医院看病的次数;某省在一年内发生煤矿事故的次数。
这类数据称为“计数数据”(count data),被解释变量也是离散的。
考虑到离散被解释变量的特点,通常不宜用OLS进行回归。
2311.2 二值选择模型假设个体只有两种选择,比如1y =(考研)或0y =(不考研)。
所有解释变量都包括在向量x 中。
“线性概率模型”(Linear Probability Model ,简记LPM):(1,,)i i i y i n ε'=+= x β优点:计算方便,容易得到边际效应。
缺点:(1)由于i i i y ε'=-x β,故1i i ε'=-x β或i i ε'=-x β,因此i ε必然与i x 相关,导致估计不一致。
4(2)i ε服从两点分布,而非正态分布。
(3)由于Var()Var()i i ε'=x β,故扰动项i ε的方差依赖于i x ,存在异方差(故应使用稳健标准误)。
(4)可能出现ˆ1y>或ˆ0y <的不现实情形,参见图11.1。
5图11.1 OLS 与二值选择模型6为使y 的预测值总是介于[]0,1之间,给定x ,考虑y 的两点分布概率:P(1|)(,)P(0|)1(,)y F y F ==⎧⎨==-⎩x x x x ββ函数(,)F x β也称“连接函数”(link function)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拟和优度- (2)pseudo R-squared
Amemiya (1981)
1 pseudoR 1 1 2(log L1 log L0 ) / N
2
McFadden(1974) L1无约束模型,设计的模型;L0有约束模型,模型 中只包括常数项;N样本数,N1样本中被解释变 量观测值取1的个数。
例3
1)三种方法系数符号相同。 2)系数大小比较,逻辑模型乘0.25,probit模型乘 0.4。 3)重要的区别是线性概率模型假设边际效应相同, 而逻辑模型和概率单位模型假设边际效应递减。
例3
根据线性概率模型,如果增加一个小孩,不管已经有了几 个小孩,也不管其他解释变量的取值,参加工作的概率 减少26.2%。 根据PROBIT模型,假设取其他解释变量为样本均值,当没 有孩子,增加1个时,参加工作概率减少33.4%,如果已 经有1个,又增加一个,参加工作概率减少22.5%。 使用PROBIT模型:其他因素不变时,年龄对参加工作概 率的边际影响 P(y=1|X)=g(0.27-0.012收入的均值+0.131教育程度均值 +0.123工作时间均值-0.0019工作时间均值2-0.53年龄 -0.868小孩个数均值)(-0.53)
选择模型的解释
在大部分应用中关心的是xj 的变化对P(y=1|x)的影 响,边际影响(margin effect) 如果解释变量连续 p / x j g ( z ) j 如果解释变量离散,假设x1取值0或1 概率变化很简单,其他量保持不变 G(0+1+2 x2…+xk)-G(0+2 x2+…+xk)
潜在(latent)模型
假设有一个无法观测到的变量满足传统的线性模 型,例如y*表示已婚妇女的参加工作的效用。 y*=0+1x1+…+xk+u 如果y*>0,则y=1,否则等于0 假设u满足标准正态分布或标准逻辑分布并且与x 独立 p(y=1|x)=p(y*>0|x)=p(u>-(0+1x1+…+xk)|x)=1G(-(0+1x1+…+xk))= G(0+1x1+…+xk)
检验-异方差
假设异方差
V ( i ) kh( z i' )
h(0)=1, 对于probit模型,k=1 对于logit模型k=2/3 常用的假设是指数形式
h [exp(1 z1i ... J z Ji )]
2
检验-异方差
似然函数
log L( ) yi log G (
ˆ ˆ wr0 1 p p 0.5 ˆ ˆ p p 0.5 ˆ p N1 / N
R 1 wr1 / wr0
2 p
推断和识别检验
检验模型中某个系数是否等于0,使用t检验。 检验某几个系数是否等于0 使用WALD检验,LM检验或LR检验
ˆ ˆ ˆ ( R q)' ( RVar( ) R' ) 1 ( R q) ˆ ˆ LR 2(ln L ln L )
预测y=1的概率
P^(y=1|x)=G(b0+b1x1+…+bxk) Y^=1如果P^>0.5 Y^=0如果P^<=0.5
例2
选择公共交通还是开车上班 y=1选择开车 解释变量x是(乘公共交通需要的时间-开车需要的时间) -0.0644+0.0299Xi X=20时
ˆ dP / dx f (b1 b2 x)b2 f (0.0644 0.0299 * 20)(0.0299 ) 0.0104
' i
yi F ( x ) L ' ~ [ f ( xi ' ) exp( z i' ) z i ( xi' ) ' ~ ' ~ i 1 F ( xi )(1 F ( xi ))
N ' i
~
检验-异方差
异方差的LM检验 H0:=0 检验相当于做如下辅助回归
二元选择模型的解释
三个二元选择模型的边际影响
( xi' ) ( xi' ) k xik L( x ) e k ( xi' )(1 ( xi' ) k xi' 2 xik (1 e )
' i xi'
xi' k (or 0) xik
R U
LM=g’Vg g是无约束模型的一阶条件,在满足约束情况下的取值,V 是无约束模型的参数的协方差阵在约束满足情况下的取 值
检验
检验是否有忽略掉的解释变量 H0: y*=x’+ H1: y*=x’+ z’ + 检验=0 使用LM检验 1)估计零假设成立时的模型 ˆ ˆ 1 G xi' G z i' u i 2)估计辅助回归模型 3)计算NR2=拟和值的平方和=N-RSS,(RSS是残差平方和)
估计方法
广义残差
y i F ( xi' ) f ( xi' ) F ( xi' )(1 F ( xi' ))
LOGIT模型的一阶和二阶条件
因为 一阶
f ( x ) ( x )(1 ( x )
' i ' i ' i
log L( ) N [ yi ( xi' )]xi i 1
家庭其他收入 教育程度 工作时间 工作时间2 年龄 小于6岁孩子 个数 常数项
-0.0034 0.038 0.039 -0.0006 -0.016 -0.262 0.586
-0.021 0.221 0.206 -0.0032 -0.088 -1.443 0.425
-0.012 0.131 0.123 -0.0019 -0.53 -0.868 0.27
ˆ x=30时, P F (0.0644 0.0299 * 30) 0.798 预测结果y=1
例3
已婚女性是否参加工作的影响因素 抽样调查753个妇女,如果工作work=1 影响因素包括其他的收入;教育程度;结婚前的 工作时间;年龄;小于6岁的孩子的个数。
例3
是否工作 变量 线性概率模型 逻辑模型 PROBIT模型
潜在模型
如果有明确效用的化,整个PROBIT模型可以写成 y*=0+1x1+…+xk+u,u~N(0,1) y=1,如果y*>0 y=0,如果y*0
估计方法
似然函数
L( ) P( y i 1 | xi ; ) yi P( y i 0 | xi ; )1 yi
i 1 N
log L( ) y i log G ( x ) (1 y i ) log(1 G ( xi' ))
N
N
一阶条件
i 1
' i
i 1
y i F ( xi' ) log L( ) N [ f ( xi' )] xi ' ' i 1 F ( xi )(1 F ( xi ))
i 1 N
xi' h( z i ' )
) (1 yi ) log(1 G (
i 1
N
xi' h( z i ' )
))
假设 V ( i ) k[exp( z i ' )] 2 ~ 一阶条件 L N [ yi F ( xi' )
i 1
~ f ( x ' ) exp( z i' ) xi ~ ~ F ( xi' )(1 F ( xi' ))
例题
假设异方差 V ( i ) [exp(1kids 2 familyinco )] 2 me 存在异方差时的似然值=-487.6356 LR=2(-487.6356-(-490.8478))=6.424 LM=2.236(使用BHHH) W=6.533 2(2)临界值5.99(1%)
log L0 N1 log(N1 / N ) ( N N1 ) log(1 N1 / N )
2 McFaddenR 1 log L1 / log L0
拟和优度-(3)错判率
模型的错判率
1 N ˆ wr1 ( y i y i ) 2 N i 1 对照模型(只包括常数项)的错判率
二元选择模型的解释
( 1 ) g(z)是密度函数,总是大于0,所以参数的符号为正
说明增加发生的概率,为负说明减少发生的概率,但是 程度的大小还需要计算。 (2)随着解释变量的变化,密度函数的取值发生变化。对 probit模型来说,当z=0时,密度值最大大约是0.4,这 时选择y=1概率50%,这时x改变的边际效果最大 (3)另一方面如果z取值非常大(小),这时y=1的概率 几乎等于1,x的改变的边际效果很小,因为f(z)近似 等于0
二元选择模型的解释
例1 p(y=1|x)=G(0+1Z1+2Z21+3LOG(Z2)+ 4Z3) 变 量 Z1 改 变 一 个 单 位 , y=1 变 化 的 概 率 为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3) ( 1 + 22 Z1) 变量Z2改变一个单位,y=1变化的概率为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3)(3 /Z2)
N 2L H i (1 i ) xi xi ' ' i 1