时间序列数据的伪回归问题
举例解释伪回归现象
举例解释伪回归现象
伪回归现象是指在简单线性回归模型中,当两个变量之间存在非线性关系时,可能会出现回归系数显著,但模型解释能力较差的情况。
简单线性回归模型的公式为:
y = β0 + β1x + ε
其中,y是因变量,x是自变量,β0和β1是回归系数,ε是误差项。
举一个例子来解释伪回归现象:假设研究人员想要探究一个人的体重与他的年龄之间的关系。
研究人员收集了100个样本,分别记录了这些人的体重和年龄。
他们使用简单线性回归模型进行分析,并得到了如下结果:
体重 = 60 + 0.5年龄
在这个模型中,年龄是自变量,体重是因变量。
然而,研究人员注意到,尽管回归系数0.5在统计上是显著的,但模型的解释能力却很差。
换句话说,年龄并不能很好地解释体重的变化。
进一步分析后,研究人员发现,体重与年龄之间存在一个曲线关系,而不是线性关系。
即体重随着年龄的增长先增加,然后逐渐减少。
所以,该模型中的回归系数并不能准确地解释体重与年龄之间的关系。
因此,这个例子展示了伪回归现象,即在简单线性回归模型中,当变量之间存在非线性关系时,回归系数可能是显著的,但模型的解释能力却较差。
这提示我们在进行回归分析时,要注意变量之间的关
系是否是线性的,以避免出现伪回归现象。
第八章、非平稳时间序列分析
第八章、非平稳时间序列分析很多时间序列表现出非平稳的特性:随机变量的数学期望和方差随时间的变化而变化。
宏观经济数据形成的时间序列中有很多是非平稳时间序列。
非平稳时间序列与平稳时间序列具有截然不同的特征,研究的方法也很不一样。
因此,在对时间序列建立模型时,必须首先进行平稳性检验,对于平稳时间序列,可采用第七章的方法进行分析,对于非平稳时间序列,可以将采用差分方法得到平稳时间序列,然后采用平稳时间序列方法对差分数据进行研究,对于多个非平稳时间序列则可以采用协整方法对其关系进行研究。
8.1 随机游动和单位根8.1.1随机游动和单位根如果时间序列t y 满足模型t t t y y ε+=-1 (8.1)其中t ε为独立同分布的白噪声序列, ,2,1,)(2==t Var t σε,则称t y 为标准随机游动(standard random walk )。
随机游动表明,时间序列在t 处的值等于1-t 时的值加上一个新息。
如果将t y 看作一个质点在直线上的位置,当前位置为1-t y ,则下一个时刻质点将向那个方向运动、运动多少(t ε)是完全随机的,既与当前所处的位置无关(t ε与1-t y 不相关),也与以前的运动历史无关(t ε与 ,,32--t t y y 不相关),由质点的运动历史和当前位置不能得出下一步运动方向的任何信息。
这便是 “随机游动”的由来。
随机游动时间序列是典型的非平稳时间序列。
将(8.1)进行递归,可以得出010211y y y y t s s t t t t t t t +==++=+=∑-=----εεεε (8.2)。
如果初始值0y 已知,则可以计算出t y 的方差为2)(σt y Var t =。
由此看出随机游动在不同时点的方差与时间t 成正比,不是常数,因此随机游动是非平稳时间序列。
下图给出了随12机游动时间序列图:图8.1 随机游动时间序列图将随机游动(8.1)用滞后算子表示为t t y L ε=-)1( (8.3),滞后多项式为L L -=Φ1)(。
伪回归和单位根
以用任意m个时刻
观测值
的联合概率分布,与
时刻观测
值
的联合概率分布相同
=
表{示Y。t,t0,1,2, }
P(Yt1,YY t2t,1 k,,Y Yttm 2 )k, P(,Y Y tt1 t11 t ,m kt2,kk Y , t,2t2 k,, t mk,,Y tm,kt)m Y t1,k Yt2,,Ytm
GER的图形也不满足稳定方差的基本特征,因此这两个时间序列都是非平稳的。
伪回归和单位根
1600
1400
1200
1000
800
600
400
200
36
38
40
42
44
46
48
50
52
54
IN VGM
伪回归和单位根
4.0
3.5
3.0
2.5
2.0
1.5
1.0
1000
2000
3000
4000
5000
6000
反之则认为 不显著,认为时间序列服从上述单位根过程,时间序列是非平稳的。
上述单位根检验方法就称为“迪基-富勒检验”,简称“DF 检验”。
0
伪回归和单位根 随机游走过程只是最简单的一种单位根过程,许多非平稳时间序列包含更复杂的单位根过程,
包含常数项、趋势项和高阶差分项等。 为了使迪基-富勒检验适用单位根过程的检验,必须作适当的扩展。方法是分别采用下列模型:
伪回归和单位根
首先检验时间序列是否属于最基本的单位根过程,也称为随机游走过程
,其中 为
白噪声过程。
YY 如果自回归模型
中 ,或者变换成的回归模型
中的
时间序列{ }就是最基本的单位根过程——随机游走过t 程,肯t定1是非平稳t的。
回归分析中的时间序列数据处理技巧(五)
回归分析中的时间序列数据处理技巧时间序列数据在回归分析中扮演着重要的角色,它是指按时间顺序排列的一系列数据。
在实际问题中,很多数据都具有时间序列的特征,比如股票价格、气温变化、销售额等。
因此,对时间序列数据的处理技巧成为了回归分析中的重要内容。
本文就来探讨一些处理时间序列数据的技巧。
数据平稳性的检验时间序列数据的平稳性是进行回归分析的前提条件之一。
平稳性是指数据的均值和方差在任意时间段内都保持不变。
我们可以通过绘制原始数据的时序图和自相关图来初步判断数据的平稳性。
如果发现时序图有趋势或季节性变化,或者自相关图有明显的自相关性,那么就需要对数据进行变换,使其满足平稳性的要求。
差分法差分法是一种常用的数据变换方法,它可以减弱时间序列数据的趋势和季节性。
差分法的原理是,对原始数据进行一阶差分或二阶差分,即对相邻时间点的数据做减法。
通过差分变换,我们可以将非平稳时间序列数据转化为平稳时间序列数据,从而满足回归分析的要求。
季节性调整在处理季节性时间序列数据时,我们需要考虑到季节性因素对数据的影响。
一种常见的处理方法是进行季节性调整,即对原始数据进行季节性差分或季节性因子调整。
季节性差分是指对数据按照季节间隔进行差分,季节性因子调整是指按照季节性因子对数据进行加权处理。
通过季节性调整,我们可以消除数据中的季节性影响,使其更适合进行回归分析。
自回归模型自回归模型是一种常用的时间序列预测方法,它基于时间序列数据的自相关性进行建模。
在回归分析中,我们可以使用自回归模型来对时间序列数据进行预测。
自回归模型的核心思想是,当前时刻的数据可以由过去时刻的数据来预测。
通过对时间序列数据进行自回归建模,我们可以得到预测模型,从而对未来的数据进行预测。
移动平均模型移动平均模型是另一种常用的时间序列预测方法,它基于时间序列数据的移动平均性进行建模。
在回归分析中,我们可以使用移动平均模型来对时间序列数据进行预测。
移动平均模型的核心思想是,当前时刻的数据可以由过去时刻的数据的平均值来预测。
时间序列数据的伪回归问题
式Yt=0+1Xt+t中的随机扰动项也被称为非 均衡误差(disequilibrium error),它是变量X与Y 的一个线性组合:
t Yt 0 1 X t
(*)
因此,如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话,(*)式表述的非 均衡误差应是一平稳时间序列,并且具有零期 望值,即是具有0均值的I(0)序列。
Ct 49.764106 0.45831 GDP t
R2=0.9981
通过对该式计算的残差序列作ADF检验, 得适当检验模型
ˆt 1.55e ˆt 1 1.49e ˆt 1 2.27e ˆt 3 e
(-4.47) (3.93) (3.05)
t=-4.47<-3.75=ADF0.05,拒绝存在单位根的 假设,残差项是稳定的,因此中国居民人均消费 水平与人均GDP是(2,2)阶协整的,说明了该两变 量间存在长期稳定的“均衡”关系。
可见,如果Yt=0+1Xt+t正确地提示了X与 Y间的长期稳定的“均衡关系”,则意味着Y对 其均衡点的偏离从本质上说是“临时性”的。 因此,一个重要的假设就是:随机扰动项t 必须是平稳序列。 显然,如果t有随机性趋势(上升或下降), 则会导致Y对其均衡点的任何偏离都会被长期累 积下来而不能被消除。
• 1、利用非平稳时间序列直接建模容易产生
“伪回归”问题
?个人收入水平
物价指数 个人收入水平
物价指数
较为普遍的现象!!
• 很多经济时间序列都是非平稳的(从直观上看, 随着经济的发展,多数经济时间序列呈明显的上 升趋势),而直接采用非平稳时间序列建立回归 模型,很容易产生“伪回归”问题。
时间序列数据的各种问题的处理
假定所有的g个变量都是I(1)即一阶单整过程。其 中,yt、yt-1…yt-k为g×1列向量,β1β2…βk为g×g系
u 数矩阵, 为t 白噪音过程的随机误差项组成的g×1
列向量。
30
对式5.11做适当的变换,可以得到如下的以 VECM形式表示的模型:
那么,这一随机过程称为白噪声。
3
二、平稳性原理 如果一个随机过程的均值和方差在时间过程上都
是常数,并且在任何两时期的协方差值仅依赖于 该两时期间的距离或滞后,而不依赖于计算这个 协方差的实际时间,就称它为平稳的。
4
平稳随机过程的性质:
均值 E(yt )
(对所有t)
方差 var(yt)E (yt)22 (对所有t)
31
我们所感兴趣的是 系数矩阵,它可以看作
是一个代表变量间长期关系的系数矩阵。因为 在长期达到均衡时,式5.12所有的差分变量都
u 是零向量, t 中随机误差项的期望值为零,因
此我们有 yt-k =0,表示的是长期均衡时变量间
的关系。
32
对变量之间协整关系的检验可以通过计算 系数矩阵的秩及特征值来判断。将 系数矩
m
Yt 12tYt1i Ytit i1
(5.10)
15
式(5.10)中增加了 Y t 的滞后项,建立在式
(5.10)基础上的DF检验又被称为增广的DF检 验(augmented Dickey-Fuller,简记ADF)。 ADF检验统计量和DF统计量有同样的渐近分布, 使用相同的临界值。
要点
平稳性的定义 平稳性的检验方法(ADF检验) 伪回归的定义 协整的定义及检验方法(AEG方法) 误差修正模型的含义及表示形式
计量经济学题(答案)
《计量经济学》要点一、单项选择题知识点:第一章若干定义、概念时间序列数据定义横截面数据定义同一统计指标按时间顺序记录的数据称为( B )。
A、横截面数据B、时间序列数据C、修匀数据D、原始数据同一时间,不同单位相同指标组成的观测数据称为( B )A.原始数据B.横截面数据C.时间序列数据D.修匀数据变量定义(被解释变量、解释变量、内生变量、外生变量、前定变量)单方程中可以作为被解释变量的是(控制变量、前定变量、内生变量、外生变量);在回归分析中,下列有关解释变量和被解释变量的说法正确的有( C )A、被解释变量和解释变量均为随机变量B、被解释变量和解释变量均为非随机变量C、被解释变量为随机变量,解释变量为非随机变量D、被解释变量为非随机变量,解释变量为随机变量什么是解释变量、被解释变量?从变量的因果关系上,模型中变量可分为解释变量(Explanatory variable)和被解释变量(Explained variable)。
在模型中,解释变量是变动的原因,被解释变量是变动的结果。
被解释变量是模型要分析研究的对象,也常称为“应变量”(Dependent variable)、“回归子”(Regressand)等。
解释变量也常称为“自变量”(Independent variable)、“回归元”(Regressor)等,是说明应变量变动主要原因的变量。
因此,被解释变量只能由内生变量担任,不能由非内生变量担任。
单方程计量经济模型中可以作为被解释变量的是( C )A、控制变量B、前定变量C、内生变量D、外生变量单方程计量经济模型的被解释变量是( A )A、内生变量B、政策变量C、控制变量D、外生变量在回归分析中,下列有关解释变量和被解释变量的说法正确的有(C)A 、被解释变量和解释变量均为随机变量B 、被解释变量和解释变量均为非随机变量C 、被解释变量为随机变量,解释变量为非随机变量D 、被解释变量为非随机变量,解释变量为随机变量 双对数模型中参数的含义;双对数模型01ln ln ln Y X ββμ=++中,参数1β的含义是( D )A . X 的相对变化,引起Y 的期望值绝对量变化B .Y 关于X 的边际变化C .X 的绝对量发生一定变动时,引起因变量Y 的相对变化率D 、Y 关于X 的弹性双对数模型 μββ++=X Y ln ln ln 10中,参数1β的含义是 ( C )A. Y关于X的增长率 B .Y关于X的发展速度C. Y关于X的弹性D. Y关于X 的边际变化计量经济学研究方法一般步骤四步12点计量经济学的研究方法一般分为以下四个步骤( B )A.确定科学的理论依据、模型设定、模型修定、模型应用B.模型设定、估计参数、模型检验、模型应用C.搜集数据、模型设定、估计参数、预测检验D.模型设定、检验、结构分析、模型应用对计量经济模型应当进行哪些方面的检验?经济意义检验:检验模型估计结果,尤其是参数估计,是否符合经济理论。
带时间序列误差的回归模型 -回复
带时间序列误差的回归模型-回复中括号内的主题:“带时间序列误差的回归模型”概述:时间序列分析是经济学、金融学和其他领域的重要分析工具,它可以用来研究数据随时间变化的趋势和关系。
当我们在建立回归模型时,往往需要考虑时间序列误差的存在。
本文将介绍带时间序列误差的回归模型,并详细解释其概念、应用以及建模方法。
第一节:什么是时间序列误差时间序列误差是指在时间序列分析中,由于模型假设的不完美或未考虑的因素而造成的观测值和预测值之间的差异。
时间序列误差可能是由于外部因素的干扰、模型本身的不完善等各种原因导致的。
第二节:时间序列误差对回归模型的影响时间序列误差对回归模型的影响主要体现在两个方面。
首先,时间序列误差可能导致回归系数估计的不准确性,进而影响模型的预测能力。
其次,时间序列误差可能破坏模型的假设前提,使得模型的显著性检验结果不可靠。
第三节:带时间序列误差的回归模型的应用场景带时间序列误差的回归模型在许多领域都有广泛的应用。
比如,在金融学中,我们常常需要建立股票价格与一些基本面因素的关系模型,但由于金融市场的复杂性和不确定性,时间序列误差是无法避免的。
在宏观经济学中,我们也经常需要研究经济指标与经济环境因素之间的关系,同样也需要考虑时间序列误差对模型的影响。
此外,带时间序列误差的回归模型还可以应用于销售预测、需求预测等领域。
第四节:建立带时间序列误差的回归模型的方法建立带时间序列误差的回归模型的方法有很多。
首先,我们可以使用时间序列模型来建立时间序列误差的模型,然后将其作为回归模型的误差项。
常用的时间序列模型包括ARIMA模型、ARCH模型、GARCH模型等。
其次,我们可以通过引入滞后变量、趋势项、季节项等来捕捉时间序列误差的影响。
此外,我们还可以使用贝叶斯方法、机器学习方法等进行建模。
第五节:实证研究与案例分析为了验证建立带时间序列误差的回归模型的有效性,我们可以进行实证研究和案例分析。
通过对实际数据的拟合和预测,我们可以评估模型的拟合度和预测准确性,并根据实证结果进一步优化模型。
第十章(一) 伪回归和单位根检验
例10.1.4 图形法检验 GDP 股价 股票收益率等的平稳性
线图 自相关和偏自相关图
四、平稳性的单位根检验
对时间序列的平稳性除了通过图形直观判断外,运用统计量进行统 计检验则是更为准确与重要的。
单位根检验(unit root test)是统计检验中普遍应用的一种检验方 法。
0.280
6
0.387 K=5,
0.187
7 -0.156 K=6, -0.363
8
0.204 K=7, -0.148
9 -0.340 K=8,
0.315
10
0.157 K=9,
0.194
11
0.228 K=10, -0.139
12 -0.315 K=11, -0.297
13 -0.377 K=12, 0.034
第十章
时间序列计量经济模型
第一节 时间序列的平稳性及单位根检验 第二节 随机时间序列模型的识别和估计 第三节 时间序列的协整与误差修正模型
§10.1 时间序列的平稳性及其检验
一、问题的引出:非平稳变量与经典回归模型 二、时间序列数据的平稳性 三、平稳性的图示判断 四、平稳性的单位根检验 五、单整、趋势平稳与差分平稳随机过程
• 然而,对X取一阶差分(first difference): Xt=Xt-Xt-1=t
由于t是一个白噪声,则序列{Xt}是平稳的。
后面将会看到:如果一个时间序列是非平稳的,它常常可通过取差 分的方法而形成平稳序列。
• 事实上,随机游走过程是下面我们称之为1阶自回归AR(1)过程的特 例
Xt=Xt-1+t
-0.031 0.157 0.264
-0.191 -0.616 -0.229 -0.385 -0.181 -0.521 -0.364 -0.136 -0.451 -0.828 -0.884 -0.406 -0.162 -0.377 -0.236
回归分析中的时间序列数据处理技巧(八)
回归分析中的时间序列数据处理技巧时间序列数据在回归分析中扮演着重要的角色,它们能够帮助我们理解变量之间的因果关系,预测未来走势,并制定合理的决策。
然而,时间序列数据处理并不是一件简单的事情,它涉及到很多技巧和方法。
在本文中,我们将讨论回归分析中的时间序列数据处理技巧,帮助读者更好地应对这一挑战。
1. 数据平稳性首先,我们需要确保时间序列数据的平稳性。
平稳时间序列意味着其均值和方差在整个时间范围内保持不变,这样才能保证回归分析的准确性。
我们可以通过观察数据的均值和方差是否随时间变化来初步判断数据的平稳性,同时还可以借助单位根检验等统计方法来验证数据的平稳性。
2. 季节性调整很多时间序列数据都会存在季节性变化,这会对回归分析的结果产生影响。
因此,我们需要对数据进行季节性调整,以消除这一影响。
常用的方法包括季节性差分和季节性调整模型,通过这些方法,我们可以更好地理解数据的趋势和周期性。
3. 自相关性和残差分析自相关性是时间序列数据中常见的问题,它会导致回归分析的结果产生偏误。
因此,我们需要对数据进行自相关性分析,找出存在自相关性的变量,并进行相应的处理。
另外,残差分析也是非常重要的一步,通过对残差进行检验,我们可以验证回归模型的拟合效果,从而提高模型的准确性。
4. 异常值和缺失值处理在时间序列数据中,往往会存在一些异常值和缺失值,这会对回归分析的结果产生严重影响。
因此,我们需要对这些异常值和缺失值进行处理,以确保数据的完整性和准确性。
常用的方法包括插值和异常值检测,通过这些方法,我们可以更好地理解数据的真实情况。
5. 模型选择和评估最后,我们需要选择合适的回归模型,并对其进行评估。
在选择模型时,我们需要考虑数据的特点和回归分析的目的,同时还需要注意模型的复杂性和拟合效果。
在评估模型时,我们可以借助残差分析、预测准确性和模型比较等方法,从而找出最优的回归模型。
总结回归分析中的时间序列数据处理技巧涉及到很多方面,从数据的平稳性到模型的选择和评估,都需要我们付出较大的努力。
回归分析中的伪回归及其处理(课堂PPT)
16
• 实际情况往往并非如此
如果t-1期末,发生了上述第二种情况,即Y 的值小于其均衡值,则Y的变化往往会比第一 种情形下Y的变化Yt大一些;
反之,如果Y的值大于其均衡值,则Y的变 化往往会小于第一种情形下的Yt 。
2020/4/26
17
可见,如果Yt=0+1Xt+t正确地提示了X与 Y间的长期稳定的“均衡关系”,则意味着Y对 其均衡点的偏离从本质上说是“临时性”的。
我们建立的模型是一个均衡的模型,而实 际情况不可能总是在均衡状态下,实际往往会 偏离其均衡状态而处于不均衡状态。这时,则 需要根据上一期的不均衡程度调整本期的预测 值。
2020/4/26
9
• 利用非平稳时间序列直接建模容易产生 “伪回归”问题
• 存在着因果关系的变量间建立的回归预测 模型的预测效果越来越差
假设Yt=0+1Xt+t式中的X与Y是I(1)序 列,如果该式所表述的它们间的长期均衡关 系成立的话,则意味着由非均衡误差(*)式 给出的线性组合是I(0)序列。这时我们称变量 X与Y是协整的(cointegrated)。
2020/4/26
20
• 检验变量之间的协整关系,在建立计量经济 学模型中是非常重要的。
的一个线性组合:
t Yt 0 1X t
(*)
因此,如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话,(*)式表述的非
均衡误差应是一平稳时间序列,并且具有零期
望值,即是具有0均值的I(0)序列。
2020/4/26
19
3.协整
从这里已看到,非稳定的时间序列,它 们的线性组合也可能成为平稳的。
因此,一个重要的假设就是:随机扰动项t 必须是平稳序列。
第十章-时间序列计量经济模型(1)
(2)带漂移项的随机游走序列(random walk
with drift)
Yt = a + Yt-1 + et
这里, a 是一非零常数,称为漂移项。
将上式写成一阶差分形式
Yt = Yt -Yt-1 = a + et Yt向上或向下漂移,取决于a的符号是正还是负。
通过直接迭代
于是
t
t
Yt Y0 (a e i ) Y0 ta e i
三种模型为:
Yt = gYt-1 + et
Yt = a +gYt-1 + et
Yt = a + b t +gYt-1 + et
三、Augmented Dickeg-Fuller检验
DF检验有一个前提条件: 在检验所设定的模型 中,随机扰动项不存在自相关。但大多数经济数据 序列不能满足这一假设,当随机扰动项存在自相关 时,直接使用DF检验会出现偏误。为了保证单位根 的检验有效性,人们对DF检验进行拓展,从而形成 了扩展的DF检验,简称为ADF检验。
考察一下平稳过程的数字特征
(1)设平稳过程{Yt } 的均值函数E(Yt)存在, 由平稳性定义,随机变量Yt与Yt+h同分布,于是
E(Yt)= E(Yt+h)
令h=-t,则有E(Yt)= E(Y0)为常数,记为m;
(2)同理,平稳过程{Yt } 的方差函数也为常
数,记为s2;
(3)由平稳性定义,二维随机变量
其特征方程为
1- 1z - 2z2 - … - kzk = 0
若时间序列{Yt }含有 d 个单位根,经过 d 阶差 分后变为平稳,而d-1 阶差分不平稳,则称为 d 阶 单整序列,记为{Yt } ~I(d)。特别地,若{Yt }本身 是平稳的,则称它零阶单整序列,记为{Yt } ~I(d)。
《统计前沿虚假回归》课件
虚假回归可能导致错误的结论和决策,影响科学研究、政策制定和实践应用。 因此,了解虚假回归的原因、识别方法和避免措施对于提高数据分析和科学研 究的准确性至关重要。
虚假回归的常见原因和影响
影响
虚假回归可能导致以下问题
资源浪费
基于虚假回归的研究可能导致 资源的不合理分配和浪费。
常见原因
虚假回归的产生通常与数据噪 声、样本选择偏差、共线性、 模型设定误差等因素有关。
减少虚假回归
现代统计方法通常在理论上更加严谨,能够更好地处理各种数据问题, 从而减少虚假回归的发生。
03
实例
例如,固定效应模型可以控制不随时间变化的遗漏变量偏差,从而更准
确地估计因果关系。
统计方法选择与虚假回归预防
选择合适的统计方法
在分析数据时,应根据数据的特性和研究目的选择合适的统计方法。对于可能存在虚假回 归的问题,应选择理论上更加严谨、对数据假设较少的方法。
数据质量与虚假回归
提高数据质量也是预防虚假回归的重要手段。数据清洗、数据预处理等步骤可以有效去除 异常值、缺失值等问题,提高数据质量。
研究设计和样本选择
在研究设计和样本选择阶段,应充分考虑可能导致虚假回归的因素,并采取相应措施加以 控制。例如,在实验设计中,应尽量减少无关变量的干扰;在样本选择中,应保证样本的 代表性和随机性。
虚假回归与真实回归
真实回归是指两个或多个变量之间存在真实的、因果的关 系。
识别虚假回归
在数据分析中,我们需要通过一系列统计方法和检验来判 断两个变量之间的关系是否为虚假回归。
虚假回归的背景和重要性
背景
在许多领域,如社会科学、经济学、医学等,研究者经常需要探究变量之间的 关系。然而,由于数据采集的限制、样本误差等因素,虚假回归时有发生。
统计前沿--虚假回归
本节内容结束,谢谢观看!
虚假回归
Spurious Regression
在线性回归模型中,我们总 是以样本决定系数R2作为回归方 程对解释变量与被解释变量样本 变化关系旳拟合程度旳度量。然 而变量之间旳样本有关与总体有 关是两个概念,虽然经济变量旳 样本之间旳关系在一定程度上能 够阐明变量总体之间旳关系,但 也有例外,这主要取决于经济变
毫不相干旳,这是一种经典旳虚假 回归之例子。所以,我们在经济分 析 中 不 能 盲 目 依 赖 于 R2 及 t- 检 验 旳 成果,要正视由变量旳非平稳性给 我们带来旳虚假回归问题。
另外,在虚假回归旳情况下,回 归 旳 DW 统 计 量 值 伴 随 样 本 容 量 旳 增大而收敛于0。而当回归式不是虚 假 回 归 时 , DW 统 计 量 值 则 不 收 敛 于0。这阐明DW检验能够帮助我们 区别真实回归与虚假回归。
有研究证明, 样成立。由此可见,只要解释变量 或被解释变量为非平稳旳,虚假回 归旳可能性就存在。
例如在应用经济研究中作中国 人口数与美国国民生产总值之间旳 回归分析,回归估计旳拟合优度会 很 高 , 此 二 指 标 均 为 I(1) 时 间 序 列 ,显然,中国人口数与美国国民生 产总值之间是
成随机序列εt、ωt各
10000次,计算每次所生成随机
序 列 εt、ωt 旳 样 本 有 关 系 数 , 考察这10000个样本有关系数旳
分布;对εt、ωt分别进行累加 可得两个随机游动序列Xt、Yt, 即X t、Yt为两个I (1) 序列,对相 应旳X t、Yt旳10000个随机样本 计算样本有关系数,观察其分布
量总体分布旳性质。有研究表白
,当用两个相互独立旳非平稳时 间序列建立回归模型时,经常会 得到一种在统计意义上明显旳回 归方程。我们称之为虚假回归 (Spurious Regression)或伪回归 。称不有关旳随机变量之间旳这 种统计有关关系为虚假有关。
平稳性和非平稳时间序列分析
β1 + β 3 Xt 如果我们作下列变换 ecmt = Yt − 1− β2 α = β2 − 1 ,那么模型变为:
,
∆Yt = β 0 + β1∆X t + αecmt −1 + ε t
误差修正模型的自动调整机制类似于适应性预 期模型。如果误差修正项的系数 α 在统计上 是显著的,它将告诉我们 Y 在一个时期里的失 衡,有多大一个比例部分可在下一期得到纠正。 或者更应该说“失衡”对下一期 水平变化的 Y 影响的大小)。
6
1、基本的DF检验方法 (1)检验时间序列{ Yt }是否属于最基本的 单位根过程,也就是随机游走过程 Yt = Yt −1 + ε t ,其中 ε t 为白噪声过程。 (2)检验思路 首先 Yt 服从如下的自回归模型 Yt = δYt −1 + ε t
7
如果其中 δ = 1 ,或者变换成如下的回归 模型 ∆Yt = λYt −1 + ε t 中的 λ = 0 ,那么时间序列{ Yt }就是最基 本的单位根过程 Yt = Yt −1 + ε t ,肯定是非平 稳的。 对上述差分模型中的显著性检验,就是 检验时间序列是否存在上述单位根问题。
25
ˆ 3、把 ut −1 作为误差修正项,代入前述ECM 模型。因为 Yt 和 X t 有协整关系,ECM模 型各项都平稳,因此可直接用OLS法估计 参数。最后再进行相关检验和进行应用 分析等。
26
15
四、时间序列的协积性 (一)定义 如果一组时间序列都 X 1 ,L, X n 是同阶单积 的( I (d ) ),并且存在向量 ( β1 ,L, β n ) 使加权组合 β1 X 1 + L + β n X n 为平稳序列 (I (0)),则称这组时间序列为“协积的 协积的” 协积的 (Cointegrated),其中 ( β1 ,L, β n ) 称为 “协积向量”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/4/2
---
• 非平稳时间序列的另一个问题是,虽然这种时间序列事实上会破 坏经典回归分析的基础和有效性,但根据分析结果并不一定能发 现问题。
• 事实上,有时即使时间序列严重非平稳,分析结果完全无效,t、 F、 等指标却仍然很正常,模型的显著性和拟合程度看起来都很
好。这种问题通常称为“伪回归” 问题R。2
2020/4/2
---
• 1、利用非平稳时间序列直接建模容易产生“伪回归”问题 如:
中国GDP 印度人口
物价指数 个人收入水平 个人收入水平 物价指数
2020/4/2
---
• 1、利用非平稳时间序列直接建模容易产生“伪回 归”问题
中国GDP 印度人口 ×
印度的人口增长比较快,中国的GDP增长也比较快,这两 个序列有着共同的趋势,能否把这两个序列建立一个模型。
• 实际情况往往并非如此
如果t-1期末,发生了上述第二种情况,即Y 的值小于其均衡值,则Y的变化往往会比第一 种情形下Y的变化Yt大一些;
反之,如果Y的值大于其均衡值,则Y的变 化往往会小于第一种情形下的Yt 。
2020/4/2
---
可见,如果Yt=0+1Xt+t正确地提示了X与 Y间的长期稳定的“均衡关系”,则意味着Y对 其均衡点的偏离从本质上说是“临时性”的。
的一个线性组合:
t Yt 0 1X t
(*)
因此,如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话,(*)式表述的非
均衡误差应是一平稳时间序列,并且具有零期
望值,即是具有0均值的I(0)序列。
2020/4/2
---
3.协整
从这里已看到,非稳定的时间序列,它 们的线性组合也可能成为平稳的。
2020/4/2
---
2、存在着因果关系的变量间建立的回归预测 模型的预测效果越来越差
我们建立的模型是一个均衡的模型,而实
际情况不可能总是在均衡状态下,实际往往会
偏离其均衡状态而处于不均衡状态。这时,则
需要根据
的不均衡程度
的预测
值。
2020/4/2
---
• 利用非平稳时间序列直接建模容易产生“伪回归”问题 • 存在着因果关系的变量间建立的回归预测模型的预测效果越来越
因此,一个重要的假设就是:随机扰动项t 必须是平稳序列。
显然,如果t有随机性趋势(上升或下降), 则会导致Y对其均衡点的任何偏离都会被长期累 积下来而不能被消除。
2020/4/2
---
式Yt=0+1Xt+t中的随机扰动项也被称为非 均衡误差(disequilibrium error),它是变量X与Y
而且,从变量之间是否具有协整关系出发选 择模型的变量,其数据基础是牢固的,其统计 性质是优良的。
2020/4/2
---
建立回归模型时,如 Ct 0 1GDPt t
只要变量选择是合理的(具有长期稳定的关系, 即协整关系),随机误差项一定是“白噪声”(即均 值为0,方差不变的稳定随机序列),模型参数有合 理的经济解释。
2020/4/2
---
• 1、利用非平稳时间序列直接建模容易产生 “伪回归”问题
物价指数 个人收入水平
? 个人收入水平 物价指数
2020/4/2
---
较为普遍的现象!!
• 很多经济时间序列都是非平稳的(从直观上看, 随着经济的发展,多数经济时间序列呈明显的上 升趋势),而直接采用非平稳时间序列建立回归 模型,很容易产生“伪回归”问题。
时间序列数据的伪回归问题 及其处理方法
——长期均衡关系 ——误差修正回归模型
2020/4/2
---
• 运用平稳时间序列数据的经典回归分析是有效的,以往时间序列 数据的计量回归分析实际上隐含假设数据是平稳的。
• 如果把非平稳的时间序列当作平稳序列,事实上会破坏古典线性 回归模型的基本假设,用这样的模型进行回归,得到的统计量都 是失效的,分析、检验和预测结果都是无效的,对计量回归分析 的有效性有很大的影响。
2020/4/2
---
假设X与Y间的长期“均衡关系”由式描述:
Yt 0 1X t t
式中:t是随机扰动项。 该均衡关系意味着:给定X的一个值,Y相应
的均衡值也随之确定为0+1X。
2020/4/2
---
在t-1期末,存在下述三种情形之一:
(1)Y等于它的均衡值:Yt-1= 0+1Xt -1;
差
•怎么办???
• 检验是否存在长期稳定的均衡关系, • 误差修正
2020/4/2
---
一、长期均衡关系
2020/4/2
---
1. 问题的提出
2020/4/2
• 经典回归模型(classical regression model)是建立在 稳定数据变量基础上的。
4
2
0
-2
-4
200
400
600
800
• 例如,中国居民人均消费水平与人均GDP变量之间的 回归预测模型要比ARMA模型有更好的预测功能,其 原因在于,从经济理论上说,人均GDP决定着居民人均 消费水平,而且它们之间有着长期的稳定关系。
2020/4/2
---
2. 长期均衡
• 某些经济变量间确实存在着长期均衡关系,这 种均衡关系意味着经济系统不存在破坏均衡的内 在机制,如果变量在某时期受到干扰后偏离其长 期均衡点,则均衡机制将会在下一期进行调整以 使其重新回到均衡状态。
(2)Y小于它的均衡值:Yt-1< 0+1Xt -1;
(3)Y大于它的均衡值:Yt-1> 0+1Xt -1;
在时期t,假设X有一个变化量Xt,如果 变量X与Y在时期t与t-1末期仍满足它们间的长 期均衡关系,则Y的相应变化量由式给出:
2020/4/2
Yt 1X t vt
式中,vt=t-t-1。
---
假设Yt=0+1Xt+t式中的X与Y是I(1)序 列,如果该式所表述的它们间的长期均衡关 系成立的话,则意味着由非均衡误差(*)式 给出的线性组合是I(0)序列。这时我们称变量 X与Y是协整的(cointegrated)。
2020/4/2
---
• 检验变量之间的协整关系,在建立计量经济 学模型中是非常重要的。
1000
Z2
• 对于非稳定变量,不能使用经典回归模型,否则会出 现虚假回归 (伪回归) 等诸多问题。
---
• 由于许多经济变量是非稳定的,这就给经典的回归分析 方法带来了很大限制。
• 但是,如果变量之间有着长期的稳定关系(即它们之间 是协整的cointegration),则是可以使用经典回归模型 方法建立回归模型的。