回归分析中的伪回归及其处理

合集下载

回归分析中的常见误区与解决方法

回归分析是统计学中常用的一种分析方法，用来研究自变量和因变量之间的关系。

然而，在实际应用中，常常会出现一些误区，导致分析结果不准确甚至错误。

本文将就回归分析中的常见误区与解决方法进行探讨。

误区一：多重共线性多重共线性是指自变量之间存在高度相关性，这会导致回归系数的估计不准确。

在实际应用中，很多时候我们会遇到自变量之间存在一定的相关性，甚至高度相关的情况。

这就会使得回归系数的估计不准确，从而影响对因变量的预测能力。

解决方法：1. 变量选择：在进行回归分析时，应该尽量选择相互独立的自变量，避免出现高度相关的情况。

2. 方差膨胀因子（VIF）检验：VIF是用来检验自变量之间是否存在多重共线性的指标，一般认为VIF大于10的自变量之间存在共线性问题，需要进行处理。

误区二：残差不满足正态分布在回归分析中，残差的正态性是进行统计推断的前提之一。

然而，在实际应用中，常常会出现残差不满足正态分布的情况，这会影响对回归系数的显著性检验和对因变量的预测能力。

解决方法：1. 残差分析：通过残差的散点图、Q-Q图和残差的方差齐性检验等方法来检验残差是否满足正态分布。

2. 变换：对因变量或自变量进行对数、平方根、倒数等变换，使得残差更加接近正态分布。

误区三：异方差性异方差是指残差的方差不是常数，而是随着自变量的变化而变化。

这会导致对回归系数的估计不准确，以及显著性检验的失效。

解决方法：1. 白噪声检验：利用残差的方差齐性检验来检验是否存在异方差性。

2. 加权最小二乘法（WLS）：对具有异方差性的数据进行加权最小二乘法回归分析，降低异方差性对回归系数估计的影响。

误区四：样本量不足在回归分析中，样本量的大小直接影响了分析结果的可靠性。

如果样本量不足，可能导致回归系数估计不准确，显著性检验失效，以及对因变量的预测能力下降。

解决方法：1. 样本量估算：在进行回归分析前，应该根据研究目的、自变量的数量和效应大小等因素来估算所需的样本量。

回归分析知识点

回归分析知识点回归作为计量经济和统计一个经典方法，是很多问题分析的切入点，但是做回归最关键的就是要判断是否存在伪回归，今天，我们就伪回归的一些问题做一下探讨。

Q1:什么是伪回归？最赤裸裸的回答是：就像最近研究的结果：温度升高1度，强奸率就上升2%。

不是必然相关的回归就是伪回归。

正常回答是：所谓伪回归是指理论上自变量是不能完全解释变量，或者不应该解释。

可当在对进行线性回归的时候得出肯定的结论，虽然通过单位根检验。

这个时候就说得出的回归是伪回归。

举例子就用上面的例子很好：GDP每年都增长和旁边的树每年都长高，如果你直接用数据回归，那肯定存在正相关，而其实这个是没有意义的回归。

度娘说：伪回归：如果一组非平稳时间序列之间不存在协整关系，则这一组变量构造的回归模型就有可能出现伪回归。

残差序列是一个非平稳序列的回归被称为伪回归，这样的一种回归有可能拟合优度、显著性水平等指标都很好，但是由于残差序列是一个非平稳序列，说明了这种回归关系不能够真实的反映因变量和解释变量之间存在的均衡关系，而仅仅是一种数字上的巧合而已。

伪回归的出现说明模型的设定出现了问题，有可能需要增加解释变量或者减少解释变量，抑或是把原方程进行差分，以使残差序列达到平稳。

Q2:如果变量间存在协整关系是否意味着对其作的回归就不是“伪回归”？存在协整关系的变量直接建立的模型反映的是变量之间的长期均衡关系，是有经济意义的；但要研究短期关系，还要建立误差修正模型，各变量以差分形式代入，并将原模型回归的残差序列作为解释变量引入模型。

Q3：两个时间序列，一个平稳，另一个不平稳，且二者不协整，它们的回归是否是伪回归？不可以进行回归，因为对于时间序列来说，分两种情况：（1）两者都稳定，可以直接进行回归；（2）两者都为非稳定序列，但有相同的单整阶数，可以回归，但回归之后需要对残差进行检验，看是否为平稳过程，如果平稳，存在协整关系，否则，为伪回归。

Q4:存在2、1阶协整关系的两个二阶单整变量之间是伪回归吗？这个是没有意义的。

时间序列第二类伪回归例子

时间序列的第二类伪回归是一种常见的时间序列分析问题，它通常发生在两个时间序列之间存在某种相关性，但实际上它们之间并没有真实的因果关系。

以下是一个时间序列第二类伪回归的例子：假设有两个时间序列，序列A和序列B。

这两个序列都受到一些共同因素的影响，例如季节性变化、经济政策变化等。

这些共同因素导致两个序列之间存在某种相关性。

然而，如果序列A和序列B之间的这种相关性是由于某些未被考虑的因素导致的，那么就可能出现第二类伪回归。

具体来说，假设季节性变化是导致两个序列之间相关性的主要因素。

当季节性因素变化时，两个序列都会受到影响，从而导致它们之间的相关性发生变化。

然而，这种相关性并不是由于序列A和序列B之间的真实因果关系导致的。

为了说明这一点，我们可以考虑以下情况：假设我们收集了两个国家在过去几年的经济增长数据，并发现它们之间存在某种相关性。

这可能表明这两个国家之间的贸易关系或经济政策相似性导致了这种相关性。

然而，如果我们只考虑这些表面上的相关性，而忽略了其他可能影响经济增长的因素，例如季节性变化、政治稳定性、贸易伙伴关系等，那么就可能出现第二类伪回归。

在这种情况下，我们可能会得出错误的结论，认为这两个国家之间的经济增长存在真实的因果关系，而实际上这种关系可能是由于其他因素导致的。

这可能会导致政策制定者做出错误的决策，或者投资者做出不准确的投资决策。

总之，时间序列第二类伪回归是一种常见的时间序列分析问题，它通常发生在两个时间序列之间存在某种相关性，但实际上它们之间并没有真实的因果关系。

为了避免这种情况，我们需要仔细考虑所有可能影响时间序列的因素，并使用适当的统计方法来验证这些因素之间的关系。

举例解释伪回归现象

举例解释伪回归现象
伪回归现象是指在简单线性回归模型中，当两个变量之间存在非线性关系时，可能会出现回归系数显著，但模型解释能力较差的情况。

简单线性回归模型的公式为：
y = β0 + β1x + ε
其中，y是因变量，x是自变量，β0和β1是回归系数，ε是误差项。

举一个例子来解释伪回归现象：假设研究人员想要探究一个人的体重与他的年龄之间的关系。

研究人员收集了100个样本，分别记录了这些人的体重和年龄。

他们使用简单线性回归模型进行分析，并得到了如下结果：
体重 = 60 + 0.5年龄
在这个模型中，年龄是自变量，体重是因变量。

然而，研究人员注意到，尽管回归系数0.5在统计上是显著的，但模型的解释能力却很差。

换句话说，年龄并不能很好地解释体重的变化。

进一步分析后，研究人员发现，体重与年龄之间存在一个曲线关系，而不是线性关系。

即体重随着年龄的增长先增加，然后逐渐减少。

所以，该模型中的回归系数并不能准确地解释体重与年龄之间的关系。

因此，这个例子展示了伪回归现象，即在简单线性回归模型中，当变量之间存在非线性关系时，回归系数可能是显著的，但模型的解释能力却较差。

这提示我们在进行回归分析时，要注意变量之间的关
系是否是线性的，以避免出现伪回归现象。

回归分析中伪回归及其处理62页PPT

回归分析中伪回完。 17、一般情况下)不想三年以后的事，只想现在的事。现在有成就，以后才能更辉煌。
18、敢于向黑暗宣战的人，心里必须充满光明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前，莽撞的人只能引为烧身，只有真正勇敢的人才能所向披靡。
46、我们若已接受最坏的，就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会，使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首，不会作诗也会吟。——孙洙 50、谁和我一样用功，谁就会和我一样成功。——莫扎特

回归问题的伪标签方法

回归问题的伪标签方法
回归问题的伪标签方法是一种半监督学习方法，它利用未标记的数据来提高模型的性能。

伪标签方法的基本思想是对未标记的数据进行预测，然后将预测结果作为伪标签，将这些伪标签数据加入到训练集中进行训练。

具体步骤如下：
1. 使用有标签的数据训练一个初始的回归模型。

2. 使用该初始模型对未标记的数据进行预测，得到伪标签。

3. 将伪标签数据和原始的有标签数据合并，形成新的训练集。

4. 使用新的训练集重新训练模型。

5. 重复步骤2-4，直到模型性能不再显著提高或达到预设的迭代次数。

需要注意的是，伪标签方法的效果取决于伪标签的质量。

如果伪标签的质量很差，那么将它们加入到训练集中可能会导致模型性能下降。

因此，在使用伪标签方法时，需要对伪标签的质量进行评估和筛选，以提高模型的性能。

以上是对回归问题的伪标签方法的基本介绍，具体的实现细节可能会因不同的应用场景和数据集而有所不同。

伪回归和单位根

以用任意m个时刻
观测值
的联合概率分布，与
时刻观测
值
的联合概率分布相同
＝
表{示Y。t,t0,1,2, }
P(Yt1,YY t2t,1 k,,Y Yttm 2 )k, P(,Y Y tt1 t11 t ,m kt2,kk Y , t,2t2 k,, t mk,,Y tm,kt)m Y t1,k Yt2,,Ytm
GER的图形也不满足稳定方差的基本特征，因此这两个时间序列都是非平稳的。
伪回归和单位根
1600
1400
1200
1000
800
600
400
200
36
38
40
42
44
46
48
50
52
54
IN VGM
伪回归和单位根
4.0
3.5
3.0
2.5
2.0
1.5
1.0
1000
2000
3000
4000
5000
6000
反之则认为不显著，认为时间序列服从上述单位根过程，时间序列是非平稳的。
上述单位根检验方法就称为“迪基-富勒检验”，简称“DF 检验”。
0
伪回归和单位根随机游走过程只是最简单的一种单位根过程，许多非平稳时间序列包含更复杂的单位根过程，
包含常数项、趋势项和高阶差分项等。为了使迪基-富勒检验适用单位根过程的检验，必须作适当的扩展。方法是分别采用下列模型：
伪回归和单位根
首先检验时间序列是否属于最基本的单位根过程，也称为随机游走过程
，其中为
白噪声过程。
YY 如果自回归模型
中，或者变换成的回归模型
中的
时间序列{ }就是最基本的单位根过程——随机游走过t 程，肯t定1是非平稳t的。

时间序列数据的伪回归问题

式Yt=0+1Xt+t中的随机扰动项也被称为非均衡误差（disequilibrium error），它是变量X与Y 的一个线性组合：
t Yt 0 1 X t
(*)
因此，如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话，（*）式表述的非均衡误差应是一平稳时间序列，并且具有零期望值，即是具有0均值的I(0)序列。
Ct 49.764106 0.45831 GDP t
R2=0.9981
通过对该式计算的残差序列作ADF检验，得适当检验模型
ˆt 1.55e ˆt 1 1.49e ˆt 1 2.27e ˆt 3 e
（-4.47） (3.93) (3.05)
t=-4.47<-3.75=ADF0.05，拒绝存在单位根的假设，残差项是稳定的，因此中国居民人均消费水平与人均GDP是(2,2)阶协整的，说明了该两变量间存在长期稳定的“均衡”关系。
可见，如果Yt=0+1Xt+t正确地提示了X与 Y间的长期稳定的“均衡关系”，则意味着Y对其均衡点的偏离从本质上说是“临时性”的。因此，一个重要的假设就是:随机扰动项t 必须是平稳序列。显然，如果t有随机性趋势（上升或下降），则会导致Y对其均衡点的任何偏离都会被长期累积下来而不能被消除。
• 1、利用非平稳时间序列直接建模容易产生
“伪回归”问题
？个人收入水平
物价指数个人收入水平
物价指数
较为普遍的现象!!
• 很多经济时间序列都是非平稳的（从直观上看，随着经济的发展，多数经济时间序列呈明显的上升趋势），而直接采用非平稳时间序列建立回归模型，很容易产生“伪回归”问题。

伪回归的名词解释

伪回归的名词解释伪回归是统计学中一个重要的概念，用于描述一种错误的统计分析方法，导致得出的回归模型看似有较高的解释力，但实际上却没有真正的预测能力。

本文将对伪回归进行详细的解释，深入剖析其原因和可能的影响。

一、伪回归的概念与原因伪回归指的是在统计分析中，由于特定的原因而存在的一种表面上看似有意义的回归关系。

其主要原因在于数据样本的选择或处理方式不当，以及对分析方法的误用。

在回归分析中，我们需要建立一个回归模型，以探究自变量对因变量的影响。

通常通过最小二乘法拟合回归函数，获得拟合优度等指标来评估模型的好坏。

然而，当数据样本数量远小于自变量的数量时，就容易出现伪回归的情况。

当数据不足时，最小二乘法容易产生过度拟合的情况，即回归方程会通过许多噪声点。

这样的回归方程在样本内看起来具有较高的解释力，但是却很难在新的数据上进行良好的预测。

因为这种模型过于复杂，过度拟合了样本的噪声部分，捕捉到了偶然的关联关系，而非真实的因果关系。

二、伪回归的影响与防范伪回归所产生的模型通常不具备实际应用的预测能力。

当我们依赖这样的模型进行决策时，可能会得出错误的结论，导致计划和决策的失败。

因此，理解伪回归的原因和影响，采取相应的防范措施至关重要。

首先，防范伪回归需要合理选择数据样本。

样本选择应遵循随机、代表性和独立性的原则，以减少样本中噪声的干扰。

另外，还应考虑样本容量与自变量数量之间的平衡，避免样本过小导致过度拟合。

其次，正确选择适当的回归分析方法也是关键。

根据实际问题和数据特点，可以考虑使用稳健回归、岭回归等方法，以降低对异常值的敏感度，减少过度拟合的可能性。

此外，交叉验证是评估回归模型性能的重要手段。

通过将数据集分为训练集和测试集，验证模型在新数据上的预测能力。

如果模型在测试集上表现不佳，就可能存在伪回归的问题。

三、伪回归的实例与研究伪回归在实际应用中并不罕见。

许多研究领域都存在着伪回归的现象，包括金融、医学和社会科学等。

回归分析中的伪回归及其处理(课堂PPT)

16
• 实际情况往往并非如此
如果t-1期末，发生了上述第二种情况，即Y 的值小于其均衡值，则Y的变化往往会比第一种情形下Y的变化Yt大一些；
反之，如果Y的值大于其均衡值，则Y的变化往往会小于第一种情形下的Yt 。
2020/4/26
17
可见，如果Yt=0+1Xt+t正确地提示了X与 Y间的长期稳定的“均衡关系”，则意味着Y对其均衡点的偏离从本质上说是“临时性”的。
我们建立的模型是一个均衡的模型，而实际情况不可能总是在均衡状态下，实际往往会偏离其均衡状态而处于不均衡状态。这时，则需要根据上一期的不均衡程度调整本期的预测值。
2020/4/26
9
• 利用非平稳时间序列直接建模容易产生 “伪回归”问题
• 存在着因果关系的变量间建立的回归预测模型的预测效果越来越差
假设Yt=0+1Xt+t式中的X与Y是I(1)序列，如果该式所表述的它们间的长期均衡关系成立的话，则意味着由非均衡误差（*）式给出的线性组合是I(0)序列。这时我们称变量 X与Y是协整的（cointegrated）。
2020/4/26
20
• 检验变量之间的协整关系，在建立计量经济学模型中是非常重要的。
的一个线性组合：
t Yt 0 1X t
(*)
因此，如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话，（*）式表述的非
均衡误差应是一平稳时间序列，并且具有零期
望值，即是具有0均值的I(0)序列。
2020/4/26
19
3.协整
从这里已看到，非稳定的时间序列，它们的线性组合也可能成为平稳的。
因此，一个重要的假设就是:随机扰动项t 必须是平稳序列。

EViews中模拟伪回归的设计与实现

ＥＶｉｅｗｓ中模拟伪回归的设计与实现席珍沈民用两个独立的非平稳时间序列计算相关系数常得到相关系数显著不为零的结论，称这种错误的相关结论为伪相关或虚假相关（spurious correlation ）。

用两个独立的非平稳时间序列建立回归模型常得到统计显著的回归函数，称这种错误的回归关系为伪回归或虚假回归（spurious regression ）。

尤尔(Yule ，1926)[1]是第一个研究伪相关的学者，格朗杰-纽博尔德(Granger-Newbold ，1974)[2]首先提出伪回归，并用蒙特卡罗模拟方法模拟了伪回归和伪相关。

菲利普斯(Phillips ，1986)[3]利用泛函中心极限定理从理论上对虚假回归问题进行了分析。

张晓峒[4][5]给出了用Mathematica 和EViews 模拟伪回归的部分程序。

本文采用国内广泛使用的计量软件EViews ，给出了蒙特卡罗（Monte Carlo ）模拟伪相关与伪回归的设计、模拟的结果和分析。

一、模拟伪回归的设计1.1确定概率分布和数据生成过程(1)生成两个相互独立的I (0)(白噪声)时间序列(2)生成两个相互独立的(1阶单整)时间序列x 1t ,y 1t 差分一次后平稳。

(3)生成两个相互独立的(2阶单整)时间序列x 2t ,y 2t 差分二次后平稳。

1.2生成随机样本，计算相关和回归按上述方法分三种情形分别生成样本容量为122的成对的0阶单整（I(0)）序列、成对的1阶单整（I(1)）和成对的2阶单整（I(2)）序列，计算相关系数和估计如下回归模型：1.3模拟试验对步骤2重复10000次，记录每次模拟结果：简单相关系数γ，回归系数βi1，回归系数的t 检验值t(βi1)，杜宾瓦特荪统计量DW ，决定系数R 2和F 检验统计量，并保存到矩阵m 中；再将m 中的各个列转换成相应的变量序列；最后通过计算统计量和绘制直方图展示蒙特卡罗模拟结果。

程序清单如下：∧∧!N=10000'指定试验模拟次数10000wfcreate xjhg_500u!Nmatrix(!T,18)m'记录各统计量模拟结果的矩阵m'通过循环生成各统计量并把它们加入到组g中，其中r是相关系数；b是回归系数；t是回归系数的t统计量值；dw是DW统计量值；r2决定系数；f是F统计量值group gfor%1r0b0t0dw0r20f0r1b1t1dw1r21f1r2b2t2dw2r22f2series{%1}=0g.add{%1}nextfor!k=1to!N'外循环控制模拟次数'生成0阶单整（白噪声）序列smpl1122for%1y0x0y1x1y2x2series{%1}=@rnormnext'生成一阶单整序列smpl2122x1=x1(-1)+@rnormy1=y1(-1)+@rnorm'生成二阶单整序列smpl3122x2=2*x2(-1)-x2(-2)+@rnormy2=2*y2(-1)-y2(-2)+@rnormsmpl1122'内循环计算相关系数、估计回归方程并将结果保存到矩阵中for%1%2%31y0x07y1x113y2x2m(!k,{%1})=@cor({%2},{%3})equation eq.ls{%2}c{%3}m(!k,{%1}+1)=eq.c(2)m(!k,{%1}+2)=eq.@tstats(2)m(!k,{%1}+3)=eq.@dwm(!k,{%1}+4)=eq.@r2m(!k,{%1}+5)=eq.@fnextnextsmpl1!Tmtos(m,g)for%1t0t1t2series xzh_{%1}=@abs({%1})>=2freeze(statby_{%1}){%1}.statby(nomean,nostd)xzh_{%1}next'生成统计量的描述统计量和直方图for%1r0b0t0dw0r20f0r1b1t1dw1r21f1r2b2t2dw2r22f2freeze(hist_{%1}){%1}.histnext二、模拟伪回归的结果和分析２．１简单相关系数γ的分布两独立0阶单整序列的相关系数（图1）最大可能取值为0，取值在±0.1范围内，属正态分布；两独立1阶单整序列的相关系数（图2）呈倒U型分布，取值在±1.0范围内，相关系数为0的可能性很小；两独立2阶单整序列的相关系数（图2）呈U型分布，最大可能取值在±1。

回归分析中的常见误区与解决方法(Ⅲ)

回归分析是统计学中一种常用的分析方法，它用于研究自变量与因变量之间的关系。

然而，在进行回归分析时，很容易出现一些常见误区，这些误区可能会影响到分析结果的准确性。

本文将探讨回归分析中的常见误区，并提出解决方法，希望能够帮助读者更好地理解和运用回归分析。

误区一：过度拟合模型过度拟合模型是指模型过于复杂，以至于能够完美拟合样本数据，但在未来的预测中却表现不佳。

在回归分析中，过度拟合模型可能会导致变量的系数估计偏离真实值，从而影响到模型的准确性。

解决方法：为了避免过度拟合模型，我们可以采用交叉验证的方法来评估模型的性能。

通过将数据集划分为训练集和测试集，我们可以在训练集上拟合模型，在测试集上进行验证，从而评估模型的泛化能力。

另外，我们还可以使用正则化方法，如岭回归和LASSO回归，来限制模型的复杂度，避免过度拟合。

误区二：多重共线性多重共线性是指自变量之间存在高度相关性的情况，这会导致回归系数的估计不稳定，难以解释自变量对因变量的独立影响。

多重共线性还会使得模型的预测能力下降，从而影响到模型的有效性。

解决方法：为了解决多重共线性问题，我们可以通过计算自变量之间的相关系数来识别潜在的共线性。

如果发现自变量之间存在高度相关性，我们可以考虑使用主成分分析或因子分析来降低自变量的维度，以减少共线性的影响。

此外，我们还可以通过增加样本容量或者删除相关性较高的自变量来缓解多重共线性问题。

误区三：残差的自相关性残差的自相关性是指回归模型的残差之间存在一定的相关性，这可能会导致模型的标准误差被低估，从而影响到系数估计的显著性和模型的预测能力。

解决方法：为了检测残差的自相关性，我们可以利用Durbin-Watson检验来进行检验。

如果发现残差存在自相关性，我们可以考虑使用自回归模型或者滞后变量来修正自相关性。

另外，我们还可以通过增加lagged自变量或者引入虚拟变量的方法来消除残差的自相关性。

误区四：异方差性异方差性是指回归模型的残差方差不是恒定的，而是与自变量的取值有关。

《统计前沿虚假回归》课件

重要性
虚假回归可能导致错误的结论和决策，影响科学研究、政策制定和实践应用。因此，了解虚假回归的原因、识别方法和避免措施对于提高数据分析和科学研究的准确性至关重要。
虚假回归的常见原因和影响
影响
虚假回归可能导致以下问题
资源浪费
基于虚假回归的研究可能导致资源的不合理分配和浪费。
常见原因
虚假回归的产生通常与数据噪声、样本选择偏差、共线性、模型设定误差等因素有关。
减少虚假回归
现代统计方法通常在理论上更加严谨，能够更好地处理各种数据问题，从而减少虚假回归的发生。
03
实例
例如，固定效应模型可以控制不随时间变化的遗漏变量偏差，从而更准
确地估计因果关系。
统计方法选择与虚假回归预防
选择合适的统计方法
在分析数据时，应根据数据的特性和研究目的选择合适的统计方法。对于可能存在虚假回归的问题，应选择理论上更加严谨、对数据假设较少的方法。
数据质量与虚假回归
提高数据质量也是预防虚假回归的重要手段。数据清洗、数据预处理等步骤可以有效去除异常值、缺失值等问题，提高数据质量。
研究设计和样本选择
在研究设计和样本选择阶段，应充分考虑可能导致虚假回归的因素，并采取相应措施加以控制。例如，在实验设计中，应尽量减少无关变量的干扰；在样本选择中，应保证样本的代表性和随机性。
虚假回归与真实回归
真实回归是指两个或多个变量之间存在真实的、因果的关系。
识别虚假回归
在数据分析中，我们需要通过一系列统计方法和检验来判断两个变量之间的关系是否为虚假回归。
虚假回归的背景和重要性
背景
在许多领域，如社会科学、经济学、医学等，研究者经常需要探究变量之间的关系。然而，由于数据采集的限制、样本误差等因素，虚假回归时有发生。

统计前沿--虚假回归

本节内容结束，谢谢观看！
虚假回归
Spurious Regression
在线性回归模型中，我们总是以样本决定系数R2作为回归方程对解释变量与被解释变量样本变化关系旳拟合程度旳度量。然而变量之间旳样本有关与总体有关是两个概念，虽然经济变量旳样本之间旳关系在一定程度上能够阐明变量总体之间旳关系，但也有例外，这主要取决于经济变
毫不相干旳，这是一种经典旳虚假回归之例子。所以，我们在经济分析中不能盲目依赖于 R2 及 t- 检验旳成果，要正视由变量旳非平稳性给我们带来旳虚假回归问题。
另外，在虚假回归旳情况下，回归旳 DW 统计量值伴随样本容量旳增大而收敛于0。而当回归式不是虚假回归时， DW 统计量值则不收敛于0。这阐明DW检验能够帮助我们区别真实回归与虚假回归。
有研究证明，样成立。由此可见，只要解释变量或被解释变量为非平稳旳，虚假回归旳可能性就存在。
例如在应用经济研究中作中国人口数与美国国民生产总值之间旳回归分析，回归估计旳拟合优度会很高，此二指标均为 I(1) 时间序列，显然，中国人口数与美国国民生产总值之间是
成随机序列εt、ωt各
10000次，计算每次所生成随机
序列 εt、ωt 旳样本有关系数，考察这10000个样本有关系数旳
分布；对εt、ωt分别进行累加可得两个随机游动序列Xt、Yt，即X t、Yt为两个I (1) 序列，对相应旳X t、Yt旳10000个随机样本计算样本有关系数，观察其分布
量总体分布旳性质。有研究表白
，当用两个相互独立旳非平稳时间序列建立回归模型时，经常会得到一种在统计意义上明显旳回归方程。我们称之为虚假回归 (Spurious Regression)或伪回归。称不有关旳随机变量之间旳这种统计有关关系为虚假有关。

小心伪回归发现的假关系

⼩⼼伪回归发现的假关系作者：⽯川，量信投资创始合伙⼈，清华⼤学学⼠、硕⼠，⿇省理⼯学院博⼠；精通各种概率模型和统计⽅法，擅长不确定性随机系统的建模及优化。

1⽣活中随处可见的伪回归回归分析在量化投资中的应⽤⼗分⼴泛。

⽐如在选股或者预测股票收益率时，⼈们常常使⽤宏观经济数据或公司基本⾯数据等对收益率回归，以期找出能够解释收益率的⾃变量（⼜称为因⼦）。

由于⾦融数据之间的关系⼤多为线性，因此线性回归往往就⾜够⽤了；⽽因为线性回归⼜⾜够简单，这就使得回归分析更加普及。

回归分析的⽬的是为了找到⾃变量和因变量之间的相关性。

然⽽，当我们对时间序列进⾏回归分析时，必须要警惕⼀类陷阱，它就是伪回归（spurious regression），它指的是⾃变量和因变量之间本来没有任何因果关系，但由于某种原因，回归分析却显⽰出它们之间存在统计意义上的相关性，让⼈错误地认为两者之间有关联，这种相关性称作伪关系（spurious relationship）。

伪回归在⽣活中随处可见，来看下⾯两个例⼦。

例⼦⼀：冰淇淋销量和溺⽔⼉童数某个夏天，⼈们发现镇上的冰淇淋销量和溺⽔⼉童数量同步上升。

如果拿冰淇淋销量对溺⽔⼉童数量进⾏线性回归，得到的结论是前者是后者的⼀个很好的解释变量。

但从现实⽣活中的逻辑来看，这两者应该有所谓的“冰淇淋卖得好，溺⽔⼉童数就多”的关系吗？这是否意味着“游泳池的⼉童都在吃冰淇淋”？正确的答案是，这仅仅是⼀个伪回归（下⼀节会解释成因）。

例⼦⼆：居民消费和鸬鹚个数下图来⾃真实的数据，两条曲线代表的时间序列分别为丹麦居民消费的对数（红线）以及该国饲养鸬鹚数量的对数（蓝线）。

从图中来看，它们显然⾮常相关。

如果⽤红线对蓝线回归，得到的回归系数显著不为 0，且回归的 R-squared ⾼达 0.688，说明蓝线对红线的解释能⼒⾮常强。

但这显然也是毫⽆意义的（因为居民消费和鸬鹚个数之间没有任何有逻辑的关联），它同样来⾃伪回归（成因和例⼦⼀不同）。

回归分析中的数据处理技巧

回归分析中的数据处理技巧在统计学中，回归分析是一种用来探讨自变量与因变量之间关系的重要方法。

在进行回归分析时，数据处理技巧是非常关键的，它直接影响到最终的分析结果和结论。

本文将就回归分析中的数据处理技巧进行讨论，包括数据清洗、变量选择、异常值处理、多重共线性等方面。

数据清洗在进行回归分析之前，首先要对数据进行清洗。

数据清洗是指对数据进行筛选、整理、处理，以便得到干净、完整的数据集。

在数据清洗过程中，需要检查数据是否存在缺失值、异常值、重复值等问题。

对于缺失值，可以选择删除或填充，具体方法要根据实际情况来确定。

对于异常值和重复值，也应该及时处理，以避免对分析结果产生影响。

变量选择在回归分析中，变量选择是非常重要的一环。

合适的变量选择可以提高模型的拟合度和预测能力。

在进行变量选择时，一般可以采用逐步回归、岭回归、Lasso回归等方法。

此外，还可以通过相关性分析、主成分分析等技术来辅助变量选择。

需要注意的是，变量选择时应该考虑自变量之间的相关性以及自变量与因变量之间的相关性，避免多重共线性问题。

异常值处理异常值是指与整体数据模式差异较大的数据点，它们可能会对回归分析的结果产生显著影响。

因此，在进行回归分析时，需要对异常值进行处理。

处理异常值的常用方法包括删除、替换、转换等。

具体方法应根据异常值的性质和数量来确定，需要综合考虑数据的分布情况、样本大小等因素。

多重共线性多重共线性是指自变量之间存在高度相关性的情况，它会导致回归系数估计不准确、方差膨胀因子增大等问题。

因此，需要对多重共线性进行处理。

处理多重共线性的常用方法包括逐步回归、主成分回归、岭回归等。

在进行处理时，应该考虑自变量的实际意义、模型的解释能力等因素。

结语回归分析是一种常用的统计方法，它在实际应用中具有广泛的价值。

而数据处理技巧则是进行回归分析的前提和基础。

本文从数据清洗、变量选择、异常值处理、多重共线性等方面对回归分析中的数据处理技巧进行了讨论，希望对读者们有所帮助。

第十章一伪回归和单位根检验课件

Xt=Xt-1+t
（*）
做回归，如果确实发现=1，就说随机变量Xt有
一个单位根。
• （*）式可变形式成差分形式：
Xt=(1-)Xt-1+ t
=Xt-1+ t
(**)
检验（ * ）式是否存在单位根 =1 ，也可通过（**）式判断是否有 =0。
0.059 0.157
3 0.108 K=2, -0.393
3.679 0.264
4 -0.455 K=3, -0.147
4.216 -0.191
5 -0.426 K=4, 0.280
6.300 -0.616
6 0.387 K=5, 0.187
7.297 -0.229
7 -0.156 K=6, -0.363
11.332 -0.385
8 0.204 K=7, -0.148
12.058 -0.181
9 -0.340 K=8, 0.315
15.646 -0.521
10 0.157 K=9, 0.194
17.153 -0.364
11 0.228 K=10, -0.139
18.010 -0.136
12 -0.315 K=11, -0.297
第十章
时间序列计量经济模型
第十章一伪回归和单位根检验
第一节时间序列的平稳性及单位根检验第二节随机时间序列模型的识别和估计第三节时间序列的协整与误差修正模型
第十章一伪回归和单位根检验
§10.1 时间序列的平稳性及其检验
一、问题的引出：非平稳变量与经典回归模型二、时间序列数据的平稳性三、平稳性的图示判断四、平稳性的单位根检验五、单整、趋势平稳与差分平稳随机过程

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

式Yt=0+1Xt+t中的随机扰动项也被称为非均衡误差（disequilibrium error），它是变量X与Y
的一个线性组合：
t Yt 0 1X t
(*)
因此，如果Yt=0+1Xt+t式所示的X与Y 间的长期均衡关系正确的话，（*）式表述的非
均衡误差应是一平稳时间序列，并且具有零期
例如：建立人均消费水平（Y）与人均可支配收入（X）之间的回归模型：
Yt 0 1 X t t
如果Y与X 具有共同的向上或向下的变化趋势
差分
X,Y 成为平稳序列
建立差分回归模型
Yt 1X t vt
式中， vt= t- t-1
然而，这种做法会引起两个问题：
(1)如果X与Y间存在着长期稳定的均衡关系：
Yt 0 1 X t 2 X t1 Yt1 t
上面回归方程不能直接运用OLS法。对上述分布滞后模型适当变形得：
Yt 0 1X t (1 2 ) X t1 (1 )Yt1 t

1X t
(1 )Yt1

0 1

1 2 1
X t1 t

或， Yt 1X t (Yt1 0 1 X t1) t （**）
式中， 1 0 0 (1 )
1 (1 2 ) (1 )
上面回归方程不能直接运用OLS法。对上述分布滞后模型适当变形得：
回归分析中的伪回归及其处理方法
——长期均衡关系 ——误差修正回归模型
回归分析的主要作用
• 1.描述分析与探索分析 • 2.预测分析 • 3.结构分析与实证分析 • 4.政策评价
回归分析的主要作用
• 1.描述分析与探索分析 • 2.预测分析 • 3.结构分析与实证分析 • 4.政策评价
回归分析应用预测中经常出现的问题
望值，即是具有0均值的I(0)序列。
3.协整
从这里已看到，非稳定的时间序列，它们的线性组合也可能成为平稳的。
假设Yt=0+1Xt+t式中的X与Y是I(1)序列，如果该式所表述的它们间的长期均衡关系成立的话，则意味着由非均衡误差（*）式给出的线性组合是I(0)序列。这时我们称变量 X与Y是协整的（cointegrated）。
Yt 0 1X t (1 2 ) X t1 (1 )Yt1 t

1X t
(1 )Yt1

0 1

1 2 1
X t1 t

或， Yt 1X t (Yt1 0 1 X t1) t （**）
• 1、根据解释变量的预测值测算被解释变量的未来值，扩大了最后的预测误差
GDP f (固定资产投资 ,劳动生产率 ,社会商品零售额 )
• 要预测某期的GDP，需要知道解释变量的同期数值, 而实际上，在预测GDP之前，上述解释变量的同期数值也是未知的，因此，需要首先通过其他方法对解释变量的数值进行预测，然后，再利用回归模型预测GDP。这种根据解释变量的预测值回归测算被解释变量未来值的方法无形之中扩大了最后的预测误差。
• 利用非平稳时间序列直接建模容易产生 “伪回归”问题
• 存在着因果关系的变量间建立的回归预测模型的预测效果越来越差
• 怎么办???
• 检验是否存在长期稳定的均衡关系, • 误差修正
一、长期均衡关系
1. 问题的提出
• 经典回归模型（classical regression model）是建立在稳定数据变量基础上的。
通过一个具体的模型来介绍它的结构。假设两变量X与Y的长期均衡关系为:
Yt=0+1Xt+t
由于现实经济中X与Y很少处在均衡点上，因此实际观测到的只是X与Y间的短期的或非均衡的关系。
实际上，第t期的Y值，不仅与X的变化有关，而且与t-1期X与Y的状态值有关。假设具有如下(1,1)阶分布滞后形式：
Yt=0+1Xt+t 且误差项t不存在序列相关，则差分式：
Yt=1Xt+t 中的t是一个一阶移动平均时间序列，因而是序列相关的；
(2)如果采用差分形式进行估计，则关于变量水平值的重要信息将被忽略，这时模型只表达了X与Y间的短期关系，而没有揭示它们间的长期关系。
因为，从长期均衡的观点看，Y在第t期的变化不仅取决于X本身的变化，还取决于X与Y在 t-1期末的状态，尤其是X与Y在t-1期的不平衡程度。
4
2
0
-2
-4
200
400
600
800
1000
Z2
• 对于非稳定变量，不能使用经典回归模型，否则会出现虚假回归 (伪回归) 等诸多问题。
• 由于许多经济变量是非稳定的，这就给经典的回归分析方法带来了很大限制。
• 但是，如果变量之间有着长期的稳定关系（即它们之间是协整的cointegration），则是可以使用经典回归模型方法建立回归模型的。
例如，使用Yt=1Xt+t回归时，很少出现截距项显著为零的情况，即我们常常会得到如下
形式的方程：
Yt ˆ0 ˆ1X t vt ˆ0 0
(*)
在X保持不变时，如果模型存在静态均衡（static equilibrium），Y也会保持它的长期均衡值不变。
但如果使用（*）式，即使X保持不变，Y也会处于长期上升或下降的过程中，这意味着X与Y 间不存在静态均衡。
中国GDP 印度人口 ×
印度的人口增长比较快,中国的GDP增长也比较快,这两个序列有着共同的趋势,能否把这两个序列建立一个模型。
回归分析应用预测中经常出现的问题
• 2、利用非平稳时间序列直接建模容易产生 “伪回归”问题
？物价指数个人收入水平个人收入水平物价指数
（3）Y大于它的均衡值：Yt-1> 0+1Xt -1；
在时期t，假设X有一个变化量Xt，如果变量X与Y在时期t与t-1末期仍满足它们间的长期均衡关系，则Y的相应变化量由式给出:
Yt 1X t vt
式中，vt=t-t-1。
• 实际情况往往并非如此
如果t-1期末，发生了上述第二种情况，即Y 的值小于其均衡值，则Y的变化往往会比第一种情形下Y的变化Yt大一些；
已知C与GDP都是I(2)序列，它们的回归式：
Ct 49.764106 0.45831 GDPt
R2=0.9981
通过对该式计算的残差序列作ADF检验，得适当检验模型
eˆt 1.55eˆt1 1.49eˆt1 2.27eˆt3
（-4.47） (3.93) (3.05)
而OLS法采用了残差最小平方和原理，因此估计量是向下偏倚的，这样将导致拒绝零假设的机会比实际情形大。
于是对et平稳性检验的DF与ADF临界值应该比正常的DF与ADF临界值还要小。
• MacKinnon(1991)通过模拟试验给出了协整检验的临界值，下表是双变量情形下不同样本容量的临界值。
• 例如，中国居民人均消费水平与人均GDP变量之间的回归预测模型要比ARMA模型有更好的预测功能，其原因在于，从经济理论上说，人均GDP决定着居民人均消费水平，而且它们之间有着长期的稳定关系。
2. 长期均衡
• 某些经济变量间确实存在着长期均衡关系，这种均衡关系意味着经济系统不存在破坏均衡的内在机制，如果变量在某时期受到干扰后偏离其长期均衡点，则均衡机制将会在下一期进行调整以使其重新回到均衡状态。
假设X与Y间的长期“均衡关系”由式描述:
Yt 0 1X t t
式中:t是随机扰动项。该均衡关系意味着:给定X的一个值，Y相应
的均衡值也随之确定为0+1X。
在t-1期末，存在下述三种情形之一：
（1）Y等于它的均衡值：Yt-1= 0+1Xt -1；
（2）Y小于它的均衡值：Yt-1< 0+1Xt -1；
这也解释了尽管这两时间序列是非稳定的，但却可以用经典的回归分析方法建立回归模型的原因。
二、协整检验
为了检验两变量Yt,Xt是否为协整，Engle 和Granger于1987年提出两步检验法，也称为 EG检验。
第一步，用OLS方法估计方程： Yt=0+1Xt+t
并计算非均衡误差，得到：
Yˆt ˆ0 ˆ1X t
样本容量 25 50 100 ∝
表 9.3.1 双变量协整 ADF 检验临界值
显著性水平
0.01
0.05
-4.37
-3.59
-4.12
-3.46
-4.01
-3.39
-3.90
-3.33
0.10 -3.22 -3.13 -3.09 -3.05
• 例检验中国居民人均消费水平CPC与人均国内生
产总值GDPPC的协整关系。
t=-4.47<-3.75=ADF0.05，拒绝存在单位根的假设，残差项是稳定的，因此中国居民人均消费水平与人均GDP是(2,2)阶协整的，说明了该两变量间存在长期稳定的“均衡”关系。
ቤተ መጻሕፍቲ ባይዱ
三、误差修正模型
1、误差修正模型
• 前文已经提到，对于非稳定时间序列，可通过
差分的方法将其化为稳定序列，然后才可建立经典的回归分析模型。
较为普遍的现象!!
• 很多经济时间序列都是非平稳的（从直观上看，随着经济的发展，多数经济时间序列呈明显的上升趋势），而直接采用非平稳时间序列建立回归模型，很容易产生“伪回归”问题。
回归分析应用预测中经常出现的问题
3、存在着因果关系的变量间建立的回归预测模型的预测效果越来越差