时间序列分析——最经典的

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【时间简“识”】
说明:本文摘自于经管之家(原人大经济论坛) 作者:胖胖小龟宝。

原版请到经管之家(原人大经济论坛) 查看。

1.带你看看时间序列的简史
现在前面的话——
时间序列作为一门统计学,经济学相结合的学科,在我们论坛,特别是五区计量经济学中是热门讨论话题。

本月楼主推出新的系列专题——时间简“识”,旨在对时间序列方面进行知识扫盲(扫盲,仅仅扫盲而已……),同时也想借此吸引一些专业人士能够协助讨论和帮助大家解疑答惑。

在统计学的必修课里,时间序列估计是遭吐槽的重点科目了,其理论性强,虽然应用领域十分广泛,但往往在实际操作中会遇到很多“令人发指”的问题。

所以本帖就从基础开始,为大家絮叨絮叨那些关于“时间”的故事!
Long long ago,有多long?估计大概7000年前吧,古埃及人把尼罗河涨落的情况逐天记录下来,这一记录也就被我们称作所谓的时间序列。

记录这个河流涨落有什么意义?当时的人们并不是随手一记,而是对这个时间序列进行了长期的观察。

结果,他们发现尼罗河的涨落非常有规律。

掌握了尼罗河泛滥的规律,这帮助了古埃及对农耕和居所有了规划,使农业迅速发展,从而创建了埃及灿烂的史前文明。

好~~从上面那个故事我们看到了
1、时间序列的定义——按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。

2、时间序列分析的定义——对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。

既然有了序列,那怎么拿来分析呢?
时间序列分析方法分为描述性时序分析和统计时序分析。

1、描述性时序分析——通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析
描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。

2、统计时序分析
(1)频域分析方法
原理:假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动
∙发展过程:
1)早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律
2)后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数
3)20世纪60年代,引入最大熵谱估计理论,进入现代谱分析阶段
∙特点:非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性
(2)时域分析方法
∙原理:事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系,这种相关关系通常具有某种统计规律。

∙目的:寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势
∙特点:理论基础扎实,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法
楼主,说了半天,你终于到正题了,时域分析才是我们经常接触的,你赶紧说说怎么做吧?★时域分析方法的分析步骤:
∙考察观察值序列的特征
∙根据序列的特征选择适当的拟合模型
∙根据序列的观察数据确定模型的口径
∙检验模型,优化模型
∙利用拟合好的模型来推断序列其它的统计性质或预测序列将来的发展
时域分析方法的发展过程
∙基础阶段——
G.U.Yule:1927年,AR模型
G.T.Walker:1931年,MA模型,ARMA模型
∙核心阶段——G.E.P.Box和G.M.Jenkins
1970年,出版《Time Series Analysis Forecasting and Control》
提出ARIMA模型(Box—Jenkins 模型)
Box—Jenkins模型实际上是主要运用于单变量、同方差场合的线性模型
完善阶段——
异方差场合:Robert F.Engle,1982年,ARCH模型
Bollerslov,1985年GARCH模型
多变量场合:C.Granger ,1987年,提出了协整(co- integration)理论
非线性场合:汤家豪等,1980年,门限自回归模型
用哪些软件可以做时间序列分析呢?
S-plus,Matlab,Gauss,TSP,Eviews 和SAS
上述软件楼主觉得Eviews是基础版,Gauss是小众版,Matlab&S-pluss是正常小青年~~SAS,万能的软件BOSS啊~~~
下一辑——时间序列的预处理!敬请关注!
【时间简“识”】2.那些必不可少的预处理- 计量经济学与统计软件- 经管之家(原人大经济论坛)
2012-7-27
本帖最后由
经管之家(原人大经济论坛)
胖胖小龟宝于2014-12-12 09:12 编辑
上一辑预告说啦~~本期的主题是时间序列的预处理~~序列在建模前到底要做哪些预处理呢?首先,大伙都知道的平稳性检验是必须的!说到平稳,其实有两种平稳——
宽平稳、严平稳
严平稳相较于宽平稳来说,条件更多更严格,而我们时常运用的时间序列,大多宽平稳就够了~~
什么是严平稳:
是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。

这样,数学期望和方差这些参数也不随时间和位置变化。

(比如白噪声)
什么是宽平稳:
宽平稳是使用序列的特征统计量来定义的一种平稳性。

它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。

两者关系:
一般关系:
严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立。

特例:
不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯西分布的严平稳序列就不是宽平稳序列。

当序列服从多元正态分布时,宽平稳可以推出严平稳。

如何判断序列是平稳的?
咱们这次先从图形法上看(通常越是简单的方法,往往越能看到问题,图形给出的第一感觉也许就是真相哦~~~~)
时序图,例如(eviews画滴):
分析:什么样的图不平稳,先说下什么是平稳,平稳就是围绕着一个常数上下波动。

看看上面这个图,很明显的增长趋势,不平稳。

我们还可以根据自相关和偏相关系数来查看:
还以上面的序列为例:用eviews得到自相关和偏相关图,Q统计量和伴随概率。

分析:平稳的序列的自相关图和偏相关图不是拖尾就是截尾。

截尾就是在某阶之后,系数都为0 ,怎么理解呢,看上面偏相关的图,当阶数为1 的时候,系数值还是很大,0.914. 二阶长的时候突然就变成了0.050. 后
面的值都很小,认为是趋于0 ,这种状况就是截尾。

再就是拖尾,拖尾就是有一个衰减的趋势,但是不都为0 。

自相关图既不是拖尾也不是截尾。

以上的图的自相关是一个三角对称的形式,这种趋势是单调趋势的典型图形。

下面是通过自相关的其他功能如果自相关是拖尾,偏相关截尾,则用AR 算法如果自相关截尾,偏相关拖尾,则用MA 算法如果自相关和偏相关都是拖尾,则用ARMA 算法,ARIMA 是ARMA 算法的扩展版,用法类似。

一定有同学要问了:楼主检测出来不是平稳的怎么办啊?(楼主:当然要把它整平稳啦~~)
如果遇到数据检测出来不平稳,可以考虑使用差分这个最常用的办法(当然,还有好多种其他方法处理)
还是上面那个序列,两种方法都证明他是不靠谱的,不平稳的。

确定不平稳后,依次进行1阶、2阶、3阶...差分,直到平稳位置。

先来个一阶差分:
从图上看,一阶差分的效果不错,看着是平稳的。

在图形检验法中,我们能够较为直观的看到数据的一个大致变动趋势,如果它有周期或者上升等趋势,一般就不太平稳,需要做些处理,但图形始终是个主管判断为主的方法,这次,就来说说平稳检验的另一个方法:单位根检验(ADF检验)。

ADF检验简介:检查序列平稳性的标准方法是单位根检验。

有6种单位根检验方法:ADF检验、DFGLS检验、PP检验、KPSS检验、ERS检验和NP检验,本节将介绍DF检验、ADF检验。

ADF检验和PP检验方法出现的比较早,在实际应用中较为常见,但是,由于这2种方法均需要对被检验序列作可能包含常数项和趋势变量项的假设,因此,应用起来带有一定的不便;其它几种方法克服了前2种方法带来的不便,在剔除原序列趋势的基础上,构造统计量检验序列是否存在单位根,应用起来较为方便。

ADF检验是在Dickey-Fuller检验(DF检验)基础上发展而来的。

因为DF检验只有当序列为AR(1)时才有效。

如果序列存在高阶滞后相关,这就违背了扰动项是独立同分布的假设。

在这种情况下,可以使用增广的DF检验方法(augmented Dickey-Fuller test )来检验含有高阶序列相关的序列的单位根。

检验步骤(一般进行ADF检验要分3步):1 对原始时间序列进行检验,此时第二项选level,第三项选None.如果没通过检验,说明原始时间序列不平稳;2 对原始时间序列进行一阶差分后再检验,即第二项选1st difference,第三项选intercept,若仍然未通过检验,则需要进行二次差分变换;3 二次差分序列的检验,即第二项选择2nd difference ,第四项选择Trend and intercept.一般到此时间序列就平稳了!tips: 在进行ADF检验时,必须注意以下两个实际问题:(1)必须为回归定义合理的滞后阶数,通常采用AIC准则来确定给定时间序列模型的滞后阶数。

在实际应用中,还需要兼顾其他的因素,如系统的稳定性、模型的拟合优度等。

(2)可以选择常数和线性时间趋势,选择哪种形式很重要,因为检验显著性水平的t 统计量在原假设下的渐近分布依赖于关于这些项的定义。

①若原序列中不存在单位根,则检验回归形式选择含有常数,意味着所检验的序列的均值不为0;若原序
列中存在单位根,则检验回归形式选择含有常数,意味着所检验的序列具有线性趋势,一个简单易行的办法是画出检验序列的曲线图,通过图形观察原序列是否在一个偏离0 的位置随机变动或具有一个线性趋势,进而决定是否在检验时添加常数项。

②若原序列中不存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有线性趋势;若原序列中存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有二次趋势。

同样,决定是否在检验中添加时间趋势项,也可以通过画出原序列的曲线图来观察。

如果图形中大致显示了被检验序列的波动趋势呈非线性变化,那么便可以添加时间趋势项。

本例所选择的基础数据是每日收盘价,上证指数日数据从1990-12-19至2011-8-9,样本容量为5058,周数据从1990-12-21至2011-8-9,样本容量为1043,深证成指日数据从1991-4-3至2011-8-9,样本容量为4998,周数据从1991-4-5至2011-8-9,样本容量为1070。

在证券市场的实证研究中,通常使用收益率即价格的变化而非价格本身,因为证券价格之间存在明显的序列相关性和趋势性,使得许多分析方法不能使用。

在本例中,所采用的数据为收盘价的对数收益序列。

在本例中,通过软件操作得到如下图:
运用传统的ADF检验检验时间序列的平稳性,我们发现,上证、深证投资基金日、周收盘指数的对数收益率序列都是平稳的。

从上表中可以看出,在99%、95%和90%置信度下的检验,ADF的T统计值都是小于其值的,即全部是拒绝原假设的,说明都是平稳的。

在1%的显著水平下,两市的收益率都拒绝随机游走的假设,说明是平稳的时间序列数据。

针对平稳性,楼主做过一个帖子——开学大献礼:怎样理解时间序列的“平稳性”?
你们可以随便戳~~~
预处理还有一项内容就是随机性检验,其实就是俗称的
残差白噪声检验
——
标准的正态白噪声
为什么残差要是白噪声?
答:得到白噪声序列,就说明时间序列中有用的信息已经被提取完毕了,剩下的全是随机扰动,是无法预测和使用的,残差序列如果通过了白噪声检验,则建模就可以终止了,因为没有信息可以继续提取。

如果残差不是白噪声,就说明残差中还有有用的信息,需要修改模型或者进一步提取。

怎样对白噪声进行检验?
答:白噪声检验的步骤为:
打开resid序列,view,correlogram,差分阶数选择level,确定,看q统计量的伴随p值
是不是很大就行了。

下一期——差分、延迟算子的故事!
补充资料:开学大献礼:怎样理解时间序列的“平稳性”?
一、问题的提出
经典计量经济模型常用到的数据有三种类型:
1.时间序列数据(time-series data) ,亦即单一变量按时间的先后次序产生的数据。

2.截面数据(cross-sectional data) ,亦即多个变量在同一个时间点(截面空间)上产生的数据。

3.平行/面板数据(panel data/time-series cross-section data) ,也称时间序列截面数据(time series and cross section data)或混合数据(pool data),是多个变量的时间序列的组合(或称时间序列数据与截面数据的结合)。

在这三类数据中,时间序列数据以及截面数据都是一维数据;而面板数据则是统计分析人员在时间和截面空间上取得的二维数据。

在经济计量实践中,时间序列数据使用的频率最高。

二、平稳性的含义
平稳性是用来描述时间序列数据统计性态的特有术语。

1.时间序列平稳性的定义
假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。

如果经由该随机过程所生成的时间序列满足下列条件:
∙均值E(Xt)=m是与时间t 无关的常数;
∙方差Var(Xt)=s^2是与时间t 无关的常数;
∙协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;
则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。

该随机过程便是一个平稳的随机过程(stationary stochastic process)。

例如,白噪声(white noise)过程就是平稳的:Xt=ut , ut~IIN(0,s^2)因为它的均值为常数零;方差为常数s^2;所有时间间隔的协方差均为零。

但随机游走(random walk)过程是非平稳的:Xt=Xt-1+ut , ut~IIN(0,s^2),因为尽管其均值为常数E(Xt)=E(Xt-1),但其方差Var(Xt)=ts^2非常数。

不过,若令DXt=Xt-Xt-1,则随机游走过程的一阶差分(first difference)是平稳的:DXt=Xt-Xt-1=ut ,ut~IIN(0,s^2)一般地,在经济系统中,一个非平稳的时间序列通常均可通过差分变换的方法转换成为平稳序列。

2.时间序列平稳性的理解
凭以推测经济系统(或其相关变量)在未来可能出现的状况,亦即预测经济系统(或其相关变量)的走势,是我们建立经济计量模型的主要目的。

而基于随机变量的历史和现状来推测其未来,则是我们实施经济计量和预测的基本思路。

这就需要假设随机变量的历史和现状具有代表性或可延续性。

换句话说,随机变量的基本特性必须能在包括未来阶段的一个长时期里维持不变。

否则,基于历史和现状来预测未来的思路便是错误的。

样本时间序列展现了随机变量的历史和现状,因此所谓随机变量基本性态的维持不变也就是要求样本数据时间序列的本质特征仍能延续到未来。

我们用样本时间序列的均值、方差、协(自)方差来刻画该样本时间序列的本质特征。

于是,我们称这些统计量的取值在未来仍能保持不变的样本时间序列具有平稳性。

可见,一个平稳的时间序列指的是:遥想未来所能获得的样本时间序列,我们能断定其均值、方差、协方差必定与眼下已获得的样本时间序列等同。

相反,如果样本时间序列的本质特征只存在于所发生的当期,并不会延续到未来,亦即样本时间序列的均值、方差、协方差非常数,则这样一个过于独特的时间序列不足以昭示未来,我们便称这样的样本时间序列是非平稳的。

形象地理解,平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去;如果数据非平稳,则说明样本拟合曲线的形态不具有“惯性”延续的特点,也就是基于未来将要获得的样本时间序列所拟合出来的曲线将迥异于当前的样本拟合曲线。

可见,时间序列平稳是经典回归分析赖以实施的基本假设;只有基于平稳时间序列的预测才是有效的。

如果数据非平稳,则作为大样本下统计推断基础的“一致性”要求便被破坏,基于非平稳时间序列的预测也就失效。

【时间简“识”】3.差分、延迟算子的故事!
差分~~这个名词想必学经济学统计的都是在熟悉不过了?数据不平稳?差分一下吧~~~几阶差分?差到平稳为止!(楼主,你确定你这么做真的可以?楼主:呵呵~~~逗你呢,当然不会这么干)
玩笑归玩笑,但不可否认的是差分作为一种数据处理方式,是最为普遍和通用的了。

今天,我们就静下心来说说差分那些事。

1.什么是差分?有哪些类型?区别在哪?
差分其实不仅仅是只有一次差分,通常我们将一次差分运算叫做一阶差分,再一次差分就叫做二阶差分,以此类推,P次差分就是P 阶差分。

最开始的差分:
P阶差分——
另外还有K步差分,这个不常见,但有时也会用到
简单说一下我对这两个差分区别的理解——
P阶,就是P次的概念;K步就是在一次差分里间隔K个数据的概念,不知这样说大家明不明白?
2.什么是延迟算子?
延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻记B为延迟算子,

他有这些性质——
为什么要提到这个算子?因为可以用它来表示差分运算:
进一步的,我们可以用其来解差分方程;在之后所提到的AR,MA,ARMA模型中,我们也可以使用延迟算子来表达,简化式子。

今天讲的这个两个概念,一个是经常用来处理的数据的方法,一个则是一个不常提到但其实一直贯穿在时间序列里。

在之后的专题中,这个“B”会经常出现,顺便问一句,有没有谁对格林函数了解的?这是楼主的一个知识盲点,一直都没好好弄懂过,了解的童鞋,麻烦能否通俗讲解一下?
【时间简“识”】4.
开启ARMA之旅——AR篇
说时间序列,不来个ARMA,GARCH仿佛就跟吃饭只有冷菜没热炒正菜~~所以,从本辑开始步入正轨。

ARMA 模型应该是时间序列里最常用到的了,说白了,他其实是有AR(p)和MA(q)构成的,当然,还有一个ARIMA模型,其实和ARMA没啥大区别,主要就是加了个几阶差分罢了(ARIMA(p,d,q)其中d就是差分的次数)。

首先我们从模型的前半部分AR(p)开始——
什么是AR模型,说白了就是序列Y的变动与Yt-1,Yt-2等有关,那么我们就利用这些来对Y进行短期的预测,至于AR(p)中的p 就是Y与它前p期有关。

当然直白的话只能用来理解,真的落到白纸黑字,咱还是要稍微像样点,比如写成这样就有教科书的感觉了——
如果预测是分析的目的,那么,随机过程的元素Yt对它的过去的依赖性就很重要。

这使我们能够利用已经收集的样本观测值的过去信息预测变量的未来值。

存在这种依赖性的简单例子是自回归过程:
自回归AR(p)模型:yt=φ1yt-1+φ2yt-2+……+φpyt-p+εt
式中假设:yt的变化主要与时间序列的历史数据有关,与其它因素无关;εt不同时刻互不相关,εt与yt历史序列不相关。

引进延迟算子(延迟算子的内容可翻看:【时间简“识”】3.差分、延迟算子的故事!),中心化AR(p)模型又可以简记为:
想要运用这个模型,首先我们要求序列是要平稳的(平稳不知道?那赶紧戳:【时间简“识”】2.那些必不可少的预处理)
AR模型平稳性判别方法
1.特征根判别
AR(p)模型平稳的充要条件是它的p个特征根都在单位圆内
根据特征根和自回归系数多项式的根成倒数的性质,等价判别条件是该模型的自回归系数多项式的根都在单位圆外
2.平稳域判别
没例子没真相,这就给大家看个例子——
AR模型又具有哪些统计特性呢?
1、均值——
2、方差——
引入知识点——green函数什么是GREEN函数?
这个表达形式称为传递形式,其中系数{Gj,j=1,2,3……} 称为格林(GREEN)函数或记忆函数。

格林函数描述了系统是怎样记忆噪音(扰动)的。

Green函数的意义:
∙Gj描述了j个时间单位以前的扰动(即εt-j)对系统当前行为Xt的影响。

∙|Gj|的大小反映了系统记忆性的强弱。

∙j→∞,|Gj|→0过去干扰的影响逐渐衰减。

衰减的快慢与|Gj|随j的变化方式有关,同时如果有单个εt加入系统,Green函数决定了系统回到均衡位置的速度快慢。

3、自相关和偏自相关系数——
AR模型自相关呈现拖尾性,模型偏自相关系数P阶截尾。

具体表现为:
自相关:
偏自相关:
其中:
附上建模的步骤供大家参考:❀建模基本步骤❀
∙数据的采集和预处理
∙模型参数的估计(关键的一步)
∙模型适用性的检验
❦数据的采集和预处理
时间序列为平稳、正态、零均值的时序是建立AR模型的前提条件,因此需检验时间序列是否满足这个前提条件。

若不满足,需对数据进行处理,使其满足建立AR模型的前提条件。

❦模型参数的估计
•估计模型自回归参数和残余方差。

•模型参数估计方法有很多种,例如最小二乘法、协方差法等。

❦模型的适用性检验
参数估计方法只能在给定模型阶次p的条件下确定模型参数,但阶次p究竟为多少才合适的问题没有得到解决,而模型适用性检验的核心就是解决模型定阶问题。

模型的适用性的最根本准则应是检验是否为白噪声序列,将采用 AIC准则进行检验。

AIC(p)=-2lnL+2p 式中,L为时间序列的似然函数,p为模型阶次。

可得到AR(n)模型的向前一步的预测值。

【时间简“识”】5.开启ARMA之旅——MA篇
在上辑介绍了AR模型之后作为ARMA模型的另一个重要成员MA同学成为了本次的主角。

如果说AR模型是建立当前值和历史值之间的联系,那么MA模型是计算AR部分的误差累计的,不知道这个通俗的讲法大家能否接受?废话不多,直接开始——
咱先来看看什么是MA模型——
有些情况下,序列的记忆是关于外部干扰的记忆。

在这种情况下,Xt可以表示成过去干扰和现在干扰的线性组合,此类模型称为移动平均模型。

更精确地MA模型定义是:
如果当前的状态是与过去q 个时刻的随机干扰项相关。

应当选用q 阶移动平均模型MA(q):
Xt=μ+εt-θ1εt-1-θ2εt-2-……-θqεt-q(原谅楼主的公式实在打的~~我自己也看不下去了)
MA模型具有的统计性质 均值(常数)
∙方差
∙自协方差函数q阶截尾
自相关系数q阶截尾
☆偏自相关系数拖尾:任何可逆的MA(q)—>AR(∞),所以φkk不会在有限阶之后恒为零。

MA模型是否可逆?
我们来看看它的这一特性:
MA模型自相关系数的不唯一性,不同的MA模型具有完全相同的自相关系数和偏自相关系数,所以,当我们只能观测到Xt的实现,并不能判断观测到的序列是由以上哪个模型产生的,需要对MA模型添加约束条件限制。

好了,问题来了,那么什么才叫可逆?
注意:一个自相关系数列唯一对应一个可逆MA模型。

相关文档
最新文档