时序分析的一般概念与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于非平稳时序,其主要思路是将其转化为平稳时序。转化的办法无外乎是将它与一个 普通函数相减(时序分解)、自己与自己前后项相减(滤波)、自己与另外一些时序相减 (Co-Integration,一般翻译成协整,也有翻译成同积,本书翻译成协稳)。非平稳时序的随 机项结构更加复杂,提出了许多模型,是时序理论研究的前沿领域。
( X (t),Y (t)) 为二维随机过程。它们的互协方差函数为:
γ XY (t1, t2 ) = Cov( X (t1),Y (t2 )) = E[(X (t1) − μX (t1))(Y (t2 ) − μY (t2 ))] (12.1.10)
或者
γ XY (t, k) = E(X (t) − μ X (t))(Y (t + k) − μY (t + k))
刻的状态,全体状态的集合称为状态空间。对于固定的随机事件 e , X t (e) 是对应于 e 的样
本函数,简记为 X t ,或 X (t) ,可以理解为随机过程的一次实现。如果随机过程 X t 的参数 t 明确是时间,则称为时间序列。
更为简捷地进入时间序列定义,可以就将按时间次序排列的随机变量序列
如果随机过程的统计性质不随时间的推移而变化,即对任意的时刻划分 t1,L,tn ∈T 和 任 意 的实 数 h , 当 t1 + h,L,tn + h ∈T 时 , n 维 随 机 变量 {X (t1}, X (t2 ),L, X (tn )} 和 {X (t1 + h}, X (t2 + h),L, X (tn + h)}具有相同的分布函数,则称随机过程{X (t), t ∈ T} 具
X1, X2, X3,L
(12.1.1)
称为时间序列{X t } ,用
x1, x2 , L, xNwk.baidu.com
(12.1.2)
分别表示随机变量 X1, X 2 , L, X N 的观测值,或称为时间序列的 N 个观测样本,在图像
上就是一条轨线。注意如果将(12.1.1)理解为从一个总体 X 抽取的样本,则许多教科书称
γ XY (t1,t2 ) = 0
(12.1.12)
则称随机过程 X (t) 与 Y (t) 是不相关的。类似于(12.1.4)式和一般二维随机变量的联合分
布函数表达,我们可以定义二维随机过程的联合分布。如果对于任意的时刻划分,二维随机
过程 ( X (t),Y (t)) 的联合分布都等于其两个边缘分布的乘积,则称它们是独立的。独立性的
RXX (t1,t2 ) = E( X (t1) X (t2 )) 也可以记为 RX (t1,t2 ) 。
(12.1.7) (12.1.8)
图 12.1.1.3 例如(12.1.9)式表达的随机相位正弦波是一个随机过程(又称调和平稳时间序列):
547
X (t) = a cos(ω t + Θ) , t ∈ (−∞, + ∞)
它们的互相关函数为:
RXY (t1, t2 ) = E( X (t1)Y (t2 ))
(12.1.11)
或者
RXY (t, k) = E( X (t)Y (t + k))
互协方差函数与自协方差函数的关系、互相关函数与自相关函数的关系,都是显而易
见的。抛开时序的物理意义、经济意义不管,一个时序只是一列数据,两个时序本来是两列
545
注意是说随机变量带有参数,而不是说随机变量的分布函数带有参数,分布函数一般总
是带有参数的。随机变量带有了参数,如果参数变动起来,就形成了一族随机变量,所以随
机过程就是一族随机变量,也可以理解为多维随机变量的延伸。
对于固定的参数 t ,X t (e) 是定义在样本空间上的普通随机变量,也称作随机过程在 t 时
过程。根据许瓦兹(Schwarz)不等式
{E[ X (t1 ), X (t2 )]}2 ≤ E[ X 2 (t1 )] E[ X 2 (t2 )]
(12.1.13)
548
二阶矩过程的自相关函数总是存在的。
如果随机过程 X (t) 的每一个有限维分布都是正态分布,那么它称为正态过程。例如
图 12.1.1.4
RXX (t1,t2 ) = E [a2 cos(ωt1 + Θ) cos(ωt2 + Θ)]
∫ = a2
2π 0
cos(ωt1
+ θ ) cos(ωt2
+θ)
1 2π
dθ
=
a2 2
cos ω (t 2
−
t1 )
对 于 同 一 个 样 本 空 间 Ω 和 同 一 个 参 数 集 T 上 的 两 个 随 机 过 程 X (t) 、 Y (t) , 称
(12.1.1)为一个样本,而称(12.1.2)为这个样本的一次观测。实际问题中时间指标不仅是
离散的,而且一般是等间隔排列的,因此本书中时间序列时间指标一般按等间隔排列。
图 12.1.1.1
图 12.1.1.2 图 12.1.1.1 是用本书自带的软件 DASC 发生的随机过程(时间序列)100 个数据。可以
第十二章 时序分析的一般概念与方法
前面各章介绍的是与回归有关的内容。所谓回归分析,主要是寻找一个变量与另外几个 变量之间的函数关系,是一种横向关系。本章开始介绍时间序列,就是按时间次序排列的随 机变量序列。所谓时序分析,主要是寻找一个变量的当前值与其过去值之间的关系,是一种 纵向关系。
时间序列按平稳性基本上可以分为两类,一类是平稳时序,一类是非平稳时序,本章初 步介绍它们的一般概念,后两章再继续深入学习。平稳时序主要是指宽平稳时序,它要求均 值函数为常数,自协方差函数与起点无关。严平稳时序则要求联合分布函数与起点无关。本 章先从随机过程的概念引入时间序列的概念,主要需要掌握均值函数、自协方差函数、自相 关函数、自相关系数的概念。在平稳时序的类型方面,我们主要需要掌握白噪声、移动平均、 自回归三大类型,也要了解随机相位波、泊松过程、布朗运动、正态过程等概念,以及它们 之间的关系。
一、随机过程与时间序列的统计描述
我们知道,随机试验(记为 E )的结果称为随机事件(记为 e );随机事件包括基本随 机事件与复合随机事件,随机事件的全体称为样本空间(记为 Ω );能够将样本空间里的随 机事件与实数逐一对应起来的变量称为随机变量(记为 X ,或 X (e) );带有参数 t 的随机 变量称为随机过程(记为 X t ,或 X (t) ,或 X t (e) ,或 X (t, e) )。
X (t) = A cosωt + B sin ωt , t ∈ (−∞, + ∞)
(12.1.14)
其中 A, B 是随机变量,相互独立,且都服从正态 N (0,σ 2 ) , ω 是实常数,则 X (t) 是正态
过程。图 12.1.1.4 是用 DASC 软件按照上式发生的 5 条轨线,可以看到,对于每个固定的 t ,
在平稳时序分析的方法方面,主要一个是时序的分解,一个是滤波,一个是谱分析,当 然也要利用我们已经熟悉的回归。体会一下它们之间的联系和区别,我们发现回归和滤波的 思想主要是去掉随机项,保留趋势关系的主部;时序的分解是设法去掉趋势主部,保留随机 项;谱分析则是将时序的随机项转化为谱函数,再识别其各种特征。在获得时序数据的随机 项之后,时序分析提出了各种模型假设,也就是要分析这些随机项的当前值与过去值之间的 结构关系。
由于此例的均值函数为 0,所以其自协方差函数也就是自相关函数。
给定二阶矩过程{X (t), t ≥ 0} ,我们称随机变量{X (t) − X (S )}, 0 ≤ s < t 为随机过程
在区间[s, t) 上的增量。如果对于任给的正整数 n 和任给的 0 ≤ t0 < t1 < t2 < L < tn , n 个
X1, X 2 ,L, X100 的又一次观测,此次观测 X 50 =-0.373。
通过这两个图像,我们可以形象建立随机过程(时间序列)、随机变量族、样本观测的
概念。同时我们也明白了,仅仅根据一条轨线要作出时间序列的统计推断是不大可靠的,这
点与回归分析有很大不同。要么我们对数据模型有很强的假设,要么我们有多条轨线数据,
条件是两个函数式相等,需要无穷多个点对应相等,而不相关的条件是一个数与 0 相等,显 然容易理解,如果两个随机过程是独立的,则它们必然不相关,而反之则未必。
按照随机过程的统计性质,我们可以建立以下一些随机过程基本类型的概念。
如果对于每一固定的 t ,随机过程 X (t) 的二阶矩 E( X 2 (t)) 都存在,那么它称为二阶矩
理解为 t = 1,2,L,100 ,数据是 X1, X 2 ,L, X100 的一次观测。对于每一个固定的 t (例如 t =50), X t 是一个随机变量,它的取值是随机的,此次观测 X 50 =-0.147。我们还是用
546
DASC 同 一 程 序 发 生 随 机 数 据 , 只 是 伪 随 机 数 的 种 子 不 同 。 如 图 12.1.1.2 , 它 是
程的数字特征函数。如 X (t) 的均值函数为:
X (t) 的方差函数为:
μ X (t) = E(X (t))
(12.1.5)
σ
2 X
(t)
=
D( X
(t))
=
E(
X
(t)
−
μ
X
(t )) 2
X (t) 的自协方差函数(或简称协方差函数)为:
(12.1.6)
γ XX (t1,t2 ) = Cov( X (t1), X (t2 )) = E(X (t1) − μ X (t1))(X (t2 ) − μ X (t2 )) 也可以记为 γ X (t1, t2 ) 。 X (t) 的自相关函数(或简称相关函数)为:
增量 X (t1) − X (t0 ) , X (t2 ) − X (t1) ,…, X (tn ) − X (tn−1) 相互独立,则称随机过程 {X (t), t ≥ 0} 为独立增量过程。如果对于任给的实数 h , X (t + h) − X (s + h) 和 X (t)
− X (s) 具有相同的分布,则称增量具有平稳性。
有 n 维分布函数为: F (x1, x2 ,L, xn ;t1, t2 ,L, tn ) = P{X (t1) < x1, X (t2 ) < x2 ,L, X (tn ) < xn} (12.1.4)
称为随机过程 X (t) 的 n 维分布函数族。
对于固定的时刻 t ,随机变量 X (t) 应该有它的数字特征。当 t 变动起来,就形成随机过
在时序分析的应用方面,一个是参数估计,一个是预测,这和回归分析差不多。在章节 的划分上我们坚持一条主线,按模型划分,这样既有利于全书的系统性,也有利于读者查找 相关章节。
书中所有时序模型,从发生随机数,到参数估计、假设检验、图像显示,都有作者自编 的程序,集成在 DASC 的时序菜单屏幕下。
第一节 时间序列的基本概念
才能对时序数据作出较好的统计推断。
随机过程在任一时刻的状态是随机变量,因此可以利用随机变量的统计描述来刻划随机
过程的统计特性。
对于固定的时刻 t ,随机过程有一维分布函数为:
F (x, t) = P{X (t) < x}
(12.1.3)
当 t 变动起来,就形成一维分布函数族。 对于任意 n 个不同的时刻 t1,t2 ,L,tn ,有 n 维随机变量( X (t1), X (t2 ),L, X (tn ) ),它
有 5 个点,它们分别是服从正态分布的。其均值函数是
μ X (t) = E(Acosωt + B sinωt) = E(A) cosωt + E(B) sinωt = 0
自相关函数是
RXX (t1,t2 ) = E[(Acosωt1 + B sinωt1) ⋅ (Acosωt2 + B sinωt2 )] = σ 2 (cosωt1 cosωt2 + sin ωt1 sin ωt2 ) = σ 2 cosω(t2 − t1)
(12.1.9)
其中 a,ω 是常数,Θ 是在区间 (0, 2π ) 上服从均匀分布的随机变量。图 12.1.1.3 是 5 条轨线,
用 DASC 程序发生。其均值函数是
∫ μ X (t) = E[a cos(ω t + Θ)] =
2π a cos(ω t + θ ) 1 dθ = 0
0
2π
其自相关函数是
数据,可是连接起来还是一列数据。如果{X t } 的长度为 N ,{X t } 与{Yt } 连接起来的序列
称为{Zt } ,则互相关函数对于连接起来的序列就是自相关函数:
RXY (t, k) = E(Z (t)Z (N + t + k)) = RZ (t, N + k)
如果对于任意的 t1,t2 ∈T ,都有
( X (t),Y (t)) 为二维随机过程。它们的互协方差函数为:
γ XY (t1, t2 ) = Cov( X (t1),Y (t2 )) = E[(X (t1) − μX (t1))(Y (t2 ) − μY (t2 ))] (12.1.10)
或者
γ XY (t, k) = E(X (t) − μ X (t))(Y (t + k) − μY (t + k))
刻的状态,全体状态的集合称为状态空间。对于固定的随机事件 e , X t (e) 是对应于 e 的样
本函数,简记为 X t ,或 X (t) ,可以理解为随机过程的一次实现。如果随机过程 X t 的参数 t 明确是时间,则称为时间序列。
更为简捷地进入时间序列定义,可以就将按时间次序排列的随机变量序列
如果随机过程的统计性质不随时间的推移而变化,即对任意的时刻划分 t1,L,tn ∈T 和 任 意 的实 数 h , 当 t1 + h,L,tn + h ∈T 时 , n 维 随 机 变量 {X (t1}, X (t2 ),L, X (tn )} 和 {X (t1 + h}, X (t2 + h),L, X (tn + h)}具有相同的分布函数,则称随机过程{X (t), t ∈ T} 具
X1, X2, X3,L
(12.1.1)
称为时间序列{X t } ,用
x1, x2 , L, xNwk.baidu.com
(12.1.2)
分别表示随机变量 X1, X 2 , L, X N 的观测值,或称为时间序列的 N 个观测样本,在图像
上就是一条轨线。注意如果将(12.1.1)理解为从一个总体 X 抽取的样本,则许多教科书称
γ XY (t1,t2 ) = 0
(12.1.12)
则称随机过程 X (t) 与 Y (t) 是不相关的。类似于(12.1.4)式和一般二维随机变量的联合分
布函数表达,我们可以定义二维随机过程的联合分布。如果对于任意的时刻划分,二维随机
过程 ( X (t),Y (t)) 的联合分布都等于其两个边缘分布的乘积,则称它们是独立的。独立性的
RXX (t1,t2 ) = E( X (t1) X (t2 )) 也可以记为 RX (t1,t2 ) 。
(12.1.7) (12.1.8)
图 12.1.1.3 例如(12.1.9)式表达的随机相位正弦波是一个随机过程(又称调和平稳时间序列):
547
X (t) = a cos(ω t + Θ) , t ∈ (−∞, + ∞)
它们的互相关函数为:
RXY (t1, t2 ) = E( X (t1)Y (t2 ))
(12.1.11)
或者
RXY (t, k) = E( X (t)Y (t + k))
互协方差函数与自协方差函数的关系、互相关函数与自相关函数的关系,都是显而易
见的。抛开时序的物理意义、经济意义不管,一个时序只是一列数据,两个时序本来是两列
545
注意是说随机变量带有参数,而不是说随机变量的分布函数带有参数,分布函数一般总
是带有参数的。随机变量带有了参数,如果参数变动起来,就形成了一族随机变量,所以随
机过程就是一族随机变量,也可以理解为多维随机变量的延伸。
对于固定的参数 t ,X t (e) 是定义在样本空间上的普通随机变量,也称作随机过程在 t 时
过程。根据许瓦兹(Schwarz)不等式
{E[ X (t1 ), X (t2 )]}2 ≤ E[ X 2 (t1 )] E[ X 2 (t2 )]
(12.1.13)
548
二阶矩过程的自相关函数总是存在的。
如果随机过程 X (t) 的每一个有限维分布都是正态分布,那么它称为正态过程。例如
图 12.1.1.4
RXX (t1,t2 ) = E [a2 cos(ωt1 + Θ) cos(ωt2 + Θ)]
∫ = a2
2π 0
cos(ωt1
+ θ ) cos(ωt2
+θ)
1 2π
dθ
=
a2 2
cos ω (t 2
−
t1 )
对 于 同 一 个 样 本 空 间 Ω 和 同 一 个 参 数 集 T 上 的 两 个 随 机 过 程 X (t) 、 Y (t) , 称
(12.1.1)为一个样本,而称(12.1.2)为这个样本的一次观测。实际问题中时间指标不仅是
离散的,而且一般是等间隔排列的,因此本书中时间序列时间指标一般按等间隔排列。
图 12.1.1.1
图 12.1.1.2 图 12.1.1.1 是用本书自带的软件 DASC 发生的随机过程(时间序列)100 个数据。可以
第十二章 时序分析的一般概念与方法
前面各章介绍的是与回归有关的内容。所谓回归分析,主要是寻找一个变量与另外几个 变量之间的函数关系,是一种横向关系。本章开始介绍时间序列,就是按时间次序排列的随 机变量序列。所谓时序分析,主要是寻找一个变量的当前值与其过去值之间的关系,是一种 纵向关系。
时间序列按平稳性基本上可以分为两类,一类是平稳时序,一类是非平稳时序,本章初 步介绍它们的一般概念,后两章再继续深入学习。平稳时序主要是指宽平稳时序,它要求均 值函数为常数,自协方差函数与起点无关。严平稳时序则要求联合分布函数与起点无关。本 章先从随机过程的概念引入时间序列的概念,主要需要掌握均值函数、自协方差函数、自相 关函数、自相关系数的概念。在平稳时序的类型方面,我们主要需要掌握白噪声、移动平均、 自回归三大类型,也要了解随机相位波、泊松过程、布朗运动、正态过程等概念,以及它们 之间的关系。
一、随机过程与时间序列的统计描述
我们知道,随机试验(记为 E )的结果称为随机事件(记为 e );随机事件包括基本随 机事件与复合随机事件,随机事件的全体称为样本空间(记为 Ω );能够将样本空间里的随 机事件与实数逐一对应起来的变量称为随机变量(记为 X ,或 X (e) );带有参数 t 的随机 变量称为随机过程(记为 X t ,或 X (t) ,或 X t (e) ,或 X (t, e) )。
X (t) = A cosωt + B sin ωt , t ∈ (−∞, + ∞)
(12.1.14)
其中 A, B 是随机变量,相互独立,且都服从正态 N (0,σ 2 ) , ω 是实常数,则 X (t) 是正态
过程。图 12.1.1.4 是用 DASC 软件按照上式发生的 5 条轨线,可以看到,对于每个固定的 t ,
在平稳时序分析的方法方面,主要一个是时序的分解,一个是滤波,一个是谱分析,当 然也要利用我们已经熟悉的回归。体会一下它们之间的联系和区别,我们发现回归和滤波的 思想主要是去掉随机项,保留趋势关系的主部;时序的分解是设法去掉趋势主部,保留随机 项;谱分析则是将时序的随机项转化为谱函数,再识别其各种特征。在获得时序数据的随机 项之后,时序分析提出了各种模型假设,也就是要分析这些随机项的当前值与过去值之间的 结构关系。
由于此例的均值函数为 0,所以其自协方差函数也就是自相关函数。
给定二阶矩过程{X (t), t ≥ 0} ,我们称随机变量{X (t) − X (S )}, 0 ≤ s < t 为随机过程
在区间[s, t) 上的增量。如果对于任给的正整数 n 和任给的 0 ≤ t0 < t1 < t2 < L < tn , n 个
X1, X 2 ,L, X100 的又一次观测,此次观测 X 50 =-0.373。
通过这两个图像,我们可以形象建立随机过程(时间序列)、随机变量族、样本观测的
概念。同时我们也明白了,仅仅根据一条轨线要作出时间序列的统计推断是不大可靠的,这
点与回归分析有很大不同。要么我们对数据模型有很强的假设,要么我们有多条轨线数据,
条件是两个函数式相等,需要无穷多个点对应相等,而不相关的条件是一个数与 0 相等,显 然容易理解,如果两个随机过程是独立的,则它们必然不相关,而反之则未必。
按照随机过程的统计性质,我们可以建立以下一些随机过程基本类型的概念。
如果对于每一固定的 t ,随机过程 X (t) 的二阶矩 E( X 2 (t)) 都存在,那么它称为二阶矩
理解为 t = 1,2,L,100 ,数据是 X1, X 2 ,L, X100 的一次观测。对于每一个固定的 t (例如 t =50), X t 是一个随机变量,它的取值是随机的,此次观测 X 50 =-0.147。我们还是用
546
DASC 同 一 程 序 发 生 随 机 数 据 , 只 是 伪 随 机 数 的 种 子 不 同 。 如 图 12.1.1.2 , 它 是
程的数字特征函数。如 X (t) 的均值函数为:
X (t) 的方差函数为:
μ X (t) = E(X (t))
(12.1.5)
σ
2 X
(t)
=
D( X
(t))
=
E(
X
(t)
−
μ
X
(t )) 2
X (t) 的自协方差函数(或简称协方差函数)为:
(12.1.6)
γ XX (t1,t2 ) = Cov( X (t1), X (t2 )) = E(X (t1) − μ X (t1))(X (t2 ) − μ X (t2 )) 也可以记为 γ X (t1, t2 ) 。 X (t) 的自相关函数(或简称相关函数)为:
增量 X (t1) − X (t0 ) , X (t2 ) − X (t1) ,…, X (tn ) − X (tn−1) 相互独立,则称随机过程 {X (t), t ≥ 0} 为独立增量过程。如果对于任给的实数 h , X (t + h) − X (s + h) 和 X (t)
− X (s) 具有相同的分布,则称增量具有平稳性。
有 n 维分布函数为: F (x1, x2 ,L, xn ;t1, t2 ,L, tn ) = P{X (t1) < x1, X (t2 ) < x2 ,L, X (tn ) < xn} (12.1.4)
称为随机过程 X (t) 的 n 维分布函数族。
对于固定的时刻 t ,随机变量 X (t) 应该有它的数字特征。当 t 变动起来,就形成随机过
在时序分析的应用方面,一个是参数估计,一个是预测,这和回归分析差不多。在章节 的划分上我们坚持一条主线,按模型划分,这样既有利于全书的系统性,也有利于读者查找 相关章节。
书中所有时序模型,从发生随机数,到参数估计、假设检验、图像显示,都有作者自编 的程序,集成在 DASC 的时序菜单屏幕下。
第一节 时间序列的基本概念
才能对时序数据作出较好的统计推断。
随机过程在任一时刻的状态是随机变量,因此可以利用随机变量的统计描述来刻划随机
过程的统计特性。
对于固定的时刻 t ,随机过程有一维分布函数为:
F (x, t) = P{X (t) < x}
(12.1.3)
当 t 变动起来,就形成一维分布函数族。 对于任意 n 个不同的时刻 t1,t2 ,L,tn ,有 n 维随机变量( X (t1), X (t2 ),L, X (tn ) ),它
有 5 个点,它们分别是服从正态分布的。其均值函数是
μ X (t) = E(Acosωt + B sinωt) = E(A) cosωt + E(B) sinωt = 0
自相关函数是
RXX (t1,t2 ) = E[(Acosωt1 + B sinωt1) ⋅ (Acosωt2 + B sinωt2 )] = σ 2 (cosωt1 cosωt2 + sin ωt1 sin ωt2 ) = σ 2 cosω(t2 − t1)
(12.1.9)
其中 a,ω 是常数,Θ 是在区间 (0, 2π ) 上服从均匀分布的随机变量。图 12.1.1.3 是 5 条轨线,
用 DASC 程序发生。其均值函数是
∫ μ X (t) = E[a cos(ω t + Θ)] =
2π a cos(ω t + θ ) 1 dθ = 0
0
2π
其自相关函数是
数据,可是连接起来还是一列数据。如果{X t } 的长度为 N ,{X t } 与{Yt } 连接起来的序列
称为{Zt } ,则互相关函数对于连接起来的序列就是自相关函数:
RXY (t, k) = E(Z (t)Z (N + t + k)) = RZ (t, N + k)
如果对于任意的 t1,t2 ∈T ,都有