第五章-时间序列的模型识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§5.1 自相关和偏自相关系数法
在平稳时间序列分析中,最关键的过程就是利用数据去识别和建模,根据第三章讨论的
内容,一个比较直观的方法,就是通过观察自相关系数(ACF)和偏自相关系数(PACF)
可以对拟合模型有一个初步的识别,这是因为从理论上说,平稳 AR、MA 和 ARMA 模型的
ACF 和 PACF 有如下特性:
生命赐给我们,我们必须奉献生命,才能获得生命。
第五章 时间序列的模型识别
前面四章我们讨论了时间序列的平稳性问题、可逆性问题,关于线性平稳时间序列模型, 引入了自相关系数和偏自相关系数,由此得到 ARMA(p, q)统计特性。从本章开始,我们将 运用数据开始进行时间序列的建模工作,其工作流程如下:
1. 模型识别 用相关图和偏相关图识别模型 形式(确定参数 p, q)
T
1 k
T k j 1
xj x
xjk x , 1 k T 1
(5.3)
ˆk ˆk , 1 k T 1
在上述两种估计中,当样本容量T 很大,而 k 的绝对值较小时,上述两种估计值相差不 大,其中由(5.1)定义的第一种估计值的绝对值较小。根据前面章节的讨论,因为 AR( p ),
MA( q )或者 ARMA( p, q )模型的自协方差系数 k 都是以负指数阶收敛到零,所以在对平
希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
生命赐给我们,我们必须奉献生命,才能获得生命。
确定模型阶次,检验模型残差的相关特性等;(3)利用信息准则,确定一个与模型阶数有关 的准则函数,既考虑模型对原始观测值的接近程度,又考虑模型中所含待定参数的个数,最 终选取使该函数达到最小值的阶数,常用的该类准则有 AIC、BIC、FPE 等。实际应用中, 往往是几种方法交叉使用,然后选择最为合适的阶数(p,q)作为待建模型的阶数。
, p0 1, p0 1
p0 2, p0 2 ,…,
p0 M , p0 M 中满足不等式
ˆkk
1 T
或 ˆkk
2 T
的个数占总数 M 的 68.3%或 95.5%,则可以认定 kk 在 p0 处截尾,由此可以初步判定序
列{X t } 为 AR( p0 )模型。
对于样本的自相关系数ˆk ,由第二章的 Bartlett 公式,对于 q 0 ,ˆk 满足
ˆk ˆk ˆ0 , k T 1
(5.2)
是Xt 的自相关系数k 的估计。
作为Xt 的自协方差系数 k 的估计,根据数理统计知识,样本自协方差系数还可以
写为
希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
生命赐给我们,我们必须奉献生命,才能获得生命。
ˆk
ˆk 都明显不为零,而当 q q0 时, ˆq0 1 , ˆq0 2 ,…, ˆq0 M 中满足上述不等式的个数达
到比例,则判断 k 在 q0 处截尾。初步认为序列{X t } 为 MA( q0 )模型。
至此,我们可以利用样本的自相关系数 ˆk 和偏自相关系数 ˆkk ,得到 ARMA 模型
例 5.2 某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如下:
表 5.2 某时间序列数据的样本自/偏自相关系数
样本自相关系数
样本偏自相关系数
k
ˆk
k
ˆk
k
ˆkk
k
ˆkk
1 0.82 2 0.45 3 0.047 4 -0.26 5 -0.41 6 -0.36 7 -0.15 8 0.16
9 0.46 10 0.64 11 0.63 12 0.45 13 0.16 14 -0.11 15 -0.30
1 0.82 2 -0.68 3 -0.12 4 0.06 5 -0.02 6 0.18 7 0.20 8 0.04
9 0.19 10 0.01 11 -0.01 12 -0.03 13 0.02 14 0.05 15 -0.06
对于线性平稳时间序列模型来说,模型的识别问题就是确定 ARMA(p,q)过程的阶数, 从而判定模型的具体类别,为我们下一步进行模型的参数估计做准备。所采用的基本方法主 要是依据样本的自相关系数(ACF)和偏自相关系数(PACF)初步判定其阶数,如果利用 这种方法无法明确判定模型的类别,就需要借助诸如 AIC、BIC 等信息准则。我们分别给 出几种定阶方法,它们分别是(1)利用时间序列的相关特性,这是识别模型的基本理论依 据。如果样本的自相关系数(ACF)在滞后 q+1 阶时突然截断,即在 q 处截尾,那么我们 可以判定该序列为 MA(q)序列。同样的道理,如果样本的偏自相关系数(PACF)在 p 处截 尾,那么我们可以判定该序列为 AR(p)序列。如果 ACF 和 PACF 都不截尾,只是按指数衰 减为零,则应判定该序列为 ARMA(p,q)序列,此时阶次尚需作进一步的判断;(2)利用数 理统计方法检验高阶模型新增加的参数是否近似为零,根据模型参数的置信区间是否含零来
既可以初步判定相应的时间序列为 MA( q )模型
(2) 同样,样本偏自相关系数 ˆkk 如果满足上述性质,则可以初步判定相应的时间序列为
希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
生命赐给我们,我们必须奉献生命,才能获得生命。
AR(p)模型。
(3) 对于样本自相关系数 ˆk 和样本偏自相关系数 ˆkk ,如果均有超过 5%的值落入 2 倍
稳时间序列的数据拟合 AR( p ),MA( q )或者 ARMA( p, q )模型时,希望实际计算的样本自
协方差系数ˆk 能以很快的速度收敛。因此,我们一般选择由(5.1)定义的第一种估计值作
为 k 的点估计。
根据第三章偏自相关系数的计算,利用样本自相关系数 ˆk 的值,定义样本偏自相关
系数 ˆkk 如下:
出初步的模型识别。
表 5.3 某车站 1993-1997 年个月的列车运行数量数据(单位:千列·千米)
k
观测值 k
观测值 k
观测值 k
观测值 k
观测值 k
观测值
1 1196.8 11 1206.5 21 1238.9 31 1261.6 41 1183.0 51 1306.0 2 1181.3 12 1204.0 22 1267.5 32 1274.5 42 1228.0 52 1209.0 3 1222.6 13 1234.1 23 1200.9 33 1196.4 43 1274.0 53 1248.0 4 1229.3 14 1146.0 24 1245.5 34 1222.6 44 1218.0 54 1208.0 5 1221.5 15 1304.9 25 1249.9 35 1174.7 45 1263.0 55 1231.0 6 1148.4 16 1221.9 26 1220.1 36 1212.6 46 1205.0 56 1244.0 7 1250.2 17 1244.1 27 1267.4 37 1215.0 47 1210.0 57 1296.0 8 1174.4 18 1194.4 28 1182.3 38 1191.0 48 1243.0 58 1221.0 9 1234.5 19 1281.5 29 1221.7 39 1179.0 49 1266.0 59 1287.0 10 1209.7 20 1277.3 30 1178.1 40 1224.0 50 1200.0 60 1191.0 图 5.3,5.4 分别为原始数据和平稳化以后(第 8 章将给出具体平稳化方法)数据的散点图。 希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
ˆkk 均是随机变量,对于相应的模型不可能具有严格的“截尾性”,只能呈现出在某步之后
围绕零值上、下波动,因此,我们需要借助 ˆk 和 ˆkk 的“截尾性”来判断k 和kk 的
截尾性,进而由此可以给出模型的初步识别。首先,我们需要给出样本的自相关系数 ˆk 和
偏自相关系数 ˆkk 的定义。
阶数的初步判定方法。具体做法如下:
(1) 如果样本自相关系数ˆk 在最初的 q 阶明显的大于 2 倍标准差范围,即 2 1 T ,而
后几乎 95%的样本自相关系数 ˆk 都落在 2 倍标准差范围之内,并且由非零样本自相关
系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数 k 截尾,
ˆ k
~
N
0,
1 T
1 2
q j 1
ˆ j2
进一步地,当样本容量 T 充分大时,ˆk 也满足
(5.8)
ˆk ~ N 0, 1 T
(5.9)
类似于(5.6)或者(5.7)式,对于每一个 q 0 ,检查 ˆq1 , ˆq2 ,…, ˆqM 中落入
ˆk
1 T
或者 ˆk
2 T
中的比例是否占总数 M 的 68.3%或 95.5%左右。如果在 q0 之前,
例 5.1 绿头苍蝇数据的时间序列。具有均衡性别比例数目固定的成年绿头苍蝇保存在一 个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体计数,共得到 T=82 个观测值。 经过平稳性处理后计算其基于样本自相关和偏自相关系数,见表 5.1
表 5.1 绿头苍蝇的样本 ACF 和 PACF
样本自相关系数 样本偏自相关系数
设平稳时间序列Xt 的一个样本 x1, , xT 。则样本自协方差系数定义为
ˆk
1 T
T k j 1
xj x
xjk x , 1 k T 1
(5.1)
ˆk ˆk , 1 k T 1
其中 x
1 T
T
x j 为样本均值,则样本自协方差系数ˆk 是Xt 的自协方差系数 k 的估
j 1
计。样本自相关系数定义为
在这里我们使用估计过程去完成一部分模型识别但是这样得到的模型识别必然是丌精确的而丏在模型识别阶段对于有关问题没有精确的公式可以利用初步识别可以我们提供有关模型类型的试探性的考对于线性平稳时间序列模型来说模型的识别问题就是确定armapq过程的阶数模型识别用相关图和偏相关图识别模型形式确定参数参数估计对初步选取的模型进行参数估计诊断与检验包括参数的显著性检验和残差的随机性检验模型是否可取停止可取不可取从而判定模型的具体类别为我们下一步迚行模型的参数估计做准备
希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
生命赐给我们,我们必须奉献生命,才能获得生命。
看,除 ˆ11 显著地异于零之外,其余 9 个中绝对值不大于
1 T
1 0.11 的有 8 个, 82
8 0.89 68.3% ,故该时间序列初步判定为 AR(1)模型。 9
ˆkk
Dˆ k Dˆ
,
k 1, 2,
,T
(5.4)
其中
1 ˆ1
ˆ k 1
1 ˆ1
ˆ1
Dˆ ˆ1 1
ˆk2 , Dˆk ˆ1
1
ˆ2
ˆk1 ˆk2
1
ˆk1 ˆk2
ˆk
关于样本的自相关系数ˆk 的统计性质,我们将在下一章给予讨论。
Quenouille 证明, ˆkk 也满足 Bartlett 公式,即当样本容量 T 充分大时,
标准差范围之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值 波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序列为 ARMA 模型,
那么这样的判断往往会失效,因为这时 ARMA(p,q)模型的阶数 p 和 q 很难确定。
总之,基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法,可在建模开始 时加以粗略地估计。
由上表知,样本自相关函数{ˆk }呈拖尾状,而从 15 个偏自相关系数的绝对值来看,除ˆ11 ,
ˆ22 显著地异于零之外,其余 13 个中绝对值不大于
1 T
1 0.0605 的有 9 个, 273
9 0.692 68.3% ,故该时间序列初步判定为 AR(2)模型。 13
例 5.3 某车站 1993-1997 年个月的列车运行数量数据共 60 个,见表 5.3,试对该序列给
希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便 成了路。
生命赐给我们,我们必须奉献生命,才能获得生命。
中落入 ˆkk
1 T
或 ˆkk
2 的比例是否占总数 M 的 68.3%或 95.5%。 T
一般地,我们取 M T 。如果 p p0 之前ˆkk 都明显地不为零,而当 p p0 时,
ˆkk ~ N 0, 1 T
这样根据正态分布的性质,我们有
(5.5)
P
ˆkk
1
68.3%
T
(5.6)
P
ˆkk
2
95.5%
T
(5.7)
这样,关于偏自相关系数 kk 的截尾性的判断,转化为利用上述性质(5.6)或者(5.7),
可以判断 ˆkk 的截尾性。具体方法为对于每一个 p>0,考查p1, p1 , p2, p2 ,…, pM , pM
2. 参数估计 对初步选取的模型进行参数估计
3. 诊断与检验 包括参数的显著性检验和 残差的随机性检验
模型是否可取
吗 可取
停止
不可取
图 5.1 建立时间序列模型流程图
在 ARMA(p,q)的建模过程中,对于阶数(p,q)的确定,是建模中比较重要的步骤,也是比较 困难的。需要说明的是,模型的识别和估计过程必然会交叉,所以,我们可以先估计一个比 我们希望找到的阶数更高的模型,然后决定哪些方面可能被简化。在这里我们使用估计过程 去完成一部分模型识别,但是这样得到的模型识别必然是不精确的,而且在模型识别阶段对 于有关问题没有精确的公式可以利用,初步识别可以我们提供有关模型类型的试探性的考 虑。
k
ˆk
k
ˆ3
2
0.49
2
-0.09
3
0.30
3
-0.04
4
0.20
4
0.04
5
0.12
5
-0.03
6
0.02
6
-0.12
7
-0.01
7
0.07
8
-0.04
8
-0.05
9
-0.01
9
0.07
10 -0.03 10 -0.08
图 5.2 绿头苍蝇的样本 ACF 和 PACF
由表 5.1 和图 5.2 知,样本自相关函数{ˆk }呈拖尾状,而从 10 个偏自相关系数的绝对值来
模型(序列)
AR(p)
MA(q)
ARMA(p,q)
自相关系数(ACF) 拖尾
q 阶截尾
拖尾
偏自相关系数(PACF) p 阶截尾
拖尾
拖尾
但是,在实际中 ACF 和 PACF 是未知的,对于给定的时间序列观测值 x1, x2 , , xT ,我们
需要使用样本的自相关系数 ˆk 和偏自相关系数 ˆkk 对其进行估计。然而由于ˆk 和
相关文档
最新文档