第三章:建模步骤与模型的识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
观察结果:存在均值递增趋势,非平稳的 考虑用一阶差分变换
例3.11
对原始数据一阶差分后的序列用时序图进行分析
#例3-11 #读入数据 b<-read.table("D:/2020学期时间序列/ 习题,案例数据集,R代码 /习题数据、案例数据、R代码 /data/file10.csv",sep=",",header = T) dif_x<-ts(diff(b$change_temp), start = 1880) #画时序图 Plot(dif_x) 观察结果:差分后的序列是平稳的
例3-10
第一步:通过观察时序图,序列应该是平稳的
例3-10
第二步:通过纯随机性检验结果,序列是非白噪 声序列
例3-10
第三步:通过观察自相关图和偏自相关图来识别模型
例3-10
第三步:通过观察自相关图和偏自相关图来识别模型
例3-10
自相关图
显示除了延迟1阶的自相关系数在2倍标准差范围之外, 其它阶数的自相关系数都在2倍标准差范围内波动。根 据这个特点可以判断该序列具有短期相关性,进一步确 定序列平稳。同时,可以认为该序列自相关系数1阶截 尾
本例中,根据自相关系数拖尾,偏自相关系数2阶 截尾属性,我们可以初步确定拟合模型为AR(2)模型。
例3-10
美国科罗拉多州某一加油站连续57天的 OVERSHORT序列
步骤: 1. 是平稳序列吗? 2. 是白噪声序列吗? 3. 如果是平稳的而且是非白噪声序列,进 行模型识别,拟合什么模型合适呢?
例3-10
建立模型一般要经过以下几步: 1. 计算序列的样本自相关系数(SACF)和样本偏自相关系数
(SPACF)
2. 识别模型:根据SACF和SPACF的性质,提出一个适当 类型的ARMA(p,q)模型进行拟合。 识别出的模型可以不唯一
3. 估计识别出的模型的参数
3.3.1 平稳时间序列建模步骤
4.模型的有效性检验 检验随机误差项是否是白噪声项,如果所有模型都通不过 有效性检验,需要返回到第2步重新识别确定新的模型
偏自相关系数图
显示出正弦逐渐衰减的典型非截尾的现象。
识别的模型
综合该序列自相关系数和偏自相关系数的性质,为拟合 模型定阶为MA(1)
例3.11
1880-1985全球气表平均温度改变值序列
步骤 1.是平稳序列吗? 2.是白噪声序列(纯随机序列吗) 2.如果平稳非白噪声序列,进行模型 识别,拟合什么模型合适呢?
例子3-9
选择合适的模型拟合1950年-2008年我国 邮路及农村投递线路每年新增里程数序列。
步骤 1. 是平稳序列吗?(时序图或者自相关图) 2. 是白噪声序列(纯随机序列吗)(纯随机 性检验) 3. 如果平稳且是非白噪声序列,进行模型识 别,拟合什么模型合适呢?(自相关,偏自 相关图)
例子3-9
括小样本在内的一般情形,原假设下检验统计量
的分布
∑ ρˆk
~
N (0, 1 (1+ 2 k−1
n
l =1
ρˆl2 ))
给定0.05的检验水平,近似的接受域为
∑ ∑ = Pr −2 1n (1+ 2 kl
−11= ρˆl2 ) ≤ ρˆk ≤ 2 1n (1+ 2 kl
−1 1
ρˆl2
)

0.95
2.本章目的是分析平稳非白噪声序列,对于非平稳的非 白噪声序列,可以通过合适的变换把序列变成平稳的。
在对实际的序列进行模型识别之前,应首先检验序列 是否平稳。若经过检验,序列是非平稳的,应先通过适当 变换将其化为平稳序列,再将原序列进行零均值化,然后 再进行模型识别。
模型识别前的说明
(一)关于非平稳序列
模型定阶的困难二:怎么判断拖尾现象
拖尾性判别准则
1、 如果样本相关系数在延迟很长时间后,样本自相关 系数仍然存在大于二倍标准误的现象,可以被认为是拖尾的。
2、 如果样本相关系数呈现出正弦或者余弦这类周期逐 渐衰减的形式,可以被认为是拖尾的。
模型定阶经验方法(一般情形)
前面的定阶方法主要适用于大样本情形,对于包
截尾性判别准则
Pr

2 n

ρˆk

2 n

0.95
Pr

2 n
≤ φˆkk

2 n

0.95
如果样本(偏)自相关系数在最初的d阶明显大于两倍标准 差范围,而后几乎95%的自相关系数都落在2倍标准差的范 围以内,而且通常由非零自相关系数衰减为小值波动的过程 非常突然。这时,通常视为(偏)自相关系数截尾。截尾阶数 为d。
ρˆk -ρk
3. 推导出原假设下统计量 ρˆk ,φˆkk 分布 4. 给定检验水平,构造拒绝域。
接下来看原假设下统计量的分布
原假设下:样本相关系数的近似分布
Barlett
ρˆ k
~
N (0, 1 ) n
,n → ∞
Quenouille
φˆkk
~
N (0, 1 ) n
,n → ∞
注意:适用于大样本情形
模型识别前的说明
(二)关于非零均值的平稳序列
非零均值的平稳序列有两种处理方法: 设xt为一非零均值的平稳序列,且有E(xt)=μ
1、 用样本均值 x 作为序列均值μ的估计,建模前先
对序列作如下处理:
wt = xt − x
然后对零均值平稳序列wt建模。 2、 在模型识别阶段对序列均值是否为零不予考虑,
论截尾的完美情况,本应截尾的ρˆk 或 φˆkk 仍会呈现出小值
振荡的情况,也会导致出现误判为拖尾现象。
解决方法:点估计容易误判,借用假设检验的方法来判定。
模型定阶的困难一:检验方法
目的:构造原假设 ρk=0 ,ϕkk =0 的假设检验过程 步骤:1. 得到点估计 ρˆk φˆkk
2. 基于点估计构造检验统计量, 构造形式:
3.3《建模步骤与模型的识别》 教师: 肖 健
本章结构
1. 方法性工具 2. ARMA模型 3. 平稳序列建模 4. 序列预测
3.3 平稳序列建模
本节结构 建模步骤 模型识别 参数估计 模型检验 模型优化 序列预测
3.3.1 平稳时间序列建模步骤
首先将观察值序列进行平稳性检验和纯随机性检验的预 处理分类,对分出来的平稳非白噪声序列进行建模。
序列的非平稳包括均值非平稳和方差非平稳。 1、方差非平稳序列平稳化的方法:对数变换、 平方根 变换等。 在对经济时间序列分析之前往往要先对 数据取对数,目的是消除数据中可能存在 的异方差。然后再分析其相关图。 2、均值非平稳序列平稳化的方法:差分变换。 均值非平稳的序列,可以通过相关图粗 略的判断。对于经济时间序列,差分次数 通常只取0、1或2。
#例3-10 #从外部读入数据集 overshort<read.table("E:/R/data/file9.csv",sep=",",header = T) overshort<-ts(overshort[,2]) plot(overshort) #纯随机性检验 for(i in 1:2) print(Box.test(overshort,type = "LjungBox",lag=6*i)) #画自相关图和偏自相关图 acf(overshort) pacf(overshort)
第三步:根据样本相关图来识别模型
自相关系数 考察自相关系数衰减向零的过程,可以看到有明显
的正弦波动轨迹,这说明自相关系数衰减到零不是一个 突然的过程,而是一个有连续轨迹的过程,这是相关系 数拖尾的典型特征 偏自相关系数
考察偏自相关系数衰减向零的过程,除了1-2阶偏 自相关系数在2倍标准差范围之外,其他阶数的自相关 系数都在2倍标准差范围内做小值无序波动,这是一个 典型的相关系数2阶截尾特征 识别的模型
而在参数估计阶段,将序列均值作为一个参数加以估计。
模型识别前的说明
以一般的ARMA(p,q)为例说明如下:
设平稳序列xt的均值为µ , 其适应性模型为
ARMA( p, q),即:
(xt − µ) − φ1(xt−1 − µ) − − φp (xt− p − µ) = εt −θ1εt−1 −θ2εt−2 − −θqεt−q
在实际估计模型时,可将θ0看作一个常数估计, 若θ0显著不为0,则μ≠0,此时θ0 、 μ 有如上关系。 若θ0显著为0,则可认为μ=0,在最终模型中将此常数 项去掉即可。
二、模型识别的方法
模型识别方法
也称模型定阶,也就是要根据SACF(样本自 相关图)和SPACF(样本偏自相关图)表现出来 的性质,选择适当的ARMA模型拟合观察值序列。
#例3-9 #读入数据 a<-read.table("E:/R/data/file8.csv",sep=",",header = T) x<-ts(a$kilometer,start = 1950) plot(x) #纯随机性检验 for(i in 1:2) print(Box.test(x,type = "Ljung Box",lag=6*i)) #画自相关图和偏自相关图 acf(x) pacf(x)
自相关图的判定边界
识别模型的困难
识别问题
在实际中,相关图、偏相关图的特征不会像 理论上ACF、PACF那样“规范”,所以应该善于 从SACF、SPACF中识别出模型的真实的阶数p和q。 不能完全确定模型的类型和阶数。
解决方法
模型类型和模型阶数可以都不唯一,所以在模 型识别阶段应多选择几种模型形式,以供进一步选 择。
例3.11
对原始数据用时序图进行分析
#例3-11 #读入数据 b<-read.table("D:/2020学期时间序列/ 习题,案例数据集,R代码 /习题数据、案例数据、R代码 /data/file10.csv",sep=",",header = T) x<-ts(b$change_temp, start = 1880) #画时序图 Plot(x)
样本自相关系数
样本偏自相关系数
n−k
∑ (xt − x)(xt+k − x)
ρˆk = t=1 n
∑ (xt − x)2
t =1
ϕˆkk = f (ρ )
3.3.3 平稳时间序列模型的识别
一、模型识别前的说明 二、模型识别方法
一、模型识别前的说明
说明
1. 本章所介绍的是对零均值平稳序列建立中心化的 ARMA模型,因此,在对实际的序列进行模型识别之前, 应首先将原序列进行零均值化。
5.优选和简化模型 简化模型:去掉系数显著性为0的项; 选择模型:根据准则从多个模型中选择一个模型作为最优 模型
6.模型的应用:预测。 基于最优模型对序列做预测 具体如下:
3.3.1 平稳时间序列建模步骤






模型
参数


识别
估计
噪 自(偏)









N
模型 Y 型

检验




3.3.2 计算样本相关系数
模型识别准则
模型识别的基本原则
ρˆk
φˆkk
选择模型
拖尾
P阶截尾
AR(P)
q阶截尾
拖尾
MA(q)
拖尾
拖尾
ARMA(p,q)
注意:对于样本自相关系数和样本偏自相关系数都是拖尾的情形, 只能确定模型属于ARMA类型,但不能确定具体的阶数。对于这种情形, 可以给出多个候选模型,原则上是从简单的模型(p=1,q=1)到较复杂 逐渐给出。
第一步: 从时序图 看是否平 稳非白噪 声,显然 是平稳的
序列时序图
白噪声检验
时序图显示序列没有显著非平稳特征。白 噪声检验显示序列值彼此之间蕴含着相关关 系,为非白噪声序列。
第二步:检验是否为非白噪声序列
序列自相关图
第 三 步: 确 定 模 型 的 阶 数
序列偏自相关图
第 三 步: 确 定 模 型 的 阶 数
将上式展开得:
xt −φ1xt−1 − −φp xt−p = θ0 + εt −θ1εt−1 −θ2εt−2 − −θqεt−q
此时,所要估计的未知参数有p+q+1个。
模型识别前的说明
式中:
θ 0 = (1 − ϕ1 − ϕ 2 − − ϕ p )µ
即有 :µ =
θ0
1−ϕ1 −ϕ2 −−ϕ p
模型定阶的困难
确定模型的两个任务
1、要通过不同延迟长度的样本自相关系数ρˆk 和样本偏自
相关系数 φˆkk 来判断对应的自相关系数和偏自相关系数是
否为0。 2、整合不同延迟长度判定的结果,整体来判断序列的自 相关系数和偏自相关系数是截尾的还是拖尾的。
存在困难
1、 因为由于样本的随机性,导致样本相关系数估计值不 等于真值,导致出现误判。 2、本来是截尾的,因为估计不准导致通常不会呈现出理
模型定阶的困难一:检验方法
给定0.05检验水平,近似的接受域为
Pr

2 n

ρˆk

2 n

0.95
Pr

2 n
≤ φˆkk

2 n

0.95
说明
1、接受域边界:正负二倍标准误 2、判别方法:样本相关系数 落入拒绝域,就判定相关系 数不是0,否就
相关文档
最新文档