非线性时间序列
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 时间序列的平滑
引论
上一章我们引进非参数函数估计的基本概念,现在将它应用到时间序列别的重要平滑问题上. 对估计慢变化时间趋势,平滑技术是有用的图示工具,它产生了时域平滑(§). 对将来事件和与之相联系的现在与过去变量之间的关系的非参数统计推断导致了§的状态域平滑. § 引入的样条方法是对§引入的局部多项式方法的有用替代. 这此方法能够容易地推广到时间序列的条件方差(波动性)的估计,甚至整个条件分布的估计,参阅§.
时域平滑
6.2.1 趋势和季节分量
分析时间序列的第一步是画数据图. 这种方法使得人们可以从视觉上检查一个时间序列是否像一个平稳随机过程. 如果观察到趋势或季节分量,在分析时间序列之前通常要将它们分离开来.
假定时间序列{}t Y 能够分解成
t t t t Y f s X =++, ()
其中t f 表示慢变函数,称为“趋势分量”,t s 是周期函数,称为“季节分量”,t X 是随机分量,它被假定是零均值的平稳序列. 在使用这种分解之前,可以先用方差稳定变换或Box-Cox 变换. 这类幂变换有如下以参数λ为指标的形式
,0,()log(),0,
u g x u λλλ⎧≠=⎨=⎩ ()
或具有在0λ=点处连续的变换形式
()(1)/g u u λλ=-.
这类变换由Box 和Cox (1964)给出. 注意,由在幂变换中数据必须是非负的,因此,在使用幂变换之前,可能必须先实施平移变换.
我们的目的是估计和提取确定性分量t f 和t s . 我们希望残差分量t X 是平稳的,
且能够用线性和非线性技术做进一步的分析. 通过推广Box 和Jenkins (1970)而发展的一个替代方法是对时间序列{}t Y 重复应用差分算子,直到被差分的序列表现为平稳为止. 这时,被差分的序列可以进一步平衡时间序列技术来处理. 作为说明Box 和Jenkins 方法的一个例子,我们先取S&P500指数的对数变换,然后计算一阶差分. 图给出了这个预处理序列. 所得序列基本上是该指数中变化的每日价格的百分比. 除了几个异常值(即1987年10月19日%的市场崩盘,金融市场称之为“黑色星期一”)外,这个序列显示出平稳性. 这个变换与金融工程中常用资产定价的几何布朗运动模型的离散化有关.
图 1972年1月3日至1999年12月31日(上图)和1999年1月4日至
1999年12月31日(下图)S&P500指数对数变换的差分
我们首先把注意力集中在没有季节分量的情形,即
,0t t t t Y f X EX =+=. ()
然后,我们再在§6.3.8中估计趋势和季节分量.
6.2.2 滑动平均
平均是最常用的消除随机噪声的技术. 假定趋势是慢变化的,使得其能够在大小为h 的局部时间窗中用常数来逼近,即
,t i t t i Y f X h i h ++≈+-≤≤. ()
这时t f 能够用该窗周围的局部平均来估计:
1
(21)h t i t i h f h Y -+=-=+∑, ()
随着中心t 的改变,局部窗也在移动. 例如,在图中,50t =处20h =所得的估计是落在第一个窗内的那些数据的平均. 窗的中心移动到新的点处以构成在这些点处的估计. 随着局部窗从左向右滑动,它的轨迹就是所得的滑动平均曲线. 这是滑动平均平滑的最简单的例子. 它常常被用来验证时间序列的趋势. 图描绘的是从1999年1月4日到1999年12月1日S&P500指数一个月和两个月的滑动平均.
图 1999年1月4日至12月31日S&P500指数和它的21个交易日(粗线)
和41个交易日(虚线)的滑动平均
在边界处,滑动平均估计的习惯做法是忽略超出观察时间范围的那些数据. 例如,2f 是用数据12,,h Y Y +的平均所得的简单估计(时间点2右边的数据比左边更多).
这种不对称平均可能会产生边界偏倚. 当边界处趋势陡峭且带宽又大时,这种边界效应更为明显. 正如图所示那样,在右边界处的滑动平均低估了趋势. 该问题能够通过使用局部线性平滑. (参见§6.2.6)或别的边界改善方法,比如,边界核方法(Gasser 和M üller 1979;M üller 1993)和数据削尖方法(Choi, Hall 和Bousson 2000)来减弱.
滑动平均数列()利用了时间t 周围两边的数据. 这样它还依赖于时间t 之后的数据. 为便于预报,单变滑动平均数列
*11h t i t i f h Y
--==∑ ()
也常被用来验证时间趋势. 数列仅用直到时间1t -的过去的数据.
6.2.3 核平滑
滑动平均估计的一个改善方法是引进一个加权设计. 这允许对所给时间点附近的数据给予较大的权数. 这也就得到了核回归估计,定义为 0
0101()()T t t t T t t t Y K h f t t K h ==-∑=-∑. () 这个估计还被称为Nadaraya-Watson 估计. 参阅Nadaraya (1964)和Watson (1964). 当我们使用均匀核()0.5(||1)K u I u =≤时,上述核估计就变成滑动平均估计(). 当核
函数有有界支撑[1,1]-时,核回归估计就是一个局部(21)h +数据的加权平均. 当核()K t 是模在零点的单峰函数时,0t 附近的数据点获得更多的权. 一般地,核函数不
要求有一个有界的支撑,只要它薄尾的(如它是一个有二阶矩的密度函数). K 的非负性要求还能被减弱. 带宽h 也不必是整数.
注意,在高斯核定义中的标准化常数和核的对称Beta 族只是用来保证函数K 是一个概率密度函数. 在核回归估计中它们并不起作用. 在计算时,我们常常标准化各种核函数使得它们如图那样有相同的最大值1. 由于这种标准化,()可以直观地理解为10{()/}T t K t t h =∑-数据点的有效平均. 当核函数有在(,0)-∞中的支撑时(这样的核还可看作是单边核),核回归估计所使用的数据仅到时间01t -. 这是单边滑动平均()的推广.
如同在核密度估计中那样,在核回归估计中带宽h 是一个重要参数. 如同在图中所显示的那样,大的带宽h 产生过度平滑的估计,遗漏趋势和所估计的峰和谷的度量上的一些可能的细节. 特别地,当使用大的带宽时,估计可能产生大的偏差. 当使用小的带宽时,仅有几个局部的数据被使用,降低了估计的方差,却导致所得估计是一条波动的曲线. 例如,用带宽0h =,滑动平均估计()简单地复制原始数据. 为了得到满意的结果需要反复尝试和修正. 带宽的数据驱动选择能够帮助我们确定所要的平滑度. 正如在§6.2.9所看到的那样,渐近方差本质上依赖于所研究的过程的相关结构. 因此,针对独立数据的由数据驱动选择的带宽在时域平滑中效果不佳. 实际上,Altman (1990),Chu 和Marron (1991a )以及Hart (1991)指出,对相依数据,通常的留一在外(leave-one-out ) 交叉核实方法效果不好. 这些作者提出了几个修正的方法. 对带宽选择的嵌入方法由Ray 和Tsay (1997)以及Beran 和Feng (2000)提出.
以上考虑能够通过计算核回归估计的偏倚和方差得到理解. 经过直接计算,在模型()下,核估计得偏倚为
0000101()()()T t t t t t T t t t f f K h E f f t t K h
==-∑--=-∑. 它不依赖于误差过程. 它实际上是一个逼近误差. 当带宽取得小时,逼近误差0t t f f -小,从而偏倚也小. 另一方面,当h 取得大时,大多数逼近误差0t t f f -是大的归因于t 和0t 间的距离是大的,因此,偏倚可能是大的. 这个线性估计的方差
还能够被计算. 令()X t γ是过程()X t 的自协方差函数,则
011
Var()(||)T T X i j t i j f i j w w γ===-∑∑. () 该方差依赖于自相关函数. 进一步简化需要渐近分析. 我们将在§6.2.9中讨论. 在那里我们将看到当k →∞时方差()X k γ的渐近行为. 但我们现在可以指出,当带宽小时,核平滑的方差增大,这归因于在局部领域中数据点数太小的缘故.
6.2.4 核平滑的变种
核平滑有许多变种. ()中的分母对相对于t 求导数和数学上的分析是不方便