时序数据分析方法综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 / 20
学家根据星星和卫星相对位置的数据序列预测天文学事件对卫星运动的观察是开普勒三大定律的基础。 Graunt 在探究病人和死亡在时间上的模式关系时提出了一阶差分的萌芽思想，首次提出生命表的概念，并对人口问题进行预测与估计，并对黑死病大流行的两个年份 1603 年和 1625 年中有关数据的可信性提出怀疑，并进行处理。虽然他的具体计算方法比较简单和粗糙，但其关于时间序列的萌芽思想，为现代时间序列分析打下了基础。但受到当时科学发展的限制，这些使人们发现了重要规律的早期时序分析主要依赖于对数据的直观比较或者是简单的绘图观测。随着研究领域的逐渐拓宽和研究问题的复杂化，这种单纯的描述性分析不能满足需要、概率理论中随机变量的发展以及统计数学中一些结论和方法的提出，使研究重心从对表面现象的总结，逐渐转移到分析随机序列内在本质的相关关系上，从而开辟了统计时序分析的时代。 2.2 统计性时序分析 17 世纪当帕斯卡（Blaise Pascal, 1623~1662）和费马（Pierse de Fermat， 1601-1665）等学者以机会游戏为基础讨论稳定的概率比率时，欧洲的商人没有借鉴这些自然哲学家的数学方法而是借助不同的定量推理计算自己在市场变化中的利益得失。他们利用商人的独特方法分析市场波动情形无意中为商业实践转入统计性时序分析奠定了基础。 19 世纪的数学家正是在欣赏并应用上述金融算术的过程中逐步开始讨论对时间现象的建模问题。他们处理数据的工具主要是一阶差分指数和滑动平均等。这些基本概念都经历了从金融算术到政治算术最后进入科学算术阶段及现代化数学领域的发展过程。他们最初只是金融家进行贸易猜测、欺骗大众和掩盖真相的工具。有两条主线贯穿统计性时序分析的历史发展明线是技术工具从商业实践转入时间序列分析的过程暗线，是对这些概念从描述性直观说明到严格定量推理的发展过程。 2.3 频域分析的发展时间序列分析旨在从系统模式或行为中分离随机白噪声，通过分析数据，最终发现序列的真实过程或现象特征，如平稳性水平、季节性长度、振幅频率和相位等。其中振幅频率和相位属于时间序列的频域性质，对他们的研究常称为频域分析或谱分析。谱概念与物理学的渊源关系历史悠久。物理学中常用余弦曲线方程 A cos(wt ) 表示系统的振动时间序列，可视为振幅频率和相位互不相同的正余弦波的叠加。因此时间序列的频域发展首先源于 1807 年法国数学家傅里叶（Jean Baptiste Joseph Fourier， 1768-1830）宣称“任何级数可用正、余弦项之和逼近”的思想，随着 Fourier 理论的发展，任何时间序列也被展开成无限逼近于该序列的正余弦项之和
3 / 20
（2）相似性度量是为了测定时间序列是否与“模式序列”具有相似的行为曲线，它必须具有完备性，防漏报性。然而时间序列往往具有多种变形，因此对于相似性度量是时间序列数据挖掘的一项最基本也是最棘手的工作，也是当前时间序列数据挖掘的研究热点[3][5]。（3）时间序列分类是在传统的静态分类基础上，用时间序列替代原本的静态数据，目的是测定时间序列所属于的离散标记。时间序列分类主要包括两类算法[6][7]：1）领域无关分类算法。它通过设计准确的相似性度量方法，度量时间序列对象之间的相似性，当序列之间越相似，属于同一种类别的可能性越大。 2）领域相关分类算法。它通过特征提取、模型匹配等其他技术将时间序列数据转化为特征表示或模型参数，再对时间序列数据进行分类。已有文献说明当训练数据较少时适用于使用领域相关分类算法，而领域无关分类算法受噪声的影响较小[6][8]。（4）时间序列的聚类研究主要分为两种情况，一种是修改现有的聚类算法使之适用于时间序列数据，聚类过程直接在初始序列上进行，因而称为基于初始数据的聚类。另一种是将时间序列数据转化为静态特征或模型参数，运用传统的聚类算法对时间序列数据进行聚类[9]，因而被称为基于模型或特征的聚类方法。（5）时间序列的模式发现是指通过对不同时间段的序列进行关联关系分析，发现不同阶段频繁出现的周期变化模式或极少出现的异常模式。按照发现的模式分类，一般分为频繁模式[10]、异常模式[11]和周期模式[12]发现等，它们分别适用于不同的场景或目的。比如在医疗心电图诊断中，通过异常模式发现，可以发现病人的异常心电图序列，从而进行诊断和治疗。（6）时间序列的预测是通过分析现有的时间序列数据，估测之后的一个或几个时刻的数据，即通过结合事物的发展规律和发展趋势，对事物的未来进行预测，它在各领域都有着广泛的应用[3][6][13]。
二、时间序列分析的历史发展
时间序列分析主要经历了描述性时序分析、统计性时序分析、频域分析、时域分析、时间序列数据挖掘几个主要发展阶段。 2.1 描述性时序分析在早期的自然科学中发挥着重要的作用。最早可以追溯到 7000 年前古埃及人对尼罗河涨落情况的长期观察和记录他们发现在天狼星第一次和太阳同时升起后的两百天左右尼罗河开始泛滥，洪水大约持续七八十天，此后土地肥沃适于农业种植。巴比伦天文
X (t ) ai cos
i 1

2 t 2 t i b j sin j 。Fourier 级数实际上却存在许多问题，如不容忍白 T T j 1
噪声、包含正弦余弦项的数量、如何指定周期 T 的值、如何估计定积分幸运的是，随着科学理论的发展，德国学者舒斯特（Arhtur Schuster，1851-1934）以 Fourier 级数理论为基础创造了新的方法。 1906 年，Schuster 创建了周期图模型，用于考察 1750-1900 年间的太阳黑子序列，成功解决了太阳黑子的周期问题。随着概率和统计技术这些外围理论的发展，以及对估计和预测精度需求的提高，周期图方法进一步得到发展，但缺陷也逐渐暴露。后来，美国数学家丹尼尔 1946 年提出了平滑周期图概念，Bartlett 和美国统计学家图基分别于 1948 年、1949 年使用平滑周期图研究谱估计，开创了频域分析的近代理论。 2.4 时域分析的发展时域分析首先研究平稳过程。这个根源于 19 世纪生物学家高尔基、皮尔逊的遗传学工作，首次提出了回归与相关系数的概念。英国统计学家尤尔针对事件相关问题的困惑，最终创立了平稳线性自回归模型，开辟了时间序列时域分析的现代发展。 1927 年，Yule 在研究太阳黑子数、探讨受扰动序列的周期时，Yule 首创 AR(2)模型和 AR(4)模型。该方法的提出对原来将时间序列普遍看作是时间函数的一种修正和改进，逐步取代了 Schuster 的周期图分析法，开始了长达 30 多年的时域分析方法。 1927 年，Slutsky 对时间序列中的随机成分感兴趣，提出了针对随机成分的 MA(h) 模型。 1931 年， Walker 在研究印度达尔文港口的大气压力时，在 Yule 提出的模型基础上，拓展为 AR(s)模型。 1938 年，Wold 以离散平稳随机过程为研究对象，证明了隐周期模型为线性自回归过程的极限情形，也严格证明了离散平稳过程由隐周期和线性回归组成，奠定了 ARMA 模型拟合平稳序列的基础。 1970 年，Box 和 Jenkins 讨论了非平稳自回归移动平均 ARIMA 模型，以及整套的建模、估计、检验和控制方法，使时间序列的理论和实践得到了飞速发函。 1982 年，Engle 提出了自回归条件异方差 ARCH 模型，对非线性参数自回归模型开启了研究。 2.5 时序数据挖掘的发展 20 世纪 90 年代，时间序列数据挖掘（Time series data mining， TSDM）开始出现并受到广泛关注，得到了迅速的发展。TSDM 发展至今，其研究内容已经涉及到多门学科的交叉研究，并细化出多个研究方向[2][4]。通过查阅研究现有的文献，当前时间序列数据挖掘的研究热点主要包括：时间序列的模式表示、相似性度量、分类、聚类、模式发现、预测、可视化等。（1）时间序列的模式表示是为了减小时间序列维度高、结构复杂、噪声大等特点对数据挖掘算法的准确性和可靠性的影响而提出的，在新的层次上对时间序列进行重新表示。
三、时间序列数据预测的研究综述
时间序列数据预测主要包括确定型时间序列预测和随机型时间序列预测，以下主要针对这两种预测方法的研究进展。 3.1 确定型时间序列预测确定型时间序列预测方法已经相对成熟，其基本步骤为： 1）确定时间序列的成分； 2）选择预测方法；3）预测方法的评估。针对不同的成分，确定型时间序列预测会选择不同的方法。 1、平滑法预测当序列中既不存在趋势成分，也不存在季节成分时，使用平滑法进行预测。平滑法主要包括简单平均法、移动平均法和指数平滑法。（1）简单平均法：用已有的观察值的平均值作为下一时刻的预测值。
Ft 1 Yt Yt k 1 Yt k 2 ... Yt 1 Yt k
简单移动平均法对每个观察值都给予先相同的权数，每次计算时间隔都为 k，主要适合对较为平稳的序列进行预测。但不同步长的选择，准确性不同。加权移动平均法：是对近期和远期的观察值赋予不同的权重值。当序列波动较大时，近期赋予较大的权重，较远时期观察值权重赋予较小值；当序列波动较小时，各期观察值则相近。当权重值均为 1 时，即为简单移动平均法。但该方法的移动间隔和权数的选择一般需要通过均方误差预测精度来调整。（3）指数平滑法指数平滑法是加权移动平均法的一种特殊形式，是指观察值越远，权数随时间呈指数下降。主要有一次指数平滑、二次指数平滑、三次指数平滑等。方法主要表示为：
4 / 20
Ft 1 (Y1 Y2 ... Yt ) / t
1 t Yi t i 1
简单平均法适合对较为平稳的时间序列进行预测，但该方法将远期和近期的数值看作同等重要，但从预测角度上看近期的数值要比远期的数值有更大的作用，预测结果不准确，尤其是当序列中存在趋势或季节变动时。（2）移动平均法移动平均法是对简单平均法的一种改进方案，通过对时间序列逐期递移求取平均值作为预测值。移动平均法包括简单移动平均法和加权移动平均法。简单移动平均法是使用最近的 k 期数据平均值作为下一期的预测值：
一、时间序列数据的相关概念
1、时间序列 { X t , t T } ：指被观察到的依时间为序排列的数据序列。（A time series is a collection of observations made sequentially in time.） 2、时间序列的特点：（1）时间序列是指同一现象在不同时间上的相继观察值；（2）前后时刻的数据一般具有某种程度的相关性；（3）形式上由现象所属的时间和现象在不同时间上的观察值两部分组成；（4）排列的时间可以是年份、季度、月份或其他任何时间形式。 3、时间序列的主要成分：趋势性（Trend）、季节性（Seasonality）、周期性（Cyclity）、随机型（Random） 4、时间序列的分类：（1）平稳序列（stationary series）：基本上不存在趋势的序列，各观察值基本在某个固定的水平上波动，或虽有波动，但不存在某种规律，其波动可看成随机。（2）非平稳序列（non-stationary series）：一般包括有趋势的序列，或包括趋势、季节、周期性的复合型序列。 5、时间序列分析的内涵：依据不同应用背景，时序分析有不同目的：（1）系统描述：揭示支配时间序列的随机规律；（2）系统预测：通过此随机规律，理解所要考虑的动态系统，预报未来的事件；（3）干预和决策：通过干预来控制未来事件。 6、时间序列分析的内容：（1）通过对样本的分析研究，找出动态过程的特性；（2）找到最佳的数学模型；（3）估计模型参数；（4）利用数学模型进行统计预测 7、时间序列数据的特征：时间属性和数据属性时间属性：时间隐含内在的周期性特征，例如季节的更迭。时间还具有确定型和不确定性的特征。数据属性：按照统计尺度分为定性和定量特征；按照参照标准可分为空间和非空间特征；按变量个数分为单变量和多变量特征。
至今不管在时间序列的聚类还是分类中特征提取已经成为了一种有效的序列压缩方式但如何选取有效特征仍是一个重要的课题613基于模型的聚类的基本思想是在基于一定的假设条件用模型拟合原始序列再用模型是否能生成另外一个序列作为两个时间序列是否属于同一类的评价指标或者用模型的参数作为该序列的特征再进行聚类
时间序列数据分析方法综述