时间序列和序列模式挖掘
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012年4月30日星期一
DMKD Sides By MAO
2
时间序列有关概念
从统计意义上来讲,所谓时间序列就是将某一指标在不同 时间上的不同数值,按照时间先后顺序排列而成的数列。 时间序列挖掘通过对过去历史行为的客观记录分析,揭示 其内在规律,进而完成预测未来行为等决策性工作。 简言之,时间序列数据挖掘就是要从大量的时间序列数据 中提取人们事先不知道的、但又是潜在有用的与时间属性 相关的信息和知识,并用于短期、中期或长期预测,指导 人们的社会、经济、军事和生活等行为。 从数学意义上来讲,如果我们对某一过程中的某一变量进 行X(t)观察测量,在一系列时刻t1,t2,…,tn(t为自变量, 且t1<t2<…,<tn)得到的离散有序数集合Xt1,Xt2,…, Xtn称为离散数字时间序列。设X(t)是一个随机过程,Xti (i=1,2,…,n)称为一次样本实现,也就是一个时间序列。
2012年4月30日星期一 DMKD Sides By MAO
13
第六章 时间序列和序列模式挖掘
内容提要 时间序列及其应用 时间序列预测的常用方法 基于ARMA模型的序列匹配方法 基于离散傅立叶变换的时间序列相似性查找 基于规范变换的查找方法 序列挖掘及其基本方法 AprioriAll 算法 AprioriSome 算法 GSP算法
2012年4月30日星期一
DMKD Sides By MAO
7
时间序列预测的常用方法(续)
随机时间序列预测方法
通过建立随机模型,对随机时间序列进行分析,可以 预测未来值。 若时间序列是平稳的,可以用自回归(Auto Regressive, 简称AR)模型、移动回归模型(Moving Average,简称MA) 或自回归移动平均(Auto Regressive Moving Average, 简称ARMA)模型进行分析预测。
2012年4月30日星期一
DMKD Sides By MAO
6
时间序列预测的常用方法(续)
确定性时间序列预测方法
对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有 关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某 种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 一种更科学的评价时间序列变动的方法是将变化在多维上加以综合 考虑,把数据的变动看成是长期趋势、季节变动和随机型变动共同作 用的结果。 长期趋势:随时间变化的、按照某种规则稳步增长、下降或保 持在某一水平上的规律。 季节变动:在一定时间内(如一年)的周期性变化规律(如冬 季羽绒服销售增加)。 随机型变动:不可控的偶然因素等。 设Tt表示长期趋势,St 表示季节变动趋势项,Ct 表示循环变动趋势项, Rt表示随机干扰项,yt 是观测目标的观测记录。则常见的确定性时间序 列模型有以下几种类型: 加法模型:yt = Tt + St + Ct + Rt。 乘法模型:yt = Tt·St·Ct·Rt。 混合模型:yt = Tt·St + Rt 或yt = St + Tt·Ct·Rt。
2012年4月30日星期一
DMKD Sides By MAO
3
时间序列有关概念
时间序列的研究必须依据合适的理论和技术进行, 时间序列的多样性表明其研究必须结合序列特点来 找到合适的建模方法。
一元时间序列:如某种商品的销售量数列等,可以通过单变量随 即过程的观察获得规律性信息。 多元时间序列。如包含气温、气压、雨量等在内的天气数据,通 过多个变量描述变化规律。时间序列挖掘需要揭示各变量间相互 依存关系的动态规律性。 离散型时间序列:如果某一序列中的每一个序列值所对应的时间 参数为间断点,则该序列就是一个离散时间序列。 连续型时间序列:如果某一序列中的每个序列值所对应的时间参 数为连续函数,则该序列就是一个连续时间序列。 序列的分布规律:序列的统计特征可以表现平稳或者有规律的震 荡,这样的序列是分析的基础点。此外如果序列按某类规律(如 高斯型)的分布,那么序列的分析就有了理论根据。
x t = ∑ ϕ i x t −i + α t
i =1 n
其中 α t ~ NID (0, δ a2 )。由于此时模型中没有滑动平均部分,所 以称为n阶自回归模型,记为AR(n)。 MA模型 3 . MA模型 MA(m)模型是ARMA(n,m)模型的另一个特例。在上 0 面ARMA(n,m)模型表达中,当 ϕ i =时,有
DMKD Sides By MAO
8
第六章 时间序列和序列模式挖掘
内容提要 时间序列及其应用 时间序列预测的常用方法 基于ARMA模型的序列匹配方法 基于离散傅立叶变换的时间序列相似性查找 基于规范变换的查找方法 序列挖掘及其基本方法 AprioriAll 算法 AprioriSome 算法 GSP算法
2012年4月30日星期一 DMKD Sides By MAO
5
时间序列预测的常用方法
时间序列分析的一个重要应用是预测, 时间序列分析的一个重要应用是预测,即根据已知时 间序列中数据的变化特征和趋势,预测未来属性值。 间序列中数据的变化特征和趋势,预测未来属性值。为了 对时间序列预测方法有一个比较全面的了解, 对时间序列预测方法有一个比较全面的了解,我们首先对 时间序列预测的主要方法加以归纳。 时间序列预测的主要方法加以归纳。 确定性时间序列预测方法 随机时间序列预测方法 其他方法
t 1 t −1 2 t −2 n t −n t
t 2 a
N
1
N −1
2
N −2
n
N −n
N
n +1
n+2
T
N
,
ϕ = [ϕ 1
。
Байду номын сангаас
ϕ2
... ϕ n ]T
α = [α n +1 α n + 2 ...
α N ]T
xn xn −1 ... x1 ... x2 xn +1 xn x= ... ... xN −1 xN − 2 ... x N − n
。
2 DMh (ϕ X , ϕ Y ) =
N
其中 rY是参考序列的协方差矩阵。 Mann距离判别 4.Mann距离判别
2 DMn (ϕ Y , ϕ X ) =
δ
2 Y
(ϕ X − ϕ Y ) T rY (ϕ X − ϕ Y )
N
δ
2 X
(ϕ Y − ϕ X ) T rX (ϕ Y − ϕ X )
其中,rX 为待检序列的协方差矩阵, X为待测时序的方差。 δ2
1
时间序列及其应用
时间序列(Time Series)挖掘是数据挖掘中的一 个重要研究分支,有着广泛的应用价值 。 近年来,时间序列挖掘在宏观的经济预测、市场 营销、客流量分析、太阳黑子数、月降水量、河 流流量、股票价格变动等众多领域得到应用。事 实上,社会、科学、经济、技术等领域中广泛存 在着大量的时间序列数据有待进一步的分析和处 理。 时间序列数据挖掘通过研究信息的时间特性,深 入洞悉事物进化的机制,是获得知识的有效途径。
2 DE (ϕ X , ϕ Y ) = (ϕ X − ϕ Y ) T (ϕ, − ϕ Y ) X
2.残差偏移距离判别 , 2 Dα (ϕ X , ϕ Y ) = N (ϕ X − ϕ Y ) T rX (ϕ X − ϕ Y ) 其中 rX是待检序列的协方差矩阵,N表示待检序列的长度。 Mahalanobis距离判别 3.Mahalanobis距离判别
2012年4月30日星期一
DMKD Sides By MAO
4
第六章 时间序列和序列模式挖掘
内容提要 时间序列及其应用 时间序列预测的常用方法 基于ARMA模型的序列匹配方法 基于离散傅立叶变换的时间序列相似性查找 基于规范变换的查找方法 序列挖掘及其基本方法 AprioriAll 算法 AprioriSome 算法 GSP算法
第六章 时间序列和序列模式挖掘
内容提要 时间序列及其应用 时间序列预测的常用方法 基于ARMA模型的序列匹配方法 基于离散傅立叶变换的时间序列相似性查找 基于规范变换的查找方法 序列挖掘及其基本方法 AprioriAll 算法 AprioriSome 算法 GSP算法
2012年4月30日星期一 DMKD Sides By MAO
xt = α t − ∑ θ j α t − j
j =1 m
) 其中 α ~ NID(0, δ 。由于模型中没有自回归部分,所以称为m 阶滑动平均( Moving Average)模型,记为MA(m)。
t 2 a
2012年4月30日星期一
DMKD Sides By MAO
11
建立AR模型
建立AR模型的最常用方法是最小二乘法。具体方法如下: 对于AR(n)模型,有 x = ϕ x + ϕ x + ... + ϕ x + α ,其中 α ~ NID(0, δ ), 即可以用以下线性方程组表示: x n +1 = ϕ 1 x n + ϕ 2 x n −1 + ... + ϕ n x1 + α n +1, x n + 2 = ϕ 1 x n +1 + ϕ 2 x n + ... + ϕ n x 2 + α n + 2, , ……, , x = ϕ x +ϕ x + ... + ϕ x +α 。 或者写成如下矩阵形式: , y = xϕ + α , 其中 y = [x x ... x ]
2012年4月30日星期一 DMKD Sides By MAO
14
基于离散傅立叶变换的时间序列相似性查找
为了方便讨论,我们首先给出一些符号来表示序列及序列的 相似性: X = {xt t = 0, 1, 2, ..., n − 1} 表示一个序列; Len(X)表示序列X的长度; First(X)表示序列X的第一个元素; Last(X)表示序列X的最后一个元素; 表示X在i时刻的取值,X [i] = xi ; X [i ] 序列上元素之间的“<”关系,在序列X上,如果i<j ,那 么X[i]<X[j]; 本文用 X 表示X的子序列,如果序列X有k个子序列,则把 这些子序列分别表示为 X , X , ... , X 。 子序列间的<关系, Si , X Sj 为X的子序列,如果First(X Si ) < First(X Sj ) X ,则称 X < X 。 子序列重叠(Overlap),假定X S1,XS2为X的两个子序 列,如果 First(X S1 ) ≤ First(X S2 ) ≤ Last(XS1 ) 或First(X ) ≤ First(X ) ≤ Last(X ) 成立,则XS1与XS2重叠。
其他方法
可用于时间序列预测的方法很多,其中比较成功的是 神经网络。由于大量的时间序列是非平稳的,因此特征 参数和数据分布随着时间的推移而变化。假如通过对某 段历史数据的训练,通过数学统计模型估计神经网络的 各层权重参数初值,就可能建立神经网络预测模型,用 于时间序列的预测。
2012年4月30日星期一
xt = ∑ ϕ i x t −i − ∑ θ jα t − j + α t
i =1 j =1 n m
其中
α t ~ NID (0, δ a2 ) 。
10
2012年4月30日星期一
DMKD Sides By MAO
基于ARMA模型的序列匹配方法(续)
2.AR模型 AR模型 AR(n)模型是ARMA(n,m)模型的一个特例。在上面 ARMA(n,m)模型表达中,当 θ j = 0时,有
) ϕ 根据多元线性回归理论,参数矩阵 ϕ 的最小二乘估计为: = ( x T x) −1 x T y。
2012年4月30日星期一 DMKD Sides By MAO
12
构造判别函数
根据上面的模型,我们可以获得待测序列X = {xt t = 0, 1, 2, ..., n − 1} 的参数模 型 ϕ X,同样我们也可以得到序列数据库中的其他序列Yi的参数模型 ϕ Y i 。 ϕ X 和 ϕ Y 都是n维向量,故均可视为n维空间上的点,从而序列的相似性 问题就归结为n维空间Rn中的距离问题。因此,我们下面简单介绍几种基 于距离的判别函数。 , 1.Euclide
2012年4月30日星期一 DMKD Sides By MAO
9
基于ARMA模型的序列匹配方法
ARMA模型(特别是其中的AR模型)是时序方法中最基本 的、实际应用最广的时序模型。早在1927年,G. U. Yule 就提出了AR模型,此后,AR模型逐步发展为ARMA模型、 多维ARMA模型。ARMA通常被广泛用于预测。由于 ARMA模型是一个信息的凝聚器,可将系统的特性与系统 状态的所有信息凝聚在其中,因而它也可以用于时间序列 的匹配。 ARMA模型 1.ARMA模型 对于平稳、正态、零均值的时序 X = {xt t = 0,2,,n − 1} ,若X 1,... 在t时刻的取值不仅与其前n步的各个值 xt −1 , xt −2 , ..., xt −n 有关, α t −1 , α t −2 , ...,α t −m 而且还与前m步的各个干扰 有关(n,m=1, 2,…),则按多元线性回归的思想,可得到最一般的 ARMA(n,m)模型: