时间序列相关算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时间序列相关算法
面向瓦斯检测数据的时间序列相似搜索算法研究
赵华(西安科技大学硕士论文)
1.3 时间序列相似搜索发展趋势
总结现有的基于时间序列相似搜索的各种变换方法可以得出时间序列相似搜索问题的发展方向及趋势。从最初时间序列相似性点对点的比较,到DFT和DWT 等方法的数据变换,再到时间序列等长分段后处理的方法,再发展到几种方法结合使用。时间序列相似搜索的算法可以是线性变换,如DFT、DWT 等,也可以是非线性变换,甚至可以分段处理,以关键特征代替原始序列。
提出了基于分段多项式表示(PPR, Piecewise Polynomial Representation)的煤矿瓦斯监测数据相似搜索方法和基于二维小波变换的煤矿瓦斯多变量时间序列相似搜索方法
提出了基于分段多项式表示(PPR, Piecewise Polynomial Representation)的煤矿瓦斯监测数据相似搜索方法。
提出了基于二维小波变换的煤矿瓦斯监测数据的多变量时间序列相似搜索算法。将瓦斯多变量时间序列存为数据矩阵形式,采用二维小波变换方法对数据矩阵降维,并用灰度图像把多变量时间序列可视化,再用欧式距离和Eros 距离进行相似性比较,并分别求出它们的查询效率。
(本篇文章是用于瓦斯涌出量的分析,不是危险源头的辨识,但是关于时间序列数据的处理可能有用,相当于缩短搜索时间的方法。)
基于云模型的时间序列相似性度量方法
时间序列的相似性度量就是衡量两条时间序列之间的相似性,是时间序列的查询、分类、预测的基础,广泛应用于时间序列的聚类、分类和分割等研究领域。一种有效的相似性度量能够提高数据挖掘的效率和准确率。
欧氏距离
欧氏距离、动态时间弯曲(伪h翻iciTm。认厄rpign,简称DTW)距离和形态距离是时间序列相似性度量的经典度量方法,这几种方法在在某些方面都有各自的优势,但是它们在应用到实际的时间序列数据挖掘上有其固有的缺陷。本文在基于这些经典的相似性度量方法的基础上结合云模型的方法理论,提出了一种基于云模型的时间序列相似性度量方法。
欧氏距离是时间序列相似性研究中最广泛采用的相似性度量。它的优点是计算简单,容易理解,运行速度快,广泛应用于时间序列的聚类和分类等研究领域。然而欧氏距离测度存在一些局限性,例如对数据在时间轴上的形变缺乏辨识能力和对噪声的鲁棒性不好,对数据中的扭曲现象非常敏感,且要求两个时间序列长度一样,因此应用范围也受到限制。
DT份距离
D伴可以有效的消除欧氏距离的缺陷,支持时间序列的时间轴伸缩,根据最小代价的时间弯曲路径进行对齐匹配,且DT甲距离不要求两个序列的长度一样,序列的值可以是一对多,或多对一,比较灵活。
形态距离
形态距离在很大程度上受到PLR模型表示的影响,若PLR模型对原时间序列的表示存在较大的误差,会引起形态距离度量上的偏差。
云模型
在众多的不确定中,随机性与模糊性是最重要的。为了统一刻画模糊性和随机性,李德毅提出了一种定性与定量之间转换的模型一云模型,并研究了随机性与模糊性以及两者之间的关系,其已成功应用于数据挖掘、决策分析、智能控制等众多领域。
正向云算法与逆向云算法是云模型理论的两个最重要的算法。通过正向云算法,可以将(Ex,En,eH)定性表示的整体特征转换为定量数值表示,实现定性到定量的不确定转换。通过逆向云算法,可以实现定量到定性的映射,即将一组精确数据转换为恰当的语言值(xE,E几He)来表示的整体概念,并以这三个数字特征表示的定性概念代表这组精确数据所反映的云滴的整体特征。
文献4[]中作者提出的基于云模型的用户相似度比较方法,在样本分布稀疏的情况下,评价样本的相似度。
4[]张光卫,李德毅,李鹏,康建初,陈桂生.基于云模型的协同过滤推荐算法.软件学报.2007,18(10):2403一2411.
本文采用Huang提出的将基于时间速度序列(TSs)转换为基于道路速度序列(LSS),以及将TSS转换成LSS的算法CTL,可以有效、准确的实现TSS向LSS的转换[`3。
[6]Zhenzhiu Hang, Zhenfeng He.A novel approach to extract sPeed Patten form VTDR data.Poreeedings of the International Conference on Intelligent Computation Technology and Automation(ICICTA 2008),20(08:209一214.
本文针对传统的几种经典的相似性度量方法存在的一些缺陷,提出一种基于云模型的时间序列的相似性度量方法,该方法克服了欧氏距离严格要求两个时间序列长度必须一样的缺点,克服了形态距离无法度量整体特征的相似性的缺点,克服了DTW距离的时间复杂度高的缺点,其包含了时间序列宏观的分布信息也包含了其微观的趋势信息,因此综合考虑了时间序列整体特征的相似性以及局部趋势变化的相似性,且实现较简单,在时间序列相似性度量上是一个折中的方法,并通过实验验证了该方法的有效性与准确性,且能有效地应用于大部分时间序列的相似性度量。下一步的工作是利用该方法进行时间序列的预测、聚类,便于进一步验证算法的有效性。(真的要搞数据挖掘吗?做成的话要附加到系统中吗?成熟的数据挖掘的研究到什么程度了呢?百度google不是做的更好?他们的技术肯定不能借鉴了,保密的了。问题是,瓦斯危险源具有什么特征呢?怎么从海量数据中查询出来呢?查询几G的数据的问题怎么处理呢?用什么搜索呢?)