一种无限长时间序列的分段线性拟合

合集下载

时间序列数据挖掘中特征表示与相似性度量研究综述_李海林

时间序列数据挖掘中特征表示与相似性度量研究综述_李海林

收稿日期:2012-09-16;修回日期:2012-10-26基金项目:国家自然科学基金资助项目(71171030);新世纪优秀人才支持计划资助项目(NCET-11-0050);中央高校基本科研业务费资助项目(12SKGC-QG03);华侨大学科研基金资助项目(13SKBS104)作者简介:李海林(1982-),男,讲师,博士,主要研究方向为数据挖掘与人工智能(hailin@mail.dlut.edu.cn );郭崇慧(1973-),男,教授,博导,主要研究方向为数据挖掘和决策支持.时间序列数据挖掘中特征表示与相似性度量研究综述*李海林1,2,郭崇慧2(1.华侨大学工商管理学院,福建泉州362021;2.大连理工大学系统工程研究所,辽宁大连116024)摘要:分别分析了时间序列特征表示和相似性度量在数据挖掘中的作用和意义,对目前已有的主要方法进行了综述,分析各自存在的优缺点;同时,探讨了将来值得关注的问题,为进一步研究时间序列数据的特征表示和相似性度量提供了方向。

关键词:时间序列;数据挖掘;特征表示;相似性度量中图分类号:TP311.1文献标志码:A文章编号:1001-3695(2013)05-1285-07doi :10.3969/j.issn.1001-3695.2013.05.002Survey of feature representations and similarity measurements intime series data miningLI Hai-lin 1,2,GUO Chong-hui 2(1.College of Business Administration ,Huaqiao University ,Quanzhou Fujian 362021,China ;2.Institute of Systems Engineering ,Dalian Uni-versity of Technology ,Dalian Liaoning 116024,China )Abstract :This paper respectively analyzed the function and meaning of feature representations and similarity measurements fortime series.It also summarized the existed methods and analyzed the merits and demerits.Meanwhile ,by discussing the notewor-thy problems ,it provided the further research direction of feature representations and similarity measurements for time series.Key words :time series ;data mining ;feature representation ;similarity measurement时间序列是一类常见且与时间相关的高维数据,也是数据挖掘领域[1]中主要的研究对象,广泛存在于金融[2]、医学[3]、气象[4]以及网络安全[5]领域中。

一种新的时间序列线性拟合方法

一种新的时间序列线性拟合方法
2 Sc o l m p tra n om ai nTe h oo y Lio igNo ma ie st, l 6 8 , ia . h o Co ue ndIf r to c n lg , a nn r l of Un v ri Dai 1 0 Chn ) y n a 1 1
[ b ta t hs ae rp ssanw l er tn to o mesr sT e unn onsaepce pi r fh lp hn e fh A src]T i pp r o oe e i a t gmeh dfrt ei . h rigp it r i du t ms es ec ag s e p n fi i i e t k ne o t o ot
[ ywo d ] t eisl e r tn ; tn r rs p ; e on Ke r s i sr ;i a t g ft ge o;l e k y it me e n f i i i i o p DOI 1 .99jsn10 —4 82 1.20 3 : 03 6lis. 03 2 .0 12 .8 . 0
o l l n t h i e p i t, ut lo mo e p e ie y l c t h e i t ft e s re . s r s lss o t t o a c e trr f c e nyei mi ae t e no s o n s b s r r c s l o a e t e k y po n so h e i s Te t e u t h w he meh d c n mu h b te e l t h a e t o i i a i e i s Co a i g t i eh d wi h x se n s t ma l rft n r o sa e a hiv d rg n l me s re . mp n s t o t t ee it d o e ,hes l t g e r r c e e . t r h m h e i i r

城市轨道交通客流量时间序列分段拟合方法

城市轨道交通客流量时间序列分段拟合方法

城市轨道交通客流量时间序列分段拟合方法我折腾了好久城市轨道交通客流量时间序列分段拟合方法,总算找到点门道。

我一开始完全是瞎摸索。

我就想着先把客流量的数据收集起来,就像你要做饭先得把食材准备好一样。

我收集了很长一段时间的客流量数据,从早到晚,不同日期,不同站点的。

刚开始我直接用一个通用的拟合模型去套,结果那效果差得一塌糊涂,就像把一件超大号的衣服套在一个小婴儿身上,根本不合适。

后来我就想,这客流量肯定有高峰和低谷,不同的时间段应该用不同的拟合方法。

我就试着根据时间段来分段,比如早上高峰时段、中午平峰时段、晚上高峰时段之类的。

这时候我就感觉像是搭积木,一段一段地来。

但是这时候又出现问题了,这个时段的划分不好掌握。

划分得太细了,数据太少,模型拟合不准;划分得太粗了,又不能很好地体现出客流量的变化特点。

我就不断调整这个时段的划分方法,试了好多种组合。

我还试过用一些统计分析软件里面自带的分割方法,但是那个也不是特别符合我的需求。

我就自己手动调整,计算每个时间段的一些统计特征,像平均数、方差之类的,通过这些来更精准地判断应该在哪里进行分段。

有一次我以为我已经做得很完美了,结果发现我在数据预处理的时候犯了个错误。

我没有处理好数据中的异常值,这些异常值就像汤里的苍蝇一样,把整个拟合结果都搞坏了。

所以我之后就特别小心数据预处理,把那些明显不符合正常趋势的异常值要么修正,要么排除。

再然后呢,关于拟合方法,我发现线性拟合、多项式拟合、指数拟合等,不同的分段用不同的方法效果会更好。

比如说高峰时段可能多项式拟合能更好地捕捉变化,平峰时段线性拟合就够了。

我不确定我的这个方法是不是最好的,但我通过不断的尝试和失败,不断调整时段划分和拟合方法。

我建议大家如果要做这个城市轨道交通客流量时间序列分段拟合,一定要仔细分析自己的数据特征,多试几种时段划分和拟合方法,而且千万别忘了仔细做数据预处理,别像我当初一样因为一个小错误白费好多功夫。

matlab拟合分段函数

matlab拟合分段函数

matlab拟合分段函数在MATLAB中,拟合分段函数可以通过多种方法实现。

这里将介绍两种主要方法:分段线性拟合和分段多项式拟合。

1.分段线性拟合:分段线性拟合是将整个函数区间分成多个小区间,在每个小区间内使用线性函数进行拟合。

这种方法适用于函数在不同区间内的变化趋势不同的情况。

首先,我们需要定义函数的分段点。

假设我们的函数在x=0、x=1和x=2处有拐点,我们可以按照以下方式定义这些分段点:xdata = [0, 1, 2];接下来,我们需要给出函数在每个区间内的取值,这些值可以通过观察得到或通过其他方法计算得出。

假设我们的函数在这些分段点处的取值分别为:ydata = [1, 4, 2];现在,我们可以使用polyfit函数进行分段线性拟合:p = polyfit(xdata, ydata, 1);这里的1表示我们要拟合的线性函数的阶数。

我们还可以使用polyval函数来计算拟合得到的函数在任意点的取值:x=0:0.1:2;y = polyval(p, x);最后,我们可以使用plot函数将原始数据点和拟合得到的分段线性函数画在同一张图上,以进行比较:figureplot(x, y, 'r-', xdata, ydata, 'bo')legend('分段线性函数', '原始数据点')2.分段多项式拟合:分段多项式拟合是将整个函数区间分成多个小区间,在每个小区间内使用不同的多项式函数进行拟合。

这种方法适用于函数在不同区间内的曲线特征不同的情况。

和分段线性拟合类似,我们需要首先定义分段点和函数在这些分段点处的取值:xdata = [0, 1, 2];ydata = [1, 4, 2];然后,我们可以使用polyfit函数进行分段多项式拟合:p = polyfit(xdata, ydata, n);这里的n表示我们要拟合的多项式函数的阶数。

分段函数拟合

分段函数拟合

分段函数拟合分段函数是一种常见的数学模型,它常常在实际问题中被用于对数据进行拟合。

本文将介绍分段函数拟合的基本概念、方法和应用。

一、分段函数的概念分段函数是指由多个函数段组成的一个函数,每个函数段都在一定的定义域范围内有效。

通常情况下,定义域被分为若干个不相交的区间,每个区间内使用不同的函数段进行计算。

边界处的函数值通常需要满足相邻的函数段在边界处的连续性和可导性。

二、分段函数拟合的目的分段函数拟合的目的是通过一组离散的数据点,用分段函数的形式进行拟合,并且使得拟合结果最大程度地符合原始数据的特点。

分段函数拟合常用于回归分析、数据拟合、数据平滑等领域。

三、分段函数拟合的方法分段函数拟合有很多种方法,其中较为常见的包括:1.分段线性回归:将整个定义域分为若干个区间,在每个区间内使用一条直线进行拟合。

2.样条插值:使用分段多项式函数进行拟合,使得在每个边界处函数的导数相等。

3.分段多项式回归:在每个区间内使用低阶多项式进行拟合,通常采用最小二乘法确定拟合参数。

四、分段函数拟合的应用分段函数拟合在实际问题中有广泛应用,例如:1.财务分析:利用分段线性回归对公司的财务数据进行趋势分析和预测。

2.工程优化:使用样条插值对工程数据进行拟合,优化设计参数。

3.数据平滑:使用分段多项式回归对时间序列数据进行平滑处理,去除噪音和异常数据。

4.统计预测:使用基于分段函数的统计模型对宏观经济数据进行预测和分析。

总之,分段函数拟合是一种有力的数据分析工具,可以有效地处理具有非线性特征的数据,为科学研究和实际应用提供了重要支持。

时序预测中的分段线性回归模型介绍

时序预测中的分段线性回归模型介绍

时序预测中的分段线性回归模型介绍时序预测是数据科学领域中的一个重要问题,它涉及在给定一系列历史数据的情况下,对未来数据进行预测。

在时序预测中,分段线性回归模型是一种常用的方法,它可以有效地对不同时间段的数据进行建模,并且能够捕捉数据中的非线性关系。

本文将介绍分段线性回归模型的基本原理、应用场景以及建模方法。

1. 分段线性回归模型的基本原理分段线性回归模型是一种基于分段函数的回归模型,它假设数据在不同时间段内具有不同的线性关系。

具体来说,分段线性回归模型将整个时间序列分割成若干个时间段,每个时间段内使用一个线性函数来拟合数据。

这样的模型可以捕捉数据中的非线性关系,同时也能够在不同时间段内灵活地适应数据的变化。

2. 分段线性回归模型的应用场景分段线性回归模型适用于各种时序预测问题,特别是对于具有明显趋势变化或季节变化的数据。

例如,股票价格、气温变化、销售额等时间序列数据通常都具有明显的趋势或季节性变化,分段线性回归模型可以很好地适应这些数据特点,并且能够提供准确的预测结果。

3. 分段线性回归模型的建模方法建立分段线性回归模型通常包括以下几个步骤:(1)数据预处理:首先需要对原始数据进行预处理,包括去除缺失值、异常值,对数据进行平滑处理等。

(2)时间段划分:将整个时间序列数据划分为若干个时间段,通常可以使用聚类算法或者领域知识来确定时间段的划分方式。

(3)分段线性回归模型的拟合:对每个时间段内的数据使用线性回归模型进行拟合,得到每个时间段内的斜率和截距。

(4)模型评估和选择:对建立的分段线性回归模型进行评估,包括拟合优度、残差分析等,选择最优的模型。

(5)预测结果生成:利用建立的分段线性回归模型对未来数据进行预测,并且评估预测结果的准确性。

4. 分段线性回归模型的改进和扩展分段线性回归模型在应用中也存在一些问题,例如时间段的确定、模型参数的选择等。

为了改进模型的性能,研究者们提出了许多改进和扩展的方法,例如引入惩罚项来控制模型的复杂度、使用非线性函数来拟合数据等。

多阶段中断时间序列回归模型

多阶段中断时间序列回归模型

多阶段中断时间序列回归模型1.引言概述部分的内容可以从以下几个方面展开:1.1 概述:在现代社会中,时间序列回归模型被广泛应用于经济学、金融学、环境科学等领域,用于分析和预测随时间变化的数据。

然而,在实际应用中,传统的单一阶段的时间序列回归模型可能无法充分考虑到数据中存在的多个阶段性中断点的影响。

针对这一问题,多阶段中断时间序列回归模型应运而生。

多阶段中断时间序列回归模型是一种通过将整个时间序列划分为多个子序列,并在每个子序列中独立地建立回归模型来考虑数据中的多个中断点的影响的方法。

其基本思想是将时间序列数据视为多个阶段的数据,并对每个阶段进行分析和建模,以更准确地捕捉数据的动态变化。

多阶段中断时间序列回归模型的研究和应用在近年来得到了广泛关注。

它在解决一些实际问题时表现出了较好的效果,例如预测宏观经济指标、股票价格、气象变化等。

相比于传统的单一阶段时间序列回归模型,多阶段中断时间序列回归模型能够更准确地刻画数据中的不同阶段的特征和变化规律,从而提高了预测的准确性和稳定性。

在本篇文章中,我们将对多阶段中断时间序列回归模型的定义、原理以及其在不同领域的应用进行详细介绍和分析。

我们将从基本的概念出发,逐步深入地讨论其建模方法和应用场景。

此外,我们还将重点探讨多阶段中断时间序列回归模型相对于传统方法的优势,并对未来的研究方向进行展望。

通过本文的阅读,读者将对多阶段中断时间序列回归模型有一个系统和全面的了解,对其在实际问题中的应用具有一定的指导意义。

本文的内容安排如下。

文章结构部分的内容如下:1.2 文章结构本文主要围绕多阶段中断时间序列回归模型展开研究和讨论,共分为引言、正文和结论三个部分。

在引言部分,我们将对多阶段中断时间序列回归模型进行概述,介绍其定义和原理,并明确本文的目的。

正文部分将分为两个主要章节。

首先,在2.1节中,我们将详细阐述多阶段中断时间序列回归模型的定义和原理。

通过对该模型的深入剖析,读者将能够全面了解该模型的核心思想和基本运作机制。

一种基于重要点的时间序列分段算法

一种基于重要点的时间序列分段算法

一种基于重要点的时间序列分段算法孙志伟;董亮亮;马永军【摘要】基于重要点的时间序列线性分段算法能在较好地保留时间序列的全局特征的基础上达到较好的拟合精度.但传统的基于重要点的时间序列分段算法需要指定误差阈值等参数进行分段,这些参数与原始数据相关,用户不方便设定,而且效率和拟合效果有待于进一步提高.为了解决这一问题,提出一种基于时间序列重要点的分段算法——PLR_TSIP,该方法首先综合考虑到了整体拟合误差的大小和序列长度,接着针对优先级较高的分段进行预分段处理以期找到最优的分段;最后在分段时考虑到了分段中最大值点和最小值点的同异向关系,可以一次进行多个重要点的划分.通过多个数据集的实验分析对比,与传统的分段算法相比,减小了拟合误差,取得了更好的拟合效果;与其他重要点分段算法相比,在提高拟合效果的同时,较大地提高了分段效率.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)018【总页数】6页(P250-255)【关键词】时间序列;重要点;分段线性表示;拟合误差【作者】孙志伟;董亮亮;马永军【作者单位】天津科技大学计算机科学与信息工程学院,天津 300222;天津科技大学计算机科学与信息工程学院,天津 300222;天津科技大学计算机科学与信息工程学院,天津 300222【正文语种】中文【中图分类】TP3991 引言时间序列是指按照时间先后顺序排列的各个观测记录的有序集合,广泛存在于商业、经济、科学工程和社会科学等领域。

随着时间的推移,时间序列通常包含大量的数据。

如何对这些时间序列数据进行统计和分析,从中发现一些有价值的信息和知识,一直是用户感兴趣的问题。

近年来,时间序列数据上的数据挖掘研究受到普遍关注,包括关联规则挖掘、相似性查询、模式发现、异常检测等。

由于时间序列数据的海量和复杂的特点,直接在时间序列上进行数据挖掘,不但在储存和计算上要花费高昂代价,而且可能会影响算法的准确性和可靠性。

时序预测中的分段线性回归模型介绍(五)

时序预测中的分段线性回归模型介绍(五)

时序预测中的分段线性回归模型介绍时序预测是指根据已有的时间序列数据,预测未来一段时间内的数据趋势。

在现实生活和工作中,时序预测具有重要的实际应用价值,比如股票价格预测、销售额预测、天气预测等。

分段线性回归模型是一种常用的时序预测模型,本文将对其进行介绍和分析。

一、分段线性回归模型的基本原理分段线性回归模型是一种基于线性回归的预测模型,其基本思想是将时间序列数据划分为多个时间段,在每个时间段内假设数据呈现线性关系,然后通过拟合每个时间段的线性回归模型来预测未来的数据趋势。

具体来说,分段线性回归模型可以表示为:y = a1*x + b1, x ∈ [0, t1]; y = a2*x + b2, x ∈ (t1, t2]; ... y = an*x + bn, x ∈ (tn-1, tn]。

其中,y表示时间序列数据,x表示时间变量,ai和bi分别表示每个时间段内的线性回归系数和截距,ti表示时间段的分割点。

通过拟合这些线性回归模型,就可以得到整个时间序列的预测值。

二、分段线性回归模型的优势和适用范围分段线性回归模型相比于传统的线性回归模型具有以下优势:首先,它能更好地拟合非线性趋势的时间序列数据,因为每个时间段内假设了线性关系,可以更准确地描述数据的变化规律;其次,分段线性回归模型能够更好地应对数据的结构突变和趋势转折点,因为每个时间段的回归模型是独立的,可以灵活地适应时间序列数据的变化。

分段线性回归模型适用于各种类型的时间序列数据,特别是那些具有明显的非线性趋势和结构突变的数据。

比如,股票价格数据、季节性销售数据、气温变化数据等都可以通过分段线性回归模型进行有效的预测。

三、分段线性回归模型的应用实例为了更好地理解分段线性回归模型的应用,我们可以通过一个实际的案例来进行分析。

以股票价格预测为例,股票价格的变化通常具有明显的非线性趋势和结构突变,传统的线性回归模型往往难以准确地描述股票价格的波动规律。

而分段线性回归模型可以很好地应对这种情况,通过将股票价格数据划分为多个时间段,分别拟合每个时间段的线性回归模型,就可以较准确地预测未来股票价格的趋势。

分段曲线拟合

分段曲线拟合

分段曲线拟合分段曲线拟合是一种将一条曲线分成若干段,然后对每一段分别进行拟合的方法。

这种方法可以有效地处理非线性数据,提高拟合精度。

本文将从以下几个方面介绍分段曲线拟合的原理、方法和应用。

一、分段曲线拟合的原理分段曲线拟合的基本原理是将一条复杂的曲线分成若干段,然后对每一段分别进行线性或非线性拟合。

这样做的目的是将一个复杂的问题简化为多个简单的问题,从而提高拟合的精度和效率。

二、分段曲线拟合的方法1. 数据预处理在进行分段曲线拟合之前,首先需要对数据进行预处理。

这包括数据清洗、去噪、归一化等操作。

数据预处理的目的是消除数据中的噪声和异常值,提高拟合的准确性。

2. 确定分段点确定分段点是分段曲线拟合的关键步骤。

分段点的选择直接影响到拟合的效果。

常用的确定分段点的方法有:基于经验的方法、基于统计的方法和基于优化的方法。

(1)基于经验的方法:根据实际问题的经验,人为地确定分段点。

这种方法简单易行,但可能不适用于复杂的非线性数据。

(2)基于统计的方法:通过统计方法,如聚类分析、主成分分析等,确定分段点。

这种方法可以较好地处理非线性数据,但计算复杂度较高。

(3)基于优化的方法:通过优化算法,如遗传算法、粒子群优化算法等,寻找最优的分段点。

这种方法可以自动地确定分段点,但计算复杂度较高。

3. 分段拟合确定了分段点后,就可以对每一段分别进行拟合。

常用的拟合方法有:线性拟合、多项式拟合、样条拟合等。

这些方法可以根据实际问题的需求,选择合适的拟合方法。

4. 合并结果将每一段的拟合结果合并起来,得到最终的分段曲线拟合结果。

合并方法可以是简单的加权平均,也可以是更复杂的融合方法,如平滑融合、插值融合等。

三、分段曲线拟合的应用分段曲线拟合在许多领域都有广泛的应用,如信号处理、图像处理、机器学习等。

以下是一些具体的应用实例:1. 信号处理:在信号处理中,经常需要对非线性信号进行拟合。

分段曲线拟合可以将非线性信号分解成若干个线性信号,从而提高拟合的精度。

sentinel2时间序列分段函数

sentinel2时间序列分段函数

sentinel2时间序列分段函数标题:Sentinel-2时间序列分段函数引言概述:Sentinel-2是欧空局(ESA)推出的一颗多光谱卫星,它提供了高分辨率的遥感影像数据。

时间序列分段函数是一种用于分析Sentinel-2时间序列数据的方法,它能够帮助我们识别地表变化和监测环境变化。

本文将介绍Sentinel-2时间序列分段函数的原理和应用。

正文内容:1. 原理1.1 Sentinel-2时间序列数据Sentinel-2卫星以一定的时间间隔获取地表的多光谱影像数据。

这些数据包含了地表在不同波段上的反射率信息,可以用于分析地表的变化。

1.2 时间序列分段函数时间序列分段函数是一种用于拟合时间序列数据的函数。

它可以将时间序列数据划分为多个段,并拟合每个段的趋势。

通过分析拟合的结果,我们可以得到地表变化的趋势和变化的时间段。

1.3 分段函数的选择在选择分段函数时,需要考虑数据的特点和分析的目的。

常用的分段函数包括线性函数、二次函数和指数函数等。

选择合适的分段函数可以提高分析的准确性和可靠性。

2. 应用2.1 地表变化监测利用Sentinel-2时间序列分段函数,我们可以识别地表的变化,如植被生长、水体面积变化等。

通过监测地表的变化,我们可以了解环境的变化情况,并采取相应的措施。

2.2 灾害监测时间序列分段函数也可以应用于灾害监测,如洪水、火灾等。

通过分析时间序列数据的变化趋势,我们可以及时预警和应对灾害事件,减少灾害带来的损失。

2.3 农业监测农业是时间序列分段函数的另一个重要应用领域。

利用Sentinel-2时间序列数据,我们可以监测农作物的生长情况,预测农作物的产量,并进行精细化的农业管理。

总结:Sentinel-2时间序列分段函数是一种用于分析Sentinel-2时间序列数据的方法。

通过拟合时间序列数据的趋势,我们可以识别地表的变化和监测环境的变化。

这种方法在地表变化监测、灾害监测和农业监测等方面具有广泛的应用前景。

Ⅰ.时间序列数据11种曲线的拟合与外延预测法

Ⅰ.时间序列数据11种曲线的拟合与外延预测法

Ⅰ.时间序列数据11 种曲线的拟合与外延预测法1. 11 种常用曲线方程时间序列数据常常要研究某变量随时间变化的趋势。

曲线拟合就是根据实际数据所呈现的趋势,拟合出误差最小的曲线方程。

SPSS的Trends 过程,其中的CURVEFIT 命令可一次性拟合出11 种常用的曲线方程。

本节介绍其拟合方法。

这11 种常用的曲线方程是:下述方程以“*”表示“乘”,“**”表示“乘方”。

(1) 直线回归方程(LINEAR,LIN):Y=b0+(b1*t)。

式中b0 为截距,b1 为直线的斜率,t 为自变量,Y 为因变量的估计值。

(2) 对数曲线方程(LOGARITHMIC,LOG):Y=b0+(b1*ln(t))。

令ln(t)=t',可得直线方程形式:Y=b0+(b1*t')。

(3) 反函数曲线方程(INVERSE,INV):Y=b0+(b1/t)。

令1/t=t',可得直线方程形式:Y=b0+(b1*t')。

(4) 二次曲线(抛物线)方程(QUADRA TIC,QUA):Y=b0+(b1*t)+(b2*t**2)。

(5) 三次曲线(三次抛物线)方程(CUBIC,CUB):Y=b0+(b1*t)+(b2*t**2)+(b3*t**3)。

(6) 复合曲线方程(COMPOUND,COM):Y=b0*(b1**t)或ln(Y)=ln(b0)+(ln(b1)*t)。

令ln(Y)=Y',ln(b0)=b0',ln(b1)=b1',可得直线方程形式:Y'=b0'+(b1*t)。

(7) 幂函数曲线方程(POWER,POW):Y=b0*(t**b1)或ln(Y)=ln(b0)+(b1*ln(t))。

令ln(Y)=Y',ln(b0)=b0',ln(t)=t',可得直线方程形式:Y'=b0'+(b1*t')。

(8) S 形曲线方程(S):Y=e**(b0+(b1/t))或ln(Y)=b0+(b1/t)。

一种基于信息熵的时间序列分段线性表示方法

一种基于信息熵的时间序列分段线性表示方法
第3 0卷 第 8期 2 0 1 3年 8月
计 算 机 应 用 研 究
Ap p l i c a t i o n Re s e a r c h o f C o mp u t e r s
V0 1 . 3 O No . 8 Au g . 2 01 3

种 基 于信 息 熵 的 时 间序 列分 段 线 性 表 示 方 法 水
赵建秀 , 王洪 国 , 邵增珍 。 , 张 岳 , 丁艳辉
( 1 . 山东师范大学 信息科 学与工程学院, 济南 2 5 0 0 1 4 ; 2 . 山东省分布式计 算机软件新技术重点实验 室, 济南
2 5 0 0 1 4 )

要:针对部分时间序列具有高维、 大数据量及数据更新速度较快的特点, 导致在原始时间序列上难 以进行
Ab s t r a c t :F o r s o me t i me s e i r e s wi t h h i g h d i me n s i o n,l a r g e a mo u n t o f d a t a a n d d a t a r e n e wa l s p e e d c h a r a c t e r i s t i c s , r e s u l t i n g i n
数 据挖 掘 的 问题 , 提 出一种基 于信 息熵 的 时间序列 分段 线性表 示方 法—— P L R _ I E 。该 算法利 用信 息熵作 为评判 重要 点数 量的性 能指 标 , 从序 列 中提 取 重要分段 点的数 量分 布 情 况, 利 用重要 点 组 成 的序 列重 新 拟合 原 始 时 间 序 列, 为下一 步数 据挖掘 提供 基础 。 实验 结果 表 明 , 该 方 法能 高效地提取 出序 列主要 特征 、 拟合原 始序 列。

时间序列专题之三时间序列的分段线性表示

时间序列专题之三时间序列的分段线性表示

时间序列专题之三时间序列的分段线性表⽰在研究如何对时间序列进⾏线性分段的时候,浏览了60篇左右论⽂和教材的⽚段,对其中的6篇仔细阅读并编写程序和单元测试实现相应的算法。

同时为了直观的看到分段效果,还制作简易的曲线图呈现原始序列和分段序列。

这种超负荷的⼯作,是在⼀周之内完成的,⽬的只有⼀个:选择算法。

作为程序员,实际上并不能算是研究⼈员,多数情况下,他只需要不同的苹果中选择⼀个苹果⽽已,没有必要去种苹果树。

但凡需要“选择”的时候,⼯作步骤如下:1、确定你想要达到的⽬的,这个最为重要,你的⽬的贯穿整个⼯作,千万不要在相亲的时候,突然对对⽅的妹妹格外关注;2、区分关注的层次⽐如,简要的阅读能够排除很多不需深究的东西,上⾯说到的60篇论⽂中的54篇要么是作者本⾝显得不妥、要么是某种⽅式的抄袭、要么其提供的分段图形本⾝就不符合要求,简单的五分钟你就能够排除,⽆需浪费时间。

3、你感兴趣的算法各有优势和缺陷的时候,有⽆可能对某种主要的算法进⾏调整,或者组合应⽤其他算法的某些概念?4、实在找不到合适的算法,或者组合相应算法也⽆⼒达成的时候,能否基于你的需要⽽⾃⾏设计新的算法?当然,到这个层⾯,你也变成了那群做研究的书呆⼦之中的⼀员,不过⼀定要确定⼀点,⾄少你的⽬的明确,这和他们混稿费、混基⾦、呆在实验室空想是不同的,⾝为程序员你其实很有优势的。

下⾯对算法的描述,并没有采⽤那些很精确的命名,⽽只是从算法的特征来分类。

事实上⼤约有⼗来种主流的算法和近百种各类扩展、调整、优化的算法,每个都号称⾃⼰效果如何好、效率如何⾼、怎样⽀持在线划分等,但我们没有必要陷⼊他们的战争。

选择到最后确定⼏种分段算法,我个⼈⽤的时间是⼀周,过于沉湎细节的话,恐怕⼀个⽉都⽆法做决断。

例图中使⽤深圳A股深发展在2009年和2010年的实际收盘价⾛势,⿊线为原始数据,红线为拟合线段,红点为分段点。

⼀、对时间序列分段,是什么意思?时间序列,在⼆维平⾯上实际上是⼀条曲线,所谓分段,就是⽤⼀系列⾸尾相接的线段,近似的表达⼀条曲线。

时序预测中的分段线性回归模型介绍(八)

时序预测中的分段线性回归模型介绍(八)

时序预测中的分段线性回归模型介绍时序预测是指基于历史数据来预测未来的趋势和走势,它在金融、气象、交通等领域都有着广泛的应用。

而分段线性回归模型是一种常用的时序预测方法,它能够捕捉数据中的非线性变化,并且对异常值具有一定的鲁棒性。

本文将介绍时序预测中的分段线性回归模型,并探讨其在实际应用中的一些技巧和注意事项。

分段线性回归模型的基本原理是将时间序列数据分成若干个区间,每个区间内的数据都满足线性关系。

然后通过最小二乘法来拟合每个区间内的数据,得到对应的线性回归方程。

最终,将这些线性回归方程拼接在一起,就得到了整个时间序列的预测模型。

首先,我们来看一个简单的例子。

假设我们有一组时间序列数据,如下所示:时间(t)数据(y)12253749511我们可以将这组数据分成两个区间,分别是t=1到t=3和t=4到t=5。

然后,分别对这两个区间内的数据进行线性回归分析,得到两个线性回归方程。

最后,将这两个方程拼接在一起,就构成了整个时间序列的分段线性回归模型。

在实际应用中,我们通常会遇到更加复杂的时间序列数据,而且数据中可能还会存在一些异常值。

因此,在构建分段线性回归模型时,需要考虑一些技巧和注意事项。

首先,对于如何确定区间的划分点,常见的方法有两种。

一种是基于经验和领域知识来确定划分点,比如根据时间序列数据的业务特点来划分不同的阶段;另一种是利用统计学方法,比如利用突变点检测算法来自动确定划分点。

其次,对于每个区间内的线性回归方程的拟合,需要考虑到异常值的影响。

因为异常值可能会对线性回归方程的拟合造成较大的影响,从而影响整个时间序列的预测效果。

因此,对于异常值的处理是构建分段线性回归模型时需要考虑的一个重要问题。

此外,分段线性回归模型的参数估计也是一个关键的环节。

在实际应用中,我们通常会使用最小二乘法来估计每个区间内的线性回归方程的参数。

但是需要注意的是,由于每个区间内的数据量可能会比较少,因此需要考虑参数估计的稳定性和鲁棒性。

一种基于分段线性的FKD时间序列模式表示

一种基于分段线性的FKD时间序列模式表示

1引言时间序列是一组按时间顺序排列的数据集合.它广泛存在于商业、交通、工业等各个行业,随着时间的推移,数据不断积累,时间序列正往海量级发展.时间序列数据挖掘是指一个从大量的历史时间序列数据中抽取潜在的有价值的知识的过程,近几年来,得到很多学者的关注和参与.为了提高数据挖掘的效果和准确率,很多学者提出对时间序列数据挖掘在时间序列的模式上进行挖掘.与原始时间序列数据挖掘相比,对时间序列模式挖掘有三点好处:1)对时间序列进行了一定程度的压缩,减少了数据量,有利于数据挖掘的存储和计算;2)去除了时间序列的部分噪声,保留了时间序列的主要形态,降低了误差对数据挖掘的影响,有利于数据挖掘效率和精准度的提高;3)从对时间序列时间点的分析过渡到时间序列时间段的数据挖掘,更符合大多数领域所关心一段时间内的数据变化模式和规律.2相关研究目前,常见的时间序列模式表示方式主要有符号表示法、频域表示法、奇异值表示法以及分段线性表示法.符号表示法(SA )[1,2]是用一种离散方法,将时间序列用符号序列表示其基本思想是先将时间序列离散化,映射到由不同符号组成的符号空间,将时间序列表示为有限符号的有序集合频域表示法[3,4]将一条时间序列看作是时间域上的一个信号,通过离散傅立叶变换或离散小波变换,将时间序列从时域空间映射到频域空间,忽略对时间形态影响很小的频率,得到时间序列模式的表示方法.奇异值表示法(SVD )[5,6]指是一种基于统计概率分布的投影方法,是对整个时序数据库的整体表示.这种方法搜索c 个最能代表数据的k 维正交向量(c ≤k),使原来的数据被投影到较小空间,实现数据压缩.分段线性表示法(PLR )[7,8]从时间序列中抽取一些特征点,将这些特征点依次相连构成的线段序列就是时间序列的分段线性表示.分段线性法主要有分段聚集近似表示法(简称PAA)、分段线性表示法(简称PLA )、重要点分段法(简称IPA )、适应性分段常数近似法(简称PCA )等等.对于各种模式表示方式,相对而言,分段线性表示法更加简单直观,具有时间多解析等特点,是当前最主要的时间序列表示法.3FKD 时间序列模式3.1FKD 时间序列模式基本思想基于分段线性表示的FKD 时间序列模式的基本思想是首先通过固定窗口,将时间序列划分为若干个时间间隔等长的子序列,然后通过直线的两个描述值斜率和截距,将斜率和时间序列结合起来,根据预先定义的斜率阈值判断是否对时间序列进一种基于分段线性的FKD 时间序列模式表示裴丽鹊(福建对外经济贸易职业技术学院,福建福州350016)摘要:时间序列模式有利于提高时间序列数据挖掘的效率和准确率.本文在时间序列分段线性表示法的基础上,提出了一种FKD 时间序列模式表示.该模式具有简单直观、拟合误差小等特点.通过实验验证,FKD 时间序列模式表示是有效的,有利于时间序列的异常挖掘.关键词:时间序列模式;固定窗口;斜率中图分类号:T P311.131文献标识码:A文章编号:1673-260X (2008)04A-0055-04Vol.24No.4Jul.2008第24卷第4期2008年7月赤峰学院学报(自然科学版)Journal of Chifeng Univer sity (Natura l Sc ience Edition)..行分段.再用斜率与截距这两个特性,将分段后的时间序列表示出来.Gautam Das[9]提出基于固定窗口分割时间序列的符号化方法,本文将固定窗口分割时间的方法应用到分段线性表示中,通过固定窗口对时间序列进行周期性的划分.这种方法简单直观,对于具有明显周期性时间序列的划分意义明显.通过固定窗口分割后的时间序列子序列进行线性分段.FKD时间序列模式是通过比较斜率的变化来确定分段点,并将该点确定为时间序列所要存储的关键字.如图1所示,A、B点两边的斜率变化较大,确定A、B作为时间序列的分段点,而C点两边的斜率变化不大,则不作为时间序列的分段点.分段后的时间序列表示法有多种[14],如坐标表示法、均值+长度表示法、符号表示法、趋势表示法、斜率(倾角)表示法.其中斜率表示法更好地反映了序列的趋势变化,但同时也存在一定的缺陷,主要体现在:1)时间序列的相似性度量和索引比较困难;2)这种表示方法具有不可逆性,无法完整地描述原始序列X的主要特征;3)斜率只是反映了时间序列在一段时间内的变化趋势,却没有表示这种趋势持续的时间,容易造成查询错误.为了能更好地反映时间序列的趋势,同时又能避免斜率法所带来的缺陷,本文采用斜率+截距的方法进行表示.如图2所示,A、B两种时间序列的斜率相同,均为(1,-0.5,1),但所表示的趋势却不一样,A为上升趋势,B为下降趋势.用斜率表示法不能反映出该趋势使用斜率+截距表示法,时间序列表示为((,5),(5,5),(,5)),B时间序列的表示为((,5),(5,5),(,5)),使用该表示法能更准确的表示出线段.3.2相关定义本文时间序列、时间序列模式、时间序列的分段线性表示的定义均使用参考文献[13]中的定义.下面给出时间序列的固定窗口、时间序列的FKD 模式表示的定义.定义1时间序列的固定窗口对于时间序列X=(x1,x2,…,xn),如果将k个采样时间规定为一个固定窗口,那么固定窗口中将包含k个元素,即固定窗口FW(X)=(x1,x2,…,x n).由此可以看出时间序列的固定窗口实际上是时间序列的一定时间间隔的子序列.如果用时间序列的分段线性表示固定窗口,那么,固定窗口可以用符号表示如下:FW(X,t)=f1(t,w1)+e1(t),t∈[i,t1]f2(t,w2)+e2(t),t∈[i1,t2]……fj(t,wj)+ej(t)t∈[tj-1,i+k-1!######"######$]其中,wl表示时间区间[wl-1,w l]的两个端点坐标,f1(t,w1)表示连接模式w1两端点的线性函数,e1(t)表示某时间段内时间序列与它的模式表示之间的误差.定义2时间序列的FKD表示对于时间序列X=(x1,x2,…,xn),采用固定窗口线性分段后,时间序列X为固定窗口的集合,即X=FWx1,FWx2,…FWx k).其中K=int(N/k)+1.其中FW x 的符号表示如下:FW(X,)=<k1w1,d1w1>,t∈[i,t1]<k2w2,d2w2>,∈[i1,t2]……<j j,j j>∈[j,+!######"######$]其中,表示时间区间[,]的两个端点坐图1时间序列线性分段的分段点选取图2时间序列斜率+截距表示.A 1-0.121-0.11tkw dw t-1i k-1 wlwl-1wl标,k l w l表示连接模式w1两端点斜率,d l w l表示连接模式w1的截距.3.3算法描述算法名称:基于分段线性的FKD时间序列模式的算法输入:时间序列X=<x1,x2,…x n>,参数:固定窗口的时间间隔FWI,斜率阈值M ax S输出:基于线性分段的FKD时间序列模式表示具体步骤:Step1初始化:S[1]=getdata(),new(fixWin-dow s),Insert(s[1],Fixw indo w s)Step2w hile TrueT=getdata()Step3if T.time mo d fw i=0If s[2]<>null then{K1=getK(s[1],S[2]),K2=g etK(S[2],t)//分别计算S[1],S[2]和S[2]与T的斜率If|K1-K2|>M ax S then getd(S[1],S[2] ),insert(Fix Window s,S[2])}Insert(Sp,Fix windo ws)New(fixw indow s)S[1]=tInsert(Fix windo ws,S[1])Step4if T.time mod f wi<>0K1=g etK(s[1],S[2]),K2=getK(S[2],t)//分别计算S[1],S[2]和S[2]与t的斜率If|SL1-SL2|>M ax S then{g etd(S[1],S[2]),insert(Fixw indo ws,S [2]),S[1]=S[2],s[2]=t}4实验及结果分析4.1实验方案本次实验的数据源使用某地区大气的光化学氧化剂的时间序列数据集(简称为AirPhoto chemi-cal)以及随机游走数据集(Rando m Walk).将FKD 方法与重要点分段表示法(简称IPA)和分段聚集近似表示法(简称PAA),分别对时间序列的整体变化特征的把握情况和对原始时间序列的线性拟合误差情况进行对比实验.实验结果分析在同一压缩率下,比较对时间序列整体变化特征的把握情况本文中的实验在FKD的基本窗口选择24的情况下,分别选择压缩率近似为65%、80%、85%、90%的情况与IPA和PAA算法对时间序列整体变化特征的把握进行比较.实验结果表明随着数据压缩率的增加,FKD 方法更能突出时间序列的模式变化特征,特别是对于短期内部剧烈变化的模式能很好地保留下来,而对于那些比较平稳的序列模式则能很好地进行舍弃.PAA方法短期内部剧烈变化的模式一定程度上被舍弃,取而代之的是平缓的模式.IPA方法对序列的形态保存的也比较好,但是在高压缩率的情况下模式变化的短期特征并不能很好的反映.4.2.2在相同压缩率下,比较不同的拟合误差AirPhoto chemical、Random Walk不同数据源的实验结果如图3、4所示.上图的实验结果表明在近似相同的压缩率相同的情况下,PAA的拟合误差始终最小,对于Air-Photo chemical周期性较明显示的时间序列,KFD的拟合误差比I的拟合误小,而对于随机游走数据集而言,KFD的拟合误和I的拟合误差几乎相同图3AirPho tochemic al三算法同压缩率的拟合误差图4Random Walk 三算法同压缩率的拟合误差4.2 4.2.1PAPA .5结论时间序列模式表示是时间序列数据挖掘一个基础问题,使用时间序列模式表示原始的时间序列,能有效提高时间序列数据挖掘的效率和准确性.本文在时间序列分段线性表示法的基础上,提出先使用固定窗口对时间序列进行周期性的分段,对于分段后的时间子序列通过斜率的变化来确定分段点,并用斜率+截距的表示法对分段后的时间序列进行描述.提出FKD算法对时间序列进行分段.通过与PAA和IPA算法的实验比较,FKD算法是有效的,特别适用于具有明显的周期性和短期模式波动频繁等特点的时间序列,能够有效地实现数据压缩.———————————————————参考文献:〔1〕Agrawal R,Psaila G,Wimmers E L et al.Q uerying Shapes of Histo-ries[C].In:Proc of the21st Intl Conf On Very Large Data Bases, SanFrancisco,CA,USA,1995:502-514.〔2〕Sanghy un Park,Wesley W Chu,Jeehee Yoon et al.Efficient searchesf or similar subsequences of diff erent lengths in sequence databases[C].In:Proceedings of the16th International Con-ference on Data Engi-neering,Washing ton: IEEE Computer Society,2000:23-32.〔3〕Agrawal R,Faloutsos C,Swami A.Efficient similarity search insequence database[C].In: Proceedings of4th International Conferenceon Foundations of Data Organization and Algo-rithm,N ew York:Springer,1993:69-84.〔4〕Chan K,Fu W.Efficient time series matching by wavelets[C].In:Pro-ceedings of the15th IEEE International Conference on Data Engi-neering,Sydney:IEEE,1999:126-133.〔5〕D.Wu,R.Agrawal, A.E.Abbadi,etal.Effi-cient Retriev al for Browsing Large Image Databases[C].Proceedings of International Conference on Inf ormation and Knowledge Management.N ew York:ACM Press.1996: 11-18.〔6〕K.V.Kanth, D.Agrawal and A.Singh.Di-mensionality Reduction f or Similarity Searching in Dynamic Databases[J].Computer Vision and Image Understanding,1999,75(l):59-72.[7]E.Keogh.,S.Chu., D.Hart.,etal.SegmentingTime Series:A Survey and N ovel Approch [M].Data Mining in Time Series Database: World Scientific Publishing Company:2003〔8〕E.Keogh.,K.Chakrabarti,M.J.Pazzani,etal.Dimensionality Reduction for Fast Similarity Search in Larg e Time Series Database[J].Knowledge and Information Systems,2001,3(3): 263-286.〔9〕Das Gautam,L in David,Mannila Heikki,et al.R ule Discovery from Time Series.In:Proc.Fourth Annual Conference on Knowledge Discovery and Data Mining.〔10〕龚薇,肖辉,曾海泉.基于变化点的时间序列近似表示[J].计算机工程与应用,2006,(10).〔11〕张军.基于时间序列相似性的数据挖掘方法研究[D].2005.〔12〕李斌,谭立湘,章劲松,等.面向数据挖掘的时间序列符号化方法研究[J].电路与系统学报.2000,(6).〔13〕肖辉.时间序列的相似性查询与异常检测[D].2005.〔14〕曲吉林.时间序列挖掘中索引与查询技术的研究[D].2006.。

时序预测中的分段线性回归模型介绍(四)

时序预测中的分段线性回归模型介绍(四)

时序预测中的分段线性回归模型介绍时序数据分析是一种用来研究时间序列的变化规律和趋势的方法。

在实际生活和工作中,时序预测是非常重要的。

例如,股票价格的预测、气温的预测、销售量的预测等都需要时序预测的方法。

分段线性回归模型是一种常用的时序预测方法,它将时间序列分成若干个区间,然后在每个区间内使用线性回归模型对数据进行拟合。

本文将介绍分段线性回归模型的基本原理和应用。

1. 分段线性回归模型的基本原理分段线性回归模型是一种利用线性回归模型对时间序列进行分段拟合的方法。

假设我们有一个包含n个数据点的时间序列,我们希望找到一条直线来拟合这个时间序列。

传统的线性回归模型假设整个时间序列满足线性关系,但是在实际情况中,很多时间序列并不是完全的线性关系。

分段线性回归模型通过将时间序列分成若干个区间,然后在每个区间内使用线性回归模型来拟合数据,从而更好地捕捉时间序列的非线性特征。

2. 分段线性回归模型的应用分段线性回归模型在时序预测中有着广泛的应用。

例如,在股票价格的预测中,股票价格往往会呈现出明显的上涨和下跌的走势,这种非线性特征可以通过分段线性回归模型来更好地拟合。

又如在气温的预测中,气温随着季节的变化呈现出不同的趋势,分段线性回归模型可以更好地捕捉这种季节性变化。

总的来说,分段线性回归模型适用于任何有明显非线性特征的时间序列数据。

3. 分段线性回归模型的优缺点分段线性回归模型有着自身的优缺点。

其优点在于能够更好地捕捉时间序列的非线性特征,适用性广泛。

另外,分段线性回归模型的参数估计通常比较简单,计算速度较快。

然而,分段线性回归模型也存在一些局限性,例如需要提前确定分段点,这在实际应用中可能比较困难。

另外,分段线性回归模型在区间边界处可能存在不连续的拟合问题。

4. 分段线性回归模型的改进为了克服分段线性回归模型的局限性,研究者们提出了一些改进的方法。

例如,可以使用基于惩罚项的方法来确定分段点,这样可以避免提前确定分段点的问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

点变化幅度的控制, 可以较好地过滤变化短暂的噪音 数据; 缺点是: 由于限定了极值点的变化幅度, 对于变 化时长小于 C的转折点则无法有效识别, 如图 1 ( 选取 , 和X 之间的点) 因为保持极值的时间段 C = 0 0 4 X 1 6 3 2 , 则这些数据被认为是噪音数据 与 L的比值小于 0 0 4 而删除; 但同时, 对于短暂变化的尖峰数据, 则有可能 被认为是噪音数据而被忽略, 比较图 1 和图 2 , 点保 X 6 0 3 持极值的时间段与 L的比值 = , 在 C=0 =0 0 3 0 3 1 0 0 时为一特征点, 但在 C=0 0 4时该点被认为是噪音数 从分析中可知, 阈值 C是特征点判断的影响 据被忽略 . 因子, 其取值和领域知识、 序列长度以及用户关注角度 有关, 因此不同的 C值会得到不同的拟合结果, 直接影 响拟合的质量; 同时, 当 时间 序 列 的 长 度 L为 无 穷 大 则F 算法不再适用 . 时, C为无穷小, P S e g m e n t a t i o n
ቤተ መጻሕፍቲ ባይዱ2 1 符号说明
定义本文使用的一些符号如下: ( ) 〈 ( , ) , …( , ) , …( …〉 ( 1 T= x t x t x t 0 <i 1 1 i i ɕ, ɕ) : 采样时间间隔相同的时间序列, 其中( , ) 表 <ɕ) x t i i 示采样时间 t 时刻的数值为 x ; i i ( ) ( , ) , … ( , ) , …X 2 X=〈 X t x X x t x 1 1 1 i t i i ɕ( ɕ, ɕ) …〉 , 将 T经过归一化处理后用直角坐标系 0 <i <ɕ: 表示的点序列, 横坐标为时间轴, 纵坐标为数值轴; - X ( )X : 表示时间序列中 ( , ) 和 X ( , 3 X t x t i j i i i j j ) 在坐标平面内的欧氏距离; x j ( ) ( ) : 极值点, 4 E P E x t r e m e P o i n t T的单调性在极值 点发生改变; ) ( ) : 关键点, 满足筛选条件的极值点; ( 5 K P K e y P o i n t ( ) , …, : 关键点集 6 K P S =<K P K P 1 n> ( ) : 筛选角度 7 α0
2 相关工作
本节 对三 种 主 要 的 时 间 序 列 分 段 线 性 拟 合 算 法
[ ] [ ] [ ] 4 6 2 ( , 和K ) I P S e g m e n t a t i o n F P S e g m e n t a t i o n P S e g m e n t a t i o n 进行比较分析, 说明现有 P 算法存在的问题和不足 . L F
摘 要: 本文提出了一种无限长时间序列的分段线性拟合( , 简称 I I n f i n i t e T i m eS e r i e s i e c e w i c e L i n e a r F i t t i n g T S -P - ) 算法, 该算法根据关键点保持时间段的统计特性, 确定选择关键点的区间范围; 若极值点的保持时间段不在区间 P L F 范围, 则根据包含极值点的连续三个时间数据之间的夹角与筛选角度之间的关系, 判断该极值点成为关键点的可能 性. 实验表明, 算法的执行不依赖于时间序列长度及领域知识, 可以有效识别关键点, 并可根据数据压缩率的 I T S L F -P 变化实现自适应拟合 . 关键词: 时间序列;分段线性拟合;压缩率 T P 3 1 1 1 3 文献标识码: A 文章编号: )0 0 3 7 2 2 1 1 2( 2 0 1 0 2 0 4 4 3 0 6 中图分类号:
A nP i e c e w i s eL i n e a r F i t t i n gA l g o r i t h mf o r I n f i n i t eT i m eS e r i e s
, Y A NQ i u y a n X I AS h i x i o n g
( , , , , ) T h e S c h o o l o f C o m p u t e r S c i e n c e a n dT e c h n o l o g y C h i n aU n i v e r s i t y o f M i n i n gT e c h n o l o g y X u z h o u J i a n g s u2 2 1 1 1 6 C h i n a
: I A b s t r a c t no r d e r t or e s o l v i n gt h e p r o b l e mo f d e p e n d i n go nt h el e n g t ho f t i m es e r i e s a n dd o m a i nk n o w l e d g eo f t r a d i t i o n a l , ( ) P L Fa l g o r i t h m w e p r o p o s e da P i e c e w i s e L i n e a r F i t t i n ga l g o r i t h mf o r I n f i n i t e T i m e S e r i e s I T S L F . T od e t e r m i n e t h e i n t e r v a l o f -P , t h e s t a t i s t i c a l a t t r i b u t e s o f m a i n t a i n i n gt i m eo f t h e s eK e yP o i n t s w a s c o n s i d e r e d . I f t h em a i n t a i n i n gt i m eo f a K e y P o i n t s s e l e c t i n g , E x t r e m e P o i n t b e y o n dt h e s e l e c t i o ni n t e r v a l t h e r e l a t i o nb e t w e e nt h e t h r e s h o l da n g l e a n dt h e a n g l e o f t h r e ec o n s e c u t i v ed a t ap o i n t s c o n t a i n i n gt h e E x t r e m e P o i n t w a s s e l e c t e d t o d e t e r m i n e w h e t h e r t h e E x t r e m e P o i n t w a s a K e y P o i n t o r n o t . T h e e x p e r i m e n t a l r e s u l t s , s h o wt h a t I T S L Fa l g o r i t h md o e s n o t d e p e n do nt h e l e n g t ho f t i m e s e r i e s a n dd o m a i nk n o w l e d g e c a ne f f e c t i v e l yi d e n t i f yt h e K e y -P P o i n t a n da d a p t i v e l yf i t t h e t i m e s e r i e s a c c o r d i n gt ot h e c h a n g i n go f t h e d a t a c o m p r e s s i o nr a t i o . : t ; ; K e yw o r d s i m e s e r i e s p i e c e w i s e l i n e a r f i t t i n g c o m p r e s s i o nr a t i o
基金项目: 国家自然科学基金( ) ; 中国矿业大学青年科研基金( ) N o . 5 0 6 7 4 0 8 6 N o . 2 0 0 8 A 0 4 1
内容版权归作者所有
更多技术文章,论文请登录
4 4 4 电 子 学 报 年 2 0 1 0
点的保持时间段不在区间范围, 选择包含极值点的连 续三个数据点, 并根据三点构成的夹角与筛选角度之 间的关系判断其成为关键点的可能性, 从而解决了 P L F 算法依赖于时间序列长度 L及领域知识的问题 . 实验 算法的执行不依赖于 L及领域知识, 可 表明, I T S L F -P 以有效识别关键点, 并可根据数据压缩率的变化实现 自适应拟合 .
2 2 相关算法比较
本文 选 取 Q , u a r t e r l yS & P5 0 0i n d e x 1 9 0 0-1 9 9 6 . [ ] 7 : , ) 的 S o u r c e M a k r i d a k i s Wh e e l w r i g h t a n dH y n d m a n( 1 9 9 8 前1 条数据, 对三种算法的拟合效果进行说明: 0 0
1 引言
时间序列 的 分 段 线 性 拟 合 ( P i e c e w i s eL i n e a r F i t t i n g 简称 P ) 是时间序列的模式表示方法中研究最早和最 L F 多的方法之一 . 是指用 K条首尾相邻的线段近似表 P L F ] 1 的时间序列[ 示一条长度为 L . 在时间序列的 P 方法中, 线段的数目决定了对原 L F 始序列的近似粒度, 线段越多, 线段的平均长度就越短, 反映了时间序列的短期波动情况; 线段越少, 线段的平 ] 2 均长度就越长, 反映了时间序列的中长期趋势[ , 通常 [ ] 3 用数据的压缩率 来表征这个参数, 这里的压缩率为从 数据序列中删除的数据点所占的比例, 如8 0 %的压缩 率即为选择 2 一种好 0 %个数据点并删除剩余的 8 0 %. 的时间序列的模式表示方法必须能够准确识别噪音数 据, 并对噪音数据进行有效过滤, 从而保证较高的数据 压缩率 .
相关文档
最新文档