时间序列数据挖掘综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DF (Q, C ) D (Q, C )
( 1)
其中: Q 是查询 序列; C 是 时间 序列 数 据库 中的 任 意序 列; D F 是采用某种高级数据表示后两 个序列之间的距离; D 是两个序
列之间的真实距离。
研究者对时间序 列数据库相 似搜索 问题的 研究取 得了大
量的成果。目前, 时间序列数据库相似搜索仍然是 TSDM 领域
关键词: 时间序列; 数据挖掘; 相似性搜索; 模式发现
中图分类号: TP311. 13
文献标志码: A
文章编号: 1001 3695( 2007) 11 0015 04
O verv iew of tim e series data m ining
JIA P eng tao1, HE Hua can1, L IU L i1, SUN T ao2 ( 1. S ch ool of C ompu ter S cience, N orthw e stern P olytechn ica l Un iversity, X i an 710072, Ch ina; 2. School of Arch itectu re & C iv il Eng in eering, X i an U niversi ty of S cien ce& T echnology, X i an 710054, Ch ina )
Ab stract: Based on ana ly zing m any literatures about tmi e se ries data m ining, th is pape r showed the deve lopm en,t academ ic op inions and proposed about tmi e ser ies da ta m in ing recently. The contents conta ined data transfo rm ation, smi ila rity m atch, pred iction, c lassification, cluster ing, segm entation and v isua lization of tmi e ser ies. T he a mi w as to com pare and classify these literatu res and put forwa rd re ference fo r scho lars who resea rch deve lopm en,t new techniques and trends o f tmi e series da ta m ining. K ey words: tmi e series; data m ining; smi ilar ity search; pattern discovery
摘 要: 在综合分析近年来时间序列数据挖掘相关文献的基础上, 讨论了时间序列数据挖掘的最新进展, 对各
种学术观点进行了比较归类, 并预测了其发展趋势。内容涵盖了时间序列数据变换、相似性搜索、预测、分类、聚
类、分割、可视化等方面, 为研究者了解最新的时间序列数据挖掘研究动态、新技术及发展趋势提供了参考。
2 1 时间序列数据变换
时间序列通常是 海量数据, 数据 中可能 存在大 量的噪 声, 直接对原始数据进行 挖掘效率很低, 甚至不可行。因此就需要 在时间序列数据挖掘 之前对原始数据进行变换, 使得数据挖掘 在更高层次的数据上 进行。所谓 时间序 列数据 变换就 是将原 始时间序列映射到某 个特征空间中, 并用它在这个特征空间中 的映像来描述原始的 时间序列。这样可以实现数据压缩, 减少 计算代价。目前已有的时 间序列 数据 表示主 要有 离散傅 里叶 变 换 ( discrete F our ie r transfo rm, DFT ) [ 9~ 12] 、奇异值分解 ( singu lar value decom position, SVD ) [ 1] 、离散小 波变换 ( d iscre te wave let transform, DW T ) [13~ 16] 、动 态 时 间扭 曲 ( dynam ic tim e wa r p ing, DTW ) [ 17~ 21]、分段 合计 近似 ( piecew ise aggrega te approx i m ation, PAA ) [ 1] 、分段线性表示 ( piecew ise linear representation, PLR ) [ 22~ 24] 、分 段多 项式 表示 ( piecew ise po lynom ia l representa tion, PPR ) [ 7] 等。
在相似 性搜索 中, R. A g rawa l和 C. Fa loutsos等人提 出的
时间序列数据库相似 性搜索 算法应 遵循的原 则值得 关注。其
中最重要的一条就是相似搜索 算法应满足非漏报性质 [9, 10] , 即 理论上算法应能将数 据库中全部 满足相 似条件 的序列 都检索
出来, 没有遗漏。要满足非 漏报原 则, 就 要求相 似查询Biblioteka Baidu算法所 采用的数据表示满足 如下条件:
第 24卷第 11期 2007年 11月
计算机 应用研究 Application R esearch of C om puters
Vo.l 24 N o. 11 N ov. 2007
时间序列数据挖掘综述*
贾澎涛1, 何华灿1, 刘 丽 1, 孙 涛 2
( 1. 西北工业大学 计算机学院, 西安 710072; 2. 西安科技大学 建筑与土木工程学院, 西安 710054)
其次, 时间序列是任意 长度的流 式序列, 而 不是一个 离散 的元素。时间序列一般都是海 量数据, 这就需要非常有效的索 引机制来提高索引效 率。目前相 似性索 引结构 主要采 用空间
索引结 构。从 大 的 方 面 分, 空间 数 据 索 引 技 术 可 分 为 树 结 构 [ 32~ 34] (包括 R 树、R* 树等 )和网格文件两类。
16
计算机应用研究
第 24卷
间序列相似性研究 的基础, 引起 了广大 T SDM 研究 者的注 意。 文中提出的时间序列 数据库相似 性搜索 算法应 遵循的 原则已 被普遍接受。近十年来, T SDM 成为 国际学术界 研究的 热点之 一, 国际著名的学术会议和 期刊如 SIGKDD、VLDB、ICDE、ACM SIGM OD 以及 IEEE T rans on K now ledg e and D ata Eng inee ring等 每年都有不少关 于 T SDM 的 研究成 果报 道。综合 来看, T SDM 研究的主要内容包括 以下七个方面。
数据挖掘是知识 发现过 程中的 一个步骤。 它主要 是利用 某些特定的知识发现算 法, 在一定 的运算 效率限制 下, 从数据 中挖掘出有价 值的 知识 [ 1]。 原则 上讲, 数 据挖 掘可 以应 用于 任何类型的信息源。 这包括关 系数据 库、数据仓库、事 务数据 库、其他高级数据库系统、平面 文件 ( flat files)和 WWW 上的数 据 [ 2] 。在这些数据 集之 中, 有一 类数 据集 的数 据之 间存 在着 时间上的关系, 这类数据被称为时间序列。在对时间序列进行 数据挖掘的过程中, 必须考虑数据集之中数据间存在的时间关 系, 这类数据挖掘称为 时间序 列数据 挖掘 ( tim e ser ies data m i n ing, T SDM )。 K eogh[ 1] 认 为时 间 序 列是 普 遍 存 在的, 图像 数 据、文本数据、影像 数据、手写体数据、脑扫 描数据等 都可看做 是时间序列。研究如何 有效地从 这些复 杂的海 量时间 序列中 挖掘潜在的有用知识 , 具有重要的理论价值和现实意义。因此 T SDM 已成为数据挖掘研究的一个重要分支。
( tn, on ) }, 满足 ti < ti + 1 ( i= 1, 2, , n - 1)。 由时间序列 组成的数据 库称为时 间序列 数据库。针 对时
间序列数据库的 挖掘就是时 间序列 数据挖 掘。时间序 列数据 挖掘是时间序列 数据库中知识挖掘的一个步骤, 它发现时间序 列数据中的时态 模式或模型 [ 3]。
2 2 时间序列数据库相似搜索
时间序列相似性 搜索是基 于内容 的查询。 由于时间 序列
自身数值上的连续性 与波动性, 造成了时间序列相似性搜索的 特有问题。
首先是如何定义 相似性。相 似性可 能不仅 仅依赖于 人的
主观意识, 还依赖于目前 分析的 任务, 甚至数 据本身。 目前时 间序列相似性 的度 量主 要是 基于 距离 的度 量, 包括 Euc lidean 距离 [ 25~ 27] 、非 Euc lidean[ 28~ 30] 、DTW [ 17~ 21, 28, 31] 等 。基于 Euc li dean距离的查找比 基于 DTW 距 离的 查找 速度 快, 但 DTW 的 查找 结果 要 优 于 Euclidean 距 离。可 以 采 用下 界 函 数 ( low er bound ing function)加速 DTW 的查找速度 [ 18] 。
收稿日期: 2006 10 18; 修返日期: 2007 01 30 基金项目: 国家自然科学基金资助项目 ( 50474041) 作者简介: 贾澎涛 ( 1977 ) , 女, 陕西蒲城人, 博士研究生, 主要 研究方向 为数据挖 掘、人工智 能原理及 应用 ( jiapengtao@ xu st. edu. cn ) ; 何华灿 ( 1938 ) , 男, 教授, 博导, 主要研究方向为人工智能基础及其应用、泛 逻辑学; 刘 丽 ( 1978 ) , 女, 博士研究 生, 主要研 究方向为 模糊控制、泛逻辑控 制、人工智能原理及应用; 孙涛 ( 1976 ) , 男, 硕士, 主要研究方向为管理信息系统、数据挖掘.
的研究热点之一 。
2 3 时间序列聚类 /分类分析
在对时间序 列进行分类和聚类时, 需要先根据用户指定的 模式长度和时间 粒度, 将原始时间序列数据分割为等长度的子 序列集合或不 重叠 的子序 列集 合 ( 这些子 序列 一般 不等长 ); 然后再对这些子 序列进行聚类和分类分析。
2 时间序列数据挖掘的主要研究内容
T SDM 始于 20世 纪 90年代 开始 的数据 库相 似搜索 的研 究。 R. Ag raw al等人 [ 9] 于 1993年发表了第一篇关于 时间序列 数据库相似 搜索 的研 究论 文; C. F a loutsos等 人 [ 10] 于 1994年 提出了一种子序 列相似性查 询的方 法。这两篇 文章奠 定了时
1 时间序列挖掘
1 1 时间序列的定义
从时间序列的角 度来看, 每个数据单元可以被抽象为一个 二元组 ( t, o )。其中: t为时间变量; o为数据变量 , 反映数据单 元的实际意义, 如某种商品的销售金额、股票的价格等。由此, 对于时间序列可以给 出如下定义:
定义 1 时间序列 R 是一个有限集 { ( t1, o1 ), ( t2, o2 ), ,
1 2 时间序列挖掘的任务 从不同的角 度出发, T SDM 的研 究者给 出了 不同的 T SDM
的综述。这些综述的侧重点各不相 同 [ 3~ 8] , 有的侧重时间序列 模 式 的 聚类 与 分 类 [ 3] , 有 的 侧重 阐 述 当 前研 究 中 存 在的 不 足 [ 4] , 有的侧重时间序列相似搜索 [6] , 有的侧重 模式发 现与时 间序列预测 [ 7~ 8] 。因此这 些研究 者对 T SDM 的任 务理解 也有 差异。由于人们对时间序列研究目的不 同, 自 然会对 TSDM 的 研究任务提出不同的观点 。综合收 集到的资料, 将 TSDM 的研 究任务归纳为 如下 六 点: 时间 序 列相 似 性搜 索; 时 间序 列聚 类; 时间序列分类; 时 间序列 相关 规则提 取与 模式 分析; 海量 时间序列可视化 ; 时间序列预测。