时间序列的模糊匹配方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性 用 模糊集来描述 , 对 于 点对 之 间 的距 离 , 相似度 的模 糊 集
取 降岭形 分布 图
币、
《 ,
产
六 平 万 一 万
‘一
白 ’, 自‘
《 ,
犷, 滋厂 一
图 子序列包络线
·
戈… 一’一’ … 、
图 降岭模糊集分布
经过规 范化的处理后 , 一对 序列数据点对之间的距 离位 于 区 间 〔。, 幻内 , 用 户可 以通 过 工和 来指定模糊集的分 布
决 定的 , 如果 两个 子 序列 点对之 间的距离小于 包络线宽度 , 则
这一 点对是相似 的 , 否 则是不相似 的 。 为了 避 免相似性 判定在
包络线边界 的突 变 , 我们使用模糊集来描述 点对之 间的相似
性 通 。 过 定义 的模糊集 , 将 点对 之间 的距离变换 为 点对 之 间的
相似 度 , 而 整 个 序列 的相似 性 由所 有 点对之 间 的平 均 相似度
在
等所提 出的方法 中 , 时 间序列 的对齐是
将匹配 的子 序列按 顺 序连接 来实现 , 但是需 要 用 户指 定例 外
数据的宽度 。
如
是在语音处理 中用 于
进行时间轴对齐 的方法 , 该方法在两个序列之 间找到 一条对
齐路径 使得 两 个序列 之 间 的欧几里 得 距 离最 小 。
和
将该方法 引入 数据挖掘研 究中 ’ 本文使用
路径也不 被接受 比如研究两支股票价格在 年 内变化 的相似
性 , 某 个 月价格 的变化 规律 同相临近 的 个 月 内数据 的对 齐是
有意 义 的 , 认为它们是同一 变化规律的相对迟 滞或超 前 , 当时
间间 隔超过 个 月 以上 的 , 这样 的对齐失去了实际 意义
通过指定对 齐范 围 限制对齐点对 的选择 对 齐范 围的
,
, 。尸 ‘ ,
十
、 ,, 。
忿一
一 下 ,
刀。
‘
经过变化之后 的序列 亏消除了
一 “,
方 向的幅值和平移对相似性
判定的影 响
时 间轴 向 对 齐
我们使用 改进 的
方法使序列在时间轴上对齐 , 我
们先简要 介绍
方法 。
方法简述
对于 两个时间序列 和 , 长 度分别是 和
,
… ,
, , , 二
。
,
构 建 ,
里得距离方法 。
定义 这种被施加了对齐范围限制的
方法称为
方法 。
约 束条件
方法 同
相 比 , 除 了边 界 条 件 连 、
续性条件 、 单调性 条件外 , 还有一个对 齐范 围条件 。
对齐范围条件 对齐范围为 的
路径 中的 节
点、
,
,
一
路 径发现 算法
的路 径发现 算法与
方法相
同。
,少
‘,
《 一 , 少一
个序列 的相似度 。 通 过 相似度 , 可 以 比较不 同序 列 数据之 间 的
相似性 。两个序列数据的相似度
为
其中
二 告习 二 止、 二
为路径 的长 度 当 ,
的包络线方法
时 , 该算法退化 为宽度为
试验结果
为 了 对 该方法进 行检 验 , 我 们 选取 பைடு நூலகம் 。年 月 到
年
月队
和
的数据
。
。 降岭模糊 集 的参
维 、 多层 的数据立方体 , 在将数据装入 数据 仓库 时 , 去 噪 声是
一 个必要 的步骤 , 在此 不再 多加描述
规范化是将时 间序列数据的幅值进行变化并进行 向的
平 移 将数据的幅值变化范 围限制在 〔一 , 〕之 间 , 消除数据
在幅值、 平 移对相似性判定的影响 。 序列 的变化的方法 为
定 , 有基 于 欧几 里得 距 离的判定方法 和包络线方法 。 欧几里得
距离方法对序列 中的噪声很敏感 , 而且 欧几里得距离随着序
列 长 度的增 加而 变大
等所提 出 的方法 ,
是将匹配的子序列按顺序连接来判定两个序列的相似性 , 如
果 一 个 子 序 列 落入 另 一 个 子序 列 的 包络 线 区 间 内 如 图 那 ,
方
法来实现序列 之间的对齐 , 然 后 沿着对齐路 径计算两个 序列
的相似度。 虽 然
方法的有效性 已经得到证明 , 但是
方法需要 占用 大盆的 存储 空 间 , 耗 费大量 的计 算 时 间 ,
所 以本文对
方法进行了改进 。
本文着重解决两个 问题 , 一是提 出 了一种更加稳 定的判
定时间序列 相似性 的方 法 第二 , 对
于对 同一激励 的响应时 间不 同 , 造成两列数据的变化 在时 间
轴上的不一致 。
方法就是要 消除这种不 一致对 相似 性
判定的影响 。但是这种相对的时间上的差异应 当被限定在合
理的范围之 内 , 这样的
路径才是有意义 的 , 超 出合理范
围 的对 齐路 径 , 不 被认 为是对 同一激励 的相应 , 因 而这 种对 齐
一,一
且 夕 ‘ ,
一
,
,一
。
在所有 的路 径 中 , 发 现 欧几里得距离最小路径 的方法 如
下
,
,少
了一 ,一
,
一 了 ,
,
厂 ,
其中
,,
一 ,
,,
欧几 里得距 离方 法可 以被看作是
方法 的一 个特
例 这 时 ,
、一
,
、,
一 , 并且时间序列 , 是等长 的序
列。
例 两个长度为 的序列
,
,
,
,
方法的计算复杂性为
,
, 。 参见 图
模糊相似度
欧几里得距离是与时 间序列 的长 度相关 的 , 时 间序列越
长 , 欧几里得距离就越大 , 用 户不能直观地判断序列的相似
性 比如 , 有两组序列数据 , 第一组是长 度 都为
的序列
,
,
, 第二组是长 度为
。的序 列
,
,
, 我们 只
能判断 比 与 更相似 , 但不能比较 与 的相似性
是否 比 和 的相似性更好 。 因此我们抛弃了欧几里得距
离而引入了相似性度 , 它是基于模糊概念的度量 。
两个时间序列当经过 了幅值转换和平移的规范化处理之
后 , 两 个 序列 数据 点对 之 间 的距离表 明 了 他们 之 间 的相似 程
度 , 该距 离越接近 于 。说 明它们越相似 。 在
等
所提 出的方法 中 , 是通过指定包络区 间 , 当一个子序列落在
相似度
蓄…一要 一 今 一
序列数据长度
】
「
一
加
以幻
图 相似度随时 间序列长度 的变化规律
结论 本文通过对时 间序列数据进行规范化 处理 消除了
轴方 向幅值和 平移对相似性判定 的影 响 , 同时为了使序列
数据在时 间轴上进行对齐 , 使用
方 法 来发 现 对 齐路
径 , 并采用模糊相似度的概念来判定序列 的相似性 , 避免了欧
数 , 分别为 和
是在
的 机上
环
境下实现 的算法 比较
计算时间
‘
〔…毫…习 或噩汇买李 序列数据长度
今 门卜
钾件方方法法
尸了
尸厂
州‘ 容二刁卜叫 一
匆
口翻
,加
侧】
‘目 ,
的
图 计算时间随时间序列长度的变化规律
欧 氏距离
〔二 一一
— 一 一
二二二二二二二习
— 一
—厂— 一
一了
一月
咤
石口
肋
的
——— 一 — — 卜
飞 数据的规范化处理
由于 噪声 的存在会严重影 响数据规范化 处理 的 正 确性 ,
因 此 在进 行数据 的规 范化处理 之 前 要对 数据进 行 去 噪 声 处
理 对 于 不 同特性 的数据 、不 同的 应用 类 型 , 有效 的噪声 的处
理方法也是不 同的 。本文 中的数据挖 掘是 基于数据 仓库的 多
, 计算时 间随时 间序列 长度是 线性变化
的 , 图 验证 了这 一点 。 图 和 图 分别是两个序列数据之间的 欧几里得距离和相似度随序列长度的变化 。从 图 和 图 可 以 看 出 , 欧几里得距离随着时间序列 的长度而变化 , 对不 同长 度 的序列数据的相似性判定带来困 难 而相 似度 的值却 随 着序 列数据 的长度保持稳定 , 这说 明了 用 相似度标准 的优越之处 。
一
一
一 一门卜一 一‘ 一 」
了
置际匕 矛于一冲井一 」
序列数据长度
图 欧几里得距离随时 间序列长度的变化规律
图 是计 算时 间 随 序 列 长 度 的变化规 律 , 由于
方法
的时间复杂性 是
, 因 此计算时 间随序列数据 的长度是
非线性增长 的 , 而
方法在指定对 齐宽度时为常数 时 ,
时间复杂性 为
… … ,
,, ,
‘。
的矩阵 , 矩阵
中的元 素 。的值是 ‘ 和 打 之 间 的距 离 该 矩 阵 中的 一 条路
径是一 系列连续的矩阵的元紊 , 该路径定义了 和 元紊之
间 的映 射关 系 假设 一 条 长 度 为 的路 径 则 ,
哟 、,
,
冯红伟 博士研 究生 , 主 要 从 事操作 系统 、 数据库 和数据挖掘技术研 究 李战怀 教授 , 博士 生 导师 主 要从事数据库理 论 与技 术研 究 张保稼 从事人工 智能 , 知识发 现 研 究
,
一 少 ,
,
,一
其中
刁
一 宁‘
,,
方法 的距离矩 阵是一 个稀疏矩阵 将此稀疏矩阵
的元 素进行压 缩存储 , 可 以节 省大量 的空 间 。 以长 度为 , 。
的两个时 间序列 为例 , 选取对齐宽度为 , 将数据转换后存
放在大小为
。。 的矩 阵 中 。 所 需 的 存 储空 间 为原 来 的
八 。。 设 对 齐 范 围 为 常数 ,
伽 … ,
,
,
素。
助 , 对 应 矩 阵 的 一 个 元
路径 遵循以下的条件
边界条件 , ,
,
助 ,
,
。
连续性条件 给定 助
,
做 , 那 么
且 一 一
夕 护 ,
一
,一
。 这 一 条 件 限制 路 径 中的单元 在路 径 矩 阵
中是相 邻 的单元 包 括 对 角单 元
单调性 条件 给定 助
,
助 , 那 么
计算机科学
冲·
时 间序列 的模糊 匹 配方法
冯红伟 李战怀 张保稳 西 北 工 业 大 学计 算机科 学与工 程 系 西 安
·
,
对,
石
·
‘
·
钾
,
,
,
名
一个时间序列可以定义 为一系列 的数值 , 每一个数值代
表一个时 间 点的值 在数据库和 数据仓库应用 中 , 时间序列 数
据是 一 类非 常 重 要 的数据 类 型 〔, 一 〕 时 间序 列 的 相似 性 的 判
方法进行改进 以提
高它的效率 。该方法可 简单描述 如 下 , 首先对序列 数据进行规
范化 处理 , 消除 轴方 向幅值和位移对 相似性 的 影 响 , 再 用 改
进的
方法 —
, 对时间序列数据进行时间轴向
— 的对 齐 , 并用 一 种新 的相似性 度盘 指标 沿 对 齐路 径 的模
糊相似度 , 来衡盘序列数据的相似性 。
另一个子序列的宽度为 的包络线 内时 , 认为这 两个子序列
是相似的 图 。但是这种方法在包络线的边界处产生了突
变
模糊集在数量属性关联规则挖掘中的应用 已经得到研
究 , 模糊集的应 用 消除了 固定边 界对 关联 规 则 发现 的限制 。
为 了消除包络线边界相似性的突变 , 两个序列 点对之 间相似
么 认为这两 个 子 序列 是 匹 配的 , 例 外 的数据 被忽略 , 该方 法 的
本质是在 两个 序列 中包含 一 定 比率 的相匹 配 的子 序列 。 该方
法避免了欧几里得距离 的缺点 任意长度序列 的相似性的判
定使用统一 的标准 。但是相似性的判定在包络线边界处发生
了突变 。
在文【幻中 , 序列 的相似性是 由序列 中点对之 间的距 离来
来描述 。 在进行相似性判定时 , 不仅要 消除幅值 、位移对相似性 判
定的影响图 , 而且还要 在时 间轴上进行对齐 直接基 于 欧几 里
得距 离 的方法 不 能对序列 中子序列 的相对 的延后 或者超 前正
确处理 , 也即 , 即使两个 时间序列是近似的 , 如果他们 在时间 轴上 不 完 全 对 齐 , 用 欧 几 里 得 方二法也 不 能作 出 正 确 的 判 断
当 《 , 时 , 它们 的相似度 为 , 即认为它们 是 完全相似
的当
时 它 们 的相似度 为 , 即认 为它 们 是 完全 不 相似
的 当 《 《 时 , 它们的相似度从 逐渐变化到 。 通过将
路径 中每一 点对之 间的距 离映射到模糊集 中 , 得 出 这
一 点对 的相似度 , 对 齐路径 中所 有 点对 的平 均相似度 即是 整
,
,
,
,
,
〕和
,
,
,
,
,
,
,
,
,
〕,
方法找到 的路径如
表 所 示 , 表 中的 数 字 为序列 中数据元 素的脚 标
表 例 对 齐路径
网 园
该 算法 的时 间复杂性为 。 , 和 分 别是序列 的长
度。
方法
时 间序列数据的相似性是研究在一段 时间 内数据变化规
律是 否 相似 数据的变化代表某一事物对 外界 激励 的响 应 。 由
定义 如 下 时 间 坐 标为 的点 的对齐范围 定义 了 以 为 中
心 的 一 个 区 间 〔一 , 幻 , 点在该 范 围 内进 行 对 齐运 算 。 比
如 , 对齐 范 围 为 , 时 间 坐 标 为 的 点 在 区 间 仁 , 〕中进 行对 齐
运算 当对齐范 围为 时 ,
退化 为两 个序 列之 间的欧 几