一种高效的基于相似性查找时间序列的位符号化表示方法
基于极值点特征的时间序列相似性查询方法
Ab tac : I r e o i r v h c urc ftm e s re u e ue e smia t th n s r t n o d rt mp o e t e a c a y o i e s s bs q nc i lr y mac i g, ti a e r p s d tme s re i i h s p p r p o o e i —e is sm i rt t h n lo ih b s d o h xr me p it . F rto l,t e ag rt i l iy mac i g ag rt m a e n t e e te on s is fal h lo hm e o nie h x rm epon so h i a i r c g z d t e e te it fte tme
Ti e i s smia iy mac i g ag rt m a e n e te on s me s re i l rt t h n lo ih b s d o xr me p i t
W U e y n . HUANG opi . MO n Xu — a Da ・ ng Za
度 的同时大大提高了运算效率 。
O 引言
时间序列是一类重要 的时间数据对象 , 它能够非常容易地
从科 学或 金 融 应 用 过 程 中获 取 ( 心 电 图 、 如 日气 温 、 销 售 额 、 周 基 金 和股 票 的 价 格 ) 时 间序 列 是 按 时 间 顺 序 排 列 的 一 系 列 。
第2 7卷 第 6期
一种基于分形和相似性查找的非平稳时间序列符号化表示法
第2 8卷 第 6期
20 0 8年 6月
文 章 编 号 :0 1— 0 1 20 ) 6~13 — 4 10 9 8 (0 8 0 4 1 0
一
计 算机应 用
Co u e pl ai n mp tr Ap i t s c o
V0 . . 1 28 No 6
Ab ta t s r c :Trdiin ldi n in r d t n m eho b u i lrt ey i to c hes o tne st t e e n s me a to a me so e uci t dsa o tsmia y qu r nr du e t m oh s o daas r si o o i i d g e ha he i e r e t tt mpot n e t e ftme s re bo tn n—i art n r e a r e to e ra tfaur so i e s a u o lne iy a d fa tla e d sr y d. A g — e iin a o i hih pr cso rnd m n n— o sain r i e e t o a d FSPA spr p s d ba e n fa tlt o n tto a tme s r sme h d n me y i wa o o e s d o r e a he r a d R/S a a y i, whih r ti e o lne r y n l ss c ea n d a n n—i a
需要 形理论 ; 号化表 示; 符 相似性查找
中图 分 类 号 : P 0 T 31 文献标志码 : A
Appr a h f r e e tv r c a . a e sm ia iy o c o f c i e f a t ib s d i l rt . s a c f s o h s i o s a i na y tm e s r e e r h o t c a tc n n. t to r i e i s
时间序列相似性查询的研究与应用
时间序列相似性查询的研究与应用随着大数据时代的到来,时间序列数据的重要性逐渐凸显。
时间序列数据是指按照时间顺序排列的一组数据,例如股票价格、气温变化、心电图等。
时间序列相似性查询作为一种重要的数据分析技术,旨在寻找与查询样本相似的时间序列数据,从而揭示隐藏在数据背后的规律和趋势。
在各个领域的实际应用中,时间序列相似性查询已经发挥了重要的作用。
时间序列相似性查询的研究主要包括两个方面:相似性度量和相似性查询算法。
相似性度量是衡量两个时间序列数据之间相似程度的方法,常用的度量方法包括欧氏距离、曼哈顿距离、动态时间规整等。
相似性查询算法是根据相似性度量方法,对大规模时间序列数据进行高效查询的方法,常用的算法包括基于索引的查询、基于哈希的查询、基于树结构的查询等。
这些研究成果为时间序列数据的分析和挖掘提供了基础。
时间序列相似性查询在实际应用中具有广泛的应用前景。
首先,在金融领域,通过对历史股票价格的相似性查询,可以预测未来股票价格的走势,为投资者提供决策依据。
其次,在气象领域,通过对历史气温变化的相似性查询,可以预测未来天气的变化,为气象预报提供支持。
再次,在医疗领域,通过对心电图的相似性查询,可以诊断心脏疾病,为医生提供治疗方案。
另外,在工业生产领域,通过对传感器数据的相似性查询,可以提前预测设备故障,进行维护和修复,提高生产效率。
然而,时间序列相似性查询也面临一些挑战。
首先,大规模时间序列数据的查询效率是一个问题,传统的查询算法无法满足实时查询的需求。
其次,相似性度量方法的选择也是一个难题,不同领域的数据可能需要采用不同的度量方法。
此外,在多维时间序列数据的查询中,如何考虑多个维度之间的相似性也是一个研究方向。
总之,时间序列相似性查询作为一种重要的数据分析技术,在各个领域的实际应用中发挥了重要作用。
未来,我们需要进一步研究相似性度量方法和查询算法,提高查询效率和准确性,以更好地应对大数据时代的挑战。
一种基于时序相似性的方位关联方法
中图分类号 :TN971
电子 信 息 对 抗 技 术
Electronic Information W arfare Technology
文献标志码 :A
文章编 号:1674—2230(2018)03—0014—04
一 种 基 于 时序 相 似性 的方位 关联 方 法
陈 亮,雷 涛 ,闰 璞 ,杨 玲
相 同 目标 被 多个 侦 察 站 同时截 获 。其 方 位 变 化 的规律 具 有 相 关性 。基 于这 种 相 关 性 ,本文 提 出了基 于方位 数据 的时 序相 似性算 法 。核心 思路 是利 用测 向方 位 在 时 间上 进 行 短 时积 累 ,通 过 比 较 多个 侦察站 积 累的方 位 数 据 的相 似 性 。获得 不 同站截 获 目标 的关 联程 度 ,从 而确 定 多 个 站侦 察 到 的某个 目标 为 同一 目标 ,为交 叉 定 位 提供 前 提 条件
电 子信 息 对抗 技 术 ·第 33卷 2018年 5月第 3期
陈 亮 ,雷 涛 ,闫 璞 ,杨 玲 一 种 基 于 时 序 相 似 性 的 方 交叉 定位 .定 位 结果 必 然 产 生 多个 虚假 目标 (n (n一1)个 虚 假 目标 ,其 中 n是 真 实 目标 个 数 ),然后综合应用 目标 的速率约束 、相关 噪声关 联 、滑动窗口等方法建立多 目标多传感器 的纯方 位关联 『1 模型 。最终实现虚假 目标 的剔除。这种 方法仅利用 了瞬时测向数据,采用单点关联 ,信息 使用没有最大化 :另外多个装备上报 的多批测向 信息 ,极 易产 生大 量虚假 目标 ,带 来极 大 的处 理难 度 和运 算难 度 。
DOI:10.3969/j.issn.1674—2230.2018.03.003
时间序列相似性度量方法
时间序列相似性度量方法王燕;安云杰【摘要】在时间序列相似性度量中,符号聚合近似(symbolic aggregate approximation,SAX)方法没有将符号化后的模式序列进一步处理,导致存在一定误差,为此提出将算术编码技术引用到SAX中,即将符号化序列转换为编码序列,实现时间序列在概率区间上的分析与度量;在计算序列间的相似度时采用分层欧式距离算法,综合考虑序列的统计距离和形态距离,由粗到细地进行筛选,达到序列整体趋势匹配以及细节拟合的目标.实验结果表明,该方法在不同的数据集上都有一定的可行性,具有较高的准确度和较好的鲁棒性.【期刊名称】《计算机工程与设计》【年(卷),期】2016(037)009【总页数】6页(P2520-2525)【关键词】时间序列;相似性度量;关键点对等;算术编码技术;符号化;分层欧式距离【作者】王燕;安云杰【作者单位】兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050【正文语种】中文【中图分类】TP311时间序列是对某一物理过程中的某一变量A(t)分别在时刻t1,t2,…,tn(t1<t2<…<tn)进行观察测量而得到的离散有序的数据集合,但由于时间序列数据的复杂,多种类、高维度等特性,为处理这些数据的分析带来了很大的困难,因此时间序列数据挖掘工作变得尤为重要[1]。
在整个时间序列数据挖掘过程中,相似性度量技术是许多其它工作(比如聚类、分类、关联规则等)的基础,吸引了大量学者的深入研究[2-6]。
其中,基于特征的符号聚合近似(SAX)[7]方法成为了最流行的相似性度量方法。
例如,Antonio Canelas等用SAX方法处理时间序列[8],具有简单易用、不依赖具体实验数据、并能准确表示时间序列统计特征的优点,但该方法弱化了序列的形态变化信息;张海涛等提出基于趋势的时间序列相似性度量[9],能够客观的描述序列形态变化,但由于选择的符号数太多,丧失了处理意义,使度量算法变的繁琐;肖瑞等提出了编码匹配算法在不确定时间序列相似性度量上的应用[10];Yan Wang将关键点提取和序列对等技术应用到了SAX算法中[11],为时间序列相似性度量提供了可以借鉴和参考的方向。
时间序列的快速相似性搜索改进算法
如高 频 噪声 、时 间轴上 伸缩 等 ,对 于这些 问题 已提 出很 多 算 法 .如 离 散 傅 立 叶 变 换 四 ,离 散 小 波 变 换 ,滑动平 均 聚集近 似方 法同 。笔者 引用 时 间序 等
列 分段 表示 思想 , 以某 省 电力公 司 E P系统业 务 量 R
时 间复 杂度 方 面作 了一 些研 究 ,提 出了一 种快 速 搜 索算法 。
111 欧式 类距 离 .。
给定两个时间序列 , ( l )Y I Im) I = , (l = ,当 ,
/- 的 ,它们之 问的 E cien距 离定义 为 .m t  ̄ ul a d
厂 —— —— 一
用 技 术
太 原科 技 文 章 编号 :0 6-87 2 1 )3 0 9 — 2 10 - 7 (0 0 0 — 0 0 0 4 21 0 0年 第 3期 可 0凹 阅 S@ 0 可匡@ 凰 —
|≯ 1 % 黪霉 餮 霉毒 毳 囊 囊 甏 赣 《 毫 毯 誊 罄 l 馥 § 罄 魏g毯 《 l |《 薯 一 薯≯ 臻 蕾 鍪 鞣豢 巷 囊鏊 穗 疆 繇 毽 囊 鼍 强 琵 l§ 毫 疆|鼋 强l 饕 繇 臻 鏊 。 l 。曩 l 魏 I
作者简介 : 刘利松 ( 9 5 , 陕西成 阳人 , 18 一) 男, 在读硕士 , 主要从事数据挖掘研 究 ,- i lo g l @1 3 o 。 E ma :sn_i 6 . r li u cn
9D・
・
应 用 技
太原 科技 2 1 0 0年第 3期 凰 凰 圆 0 匡 嗍 D @— @
EX Y =/ xy . (, ) 、∑(-) V ii
一种时间序列快速分段及符号化方法
一种时间序列快速分段及符号化方法
任江涛;何武;印鉴;张毅
【期刊名称】《计算机科学》
【年(卷),期】2005(032)009
【摘要】作为一类重要的复杂类型数据,时间序列已成为数据挖掘领域的热点研究对象之一.针对时间序列的挖掘通常首先需要将时间序列分段并转变为种类有限的符号序列,以利于进一步进行时间序列模式挖掘.针对当前的时间序列分段方法复杂度较大,效率不高等问题,本文提出了一种简单高效的基于拐点检测的时间序列分段方法,并且采用动态时间弯曲度量计算不等长子序列的相异度,最后运用层次化聚类算法实现子序列的分类及符号化.实验表明,本文所提出的方法切实可行,实验结果具有较为明显的物理意义.
【总页数】4页(P166-169)
【作者】任江涛;何武;印鉴;张毅
【作者单位】中山大学计算机科学系,广州,510275;中山大学计算机科学系,广州,510275;中山大学计算机科学系,广州,510275;清华大学自动化系,北京,100084【正文语种】中文
【中图分类】TP3
【相关文献】
1.生理时间序列的一种符号化分析方法 [J], 廖福元;王珏
2.一种基于符号化的时间序列预测方法 [J], 孙杰
3.一种高效的基于相似性查找时间序列的位符号化表示方法 [J], 孙梅玉;方建安
4.一种改进的符号化时间序列聚类方法 [J], 李志刚;牛强
5.一种时间序列连续分段多项式模式表示方法 [J], 刘祥明;石为人;范敏
因版权原因,仅展示原文概要,查看原文内容请购买。
基于形态表示的时间序列相似性搜索
第37卷第5期2000年5月计算机研究与发展JOURNA L OF COM PU TER RESEARCH &DEVELOPM ENT V o l.37,N o.5M ay 2000原稿收到日期:1999-06-17;修改稿收到日期:1999-11-01.本课题得到国家“八六三”高技术研究发展计划基金资助(项目编号863-306-ZT 06-07-2).蒋嵘,女,1971年生,博士研究生,主要研究领域为人工智能与数据挖掘.李德毅,男,1944年生,研究员,博士生导师,主要研究领域为指挥自动化、人工智能、智能控制与数据挖掘.基于形态表示的时间序列相似性搜索蒋 嵘 李德毅(中国人民解放军理工大学 南京 210016)(总参第六十一研究所 北京 100039)摘 要 时间序列是一类重要的复杂数据,时间序列知识发现正成为知识发现的研究热点之一,时间序列的相似性搜索是时间序列知识发现的重要方面.提出一种新的基于形态表示的时间序列相似性搜索机制.该机制采用逐段线性化技术,将复杂的时间序列曲线简化为多个直线段.同时,结合时间序列的符号表示思想,构造了基于云模型的形态概念树,提出了时间序列的形态描述方法——基于云模型的时间序列表示法,并在此基础上采用增强动态编程算法实现了时间序列的相似性搜索.关键词 知识发现,时间序列,相似性搜索,云模型中图法分类号 T P 311SIMILARITY SEARCH BASED ON SHAPE REPRESENTATIONIN TIME -SERIES DATA SETSJIANG Ro ng and LI De -Yi(P olyte chnic Univ ersity ,the P L A ,Nanj ing 210016)(I nstitute of E lectronic System Eng ineer ing ,B eij ing 100036)Abstract Time-series ar e impo rtant kinds of complex data.Recently a g row ing attention hasbeen paid to mining time-series kno wledge,w hile sim ilar ity search in time-series data sets is o neof the important aspects in time series know ledge discovery.T his paper proposes a new metho dof similarity search based on shape representation of time -series .W ith the technique o f piece -w iselinear r epresentation ,a complex time -series curve is sim plified as a gr oup o f straight lines .Combining the thoug ht of symbol repr esentation,the co ncept tree o f shapes is constructed,andthe method o f shape description of tim e-ser ies —time-series representation w ith cloud model,ispr esented.Finally ,sim ilarity search in tim e-series data sets is realized w ith the enhanceddy namic prog ramming algorithm.Key words know ledg e discov er y,time-series,sim ilarity search,clo ud mo del1 引 言时间序列(time series)可定义为“an or dered set of real v alues ”[1],它是一类重要的复杂数据对象.社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理,时间序列知识发现对人类社会、科技和经济的发展具有重大意义.例如,从气象卫星上不断地向地面传送各种时间序列图像和数据有待进一步分析和处理.尽管许多统计方法被应用于时间序列的分析,但对时间序列的相似性概念及其搜索方法并没有得到很好的结果,这一研究课题正成为知识发现的研究热点之一.Falo utso s,Rang anathan和M anolo poulos等人将序列分割为许多窗口,并从这些窗口中提取特征值,通过R*-树结构进行模式匹配[2].Ag raw al等人依据原始序列的套装来定义距离,从而能处理时间序列的振幅变化、漂移以及“不关心”区域等问题[1].Ber ndt和Clifford使用动态时间弯曲技术,允许时域轴弹性变化[3].Keog h等人通过对时间序列逐段线性化,进行相似性搜索[4].时间序列的相似性搜索并不是个容易的问题,其主要困难在于相似性度量的定义和算法的时间复杂度,而这两者都依赖于时间序列的表示方法.时间序列表示方法的不同会严重地影响其距离度量对各种变形、扭曲的敏感程度,并决定相似性搜索的有效性.因此,人们都在寻找鲁棒性强、能有效地应用于时间序列模式匹配的时间序列表示方法.目前,已提出了一些时间序列的表示方法.其中,频谱表示法适合于局部稳定的时间序列,例如直接使用傅里叶系数[2]或参数频谱模型[5].但这些表示方法并不适用于有短暂行为的不稳定序列,同时从数据挖掘与知识发现的角度来看这种表示方法不直观,不易被人们理解和表达.Keo gh等人提出的逐段线性化表示法把复杂的曲线分段表示为直线段,不仅高度压缩了数据,同时较直观地反映了时间序列的变化形态[4].在此基础之上,Betty等人采用区间离散化方法,提出了时间序列的符号表示方法[6].这一方法虽然直观新颖且符合人们的思维方式,但在离散化过程中,将本来相邻的数据硬性分割为不同的概念,分别表示为不同的符号,从而引起相似性判别的失误.本文将采用逐段线性化技术,结合时间序列的符号表示思想,在云模型的基础上,提出时间序列的形态描述方法——基于云模型的时间序列表示法,并在此基础上实现了时间序列的相似性搜索.2 基于云模型的线性形态描述2.1 自然语言的云模型表示自然语言是人类智能的体现,它往往带有歧义性、不确定性,不同于计算机语言.首先,自然语言具有模糊的边界,难以给出很精确的定义.模糊概念在日常生活和工作中是普遍存在的,例如,“年轻人”、“高个子”、“工作稳定”、“性能可靠”等等.同时,不同的人对于相同的语言可能有不同的理解,但不影响使用和交流,语言本身包含随机性.例如,不同的人对“美丽”的定义就并不完全重合.自然语言既有模糊性,又有随机性,是二者的统一.目前人工智能学界主要采用模糊集的方法来表示和处理语言值.然而,由于传统模糊学的不彻底性,它并没有很好地解决这一问题.其最突出的问题是,隶属函数一旦通过人为假定,“硬化”成精确数值表达后,就被强行纳入到精确数学王国.从此,概念的定义、定理的叙述及证明等数学思维环节中,就不再有丝毫的模糊性了.针对上述问题,文献[7]提出的云理论建立了新的不确定性模型.云是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型,它把模糊性和随机性完全集合到一起,构成定性和定量相互间的映射,作为自然语言表示的基础.设U是一个普通集合U={u},称为论域.T是论域U上的概念.论域U中的元素u对T的隶属程度C T(u)∈[0,1]是一有稳定倾向的随机数.概念T的云模型是从论域U到区间[0,1]的映射:C T(u):U→[0,1], u∈U, u→C T(u),正态云(the norm al clo ud)简称NC,是基于正态分布的云模型,它可用3个参数来描述:A(E x,E n,H e).其中期望值Ex标定了云对象在论域中的位置,即云的重心,它完全属于该概念.熵E n是概念模糊度的度量,熵的大小直接决定了在论域中可被某一概念所接受的元素数——亦此亦彼性的裕度.由期望值和熵两个数字特征便可确定正态云的期望曲线方程:M EC(u)=e-(u-Ex)2 2E2n,超熵H e,也称为熵的熵,是熵E n的随机性度量,它反映了正态云的离散程度.值得注意的是,正态云的期望602计算机研究与发展2000年曲线方程与正态概率密度函数极其相似,只是剔除了其系数,保证了在加入随机性——超熵后,隶属度仍然在[0,1]区间内.图1 模糊概念“平稳”的正态云模型图1显示了模糊概念“平稳”的正态云模型,从图中可以发现许多云模型的特征.首先由论域U 到区间[0,1]的映射是一对多的关系,而不是传统的隶属函数中的一对一关系,这恰恰反映了元素对模糊概念隶属程度的不确定性.而云模型的期望曲线从模糊集理论的观点可作为隶属函数.所以,云模型中元素对模糊概念的隶属程度是一概率分布,而不是一个简单的数值,云模型中的任意云滴都是模糊概念的一次随机抽样实现.此外,当期望值到达论域U 的左或右边界时,完整的钟形云模型可转变为左半云或右半云,但仍然用参数Ex ,E n 和H e 来描述.为了实现定量数值与定性概念之间的转换,我们已实现了4种云发生器:基本云发生器、X -条件云发生器、Y -条件云发生器和逆向云发生器[7~9].下面列举了X -条件云发生器算法:算法1.X -condition -cloud -GenInput :cloud (Ex ,En ,H e ) //概念的云模型 x //属性值O ut put:y //x 对概念的隶属程度Beg in En ′=N or m (En ,H e )//产生以E n 为期望值,H e 为均方差的正态随机数 y =ex p (-(x -Ex )^2/2*En ^2)//计算x 对概念的隶属程度End 对于任意属性值x ,X -条件云发生器将给出其对某一模糊概念的隶属程度y ,显然y 是不确定的.2.2 基于云模型的形态概念树基于云模型,语言变量可定义为由论域上的原子概念组成,即将语言变量A 表示为A {A 1(Ex 1,En 1,H e 1),A 2(Ex 2,En 2,H e 2),…,A m (Ex m ,En m ,H e m )},其中A 1,A 2,…,A m 是由云模型表示的原子概念.线性关系或直线段的重要特征为其斜率,通过斜率或倾斜角度就能够描述直线段的形态.由于云模型能够综合表示自然语言的模糊性和随机性,我们可以通过它来实现对直线段形态的自然描述,即将连续的斜率值或倾斜角度转换为有限的自然语言概念来表示.图2显示了描述直线段形态的语言变量——线性形态{剧烈上升,中度上升,缓慢上升,平稳,缓慢下降,中度下降,剧烈下降}.图2 语言变量——线性形态不仅如此,对线性形态的描述还可以分为不同的概念层次,从而形成形态概念树,用户可以根据需要选择相应的概念级别.级别越低,对线性形态的描述就越精细.6035期蒋 嵘等:基于形态表示的时间序列相似性搜索图3 基于云模型的形态概念树3 基于云模型的时间序列形态表示3.1 逐段线性化表示法线性回归分析通过对回归变量和响应变量之间相关性的分析,用线性模型来拟合两者之间的关系:y i= a×x i+b+ ,其中y i是响应变量,x i是回归变量,a和b是待估测的未知参数, 是误差项.最常用的线性回归为最小二乘估计法,即最小化响应变量的观测值与预测值之间的误差平方和: =∑m i=1y i-(a×x i+b)2,从而可得到最佳拟合参数a和b:a=m∑m i=1x i y i-∑m i=1x i∑m i=1y i m∑m i=1x i2-∑m i=1x i2,b=∑m i=1x i2∑m i=1y i-∑m i=1x i y i∑m i=1x i m∑m i=1x i2-∑m i=1x i2.除了最小二乘估计法外还有许多线性近似方法,如最大最小法等.但实验证明最小二乘法的效果较优,由于它既充分考虑了每一点对线性模型的贡献,又不允许任意一点对模型的绝对影响.时间序列曲线非常复杂,远不是一根直线所能拟合的.但如果采用高次非线性曲线来拟合,又违背了我们简化模型、直观简洁地反映时间序列的变化形态的初衷.已有生理试验证明,人类的视觉系统将平滑的曲线分为多个直线段处理[10].逐段线性化表示法将复杂的曲线简化为有限多个直线段,这一方面直观地反映了曲线的变化形态,另一方面降低了时间序列表示的复杂度.时间序列的逐段线性化表示有两种基本方法:(1)定长逐段线性化表示法这种表示方法在一定的时间概念层次上,对定长时间段的数据进行线性回归分析,得到相应的线性模型.在线性化表示之前,首先要面临两个时间粒度问题:其一是时间序列表示的时间概念层次,即线性化的基本单位;其二是时间序列数据的时间概念层次,即数据的基本单位.例如取线性化的基本单位为月、数据的基本单位为日,则通过定长逐段线性化表示法将时间序列表示为日总量的逐月线性化表示.显然,第2个时间概念层次应低于第1个,相应的时间粒度也较低.同时,这两者是相互影响、相互依存的.当线性化的基本单位给定,定长逐段线性化表示的参数只要逐段依据最小二乘估计法拟合就可获得.因此,这种表示法的困难在于两种时间粒度(时间概念层次)的选择.如果线性化的时间粒度过高,如对每年的时间序列进行线性模拟,由于时间序列本身变化复杂,无论采用怎样的参数其误差平方和 都会居高不下.相反,当线性化的时间粒度过低,如对每秒的时间序列进行线性模拟,就会产生大量的直线段,失去了逐段线性化表示的意义.较好的策略是,由用户根据数据分析的需要确定数据的时间粒度并给出最大误差平方和 max,程序在自顶向下的逐段线性化过程中确定满足 max的线性化表示的最高时间粒度.604计算机研究与发展2000年(2)逐步求精的逐段线性化表示法对于复杂的时间序列,在不同的时间段其变化的频率不同,定长逐段线性化表示就必须在误差和线性段数量之间作出取舍.逐步求精的逐段线性化表示法注重曲线的变化形态而不拘泥于唯一的线性化时间单位,即对不同的时间段可采用不同的线性化时间粒度.这样既能够满足线性化表示的精度,又能尽量减少线段数,真正做到简化表示,从而克服了定长逐段线性化表示法的缺陷.我们采用自底向上合并线性段的方法实现了逐步求精的逐段线性化表示,并运用简单的启发式技术使得算法能较快地收敛于满足最大误差平方和 max 的逐段线性化表示.3.2 基于云模型的时间序列形态表示通过将时间序列逐段线性化后得到一系列的直线段,这些线段的斜率或倾斜角度直接反映了曲线的变化形态,我们的目标是用符号自然地表达时间序列变化趋势和形态.通常的做法是将连续的斜率或角度值通过区间离散化的方法映射到离散空间,对每一离散空间给定一符号表示.这种表示方法虽然简单方便,但对数据的划分过于生硬,不能反映人们对概念描述的模糊性和随机性.由于云模型能够综合表示自然语言的模糊性和随机性,我们可以通过它来实现对时间序列形态的自然描述,即将连续的实际斜率或角度值转换为有限的自然语言概念来表示.有了基于云模型的形态概念树,我们就可以在时间序列的逐段线性化表示的基础上在不同的概念层次上实现基于云模型的时间序列形态表示.算法2.Cloud -based -R epInput : linear -shap e [1…n ] //时间序列的逐段线性化表示(斜率或倾斜角度) shap e -lev el//形态概念层次 shap e -tr ee //形态概念树O ut put: Str ing [1…n ]//基于云模型的时间序列的形态表示Beg in shap e -concep ts [1…m ]=Get -concep t -clouds (sha p e -tree ,sha p e -lev el ) //根据用户指定的概念层次,在形态概念树上选取概念集,其中包含m 个由云模型表示的基本概念 for (i =1;i <=n ;i ++) { max =0; for (j =1;j <=m ;j ++) { y =X -cond ition -cloud -Gen (sha p e -concep ts [j ],linear -shap e [i ]); //用第i 个直线段的斜率激活概念集中第j 个概念的X -条件云发生器,得到它属于此概念的隶属程度 if (y >max ) {max =y ;max -concep t =j ;} if (y =max ) {max -concep t =r andom (max -concep t ,j );} //选择最大隶属程度的概念,如果对两个概念的隶属程度相同,则随机选取一概念 } str ing [i ]=sha p e -concep ts [max -concep t ]; }End4 基于形态表示的时间序列相似性搜索通过上述基于云模型的时间序列形态表示,我们将连续空间的时间序列转换为离散空间的字符串,因而对时间序列的相似性搜索也自然地由连续空间的精确匹配转换为离散空间的近似匹配.字符串近似匹配搜索的典型方法包括基于编辑距离的方法和基于后缀树的方法.其中基于编辑距离的方法运用了两个字符串之间编辑距离的概念来度量两个模式之间的相似程度.假设模式串为P [1…m ],搜索串为S [1…n ],D [i ,j ]表示P [1…i ]和S 中结束于第j 个字符的任意子串之间的最小编辑距离.D (0,j )=0,0≤j ≤n ,6055期蒋 嵘等:基于形态表示的时间序列相似性搜索D(i,j)=min D(i-1,j)+1D(i-1,j-1)+if P[i]=S[j]then0else1 D(i,j-1)+1. 我们采用增强动态编程算法(enhanced dynamic prog ramming algorithm)[6,11]实现了基于编辑距离的相似性搜索,对任意给定的相似性阈值(最大编辑距离)以及基于云模型的时间序列模式串和搜索串,给出搜索串中与模式串相近似的子串位置.算法3.S equence-M atchInput:Patter n[1…m] //模式串,长度为m Sequence[1…n]//搜索串,长度为n edit-distance//相似性阈值(最大编辑距离)O ut put:Similar-seq uences//相似串集合Beg in Similar-sequence= ; for(i=1,i<=m,i++) h[i]=i;//初始化D(i,0) for(j=1,j<=n,j++) { i=0; ld=0; ed=0; w hile(i<=m&&ed<=edit-distance) { if(Patter n[i]==Sequence[j])addition=0; else addition=1; ed=min(h[i-1]+1,h[i]+1,ld+addition); //ld为D[i-1,j-1],h[i]为D[i,j-1],h[i-1]为D[i-1,j],ed为D[i,j] ld=h[i]; h[i-1]=ed; i=i+1; } if(ed<=edit-distance&&i>m)S imilar-sequence=add(Similar-seq uence,j); }End基于上述分析,我们可以得到如下基于形态表示的时间序列相似性搜索算法.算法4.Similar-SearchInput:time-ser ies-p attern //时间序列匹配模式 time-ser ies-query//待搜索的时间序列 shap e-lev el//形态概念层次 shap e-tree//形态概念树 edit-distance//相似性阈值 m a x//线性化误差阈值O ut put:Similar-time-series//相似串集合Beg in Patter n-linear-sha p e=S egmented-linear-Rep(time-ser ies-p attern, max); //对时间序列匹配模式进行逐段线性表示 Query-linear-shap e=Segmented-linear-Rep(time-ser ies-query, ma x); //对待搜索的时间序列进行逐段线性表示 Patter n=Cloud-based-Rep(Patter n-linear-shap e,shap e-lev el,shap e-tr ee); Sequence=Cloud-based-Rep(Query-linear-sha p e,sha p e-lev el,shap e-tree); //用基于云模型的方法对逐段线性表示的时间序列进行形态描述 Similar-sequences=Sequence-M atch(Pattern,S eq uence,edit-distance); //基于编辑距离的相似性搜索606计算机研究与发展2000年 Similar -time -s er ies =Outp ut -M atch (Patter n ,Sequence ,S imilar -sequences ); //输出相似性搜索结果End5 实 验心电图分析是心脏病检测的重要手段,通过对心电图的分析能够判断病人的心脏健康状况.目前,心电图的分析主要依靠专家和医生.对心电图中的时间序列数据进行数据挖掘和知识发现,从而实现心电图的自动分析将是一件非常有意义的工作.我们从网上获得了一心电图数据(http://ww w.ms.w ashing /~s530/),其抽样时间为1/180s,总数据量为2048点.图4显示了其中400个点的原始数据图.我们采用Mathcad 7.0实现了上述算法,并模拟实现了Betty 等人提出的区间离散化方法.M athcad 是集数理计算、图形和文字处理等功能于一体的科学工具软件,它有强大的内置函数库、方便的矩阵计算包以及所见即所得的图形工具,从而能方便且直观地用于各种应用问题的实验阶段.通过逐步求精的逐段线性化表示法,我们将原始数据分解为37个直线段,如图5所示.图4 原始心电图数据图5 心电图的逐步求精的逐段线性化表示通过云模型转换可将此时间序列表示为如下字符串(字符的含义见图3——基于云模型的形态概念树),压缩率为10.9:“dfafdcdedecddfafdceceddddfadfdcdddfaf ”.在此基础上搜索“P 波”模式“fa ”,发现4个P 波段:第2~3段、第14~15段、第26~27段和第35~36段.搜索“T 波”模式“dc ”,发现3个T 波段:第5~6段、第17~18段、第30~31段.上述两组搜索结果完全正确.如果采用Betty 等人提出的区间离散化方法,同样使用7个概念:剧烈下降(a )[-90,-60)、中度下降(b )[-60,-30)、缓慢下降(c )[-30,-5)、平稳(d )[-5,5]、缓慢上升(e )(5,30]、中度上升(f )(30,60]和剧烈上升(g )(60,90]来表示时间序列,则可得到下列字符串:“dg afdcdedecddgafdceceedcdg aefdcdddgaf ”.在此基础上搜索“P 波”模式“ga ”,同样发现4个P 波段:第2~3段、第14~15段、第26~27段和第35~36段.但在搜索“T 波”模式“dc ”时,发现4个T 波段:第5~6段、第17~18段、第23~24段、第30~31段.虽然能识别出所有的“T 波”模式,但将第23~24段非“T 波”模式误认为T 波段.由于云模型随机性的特点,定义域中的元素对概念的隶属程度具有统计意义上的随机性.同时,由于云模型模糊性的特点,概念之间的边界是模糊不清的.这样就使得处于边界上的元素根据其隶属度随机地被划分到不同的概念之中,这种随机性又具有一定的统计概率.相比较而言,区间离散化方法固定地将属性值硬性分割,所以其错误率要高于基于云模型的方法.当然,基于云模型的方法在进行时间序列的符号表示时,执行X -条件云发生器算法会增加一些时间耗费,但它与区间离散化方法一样是O (N )的,其中N 是逐段线性化表示的时间序列的长度.同时,一旦时间序列被表示为相应的符号序列,两者的搜索时间效率相等,而基于云模型的方法搜索准确率较后者高.6075期蒋 嵘等:基于形态表示的时间序列相似性搜索608计算机研究与发展2000年6 讨 论本文采用了逐段线性化技术,在云模型的基础上实现了时间序列的形态描述方法——基于云模型的时间序列形态表示法.这种表示方法用符号自然地表达时间序列变化趋势和形态,将连续空间的时间序列转换为离散空间的字符串,既简洁直观、易于理解,同时又降低了问题的复杂度.基于云模型的时间序列形态表示法使得对时间序列的相似性搜索由连续空间的精确匹配转换为离散空间的近似匹配,我们采用了基于编辑距离的相似性搜索方法最终实现了时间序列的相似性搜索.逐段线性化和斜率的云模型表示对噪声有一定的抑制作用,而最小编辑距离对中断有一定的容忍性.因而,这一基于形态表示的时间序列相似性搜索方法能够在一定程度上解决噪声(noise)和中断(disco ntinuities)问题.同时,对曲线的形态描述能够自动排除漂移现象,且逐步求精的逐段线性化表示方法对横坐标的拉伸和压缩不敏感,所以这一相似性搜索方法能基本解决漂移(offset translatio n)问题,并一定程度地解决横幅变化(longitudinal scaling)问题.另外,通过提高形态描述的概念层次可以部分解决振幅变化(amplitude scaling)问题.这些都将是我们今后的进一步研究工作.参考文献1Agrawal R,Lin K I,S aw hn ey H,S him K.Fast sim ilar ity search in the presence of noise,s caling,and trans lation in tim e-series database.In:Proc Tw en ty-Firs t International Conference on Very L arge Data Bases.San Francisco,CA,1995.490~5012Falou ts os C,Ranganath an M,M anolopoulos Y.Fast sub sequ ence matching in time-series d atabas es.In:SIGM OD Proceedings of Annual Conference.M inneapolis,1994.419~4293Berndt D J,C lifford ing dynamic tim e w arping to find patterns in time series.In:AAAI Work shop on Know ledge Dis cover y in Database(KDD-94).AAAI Press,1994.359~3704Keogh E,Smyth P.A probab ilistic appr oach to fast pattern m atch ing in tim e s eries d atab as es.http://ww /~eamonn/ res earch,19975Smyth P.Hidden M arkov models for fault detection in dynamic sys tems.Pattern Recognition,1994,27(1):149~1646Xia B B.S imilarity search in time s eries data sets[M aster dis ser tation].S imon Fras er University,Can ada,19977Li D,Han J,Sh i X M,Ch eng M.Know ledge rep res entation and discovery b as ed on linguis tic atoms.Know ledge-Based S ystem,1998,(10):431~4408Li D,Di K C,Li D R.M in ing ass ociation with lingu istic cloud models.In:Proc of th e S econd Pacific-Asia Con f on Know ledg e Discovery &Data M in ing.M elbourne,Aus tralia:Sprin ger-Verlag Heidelberg,1998.392~3949Li D,Shi X M,Paul W,Gupat M.S oft inference m echan ism b as ed on cloud m od els.In:Logic Programm ing and Soft Computin g.Reach Studies Pres s,199710Attn eave F.Som e infor mation aspects of visual perception.Psychology Review,1954,61:183~19311Jokinen P,T arhio J,U kkonen E.A comparison of approximate s tring matchin g algorithms.Softw are:Practice and Ex perience,1996,26(12):1439~145812Keogh E,Pazzani M.An enhanced repr esentation of time s eries w hich allow s fast and accurate class ification,clustering and relevance feed back.In:Proc of4th Int'l Conf on Kn ow ledge Discovery and Data M ining(KDD'98).New York,1998.239~243。
时间序列相似性聚类算法研究
J●1,l—{
硕lj学位论文
摘要
随着计算机在工业中的应用发展,电解铝行业在生产过程中普遍使用计算机
监控系统,以达到对电解槽的自动控制。监控系统自动收集各种电解槽的数据,
在铝生产行业中积累了大量的历史数据资料。但是现有数据系统的共享和整合程
度低,只有简单的数据输入,查询,统计以及其他事务处理等功能,不能找到这
1;:{.J】-l
j●
Abstract
As the promotion of computer applications in the aluminum production industry,
a kind of control system was used to automatic control electrolyze in the production
Hunan University
o■ ■Il
Supervisor Associate Professor CHEN Xiangtao
May,2010 。-■ ■『
l■■r
●1 I—■●,1
湖南大学
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。
l,l
extracted from massive amounts of data by decision-makers.This thesis devoted in
l
the research on application of time sequence similarity clustering in details,SO that
一种基于始末距离的时间序列符号聚合近似表示方法
一种基于始末距离的时间序列符号聚合近似表示方法季海娟;周从华;刘志锋【期刊名称】《计算机科学》【年(卷),期】2018(045)006【摘要】时间序列数据的特征表示方法是时间序列数据挖掘任务的关键技术,符号聚合近似表示(SAX)是特征表示方法中比较常用的一种.针对SAX算法在各序列段表示符号一致时无法区分时间序列间的相似性这一缺陷,提出了一种基于始末距离的时间序列符号聚合近似表示方法(SAX_SM).由于时间序列有很强的形态趋势,因此文中提出的方法选用起点和终点来表示各个序列段的形态特征,并使用各序列段的形态特征和表示符号来近似表示时间序列数据,以将其从高维空间映射到低维空间;然后,针对起点和终点构建始末距离来计算两序列段间的形态距离;最后,结合始末距离和符号距离定义一种新的距离度量方式,以更客观地度量时间序列间的相似性.理论分析表明,该距离度量满足下界定理.在20组UCR时间序列数据集上的实验表明,所提SAX_SM方法在13个数据集中获得了最高的分类准确率(包含并列最大的),而SAX只在6个数据集中获得了最高的分类准确率(包含并列最大的),因此SAXSM具有比SAX更优的分类效果.【总页数】6页(P216-221)【作者】季海娟;周从华;刘志锋【作者单位】江苏大学计算机科学与通信工程学院江苏镇江212013;江苏大学计算机科学与通信工程学院江苏镇江212013;江苏大学计算机科学与通信工程学院江苏镇江212013【正文语种】中文【中图分类】TP391【相关文献】1.基于小波熵的时间序列分段聚合近似表示 [J], 郑旭;盛立辉;崔宵语2.基于符号化聚合近似的时间序列相似性复合度量方法 [J], 刘芬;郭躬德3.一种基于分形和相似性查找的非平稳时间序列符号化表示法 [J], 孙梅玉;方建安;姜学波;于冬梅;周豫苹4.一种高效的基于相似性查找时间序列的位符号化表示方法 [J], 孙梅玉;方建安5.基于金融时间序列的符号聚合近似测度的改进 [J], 方昕;李兴兴;曹海燕;潘鹏因版权原因,仅展示原文概要,查看原文内容请购买。
评价中药色谱指纹谱相似性的新方法向量夹角法
我们使用VB6.0编制了一个小程序,能利 用两 个色谱图的积分报告自动进行峰匹 配,判断共有峰及特有峰,并把对应的 数值填入向量的对应位置、计算相似度 。
处理方法主要有模式识别与人工神经网 络的方法,它们给出的答案是一种分类
及定性的信息,不直接定量比较两张指 纹图谱间的相似度。但在很多情况下我 们需要利用这种相似度的计算提供定量 的 。评价信息,为中药质量•向控量制夹提角供法依据
基于这种情况我们提出了一种定量直接 比较两张指纹谱相似度的新方法:
向量夹角法的基本原理
n个数值组成的行(x1, x2, x3,… xn)称为n维 向量简记为大写字母X
定义 而 内积
为向量X的模 是向量X与Y的
向量X及Y的向量夹角余弦按照下式计算
向量夹角余弦约接近1说明两向量相似度
向量夹角法的基本原理
每个色谱指纹图谱都可以看作一组对应 保留时间下的峰高(或峰面积)的数值,可 以把这组数值看作多维空间中的向量 两个指纹图谱间相似性的问题转化为多 维空间的两个向量的相似性问题,利用 上式能够定量表征指纹图谱间的相似性
色谱指纹谱图自动峰匹配问题的解 决随着分析仪器技术的进步,分析仪器上
保留时间的重复性越来越好,只要严格 控制色谱条件就能够保证色谱峰的出峰 次序不变并且保留时间差异较小
我们的程序是在下列三条原则的基础上 进行自动峰匹配:(自动峰匹配的流程图 见下图)
一. 同一分析条件下两张指纹谱对应色谱 峰的保留时间差异在合理的范围以内。(对 液相色谱保留时间差异小于1分是容易做到 的)
基于符号化聚合近似的时间序列相似性复合度量方法
基于符号化聚合近似的时间序列相似性复合度量方法刘芬;郭躬德【摘要】Key point-based Symbolic Aggregate approximation (SAX) improving algorithm (KP_SAX) uses key points to measure point distance of time series based on SAX, which can measure the similarity of time series more effectively. However, it is too short of information about the patterns of time series to measure the similarity of time series reasonably. To overcome the defects, a composite metric method of time series similarity measurement based on SAX was proposed. The method synthesized both point distance measurement and pattern distance measurement. First, key points were used to further subdivide the Piecewise Aggregate Approximation (PAA) segments into several sub-segments, and then a triple including the information about the two kinds of distance measurement was used to represent each sub-segment. Finally a composite metric formula was used to measure the similarity between two time series. The calculation results can reflect the difference between two time series more effectively. The experimental results show that the proposed method is only 0. 96% lower than KP_SAX algorithm in time efficiency. However, it is superior to the KP _ SAX algorithm and the traditional SAX algorithm in differentiating between two time series.%基于关键点的符号化聚合近似(SAX)改进算法(KP_SAX)在SAX的基础上利用关键点对时间序列进行点距离度量,能更有效地计算时间序列的相似性,但对时间序列的模式信息体现不足,仍不能合理地度量时间序列的相似性.针对SAX与KP_SAX存在的缺陷,提出了一种基于SAX的时间序列相似性复合度量方法.综合了点距离和模式距离两种度量,先利用关键点将分段累积近似(PAA)法平均分段进一步细分成各个子分段;再用一个包含此两种距离信息的三元组表示每个子分段;最后利用定义的复合距离度量公式计算时间序列间的相似性,计算结果能更有效地反映时间序列间的差异.实验结果显示,改进方法的时间效率比KP_SAX算法仅降低了0.96%,而在时间序列区分度性能上优于KP_SAX算法和SAX算法.【期刊名称】《计算机应用》【年(卷),期】2013(033)001【总页数】7页(P192-198)【关键词】时间序列;符号化聚合近似;相似性;模式距离;复合度量【作者】刘芬;郭躬德【作者单位】福建师范大学数学与计算机科学学院,福州350007;福建师范大学网络安全与密码技术福建省高校重点实验室,福州350007;福建师范大学数学与计算机科学学院,福州350007;福建师范大学网络安全与密码技术福建省高校重点实验室,福州350007【正文语种】中文【中图分类】TP3910 引言在时间序列数据挖掘的诸多问题中,时间序列的相似性问题是一个基础性的子问题[1],相似性问题的解决关系到相似性搜索、聚类、分类、规则发现、模式发现、新奇检测和异常点检测等任务的顺利进行[2]。
面向相似性搜索的时间序列表示方法述评
面向相似性搜索的时间序列表示方法述评
刘世元;江浩
【期刊名称】《计算机工程与应用》
【年(卷),期】2004(040)027
【摘要】时间序列作为一种数据形式,广泛存在于各种商业、医学、工程、自然科学和社会科学等数据库中.近年来,时间序列的相似性搜索问题正得到越来越多的重视.该问题可描述为给定某个的时间序列,要求从一个大型时间序列数据库中找出与之最相似的序列.该问题的有效求解涉及到两个关键难点,即相似性度量的定义和搜索算法的时间复杂度,而这两者都依赖于时间序列的近似表示方法.因此,通过详细评述面向相似性搜索的各种时间序列近似表示方法,对这些方法进行分析和比较,总结了这些方法的优点和不足,并对进一步的研究方向作出了预测.
【总页数】7页(P53-59)
【作者】刘世元;江浩
【作者单位】华中科技大学机械科学与工程学院,武汉,430074;华中科技大学机械科学与工程学院,武汉,430074
【正文语种】中文
【中图分类】TP182
【相关文献】
1.基于时间序列相似性搜索的交通流短时预测方法 [J], 杨兆升;邴其春;周熙阳;马明辉;李晓文
2.基于曲率距离的时间序列相似性搜索方法 [J], 刘博宁;张建业;张鹏;王占磊
3.基于DTW的时间序列流相似性搜索方法 [J], 陶洋;李鹏亮;沈敬红;熊炫睿
4.面向噪声数据的时间序列相似性搜索研究 [J], 曹丹阳;孙宁;马楠;刘永彬
5.基于形态表示的时间序列相似性搜索 [J], 蒋嵘;李德毅
因版权原因,仅展示原文概要,查看原文内容请购买。
基于序列相似性的功能注释方法
基于序列相似性的功能注释方法序列相似性作为一种比较直观和简便的方法,广泛应用于蛋白质、DNA和RNA等生物序列的相似性比较和功能注释中。
随着高通量生物数据的快速积累,功能注释在生物信息学领域扮演着越来越重要的角色。
本文将从序列相似性的算法原理、批量比对工具和功能注释数据库三个方面,介绍基于序列相似性的功能注释方法。
一、算法原理序列相似性算法的本质是比较两个序列之间的相似性,从而推断出它们的功能关系。
在蛋白质序列中,通常采用比较两个序列之间的保守性区域的方法。
保守性区域是指这两个序列都保持不变的区域,通常是氨基酸序列中高度保守的位置,这些位置往往与蛋白质的结构和功能有关。
这种方法包括BLAST、FASTA等算法,它们使用了不同的评分函数和搜索策略,用于找出两个序列之间的最优匹配。
二、批量比对工具对于大规模的序列相似性比较,蛋白序列或DNA序列的批量比对工具是必不可少的。
这些工具可以在短时间内比较多个序列之间的相似性,识别出保守性区域,并将其用于功能注释。
目前最常用的批量比对工具包括ClustalW、MUSCLE、MAFFT等。
除了序列相似性比对之外,这些工具还提供了序列聚类、进化树构建等功能,用于更深入地研究序列之间的关系。
三、功能注释数据库功能注释数据库是将序列相似性算法与annotation信息相结合的重要手段。
通过比较新序列和已知的序列数据库中的保守性区域,可以确定新序列的功能和结构。
目前最常用的功能注释数据库包括NCBI、Uniprot、PDB等。
这些数据库提供了大量丰富的annotation信息,包括序列、结构和功能等,可用于生物学研究和化学研究。
总结序列相似性作为一种直观简便的方法,被广泛地应用于蛋白质、DNA和RNA 等生物序列的相似性比较和功能注释中。
算法的基本原理是比较保守性区域,从而推断出序列之间的相似性和功能关系。
批量比对工具可以在短时间内比较多个序列之间的相似性,识别出保守性区域,并将其用于功能注释。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
采用 了一个 中间步骤进行第一步转换 , 即首先将初始的时间序
第2 5卷第 8期
20 0 8年 8月
计 算 机 应 用 研 究
Ap l ai n Re e r h o o u e s p i t s a o 8 Au . 2 0 g 08
一
种 高效 的基 于相 似 性查 找时 间序 列 的 位 符 号化 表 示方 法 水
Ke y wor ds: tme s re i e is;d t nng;s m oi e r s n ain;smi rt e rh aa mi i y b lc r p e e tto i l iy s a c a
在 时间序列的相似性查 找问题 中, 一个难点是如何高效地 表示时间序列 。近几年 来 , 在数据挖掘和数据仓库中时间序列 扮演着越来越重要的角色。时间序列是按时间顺序排列 的、 随 时间变化且相互关联 的数据 序列 , 即时间序列 S={ 0 < S, ≤t Ⅳ} 。其中 :是时间索 引 ; t N是观察 个数 。时序数 据在 诸多 领 域中均有应用 , 如金融 市场 、 工业 过程 、 象 、 气 生物 信息 、 水文 、 工业过程 、 科学 实验等… 。 在数据挖掘 的文献 中提到 了很 多高效的时 间序列表示 方 法 , 然而关于时间序列数据进行符号化表示的问题始终没有 得到很好的解决。近十年来, 提出了很多高效的算法和数据结构, 这些算法能够对字符串进行高效 的运算 , 已经得到了很多学科 且 包括分析复杂生物资料学科的关注 ] 。针对字符串定义了很多
p s d a n v lb t e e y o i r p e e tt n c l d B AP h e rp ee tt nwa n q e i ih i a o e i n i n l y o e o e i lv l m l e r s n ai al S .T e r s n ai su i u whc t l w d d me so ai sb c o e o n l t r d c in a d i as rn e w r o n itn e me s r e n d o es mb l e rs nain h ee p r n sw s e- e u t n t log a td al e u d d s c a u ed f e n t y oi rp e e tt .T x e me t a r o o b a i h c o i p fr d o y t ei o me n s nh t c.a l a e ld t e u n e v u t h r p s d meh d swel s r a aa s q e c st e a aet e p o e to . o l o
No e i a ys mb l e r s n ain o i eisfrsmi rt v 1b n r y oi r p e e tt ftme s re o i l i c o a y
S N i u ,F U Me . y ANG in a Ja — n
(. ol eo nom tnSi c 1 Clg frai c ne&Tcnl y D nh aU i rt,Sa g a 2 12 ,C ia 2 et fCm ue, hn ogL bu e fI o e ehoo , og u nv sy hn h i 06 0 hn ; .Dp.o o p t S dn aor g ei r a
U inA miirosC lg , i n2 0 0 n d n t tr o e Jn 510,C i ) o sa l e a hn a
Ab t a t n s i ft ee a e d z n ftc n q e o rd cn i e e t ai nso e s mb l e rs n ain,t ee si sr c :I p t o r r o e so h iu sf r o u i gd f r n ra t f h y oi rp e e tt e h e p f v t c o h r t l l
ha e nok o t o oc lult h it c n t y oi p c o p o i helwe o n n u rnte T sp p rpr — v n wnme h d t a c ae te d sa e i hes m lc s a et r vdet o rb u dig g a a e . hi a e o n b
列表示 方法 B A 。该方 法既能进行 维度约 简又允许 在符号化后 的时间序 列表 示法上 定义距 离度量 。 实验 分别 SP
在 合成数 据和 实际数据上进 行 , 实验表 明该 方法具有 更高的运 算效率且 需要较 少的空 间。
关 键词 :时 间序 列 ; 数据 挖掘 ;符 号化 表示 ;相似性 查找 中图分类号 :T 3 1 P 0 文献标志码 :A 文章 编号 :10 — 6 5 20 ) 8 2 2 -4 0 13 9 ( 0 8 0 —3 8 0
孙梅玉 , 方建安
(. 1 东华 大学 信 息科 学与技 术 学院 , 上海 2 12 ; . 060 2 山东省3会 管理干部 学院 计 算机 系, 南 200 ) - - 济 5 10
摘 要 :到 目前 为止能够计 算字符化 时间序 列的距 离度量 的 方法很 少, 为此 , 出 了一种 新的 字符 化 的时 间序 提