数据挖掘中适用于分类的时序数据特征提取方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
g ie ie fc o sngs i bl au ee ta to p r a h i u g se ud l so h o i ut ef t x rc in a p o c ss g e td. n a e
Ke r s t r s ca s c t n fau ee ta t n ywo d : i s i ; ls i ai ; e t r x r c i me e e i f o o
计 算 机 系 统 应 用
ht:w w. S . g I t / w c - o ." p/ — a r C1
21 0 2年 第 2 卷 第 l 期 l O
数据挖掘中适用于分类的时序数据特征提取方法①
林 珠 。邢 延
( 广东省计算中心, 广州 5 0 3 ) 10 3 ( 广东工业大学 自动化学院, 广州 50 0 ) 10 6
类 的特征提取方法,进一步研 究了它相应的分类方法和它在时间序列数据 中的应用邻域.
关键词:时序数据;分类; 特征提取
Su v y o a ur t a to pr a he o m eSe i sCl s i c to r e fFe t eEx r c i n Ap o c sf rTi r e a sf a i n i
LI Zh XI N u , NG Ya 2 h
( un dn o ue C ne, u n zo 10 3 C ia O ag o gC mp t e t G a gh u5 0 3 , hn ) r r ( un dn i ri f eh ooy G ag h u5 0 0 , h a O ag o g v syo T cn lg, u n zo 10 6 C i ) Un e t n
A s at T em i cnr ui s f hs ae r. ) h i fa r xr t napoce r l s e t u bt c: h a o tbt n i pp r e 1 T e n et e t ci p rah s ec s f di of r r n i o ot a" ma u e a o a ai i n o
时间序列 除了具有 的趋 势性、季节性 、周期性等
一
是指 同一种现象在不 同时间上的相继观察值排列而成 的一组数字 序列, 时间轴上的采样值通 常又被称 为 其
特 征t.时序 数据 普遍存在 于许 多重要应 用 邻域,比 ”
如 D A序列 、 融数据 、 N 金 传感器 网络监控数据 、移动
类 型,依据在机器运转过程 中进行故障检 测和识别 故
障类 型, 甚至在客户关系管理 中根据某段时间的客户
间;心电信 号则具有 很强的周期性,它 的主要特 征是
① 基 金项 目: 东省科 技计 划项 目基金 (0 00 00 92 1B 94 04 ,0 0 430 0 ) 广 2 1B 6 50 4 ,00 0 00 55 2 1A00 006 I 收 稿时 间:020 -6收 到修 改稿时 间:020 -4 2 1-20 ; 2 1-30
摘
要: 征提取在提高 分类 的准确性 中起着非常关键 的作用. 时序特征提取 的方法进 行归纳分类, 特 对 将有 利于
对特征提取整体性,全面性的认 识.回顾现有 的时间序列 中特征提取的方法, 将其 总结为 四大类 , 它们分别 是基
于基本统计方法的特 征提取 、基于模型的特 征提取、基于变换的特征提取 、基于分形 维数的特征提取.针对 每一
2 4 专 论・ 述 Seilsu 2 综 pc se aI
21 0 2年 第 2 卷 第 1 l O期
h pH wwcSa r. R :w . —. gc - o n
计 算 机 系 统 应 用
低 电压(. l ) 电流(2 A , 复频率 低,每个 0 ~ mV ,小 8 1u ) 重 波段具有 各 自的频率.针对 时序数据 的这些特 征。所 选 择的特征提取方法应 该能提 取出时间序列 中具 有较 好分类能 力特 征, 行特征提 取后的特征矢量 能够 很 进 好地代表原有 的 时间序 列数据, 样才能取得 良好 的 这
ctg r s 2 h a e f ahctg r n lzd te d at e n i da t e r o t u; ) h aeoi ; )T em i i ao c a oyi a a e ,h vna s dds v na s ep i e o t3 T e e nd e e s y a g a a g a nd
对像跟踪数 据、机器故障检测数据等 等.由于时序数
据与时 间相关联,因而其数据量一般都 是非常庞大的,
这就对 时序数据 挖掘技术提 出 了更高 的要求 I Z J 时 .在 序数据挖掘 的研究与应用领域,时序数据 分类是重要 任务之一l 例 如,依据语音信 号的波形 识别出说话 J . 人的性别和年 龄, 依据心 电图的时序波形 识别 出病 者
所患 的病 症,依据地 震波 的历史数 据,去识 别地震 的
般特 征之外,不 同的时序 数据又存在不 同的个 别特
征.如金融数据,普遍具有“ 高峰厚尾” 平方序列 微 和“ 弱 而持续 的 自相 关” 的特 点:而地震波 则具有 强度 随 时序延 伸而减弱 的特 点:语音信号幅度具有一 定的范 围, 以零幅和近 零幅 的概 率高,而且 长时 问的语音 并 信 号会 有相当多 的无 信号区 间,即所谓的语音寂 静区
l 引言
时序数据(me ei a ) t r s t 广泛存在 于现实生活 中, i s e da
购 买信息, 识别 不同的消费群 体等等. 衡量 分类 技术优劣 的核心指标是分类准确 率,而 提 高分类准确 率途径有 两种 : 一是 改进分类器 :二是
采用特 征提取 技术( a r xr t n. 征提取 是在 f t e et ci ) 特 eu a o 分类 前对数据 时间采 样值上进行适量 的归约,以达到 减 少数据 量 同时提 高分类 准确 率( 线是 不牺 牲分 类 底 准确率) 目的. 的
Ke r s t r s ca s c t n fau ee ta t n ywo d : i s i ; ls i ai ; e t r x r c i me e e i f o o
计 算 机 系 统 应 用
ht:w w. S . g I t / w c - o ." p/ — a r C1
21 0 2年 第 2 卷 第 l 期 l O
数据挖掘中适用于分类的时序数据特征提取方法①
林 珠 。邢 延
( 广东省计算中心, 广州 5 0 3 ) 10 3 ( 广东工业大学 自动化学院, 广州 50 0 ) 10 6
类 的特征提取方法,进一步研 究了它相应的分类方法和它在时间序列数据 中的应用邻域.
关键词:时序数据;分类; 特征提取
Su v y o a ur t a to pr a he o m eSe i sCl s i c to r e fFe t eEx r c i n Ap o c sf rTi r e a sf a i n i
LI Zh XI N u , NG Ya 2 h
( un dn o ue C ne, u n zo 10 3 C ia O ag o gC mp t e t G a gh u5 0 3 , hn ) r r ( un dn i ri f eh ooy G ag h u5 0 0 , h a O ag o g v syo T cn lg, u n zo 10 6 C i ) Un e t n
A s at T em i cnr ui s f hs ae r. ) h i fa r xr t napoce r l s e t u bt c: h a o tbt n i pp r e 1 T e n et e t ci p rah s ec s f di of r r n i o ot a" ma u e a o a ai i n o
时间序列 除了具有 的趋 势性、季节性 、周期性等
一
是指 同一种现象在不 同时间上的相继观察值排列而成 的一组数字 序列, 时间轴上的采样值通 常又被称 为 其
特 征t.时序 数据 普遍存在 于许 多重要应 用 邻域,比 ”
如 D A序列 、 融数据 、 N 金 传感器 网络监控数据 、移动
类 型,依据在机器运转过程 中进行故障检 测和识别 故
障类 型, 甚至在客户关系管理 中根据某段时间的客户
间;心电信 号则具有 很强的周期性,它 的主要特 征是
① 基 金项 目: 东省科 技计 划项 目基金 (0 00 00 92 1B 94 04 ,0 0 430 0 ) 广 2 1B 6 50 4 ,00 0 00 55 2 1A00 006 I 收 稿时 间:020 -6收 到修 改稿时 间:020 -4 2 1-20 ; 2 1-30
摘
要: 征提取在提高 分类 的准确性 中起着非常关键 的作用. 时序特征提取 的方法进 行归纳分类, 特 对 将有 利于
对特征提取整体性,全面性的认 识.回顾现有 的时间序列 中特征提取的方法, 将其 总结为 四大类 , 它们分别 是基
于基本统计方法的特 征提取 、基于模型的特 征提取、基于变换的特征提取 、基于分形 维数的特征提取.针对 每一
2 4 专 论・ 述 Seilsu 2 综 pc se aI
21 0 2年 第 2 卷 第 1 l O期
h pH wwcSa r. R :w . —. gc - o n
计 算 机 系 统 应 用
低 电压(. l ) 电流(2 A , 复频率 低,每个 0 ~ mV ,小 8 1u ) 重 波段具有 各 自的频率.针对 时序数据 的这些特 征。所 选 择的特征提取方法应 该能提 取出时间序列 中具 有较 好分类能 力特 征, 行特征提 取后的特征矢量 能够 很 进 好地代表原有 的 时间序 列数据, 样才能取得 良好 的 这
ctg r s 2 h a e f ahctg r n lzd te d at e n i da t e r o t u; ) h aeoi ; )T em i i ao c a oyi a a e ,h vna s dds v na s ep i e o t3 T e e nd e e s y a g a a g a nd
对像跟踪数 据、机器故障检测数据等 等.由于时序数
据与时 间相关联,因而其数据量一般都 是非常庞大的,
这就对 时序数据 挖掘技术提 出 了更高 的要求 I Z J 时 .在 序数据挖掘 的研究与应用领域,时序数据 分类是重要 任务之一l 例 如,依据语音信 号的波形 识别出说话 J . 人的性别和年 龄, 依据心 电图的时序波形 识别 出病 者
所患 的病 症,依据地 震波 的历史数 据,去识 别地震 的
般特 征之外,不 同的时序 数据又存在不 同的个 别特
征.如金融数据,普遍具有“ 高峰厚尾” 平方序列 微 和“ 弱 而持续 的 自相 关” 的特 点:而地震波 则具有 强度 随 时序延 伸而减弱 的特 点:语音信号幅度具有一 定的范 围, 以零幅和近 零幅 的概 率高,而且 长时 问的语音 并 信 号会 有相当多 的无 信号区 间,即所谓的语音寂 静区
l 引言
时序数据(me ei a ) t r s t 广泛存在 于现实生活 中, i s e da
购 买信息, 识别 不同的消费群 体等等. 衡量 分类 技术优劣 的核心指标是分类准确 率,而 提 高分类准确 率途径有 两种 : 一是 改进分类器 :二是
采用特 征提取 技术( a r xr t n. 征提取 是在 f t e et ci ) 特 eu a o 分类 前对数据 时间采 样值上进行适量 的归约,以达到 减 少数据 量 同时提 高分类 准确 率( 线是 不牺 牲分 类 底 准确率) 目的. 的