基于特征模式提取的时间序列分类系统方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于特征模式提取的时间序列分类系 统
系统构成:
时间序列数据 子序列
代表性序列 特征模式 创建决策树
加窗
聚类
TF/ IDF
DTW &GA
对时间序列加窗
滑动窗 窗的长度为20个数据
基于特征模式提取的时间序列分类系 统
系统构成:
时间序列数据 子序列
代表性序列 特征模式 创建决策树
加窗
聚类
Classification System for Time Series Data Based on Feature PatternExtraction
基于特征模式提取的时间序列分类系统 Hiroshi Sugimura , Kazunori Matsumoto
引言
• 文献1:将频率模式作为特 征模式,但很多情况下频 率与感兴趣对象不相关
聚类
(转载)K均值法的步骤: 选取聚类数目K 选择一个含有随机选择样本的K个类的初始分
区,然后计算这些类的质心。 通过将样本分配给与其质心距离最近的类生成
一个新分区。 重新计算新类的质心。 重复前两部的过程直到满足收敛标准
基于特征模式提取的时间序列分类系 统
系统构成:
信息增益比定义为:
遗传算法GA-选择
• 采用轮转法 轮转法步骤:
1.对群体成员的适应度累加求和,记为n 2.在0-n间产生一个随机数 3.返回第一个累加值大于该随机数的群体
成员
遗传算法GA-复制
• 复制(繁殖) 通过交换和变异产生产生新一代
(转载)GA的流程图 http://baike.baidu.com/view/45853.htm
• (转载)注:假设测试和参考模板分别用T和R表示,为了比较它 们之间的相似度,可以计算它们之间的距离 D[T,R],距离越 小则相似度越高
分类-步骤
1.基于特征模式制作分类器 2.评价分类器 3.改进特征模式
决策树学习
遗传算法GA-基因表达
• 基因表达(基因与特征模式相关联) 一个特征模式可用一组数值表示
遗传算法GA-适应度函数
适应度函数(该系统利用信息增益比评价基因)
T为k个训练实例的一个序列,T属于类Cj,识别T中一个实例所属类别所需的信息量为:
给予测试X的结果T分为n个子集,类似所需的信息量为:
通过划分T和测试X一致部分,所获得的信息:
遗传算法GA-适应度函数
适应度函数
增益的准则偏向于高频数据,为了改进这一问题,对 信息增益规范化
• 文献2:基于背景知识,通 过可 视化查询语言获得相 似模式
• 文献3:SVM分类(分类难 以理解)
• 文献4:聚类法(一个用户难 以确认所有的提取集群)
• 文献6:提取了一种决策树 方法
基于特征模式提取的时间序列分类系统
系统特点:获取特征模式和分类时不需 要使用者具备背景知识
研究目的:通过提取特征模式获取每个 数据的特征
知识回顾 Knowledge Review
代表性序列 特征模式 创建决策树
加窗
聚类
TF/ IDF
DTW &GA
动态时间规整(DTW)
• DTW用于计算两个序 列之间的距离,获取 两个序列采样点之间 的最优化路线
• 一个计算两序列距离 的简单方法是对他们 中的一个进行重复取 样,然后一个样本一 个样本的比较
wk.baidu.com
DTW
两个不等长的两个时间序列长度为:i, j
TF/ IDF
DTW &GA
聚类
采用K均值聚类法 聚类准则:每个数据与质心的距离(即类内误 差) D( p, q) 为数据 p 和数据 q 之间的距离 c j 为包含 xi( j) 的子集的C j 质心
整个聚类空间的误差为:
kN
Err(X )
D(xi( j) , c j )
j 1 i1
D(
xi
,
y
j 1
)
q
它们的相似度函数 D(xi , y j )
为:
D(xi , y j ) D(xi1, y j1) minD(xi1, y j ) r D(xi1, y j1) s
xi1, y j 1 为序列最新的移除值
q, r 为序列减小和拓展的序列数 s 为距离值
实验结果
• 利用金融股票价格数据来测试该方法
20genes时准确性大大提高,GA法改进后准确性更高
(转载)遗传过程
(转载)轮转法(适应度比例法)
用适应度比例法进行选择时,首先计算每个染色体的适应 度,然后按比例于各染色体适应度的概率进入交换(匹 配)集的染色体,其具体步骤如下:
1. 计算每个染色体的适应度值f(xi); 2. 累加所有染色体的适应度值,得最终累加值SUM= ,
记录对应于每个染色体的中间累加值g(xi); 3. 产生一个随机数N,0<N<SUM; 4. 选择其对应的中间累加值满足g(xi-1)<N<= g(xi)的染色
体进入交换集。 5. 重复(3),(4),直到交换集中包含足够多的染色
体数字串为止。 重复上述过程,直到交换集中包含足够多的染色体为止。
http://szy961124.blog.163.com/blog/static/1323466742011111111758295/
tf (wi , tk ) 为词在该文档中出现的次数
TF/IDF
• 在文档挖掘中,TF/IDF被公认为 一种重要的统计测量方法
• 在数据库中广泛存在的特征模式是对分 类来说是不重要的
• 认为序列为文档,则其子序列可视为短 句(term)
基于特征模式提取的时间序列分类系 统
系统构成:
时间序列数据 子序列
时间序列数据 子序列
代表性序列 特征模式 创建决策树
加窗
聚类
TF/ IDF
DTW &GA
TF/IDF
逆文本频率指数:
N idf (wi ) log( n )
N 为文档总数目
n 为单词 wi 至少出现一次的文档数目
TF / IDF 权重定义为:TF * IDF (wi,tk ) tf (wi,tk )*idf (wi )