时间序列和序列模式挖掘-Read

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6.1 时间序列及其应用
• 时间序列挖掘就是从大量的时间序列数据中提取人民事先不知道的、 但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期 或长期预测,指导人们的社会、经济、军事和生活等行为 • 时间序列的研究必须依据合适的理论和技术进行,相应的建模方法也 不同:
– 一元时间序列:
可以通过单变量随机过程的观察获得规律性信息;
Hale Waihona Puke URL调用序列<(a)(b,c)(d)> <(b)(c)(d,e)> <(a,b)(d)>
x t i x t i j a t j a t
i 1 j 1 n m
6.3 基于ARMA模型的序列匹配方法(cont.)
• AR模型(自回归模型)
xt i xt i a t
i 1 n
• MA模型(m阶滑动平均模型)
xt a t j a t j
数据源的形式
1、带交易时间的交易数据库
交易记录包含客户号、交易时间及交易中购买的项
客户号 1 1 2 2 2 3 4 4 交易时间 June 25’99 June 30’99 June 10’99 June 15’99 June 20’99 June 25’99 June 25’99 June 30’99 物品 30 90 10,20 30 40,60,70 30,50,70 30 40,70
23
14 4 24 5 81 62
9
-1
04:01:10:40
16
数据源的形式(cont.)
3、Web日志
Web服务器中的日志文件记录了用户访问信息,包括IP地址、访 问时间、URL以及访问方式等。考察用户的调用顺序并从中发 现规律,可为改善站点设计和提高系统安全性提供重要依据
IP地址
192.168.120.10 192.168.120.20 192.168.120.30
4
5
July 25’99
June 12’99
90
90
数据源的形式(cont.)
数据源进行形式化整理,将一个顾客的交易按交易时间排序 成项目集
客户号 1 2 3 4 5 物品 <(30)> <(10,20)(30)(40,60,70> <(30,50,70)> <(30)(40,70)(90)> <(90)>
j 1 m
利用基本概念建立模型
• 对于AR模型,有
xt 1 xt 1 2 xt 2 n xt n at
可用以下线性方程组表示:
xn1 1 xn 2 xn1 n x1 an1
xn2 1 xn1 2 xn n x2 an2
– 对于平稳变化特征的时间序列,其未来行为与现在的行为有关, 利用属性现在的值预测将来的值是可行的
– 一种更科学的评价方法:将数据的变动看成是长期趋势、季节变 动和随机型变动共同作用的结果
• 长期变动:岁时间变化的、按照某种规则稳步增长、下降或保持在某 一水平上的规律; • 季节变动:在一定时间内的周期性变化规律 • 随机型变动:不可控的偶然因素等
第六章 时间序列和序列模式挖掘
信息与计算科学系 2009年4月
概述
• 时间序列:
将某一指标在不同时间上的不同数值,按照时间的先后 顺序排列而成的数列
• 时间序列挖掘
通过研究信息的时间特性,深入洞悉事务进化的机制, 成为获得知识的有效途径
• 序列挖掘挖掘
从序列数据库中发现相对时间或其它顺序所出现的高频 率子序列
x N 1 x N 1 2 x N 2 n x N n a N

或写为 y x a T 1 T 参数矩阵可用最小二乘法计算 ( x x) x y
6.6 序列挖掘
• 基本概念
定义6-3 一个序列是项集的有序表,记为a=a1a2…an,其中每个 ai是一个项集。一个序列的长度是它所包含的项集。具有k长度的 序列称为k-序列
定义6-4 设序列a=a1a2…an,序列β=β1β2…βn。若存在整 a j , ij 数i1<i2<…<in,使得 j=1,…,n ,则称序列a是序列β的子序 列。在一组序列中,若某序列a不包含在其他任何序列中,则称a 是该组中最长序列 例:<(3)(4,5)(8)>是<(7)(3,8)(9)(4,5,6)(8)>的子序列,但<(3)(5)> 不是<(3,5)>的子序列,同样,<(3,5)>也不是<(3)(5)>的子序列 定义6-5 给定序列S,序列数据库DT,序列S的支持度是指S在DT中 相对于整个数据库元组而言所包含S的元组出现的百分比。支持度 大于最小支持度的k-序列,称为DT上的频繁k-序列
数据源的形式(cont.)
2、系统调用日志
操作系统及其系统进程调用时评价系统安全性的一个重要方面。 通过对正常调用序列的学习,可预测随后发生的系统调用序列, 发现异常的调用
进程号 调用时间 调用号
744
744 1069 9 1069 744 1069
04:01:10:30
04:01:10:32 04:01:10:35 04:01:10:36 04:01:10:37 04:01:10:38 04:01:10:39
时间序列分析就是设法消除随机型波动、分解季节性变化、拟合确 定型趋势
确定性时间序列预测技术可以控制时间序列变动的基本样式
6.3 基于ARMA模型的序列匹配方法
• 基本概念
– ARMA模型
对于平稳、正态、零均值的时序X={xt|t=0,1, …,n-1}, 若X在t时刻的取值不仅与其前n步的各个值xt-1,xt2 ,…, xt-n有关,且还与前m步的各个干扰at-1,at-2,…, at-m有关,则按多元线性回归的思想,得到最一般的 ARMA(n,m)模型:
– 多元时间序列:
通过多变量描述变化规律
– 离散型时间序列:
序列中的每一个序列值所对应的时间参数为间断点
– 连续型时间序列:
序列中的每个序列值所对应的时间参数为连续函数
– 序列的分布规律:
序列的统计特征可表现平稳或有规律震荡,从而为序列分析提供理论根据
6.2 时间序列预测的常用方法
• 确定性时间序列预测方法
相关文档
最新文档