序列模式挖掘综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2007-08-24;修回日期:2007-11-17

作者简介:陈卓,博士,主要研究方向为数据挖掘(chenzhou613@);杨炳儒,教授,博导,主要研究方向为数据挖掘、推理机制与知识发现等.

序列模式挖掘综述

陈卓,杨炳儒,宋威,宋泽锋

(北京科技大学信息工程学院,北京100083)

摘要:综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。关键词:数据挖掘;序列模式;周期模式;增量式挖掘

中图分类号:TP 311 文献标志码: A 文章编号:1001-3695(2008)07-1960-04

Sur vey of sequen tial pat ter n m inin g

CHE N Zhuo,YAN G Bing-ru,S ON G Wei,S ON G Ze-feng

(S chool of Infor mation Engineering,Beijing Univer sity of S cience &Technology,Beijing 100083,C hina)

Abst ract :This pa per prov ided a review of the res ea rch of sequential pa tt ern m ining.Firstly,introduced the ba ckground and context .S econdly,sum m a rized the genera l m et hods of sequence pa tt ern m ining,introduced and analyz ed the m os t represent ative a lg orithm to prov ide a basis for im proving old algorit hm s or developing new effect iv e ones.Fina lly,dis cussed som e future re-s ea rch t rends on t his area .

Key words:dat a m ining ;sequent ia l pat tern;periodic pa tt ern;increm enta l m ining 数据挖掘作为知识发现的核心步骤,旨在从海量数据中提取有效的、新颖的、潜在有用的、易被理解的知识。序列模式挖掘(sequent ia l pa tt ern m ining)是数据挖掘中非常重要的一个研究领域,最早是由Ra kesh Agraw al 和Ram a krishna n S rikant 在针对超市中购物篮数据的分析提出来的。序列模式挖掘是要找出序列数据库中所有超过最小支持度阈值的序列模式

[1]

。它

有着广泛的应用领域:商业组织利用序列模式挖掘去研究客户购买行为模式特征、计算生物学中序列模式挖掘用来分析不同氨基酸突变模式、用户Web 访问模式预测以及DN A 序列分析和谱分析。序列模式挖掘与关联规则挖掘在许多方面相似,但它更关心数据之间顺序的关联性。

1 序列模式挖掘任务定义

基本概念:

定义1 事务数据库(t ransaction da taba se):以超市数据为例来说明,即由顾客交易记录组成的数据库。Custom_ID 、T ra nsaction_Tim e 、It em set 分别代表顾客标志、交易时间和交易物品集合。

定义2 项集(it em s et):各个项(it em )组成的集合。定义3 序列(sequence):不同项集的有序排列。序列S 可以表示为S =〈s 1,s 2,…,s n 〉。其中:s j (1≤j ≤n )为项集,也称为序列S 的元素。

定义4 序列的元素(elem ent):表示为(x 1,x 2,…,x n )。其中:x k (1≤k ≤m )为不同的项。

定义5 序列长度:一个序列包含的所有项集的个数,长度为1的序列记为1-序列。

定义6 序列的包含:设存在两个序列α,β。其中:α=〈a 1,a 2,…,a n 〉,β=〈b 1,b 2,…,b n 〉。如果存在整数1≤j 1

定义7 支持数:序列α在序列数据库S 的支持数为序列数据库S 中包含α的序列个数。

定义8 支持度:序列的支持度是一个预先设定的阈值。定义9 频繁序列:给定最小支持度阈值,如果序列α在序列数据库中的支持数不低于该阈值,则称序列α为频繁序列。

定义10 序列模式:最大的频繁序列称为序列模式,最大序列就是不被其他任何序列所包含的序列。

Ag rawa l 等人[1]将序列模式挖掘定义为在序列数据库中挖掘那些支持数超过预先定义支持度的序列模式的过程。

2 序列模式挖掘方法

2.1 基本序列模式挖掘

大多数早期序列模式挖掘算法都是基于Agra wal 提出的关联规则挖掘算法Apriori,它的特性是频繁模式的任何子模式都是频繁的。基于这个启发,研究者提出一系列类Apriori 算法,如AprioriAll 、AprioriS om e 、Dy na m icS om e 。S rikant 等人[2]提出了GS P(generalized sequent ia l pa tt ern)方法。Zaki [3]提出了SPADE 方法。这两个方法同样是基于Apriori 的。随后学者们又提出了一系列基于数据投影的算法,它们包括韩家炜在2000年提出的F reeS pan 和Pei 在2001年提出的PrefixS pan 。Han 于2004年提出了一种结合了图模式生长和频繁计数,形成了结构模式挖掘的算法g S pa n 。L in 和Lee 于2002年提出的

第25卷第7期2008年7月计算机应用研究

Applicat ion Research of Com puters Vol.25No.7J ul.2008