序列模式挖掘算法的分析秦晓薇

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要:序列模式挖掘是数据挖掘研究的一个重要课题,用于从序列数据库中发现相对时间或者其他顺序所出现的高频 率子序列.首先给出序列模式挖掘的相关定义,然后介绍了四种序列模式挖掘算法,并对其特点进行分析总结,最后指出未来 的研究方向.
关键词:数据挖掘;序列模式挖掘;挖掘算法 中图分类号:TP301.6 文献标识码:A 文章编号:1673- 260X(2012)01- 0034- 03
在 HVSM 算法中,以序列中项集的个数定义为序列的 长度,将支持度大于给定最小支持度的序列长度为 k 的序 列称为 k 大序列,即频繁 k 序列,项集中项的个数为 k 的一 大序列称为一大序列 k 项集,即 k 大项集.
HVSM 算法先横向扩展项集,将挖掘出的所有大项集 组成 1 大序列项集,即频繁 1 序列,再纵向扩展序列,将每 个 1 大序列项集作为“集成块”,在挖掘频繁 k 序列时重用 大项集,并将序列中项集的个数定义为序列长度,从而扩大 了序列模式的粒度,提高了挖掘速度.
定义 3 序列(sequence):项集(itemset)的有序排列.序 列 S 可表示为 <s1,s2,…,sn>,其中(1≤j≤n)为项集,也称为序 列 S 的元素.
定 义 4 序列的包含:给定两个序列 A,B.其中,A=<a1, a2,…An>,B=<b1,b2,…,bm>,如果存在整数 1≤j1<j2<…<jn≤m,
定义 12 后缀:序列 A 关于子序列 B=<a1,a2,…,am-1,a'm> 的投影为 A'=<a1,a2,…,an>(n≥m),则序列 A 关于子序列 B 的后缀为 <a"m,am+1,…,an>,其中 a"m=(am- a'm).例如,序列 A=< (ab)(acd)(cdfe)> 关于子序列 B=<(b)> 的后缀为 <(acd)(cdfe)>.
第 28 卷 第 1 期(上) 2012 年 1 月
赤 峰 学 院 学 报( 自 然 科 学 版 ) Journal of Chifeng University(Natural Science Edition)
Vol. 28 No. 1 Jan. 2012
序列模式挖掘算法的分析
秦晓薇,刘 燕
(赤峰学院,内蒙古 赤峰 024000)
定义 7 支持度:序列的支持度是一个预先设定的阈 值.
定义 8 频繁序列:给定最小支持度阈值,如果序列 A 在序列数据库中的支持数不低于该阈值, 则称序列 A 为 频繁序列.
定义 9 序列模式:最大的频繁序列称为序列模式,最 大序列就是不被其他任何序列所包含的序列.
定义 10 前缀:设每个项集中的所有项按照字典序排 列,给定序列 A=<a1,a2,…,an>,A'=<a'1,a'2,…a'm>(m≤n),如果 a'i=a(i i≤m- 1),a'm哿am,并且(am- a'm)中的项均在 a'm 中项的 后面,则称 A' 是 A 的前缀.例如序列 <(ab)> 是序列 <(abd) (acd)> 的一个前缀.
定义 13 投影数据库:设 A 为序列数据库 SD 中的一 个序列模式,则 A 的投影数据库为 SD 中所有以 A 为前缀
基 金 项 目 :内 蒙 古 自 治 区 高 等 院 校 科 研 项 目 资 助 (NJSD|A. 3 序列模式挖掘算法 3.1 HVSM 算法
使得 a1哿bj1,a2哿bj2,…,an哿bjn,则称序列 A 是 B 的子序列,又 称 B 序列包含 A,记为 A哿B.
定 义 5 序列长度:一个序列包含的项集的个数,长度 为 l 的序列记为 l- 序列.
定义 6 支持数:序列 A 在序列数据库 SD 的支持数为 序列数据库 SD 中包含 A 的序列个数.
定 义 11 投影:给定序列 A 和 B,如果 B 是 A 的子序 列,则 A 关于 B 的投影 A' 必须满足 B 是 A' 的前缀,A' 是 A 的满足上述条件的最大子序列.例如,序列 A=<(ab)(acd)(cdfe) >,B=< (b)> 是 A 的一个子序列,那么,B 关于 A 的投影是 A'=<(b)(acd)(cdfe)>.
在对长序列模式挖掘时,SPAM 算法实施了有效支持度 计数与数据库垂直数位映象的表示方法相结合的搜索策 略,但每次序列扩展只增加一个项,使得算法效率受到影响. 基于大项集重用的序列模式挖掘算法[2(] HVSM 算法)是对 SPAM 算法的改进,该算法增加了序列模式的挖掘粒度,克 服了 SPAM 算法的缺点,对于大规模事务数据库有效地提 高了挖掘效率.
1 引言 数据挖掘是从大量的数据中提取未知的、有效的和可
操作的知识,并为企业决策提供支持.序列模式挖掘是数据 挖掘的一个重要分支,用于提取有序集合中超过用户最小 支持度的频繁子序列[1],广泛应用在 Web 访问模式分析、顾 客购买行为分析、疾病的早期诊断、DNA 序列分析、自然灾 害的预测等方面.目前,大多数序列模式挖掘算法是基于关 联规则算法 Apriori 的原理,即频繁模式的任何非空子模式 都是频繁的.早期的挖掘算法 AprioriAll、AprioriSome 和 DynamicSome 是类 Apriori 算法,GSP 则是一种基于 Apriori 的 水平格式挖掘算法,这些算法都是基于 Apriori 的改进算法, 后来出现了基于垂直格式的挖掘算法 SPADE、基于投影的 模式增长算法 FreeSpan、对 FreeSpan 的改进算法 PrefixSpan、基于正则表达式约束的挖掘算法 SPIRIT 等.本文介绍 四种序列模式挖掘算法,这些算法在性能和效率方面都有 很大的提高,并对其进行分析和总结. 2 序列模式挖掘相关定义
定 义 1 事务数据库(transaction database):以超市数据 为例, 即由顾客交易记录组成的数据库. 每条交易记录都 包 括 顾 客 标 志(custom_id)、交 易 时 间(transaction_time)、交 易物品(itemset).
定义 2 项集(itemset):由项(item)组成的非空集合.项 集 i 可以表示为(i1,i2,…,im),其中(1≤j≤m)为项,也称为项集 i 的元素.
相关文档
最新文档