基于闭合序列模式的减量挖掘算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项 目:武夷学院校科 研科技基金 资助项 目 x 009 (1 10) 2 作者简介 : 林
安全
定义5闭合频繁序列 ( )如果一个序列没有支持度与之相
同的超序列 ,且是频繁 ,那么此序 列是一个 闭合频繁序列 , 或称 闭合序列模式 ,记为 c ,即 C = aa S S {leF ,不存在 ∈
① 检查 由项 一 组成 的 2序列是否存在于 F 2中, d 一 S ’ 若 不存在执行第③步 。 ② 若存在 ,调用 P s 尸一d DB 小m n sp F S) oD ( , ’ I i—u , C ’, 判断 P —d子序列能否用该 2序 列进行扩展 ,若能则返 回。 一 ③ 更新为 P—d和 —i 2 l 1 一 … 2个模式。 d /i d * — 指长度位置在 P—d的项 i 同 ; p ,i P—d是模式 P
中 分 号 T3 ・ 圈 类 : P06 1
基于 闭合序 列模 式的减量挖掘 算 法
林 颖
( 武夷学院计算机教研室 ,福建 武夷山 34 0 ) 530
摘
要: 针对 数据库减量 时不断重复挖掘 的问题 , 已有 闭合序列模式算法 Ps * 在 oD 的基础上 , 提出一种减量挖掘算法 D P s 通过移 动 eoD 。
列和 2序列 的频繁情况会 出现 3种变化 : 一 () B 中的频繁序列变为 D 中的非频繁序列 ,如表 1 1D B’
中的<f 和<h> ( > ()。 )
() 2用 中的每个单项 ,扫描频繁 l序列集合 l 一 ,发 现相 同项 ,则该频繁 1序列的支持 数 sp sp ,更新对应 一 u = u -1
DOI 1 .9 9 .s . 0 —4 82 1.2 1 : 036 0i n1 03 2 .0 2 . 8 s 0 1 0
1 概述
序 列模 式挖掘是文献【】 出的一种重要数据挖掘 方法 , 1 提 有着广泛的应 用,常见的算法有 SA E Pexpn1 P D rf Sa[ i 3 等。 闭合序列模式挖掘则是对具有与完整频繁序 列相 同表达能力 的更精简的序 列模式进行挖掘 , 常见的算法有 Co p n 1 lS a [等。 4 由于事务数据库 的不 断变动 ,给经典的闭合序列模式挖 掘算法挖掘动态 数据 时带来很大 问题 ,因此人们 开始研究 闭 合序列模式的更新挖 掘算法 ,但大多数的研究只是针对增量 挖掘 更新 算法 。在这种现状 下,本文从事务数据库进行减 量操作 的角度出发 ,提出一种基于 闭合序列模式的减量挖掘 算法 De oD 。该算法通过对减量数据库 的扫描 ,在已有的 Ps 挖掘结果上直接进行 减量 更新 ,避免事务数据库中相 同内容 的重复挖掘。除此之外 ,该算法以闭合序列模式算法 P s 6 oD} J 的更新算法 P s 为基础 ,用频繁 2序列去更新 已有的挖 oD 一
有 3种操作方式:项减量 ,记录减量和混合减量 。
3 频繁序列的变化情况 . 2
在最小支持阈值 不变 的情况下 ,3种减量操作带来的频 繁序列变化如下 : () 1 项减量 最小支持数不变 ,减量 l序列的支持数减少 ,当其支持 一 数小于最小支持数时,就 出现 了频繁到不频繁的变化 。
小支持数 ,为频繁到不频繁 的变化 ;若支持数从小于变为大
定义 2项减量) 已有的记录中删除部分项 。 ( 在
定义 3记录减量)在事务数据库中删除整条记录。 ( 定义 4混合减量)既删除记录中的部分项,又删除事务 (
数据库 中的部分整条记录。
于最小支持数 ,为不频繁到频繁的变化 ; 支持 数仍 大于 最 若 小支持数 , 则为频繁到频繁的变化 。 () 3混合减量 除了要再计算减量项的支持数外 , 其余与记录减量相 同。
表 1 事务数据库 D B
()1 1序列 的 sp 最 小支持数 , 4 ̄ 果 一 1 u< 那么该 1序列加入至 Ⅳ1 ,否则该 1序列加入至 F 1中,同时更新 F 2中相匹配 一 S’ S’ 的频繁 2序列 的位置 时间信息 。 一 () Ⅳ1中的每个 1序列 ,扫描 F 2,将 与该 1序列匹 5对 一 S’ 一 配的频 繁 2序列移至 N 2 C ’ 2。 一 F ,F S= ’ () Ⅳl中的每个 1 列 S 6对 一 序 ,重复以下操作 ,直至 Ⅳ1
颖(98 ,女 , 17 一) 讲师 , 主研方 向: 据挖 掘 , 数 网络
收藕 日期 :2 1— ・ Ema :l —n9 @13 o 01 61 0 0 - i i y g7 6. r l ni cn
第 3卷 7
第 2 期 2
林
颖: 基于 闭合 序列模式的减量挖掘算法
6 5
频繁 2序列是 由频繁 1序列 生成 , 以,1 列频 繁变 化后, - 一 所 一 序
F , ,up r a=up rf ) S c sp o t )sp ot )。 ( ( 1
定义 6 间窗 口() w < s e , ( 时 w ) = U, > 指交易的有效时间 , U 即事件 只有在 一个 时问窗 I内发 生才被认为 是有意 义 的。 Z t
如 :时间窗 I可 以用一天、一分钟等一段时间来表示 。 : 1
当 d l时,l = 一 序列 S P的末尾位置 :P—l 在 ;
掘 的基础上 ,根据事务数据库 的最小支持数 的 2 种情况进行 减量更新 ,如表 2所示 。
表 2 减 量后的事务数据库 D ’ B
[e- 1 * - 是模式 P中长度为 P一1 的子序列 ,
当 d l时,1 > 一 序列 S P的中间位置 : 在
[ yw r s aamiig sq et l ae ;lsdsq et l aenmiig d ce na nn ;n rme tl nn ;aau dt Ke o d d t nn ;e u ni t r coe uni t r nn ; ermetl ig ice na miig d t p a I a p tn e ap t mi e
频繁和 非频繁 闭合序列集合之间 的数据 ,在原 有挖掘结 果上直接进行更新 ,减少挖掘的时间。实验结果证 明,在减量过 程中该 算法 的时间 效率与 P s oD 相比有所提 高。
关键词 :数据挖掘 ;序列模 式;闭合序列模式挖掘 ;减量挖掘 ;增量挖掘 ; 数据更新
De r m e t l i i gAl o i m s d0 o e e u n il te n c e n a n n g rt M h Ba e n Cl s d S q e ta tr Pa
为空。 (wenku.baidu.com F S中的每个频繁 闭合序列模 式 尸 重复以下操作 : 7对 C ,
1检查该模式 P中是 否存在 1 ) 一 序列 S相同的序列 。若存 D P s 算法主 要是在事务数据库 D 用 P s e oD* B oD 算法挖 在 ,则记录 l序列 S P中的长度位置 d 一 在 ,并删除序列 S ,更 新序列模 式为 :
第3 7卷 第 2 期 2
、o .7 ,13
・
计
算
机
工
程
21 0 1年 1 1月
Nov m b r 201 e e l
No2 .2
Co mpu e g n e i g trEn i e rn
软件技术与数据库 ・
文 缡 : 0 -3 8 0 ) _ 6 0 章 号 1 o. 2( 12 o 4 3 文 标 码 A o 4 2 1 0 — 献 识 :
() 录减 量 2记
2 相关概念
定义 1 ( 事务数据库减量)事务数据库删除 自身 旧的无效
数据 的操作 。
减量记录 中的各 1 一 序列 的支持数减少。最小支持数不变 时,当减量的各频繁 1序列支持数小于 最小支持数 时,为频 一
繁到不频 繁的变化 ;最小 支持数改变 时,通过 最小 支持数= 记录数x i s mn u — p计算新 的最小支持数 , 数据库中各 1 一 的 序列 支持 数与新 的最小支持数 比较。若支持 数从 大于变为小于最
LI Yi N ng (tf o f mp t , y iest, y s a 5 3 0 C ia S a Ro m o Co ue Wu i v r y Wu ih n3 4 0 , hn ) r Un i
[ b ta t miga te rbe o nn ptini ermetl nn , ae ncoe eu nil atr oD , ermetl loi m A src]Ai n th o lm f igr e t d ce namiig b sdo lsdsq et t nP s a ce na a rh p mi e io n ap e d g t
掘结果 。
3 相关问题
3 减量 问题 . 1 在实际生活中,事务数据库 中的数据随着时间的变化 而
不断发生变化 ,有新 的数据 出现 ,也有 旧的数据要删除 。假
设事务数据库 D , 除了 中的数据 ,生成新 的事务数据 B 删 库 D’ B ,这个过程 就是一个数 据库减量 过程 。其 中 ,D ’ B= D -d ,这 里称 为减量数据库。事务数据库 的减量操作 B- b
2序列 的频繁变化也 由此更新 。 一
列集合 F 2 非频繁 1 列集合 ⅣF , S, 一 序 1非频繁 2序列集合 2 一 输 出 DB 的频繁 闭合序列集合 F S ’ C’
f) S ’ F 2 1 2= S 。 F
由上述可知 ,事务数据库在 做减量操作 的过程 中,1 一 序
中长度为 P ~d的子序列 /
3 Ⅳ 1 Ⅳ 1一 S 1 =
事务数据库 的最小支持数 不变 时 ,减量操 作后序 列只会 产 生上述情况() 1和情况() 当事务数据库的最小支持数发生 2;
变化 时,减量操作后序列可能会产 生上述情况()情 况() 1~ 3。
’
4 算法描述
4 Ps* . o 算法 1 D
1 一 序列 的位置 时间信息 。
() B 中的频繁序列仍是 D ’ 2D B 中的频繁序列 ,如表 1中
的<a> ()等 。 ()、<b>
—
() 3若存在记录减量操作 , 重新计算最小支持数= 记录数×
mi s p。 n u
() B 中不频繁的序列变为 D ’ 3D B 中的频繁序列 ,如表 l 中的<e> ,2序列也是一样 ,假设 mi sp 6 %。 ()等 一 n u=0 —
o Po D i r s ntd fDe s sp e e e ,wh c a t rtme e c e c . i l o ih g t h e r s l b v n h t ewe n t e f e u n n o - ih h sbet i f i n y Th s a g rt m e s t e n w e u t y mo i g t e daa b t e h r q e ta d n n e i fe u n l s d s qu n e d r c l e r a i g a d u d tn rg na n n e u t T u a e i , r q e t o e e e c , ie t d c e sn n q a i g t o i i l c y he mi i gr s l. h si s v st t me whih h sp o e y t e e p rme . c a r v n b x e i nt h
安全
定义5闭合频繁序列 ( )如果一个序列没有支持度与之相
同的超序列 ,且是频繁 ,那么此序 列是一个 闭合频繁序列 , 或称 闭合序列模式 ,记为 c ,即 C = aa S S {leF ,不存在 ∈
① 检查 由项 一 组成 的 2序列是否存在于 F 2中, d 一 S ’ 若 不存在执行第③步 。 ② 若存在 ,调用 P s 尸一d DB 小m n sp F S) oD ( , ’ I i—u , C ’, 判断 P —d子序列能否用该 2序 列进行扩展 ,若能则返 回。 一 ③ 更新为 P—d和 —i 2 l 1 一 … 2个模式。 d /i d * — 指长度位置在 P—d的项 i 同 ; p ,i P—d是模式 P
中 分 号 T3 ・ 圈 类 : P06 1
基于 闭合序 列模 式的减量挖掘 算 法
林 颖
( 武夷学院计算机教研室 ,福建 武夷山 34 0 ) 530
摘
要: 针对 数据库减量 时不断重复挖掘 的问题 , 已有 闭合序列模式算法 Ps * 在 oD 的基础上 , 提出一种减量挖掘算法 D P s 通过移 动 eoD 。
列和 2序列 的频繁情况会 出现 3种变化 : 一 () B 中的频繁序列变为 D 中的非频繁序列 ,如表 1 1D B’
中的<f 和<h> ( > ()。 )
() 2用 中的每个单项 ,扫描频繁 l序列集合 l 一 ,发 现相 同项 ,则该频繁 1序列的支持 数 sp sp ,更新对应 一 u = u -1
DOI 1 .9 9 .s . 0 —4 82 1.2 1 : 036 0i n1 03 2 .0 2 . 8 s 0 1 0
1 概述
序 列模 式挖掘是文献【】 出的一种重要数据挖掘 方法 , 1 提 有着广泛的应 用,常见的算法有 SA E Pexpn1 P D rf Sa[ i 3 等。 闭合序列模式挖掘则是对具有与完整频繁序 列相 同表达能力 的更精简的序 列模式进行挖掘 , 常见的算法有 Co p n 1 lS a [等。 4 由于事务数据库 的不 断变动 ,给经典的闭合序列模式挖 掘算法挖掘动态 数据 时带来很大 问题 ,因此人们 开始研究 闭 合序列模式的更新挖 掘算法 ,但大多数的研究只是针对增量 挖掘 更新 算法 。在这种现状 下,本文从事务数据库进行减 量操作 的角度出发 ,提出一种基于 闭合序列模式的减量挖掘 算法 De oD 。该算法通过对减量数据库 的扫描 ,在已有的 Ps 挖掘结果上直接进行 减量 更新 ,避免事务数据库中相 同内容 的重复挖掘。除此之外 ,该算法以闭合序列模式算法 P s 6 oD} J 的更新算法 P s 为基础 ,用频繁 2序列去更新 已有的挖 oD 一
有 3种操作方式:项减量 ,记录减量和混合减量 。
3 频繁序列的变化情况 . 2
在最小支持阈值 不变 的情况下 ,3种减量操作带来的频 繁序列变化如下 : () 1 项减量 最小支持数不变 ,减量 l序列的支持数减少 ,当其支持 一 数小于最小支持数时,就 出现 了频繁到不频繁的变化 。
小支持数 ,为频繁到不频繁 的变化 ;若支持数从小于变为大
定义 2项减量) 已有的记录中删除部分项 。 ( 在
定义 3记录减量)在事务数据库中删除整条记录。 ( 定义 4混合减量)既删除记录中的部分项,又删除事务 (
数据库 中的部分整条记录。
于最小支持数 ,为不频繁到频繁的变化 ; 支持 数仍 大于 最 若 小支持数 , 则为频繁到频繁的变化 。 () 3混合减量 除了要再计算减量项的支持数外 , 其余与记录减量相 同。
表 1 事务数据库 D B
()1 1序列 的 sp 最 小支持数 , 4 ̄ 果 一 1 u< 那么该 1序列加入至 Ⅳ1 ,否则该 1序列加入至 F 1中,同时更新 F 2中相匹配 一 S’ S’ 的频繁 2序列 的位置 时间信息 。 一 () Ⅳ1中的每个 1序列 ,扫描 F 2,将 与该 1序列匹 5对 一 S’ 一 配的频 繁 2序列移至 N 2 C ’ 2。 一 F ,F S= ’ () Ⅳl中的每个 1 列 S 6对 一 序 ,重复以下操作 ,直至 Ⅳ1
颖(98 ,女 , 17 一) 讲师 , 主研方 向: 据挖 掘 , 数 网络
收藕 日期 :2 1— ・ Ema :l —n9 @13 o 01 61 0 0 - i i y g7 6. r l ni cn
第 3卷 7
第 2 期 2
林
颖: 基于 闭合 序列模式的减量挖掘算法
6 5
频繁 2序列是 由频繁 1序列 生成 , 以,1 列频 繁变 化后, - 一 所 一 序
F , ,up r a=up rf ) S c sp o t )sp ot )。 ( ( 1
定义 6 间窗 口() w < s e , ( 时 w ) = U, > 指交易的有效时间 , U 即事件 只有在 一个 时问窗 I内发 生才被认为 是有意 义 的。 Z t
如 :时间窗 I可 以用一天、一分钟等一段时间来表示 。 : 1
当 d l时,l = 一 序列 S P的末尾位置 :P—l 在 ;
掘 的基础上 ,根据事务数据库 的最小支持数 的 2 种情况进行 减量更新 ,如表 2所示 。
表 2 减 量后的事务数据库 D ’ B
[e- 1 * - 是模式 P中长度为 P一1 的子序列 ,
当 d l时,1 > 一 序列 S P的中间位置 : 在
[ yw r s aamiig sq et l ae ;lsdsq et l aenmiig d ce na nn ;n rme tl nn ;aau dt Ke o d d t nn ;e u ni t r coe uni t r nn ; ermetl ig ice na miig d t p a I a p tn e ap t mi e
频繁和 非频繁 闭合序列集合之间 的数据 ,在原 有挖掘结 果上直接进行更新 ,减少挖掘的时间。实验结果证 明,在减量过 程中该 算法 的时间 效率与 P s oD 相比有所提 高。
关键词 :数据挖掘 ;序列模 式;闭合序列模式挖掘 ;减量挖掘 ;增量挖掘 ; 数据更新
De r m e t l i i gAl o i m s d0 o e e u n il te n c e n a n n g rt M h Ba e n Cl s d S q e ta tr Pa
为空。 (wenku.baidu.com F S中的每个频繁 闭合序列模 式 尸 重复以下操作 : 7对 C ,
1检查该模式 P中是 否存在 1 ) 一 序列 S相同的序列 。若存 D P s 算法主 要是在事务数据库 D 用 P s e oD* B oD 算法挖 在 ,则记录 l序列 S P中的长度位置 d 一 在 ,并删除序列 S ,更 新序列模 式为 :
第3 7卷 第 2 期 2
、o .7 ,13
・
计
算
机
工
程
21 0 1年 1 1月
Nov m b r 201 e e l
No2 .2
Co mpu e g n e i g trEn i e rn
软件技术与数据库 ・
文 缡 : 0 -3 8 0 ) _ 6 0 章 号 1 o. 2( 12 o 4 3 文 标 码 A o 4 2 1 0 — 献 识 :
() 录减 量 2记
2 相关概念
定义 1 ( 事务数据库减量)事务数据库删除 自身 旧的无效
数据 的操作 。
减量记录 中的各 1 一 序列 的支持数减少。最小支持数不变 时,当减量的各频繁 1序列支持数小于 最小支持数 时,为频 一
繁到不频 繁的变化 ;最小 支持数改变 时,通过 最小 支持数= 记录数x i s mn u — p计算新 的最小支持数 , 数据库中各 1 一 的 序列 支持 数与新 的最小支持数 比较。若支持 数从 大于变为小于最
LI Yi N ng (tf o f mp t , y iest, y s a 5 3 0 C ia S a Ro m o Co ue Wu i v r y Wu ih n3 4 0 , hn ) r Un i
[ b ta t miga te rbe o nn ptini ermetl nn , ae ncoe eu nil atr oD , ermetl loi m A src]Ai n th o lm f igr e t d ce namiig b sdo lsdsq et t nP s a ce na a rh p mi e io n ap e d g t
掘结果 。
3 相关问题
3 减量 问题 . 1 在实际生活中,事务数据库 中的数据随着时间的变化 而
不断发生变化 ,有新 的数据 出现 ,也有 旧的数据要删除 。假
设事务数据库 D , 除了 中的数据 ,生成新 的事务数据 B 删 库 D’ B ,这个过程 就是一个数 据库减量 过程 。其 中 ,D ’ B= D -d ,这 里称 为减量数据库。事务数据库 的减量操作 B- b
2序列 的频繁变化也 由此更新 。 一
列集合 F 2 非频繁 1 列集合 ⅣF , S, 一 序 1非频繁 2序列集合 2 一 输 出 DB 的频繁 闭合序列集合 F S ’ C’
f) S ’ F 2 1 2= S 。 F
由上述可知 ,事务数据库在 做减量操作 的过程 中,1 一 序
中长度为 P ~d的子序列 /
3 Ⅳ 1 Ⅳ 1一 S 1 =
事务数据库 的最小支持数 不变 时 ,减量操 作后序 列只会 产 生上述情况() 1和情况() 当事务数据库的最小支持数发生 2;
变化 时,减量操作后序列可能会产 生上述情况()情 况() 1~ 3。
’
4 算法描述
4 Ps* . o 算法 1 D
1 一 序列 的位置 时间信息 。
() B 中的频繁序列仍是 D ’ 2D B 中的频繁序列 ,如表 1中
的<a> ()等 。 ()、<b>
—
() 3若存在记录减量操作 , 重新计算最小支持数= 记录数×
mi s p。 n u
() B 中不频繁的序列变为 D ’ 3D B 中的频繁序列 ,如表 l 中的<e> ,2序列也是一样 ,假设 mi sp 6 %。 ()等 一 n u=0 —
o Po D i r s ntd fDe s sp e e e ,wh c a t rtme e c e c . i l o ih g t h e r s l b v n h t ewe n t e f e u n n o - ih h sbet i f i n y Th s a g rt m e s t e n w e u t y mo i g t e daa b t e h r q e ta d n n e i fe u n l s d s qu n e d r c l e r a i g a d u d tn rg na n n e u t T u a e i , r q e t o e e e c , ie t d c e sn n q a i g t o i i l c y he mi i gr s l. h si s v st t me whih h sp o e y t e e p rme . c a r v n b x e i nt h