序列模式挖掘综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

序列模式挖掘阶段
•排序阶段 •发现频繁项集阶段 •转换阶段 •序列阶段 •最大阶段
交易发生的时间 客户标识
购买项
June 10’04 June 12’04 June 15’04 June 20’04 June 25’04 June 25’04 June 25’04 June 30’04 June 30’04 July 25’04
由客户标识及交易发生的时间为关键字所排序的数据库
客户 号 1 2 3 4 5
客户序列
频繁项 集 (C) (D) (G) (DG) (H)
映射
< (C) (H) > < (A,B) (C) (D,F,G) > < (C,E,G) > < (C) (D,G) (H) > < (H) >
1 2 3 4 5
序列支持度
定义3(支持度):序列数据库D是元组<sid, S>的集合,sid为序列标识号,如果序列T是 S的子序列(即TS)称元组<sid,S>包含序 列T;则序列T在序列数据库D中的支持度是 数据库中包含T的元组数,即supportD(T)= |{<sid,S>|<sid,S>DTS }|记作 support(T)。
频繁序列模式


定义4(频繁序列模式):给定正整数 为支持 度阈值,如果数据库中最少有 个元组包含序 列 S ,即 support ( S ) >= ,则称序列 S 为序列 数据库D中的一个(频繁)序列模式。 长度为l 的序列模式称为l –模式。 序列模式挖掘的任务就是找出数据库中所有的 序列模式,即那些在序列集合中出现频率超过 最小支持度(用户指定最小支持度阈值)的子 序列。

序列关联规则
定义5: (序列关联规则)对于给定 的项集I={i1i2…im}以及序列S,T, 形如ST的表达式称为序列关联规则。
序列关联规则
支持度
置信度
序列关联规则ST的置信度 序列关联规则 S T 的支持度 记为(),是支持序列S和T 是支持序列S和T的顾客数占 的顾客数与仅支持S的顾客数 总顾客数之比。 之比。
L1
1-序列 支持度
L2
2-序列 支持度
<1> <2> <3>
4 2 4
<4>
<5>
4
4
<1 <1 <1 <1 <2 <2 <3 <3 <4
2> 3> 4> 5> 3> 4> 4> 5> 5>
2 4 3 3 2 2 3 2 2
AprioriAll算法
L3
3-序列 支持度
L4
<1 2 3>
2
<1 2 4>
<1 3 4> <1 3 5> <2 3 4>
2
3 2 2
4-序列
支持度
<1 2 3 4>
2
AprioriAll算法
最大的频繁序列
序列 支持度
<1 2 3 4> <1 3 5> <4 5>
2 2 2
AprioriSome算法
• 基本思想: • 算法分为两个阶段: • 前阶段:只对一定长度的序列计数 • --next(k)函数 即Ck生成Lk • 后阶段: • 对前阶段已确定的Lk确定为最大序列 • 对前阶段没有生成Lk,先删除所有在Ck 中包含在Li中的序列,再对Ck计数生成Lk。


报告人:熊

内容概要
基本概念
类Apriori生成候选算法 FreeSpan算法,PrefixSpan算法
相似性搜索
其他
第6章


6.1 6.2 6.3 6.4
基本概念 原 理 核心算法 其 他



序列是不同项集的有序排列。

定义1(序列):I={i1i2…im}是项集,ik (1<=k<=m)是一个项,序列S记为S=<s1s2…sn>, 其中sj(1<=j<=n)为项集(也称序列S的元素), 即sjI。每个元素由不同项组成。序列的元素可 表示为(i1i2…ik),若一个序列只有一个项,则 括号可以省略。 序列包含的所有项的个数称为序列的长度。长度 为l 的序列记为l -序列。




;ti1ti2…tim>是另一个 序列 S = <s1s2…sn> 的子序列,满足下面条件: 对于每一个 j , 1<=j<=m-1 ,有 ij<ij+1 且 对于 每一个j,1<=j<=m,存在1<=k<=n,使得tijsk。 即序列 S 包含序列 T 。用符号“ ”表示“被包 含于”,序列 T 是序列 S 的子序列可记为 TS 。 称T为S的子序列,S为T的超序列。 若一个序列S不包含在任何其他的序列之中,则 称序列S是最大的。
AprioriSome算法

FreeSpan,PrefixSpan算法
AprioriAll算法
• 基本思想
AprioriAll算法
客户号 客户序列
1 2 3 4 5
<{1 5}{2}{3}{4}> <{1}{3}{4}{3 5}> <{1}{2}{3}{4}> <{1}{3}{5}> <{4}{5}>
AprioriAll算法
2 5 2 2 4 3 1 1 4 4
A,B H C D,F,G C C,E,G C H D,G H
排序阶段
客户标识 1 1 2 2 2 3 4 4 4 5 交易时间 June 25’04 June 30’04 June 10’04 June 15’04 June 20’04 June 25’04 June 25’04 June 30’04 July 25’04 June 12’04 购买项 C H A,B C D,F,G C,E,G C D,G H H
<{1}{2,3,4}>
3
<{(C),(G)}>
<{1,3}>
4
5
< (C) (D,G) (H) > < (H) >
<{(C)}{(D),(G),(D,G)}{( H)}>
<{(H)}>
<{1}{2,3,4}{5 }>
<{5}>
转换后的数据库(客户序列)
核心算法
•序列阶段
•最大阶段
• AprioriAll, AprioriSome算法
频繁项集分别是(C)、(D)、(G)、(D,G)和(H)
客户序列描述数据库
发现频繁项集阶段
转换阶段
客户标识 原始客户序列 转换后客户序列 映射后序列
1
< (C) (H) >
<{(C)}{(H)}>
<{1}{5}>
2
< (A,B) (C) (D,F,G) >
< (C,E,G) >
<{(C)}{(D),(G),(D,G)}>
相关文档
最新文档