数据挖掘序列模式算法共93页PPT资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
09.06.2020
4
问题定义
项集(Itemset)是所有在序列数据库出现过的单 项组成的集合
例:对一个用户购买记录的序列数据库来说, 项集包含用户购买的所有商品,一种商品就是 一个单项。通常每个单项有一个唯一的ID,在 数据库中记录的是单项的ID。
09.06.2020
5
问题定义
▪ 元素(Element)可表示为(x1x2…xm), xk(1 <= k <= m)为不同的单项。元素内的单项不考虑顺 序关系,一般默认按照ID的字典序排列.
问题 数据集 关注点
序列模式挖掘 关联规则挖掘
序列数据库 事务数据库
单项间在同一 单项间在同一 事务内以及事 事务内的关系 务间的关系
09.06.2020
12
二、序列模式挖掘的应用背景
应用领域: ▪ 客户购买行为模式预测 ▪ Web访问模式预测 ▪ 疾病诊断 ▪ 自然灾害预测 ▪ DNA序列分析
09.06.2020
2
事务数据库实例
例:一个事务数据库,一个事务代表一笔交易,一个 单项代表交易的商品,单项属性中的数字记录的是商 品ID
09.06.2020
3
序列数据库
一般为了方便处理,需要把数据库转化为序列 数据库。方法是把用户ID相同的记录合并,有 时每个事务的发生时间可以忽略,仅保持事务 间的偏序关系。
09.06.2020
7
例:一条序列<(10,20)30(40,60,70)>有3个元 素,分别是(10 20),30,(40 60 70 );
3个事务的发生时间是由前到后。这条 序列是一个6-序列。
09.06.2020
8
问题定义
▪ 设序列 = <a1a2…an>,序列 = <b1b2…bm>,ai 和bi都是元素。如果存在整数1 <= j1 < j2 <…< jn <= m,使得a1 bj1,a2 bj2,…, an bjn,则 称序列为序列的子序列,又称序列包含序 列,记为 。
4 ………………………………….
图书交易网站将用户购 物纪录整合成用户购物 序列集合
应用案例1:客户购买相关行商品为推荐:模如果式用
分析得到用户 <(“UML语 购物行为 言”)(“Visio2019实 序列模式 用技巧”)>
户购买了书籍“UML语 言”, 则推荐 “Visio2019实用技巧”
09.06.2020
Sid
Sequence
10
<a(abc)(ac)d(cf)>
20
<(ad)c(bc)(ae)>
30
<(ef)(ab)(df)cb>
40
<(af)cbc>
序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列 序列<(ab)c>是长度为3的序列模式
09.06.2020
11
序列模式 VS 关联规则
09.06.2020
16
应用案例3:疾病诊断
例: 通过分析大量曾患A类疾病的病人发病纪录,发 现以下症状发生的序列模式:<(眩晕) (两天后低烧 37-38度) >
如果病人具有以上症状,则有可能患A类疾病
09.06.2020
17
查询扩展是搜索领域一个重要的问题。用户提交的 查询往往不能完全反映其信息需求。一些研究工作 尝试用用户的查询序列模式来辅助原始查询,其主 要思想是:
09.06.2020
13
B2C电子商务网站可以根据客户购买纪录来分析客 户购买行为模式,从而进行有针对性的营销策略。
ID User transaction sequence
1
………………………………………………… ………..
2 ………………………………………………
3
………………………………………………… …..
▪ 在用户事务数据库里,一个事务就是一个元素。
09.06.2020
6
问题定义
▪ 序列(Sequence)是不同元素(Element)的有序排 列,序列s可以表示为s = <s1s2…sl>,sj(1 <= j <= l)为序列s的元素
▪ 一个序列包含的所有单项的个数称为序列的长 度。长度为l的序列记为l-序列
09.06.2020
15
医疗领域的专家系统可以作为疾病诊断的辅助决 策手段。对应特定的疾病,众多该类病人的症状 按时间顺序被记录。自动分析该纪录可以发现对 应此类疾病普适的症状模式。每种疾病和对应的 一系列症状模式被加入到知识库后,专家系统就 可以依此来辅助人类专家进行疾病诊断。
应用案例3:疾病诊断
主要内容
序列模式挖掘简介 序列模式挖掘的应用背景 序列模式挖掘算法概述 GSP算法 PrefixSpan算法 Disc-all算法 支持约束的序列模式挖掘
09.06.2020
1
一、序列模式挖掘简介
序列模式的概念最早是由Agrawal和Srikant 提出 的。
动机:大型连锁超市的交易数据有一系列的用户事 务数据库,每一条记录包括用户的ID,事务发生的 时间和事务涉及的项目。如果能在其中挖掘涉及事 务间关联关系的模式,即用户几次购买行为间的联 系,可以采取更有针对性的营销措施。
1)挖掘用户的查询序列模式
2)用这些序列模式构造查询词关系图
3)找到每个极大全连通图作为一个”概念”
应用案例4:查询扩展 4) 对于一个查询,和它同处于一个”概念”的查询可以作为查 询扩展的选项
09.06.2020
18
雷诺
丰田
宝马
汽车
概念1:汽车 品牌
概念2:汽车
给定一组查询模式:<(丰田)(雷诺)>, <(宝马)(丰 田)>,<(丰田)(宝马)>,<(宝马)(雷诺)>,<(汽车)(丰田)>
09.06.2020
9
问题定义
▪ 序列在序列数据库S中的支持度为序列数据库 S中包含序列的序列个数,记为Support()
▪ 给定支持度阈值,如果序列在序列数据库中 的支持数不低于,则称序列为序列模式
▪ 长度为l的序列模式记为l-模式
09.06.2020
10
例子:设序列数据库如下图所示,并设用户指定的最 小支持度min-support = 2。
14
大型网站的网站地图(site map)
Index 网站入口
往往具有复杂的拓扑结构。用 户访问序列模式的挖掘有助于
改进网站地图的拓扑结构。比
如用户经常访问网页web1然后
ຫໍສະໝຸດ Baidu
访问web2,而在网站地图中二
web1 者距离较远,就有必要调整网
web2
站地图,缩短它们的距离,甚
应用案例2:We至b直访接问增加模一条式链接分。 析