基于关联规则的多关系分类算法研究.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类标项:
(status,Y)r1r3 (status,N)r2r4
•与类标项组合: •无法直接对2个事务集求交 •支持度计数的计算:使用传 递过来的目标元组ID
挖掘多关系分类闭频繁项集(续)
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
P#m# p1m1 p2m2 p3m3 p4m4 p5 p6m5
m6
Paper
m# type author m1conference 1 m2conference 2
m3conference 3
m4 journal 1
m5
1
m4 journal 2
journal
Media namRe # VLDBr1 KDDr2 ICDEr3
VLDBr1
Journra4l SIGMOr2D
u1
2
≥100
r1
u2
2
≥100
r2
u3
1
< 100 r3,r4
u4
2
< 100
单初表始闭节频点繁集项:集:
(r(arannk,k2,2))uu1u1u2u2u4 4 (h(hisitsotoryr,y<,≥11000))uu3u1u4 2 (r(ahniskt,o2r)y(h,<is1t0o0r)y,≥u130u04 )u1u2
• 针对星型模式的算法:解决性能问题
• JSApriori • masl、masb • MultiClose
• 第一类算法是基于演绎数据库实现的,另外有运算复杂度高和发 现的模式不易理解等缺点;第二类算法只使用于特殊的星型结构 的数据库
• 无法直接使用现有的多关系关联规则算法
多关系关联分类算法
• 基本定义:
• 短规则比长规则有更广泛的预测能力,优先生 成短规则,利用已经生成的短规则进行修剪
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
运用分类规则 进行分类
运用分类规则进行分类
• 对测试数据集中的元组进行分类
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
运用分类规则 进行分类
挖掘多关系分类闭频繁项集(续)
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
• 非目标关系
运用分类规则 进行分类
• 在单个非目标关系上利用CHARM算法找到所有的闭频繁项集
• 通过传递过来的目标元组ID将闭频繁项集和类标项组合生成 分类闭频繁项集
University
U#
rank history IDs
基于关联规则的多关系分 类算法研究
指导教师:何军 副教授 05计算机2班 顾应钦
研究背景
• 我们必须找到有效方法,自动地分析数据、自动地对数据
分类、自动地对数据汇总、自动地发现和描述数据中的趋
势、自动地标记异常。这是数据库研究最活跃、最令人激
动地领域之一。
——Jim Gray
• 传统数据挖掘方法的局限:
• 离散化预处理:Weka系统中的非监督离散算法
• 目标表、项、项集、频繁项集(项之间可能有关联)
• 闭频繁项集:
• 项集X,不存在一个项集Y,YX,且Y与X的支持度相同
• 分类闭频繁项集:包含类标项
• 主要步骤:
挖掘多关系分类 闭频繁项集
生成多关系分类 规则
运用分类规则进 行分类
挖掘多关系分类闭频繁项集
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
• 多关系数据挖掘
基于关联规则
• 分类任务:
的多关系分类
• 基于关联规则的分类方法
• 优点:高分类准确度,分类规则易于理解和可重用
• 现有的关联分类算法都是基于单表数据实现的
多关系关联规则挖掘
• 2类多关系关联规则挖掘算法
• 基于ILP技术的算法:解决统计偏斜问题
• WARMER • FARMER
• 挖掘下列2种分类闭频繁项集:
运用分类规则 进行分类
• 目标表中的单表项集
• 非目标表中的跨表项集
• 出于性能考虑,不考虑跨更多表的项集。但已经包含了类 标与各表中项集间的关联,我们期望能从中生成出有强分 类能力的规则。
挖掘多关系分
类闭频繁项集
挖掘多关系分类闭频繁项集(续) 生成多关系分
类规则
• 目标关系的情形
(au1 thor,2)p2pr64
跨表3 闭频繁项集: (status,Y)(author,1):2 (status,N)(author,2):2
生成多关系分类规则
• 由闭频繁项集生成规则集
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
运用分类规则 进行分类
• 规则须满足最小置信度的要求
• 生成规则时的修建策略
Researcher
R#
sex
age
U#
r1
F middle u1
r2
M middle u2
r3
M
old
u3
r4
F middle u3
闭频繁项集: (sex,M)23 (age,middle)124 (sex,F)(age,middle)14
运用分类规则
初类始标节项点:集合: 进行分类
status Y
• 假设元组满足n个分类规则(n=0,1,2,…),我们 将这n个规则按照置信度由高到低的排列,这样 就得到一个分类器(R1,R2,…,Rn,DefaultClass), 其中conf(Ri)≧conf(Rj)(i<j)
• 分类时,选择置信度最高的规则的类标作为预 测类标
算法实现
实验结果
• 实验在2个真实数据集上进行: • 生物科学领域的mutagenesis数据库 • 教育领域的mark数据库
((ssetxa,tFu)s,Y1)413 ((ssetxa,tMus),N2)324
N
(age,middle)124
Y
N
与根类据标mi项ns组up合修:剪后: ((ssttaattuuss,Y,N)()s(eaxg,eM,m)id3dle)24 (status,Y)(age,middle)1 (status,Y)(sex,F)(age,middle)1 (status,N)(sex,M)2 (status,N)(age,middle)24 (status,N)(sex,F)(age,middle)4
record
Journal of
Software
跨表闭频繁项集: (status,Y) (type,conference):2 (status,N)(type,journal):2 (status,N) (level,2):2
运用分类规则 进行分类
level
IDs
1
r1
单2表闭频繁项r集2 :
(au32 thor,1)p1pr1r4,3rp25