基于关联规则的多关系分类算法研究.ppt

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

类标项：
(status,Y)r1r3 (status,N)r2r4
•与类标项组合： •无法直接对2个事务集求交 •支持度计数的计算:使用传递过来的目标元组ID
挖掘多关系分类闭频繁项集（续）
挖掘多关系分类闭频繁项集
生成多关系分类规则
P#m# p1m1 p2m2 p3m3 p4m4 p5 p6m5
m6
Paper
m# type author m1conference 1 m2conference 2
m3conference 3
m4 journal 1
m5
1
m4 journal 2
journal
Media namRe # VLDBr1 KDDr2 ICDEr3
VLDBr1
Journra4l SIGMOr2D
u1
2
≥100
r1
u2
2
≥100
r2
u3
1
< 100 r3,r4
u4
2
< 100
单初表始闭节频点繁集项：集：
(r(arannk,k2,2))uu1u1u2u2u4 4 (h(hisitsotoryr,y<,≥11000))uu3u1u4 2 (r(ahniskt,o2r)y(h,<is1t0o0r)y,≥u130u04 )u1u2
• 针对星型模式的算法：解决性能问题
• JSApriori • masl、masb • MultiClose
• 第一类算法是基于演绎数据库实现的，另外有运算复杂度高和发现的模式不易理解等缺点；第二类算法只使用于特殊的星型结构的数据库
• 无法直接使用现有的多关系关联规则算法
多关系关联分类算法
• 基本定义：
• 短规则比长规则有更广泛的预测能力，优先生成短规则，利用已经生成的短规则进行修剪
挖掘多关系分类闭频繁项集
生成多关系分类规则
运用分类规则进行分类
运用分类规则进行分类
• 对测试数据集中的元组进行分类
挖掘多关系分类闭频繁项集
生成多关系分类规则
运用分类规则进行分类
挖掘多关系分类闭频繁项集（续）
挖掘多关系分类闭频繁项集
生成多关系分类规则
• 非目标关系
运用分类规则进行分类
• 在单个非目标关系上利用CHARM算法找到所有的闭频繁项集
• 通过传递过来的目标元组ID将闭频繁项集和类标项组合生成分类闭频繁项集
University
U#
rank history IDs
基于关联规则的多关系分类算法研究
指导教师：何军副教授 05计算机2班顾应钦
研究背景
• 我们必须找到有效方法，自动地分析数据、自动地对数据
分类、自动地对数据汇总、自动地发现和描述数据中的趋
势、自动地标记异常。这是数据库研究最活跃、最令人激
动地领域之一。
——Jim Gray
• 传统数据挖掘方法的局限：
• 离散化预处理：Weka系统中的非监督离散算法
• 目标表、项、项集、频繁项集（项之间可能有关联）
• 闭频繁项集：
• 项集X，不存在一个项集Y，YX，且Y与X的支持度相同
• 分类闭频繁项集：包含类标项
• 主要步骤：
挖掘多关系分类闭频繁项集
生成多关系分类规则
运用分类规则进行分类
挖掘多关系分类闭频繁项集
挖掘多关系分类闭频繁项集
生成多关系分类规则
• 多关系数据挖掘
基于关联规则
• 分类任务：
的多关系分类
• 基于关联规则的分类方法
• 优点：高分类准确度，分类规则易于理解和可重用
• 现有的关联分类算法都是基于单表数据实现的
多关系关联规则挖掘
• 2类多关系关联规则挖掘算法
• 基于ILP技术的算法：解决统计偏斜问题
• WARMER • FARMER
• 挖掘下列2种分类闭频繁项集：
运用分类规则进行分类
• 目标表中的单表项集
• 非目标表中的跨表项集
• 出于性能考虑，不考虑跨更多表的项集。但已经包含了类标与各表中项集间的关联，我们期望能从中生成出有强分类能力的规则。
挖掘多关系分
类闭频繁项集
挖掘多关系分类闭频繁项集（续）生成多关系分
类规则
• 目标关系的情形
(au1 thor,2)p2pr64
跨表3 闭频繁项集： (status,Y)(author,1):2 (status,N)(author,2):2
生成多关系分类规则
• 由闭频繁项集生成规则集
挖掘多关系分类闭频繁项集
生成多关系分类规则
运用分类规则进行分类
• 规则须满足最小置信度的要求
• 生成规则时的修建策略
Researcher
R#
sex
age
U#
r1
F middle u1
r2
M middle u2
r3
M
old
u3
r4
F middle u3
闭频繁项集： (sex,M)23 (age,middle)124 (sex,F)(age,middle)14
运用分类规则
初类始标节项点：集合：进行分类
status Y
• 假设元组满足n个分类规则（n=0,1,2,…），我们将这n个规则按照置信度由高到低的排列，这样就得到一个分类器（R1,R2,…,Rn,DefaultClass），其中conf（Ri）≧conf（Rj）（i<j）
• 分类时，选择置信度最高的规则的类标作为预测类标
算法实现
实验结果
• 实验在2个真实数据集上进行： • 生物科学领域的mutagenesis数据库 • 教育领域的mark数据库
((ssetxa,tFu)s,Y1)413 ((ssetxa,tMus),N2)324
N
(age,middle)124
Y
N
与根类据标mi项ns组up合修：剪后： ((ssttaattuuss,Y,N)()s(eaxg,eM,m)id3dle)24 (status,Y)(age,middle)1 (status,Y)(sex,F)(age,middle)1 (status,N)(sex,M)2 (status,N)(age,middle)24 (status,N)(sex,F)(age,middle)4
record
Journal of
Software
跨表闭频繁项集： (status,Y) (type,conference):2 (status,N)(type,journal):2 (status,N) (level,2):2
运用分类规则进行分类
level
IDs
1
r1
单2表闭频繁项r集2 ：
(au32 thor,1)p1pr1r4,3rp25