基于关联规则的多关系分类算法研究.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生成多关系分 类规则
运用分类规则 进行分类
单表闭频繁项集: 初始节点集: (rank,2) (rank,2) uu 1u 1u 2u 2u 44 (history,<100) (history,≥100) uu 3u 1u 42 (rank,2)(history, (history,<100)≥ u 100) 3u4 u1u2 •与类标项组合: •无法直接对2个事务集求交 •支持度计数的计算:使用传 递过来的目标元组ID
挖掘多关系分 类闭频繁项集
生成多关系分类规则(续)
• 伪码表示:
生成多关系分 类规则
运用分类规则 进行分类
运用分类规则进行分类
• 对测试数据集中的元组进行分类
挖掘多关系分 类闭频繁项集
生成多关系分 类规则
运用分类规则 进行分类
• 假设元组满足n个分类规则(n=0,1,2,…),我们 将这n个规则按照置信度由高到低的排列,这样 就得到一个分类器(R1,R2,…,Rn,DefaultClass), 其中conf(Ri)≧conf(Rj)(i<j) • 分类时,选择置信度最高的规则的类标作为预 测类标
类标项: (status,Y)r1r3 (status,N)r2r4
挖掘多关系分 类闭频繁项集
挖掘多关系分类闭频繁项集(续)
Paper P# m# p1m1 p2m2 p3m3 p4m4 p5 p6m5 m6 m# type author m1conference 1 m2conference 2 m3conference 3 m4 journal 1 m5 1 m4 journal 2 journal Media R# name r1 VLDB r2 KDD r3 ICDE VLDB r1 Journal r4 SIGMOD r2 record Journal of Software
• 目标表中的单表项集 • 非目标表中的跨表项集
生பைடு நூலகம்多关系分 类规则
运用分类规则 进行分类
• 出于性能考虑,不考虑跨更多表的项集。但已经包含了类 标与各表中项集间的关联,我们期望能从中生成出有强分 类能力的规则。
挖掘多关系分 类闭频繁项集
挖掘多关系分类闭频繁项集(续)
• 目标关系的情形
R# r1 r2 r3 r4 sex F M M F Researcher age middle middle old middle U# u1 u2 u3 u3 status Y N Y N
• 目标表、项、项集、频繁项集(项之间可能有关联) • 闭频繁项集:
• 项集X,不存在一个项集Y,YX,且Y与X的支持度相同
• 分类闭频繁项集:包含类标项
• 主要步骤:
挖掘多关系分类 闭频繁项集 生成多关系分类 规则 运用分类规则进 行分类
挖掘多关系分 类闭频繁项集
挖掘多关系分类闭频繁项集
• 挖掘下列2种分类闭频繁项集:
挖掘多关系分 类闭频繁项集
挖掘多关系分类闭频繁项集(续)
• 非目标关系
• 在单个非目标关系上利用CHARM算法找到所有的闭频繁项集 • 通过传递过来的目标元组ID将闭频繁项集和类标项组合生成 分类闭频繁项集
U# u1 u2 u3 u4 University rank history 2 ≥100 2 ≥100 1 < 100 2 < 100 IDs r1 r2 r3,r4
与类标项组合: 根据minsup修剪后: (status,Y)(sex,M) 3 24 (status,N)(age,middle) (status,Y)(age,middle)1 (status,Y)(sex,F)(age,middle)1 (status,N)(sex,M)2 (status,N)(age,middle)24 (status,N)(sex,F)(age,middle)4
跨表闭频繁项集: (status,Y)(author,1):2 (status,N)(author,2):2
挖掘多关系分 类闭频繁项集
生成多关系分类规则
• 由闭频繁项集生成规则集
• 规则须满足最小置信度的要求 • 生成规则时的修建策略
生成多关系分 类规则
运用分类规则 进行分类
• 短规则比长规则有更广泛的预测能力,优先生 成短规则,利用已经生成的短规则进行修剪
生成多关系分 类规则
初始节点集合: 类标项: (sex,F) 14 (status,Y) 13 (sex,M) 23 (status,N) 24 (age,middle)124
运用分类规则 进行分类
闭频繁项集: (sex,M)23 (age,middle)124 (sex,F)(age,middle)14
基于关联规则的多关系分 类算法研究
指导教师:何军 副教授 05计算机2班 顾应钦
研究背景
• 我们必须找到有效方法,自动地分析数据、自动地对数据 分类、自动地对数据汇总、自动地发现和描述数据中的趋 势、自动地标记异常。这是数据库研究最活跃、最令人激 动地领域之一。 ——Jim Gray • 传统数据挖掘方法的局限:
生成多关系分 类规则
运用分类规则 进行分类
level IDs 1 r1 2 r2 单表闭频繁项集: 3 r3 (author,1) p1p 2 r1,r2 4p5
(author,2)p2p6
1 3
r4
跨表闭频繁项集: (status,Y) (type,conference):2 (status,N)(type,journal):2 (status,N) (level,2):2
• 针对星型模式的算法:解决性能问题
• JSApriori • masl、masb • MultiClose
• 第一类算法是基于演绎数据库实现的,另外有运算复杂度高和发 现的模式不易理解等缺点;第二类算法只使用于特殊的星型结构 的数据库 • 无法直接使用现有的多关系关联规则算法
多关系关联分类算法
• 基本定义:
• 多关系数据挖掘
• 分类任务:
基于关联规则 的多关系分类
• 基于关联规则的分类方法 • 优点:高分类准确度,分类规则易于理解和可重用 • 现有的关联分类算法都是基于单表数据实现的
多关系关联规则挖掘
• 2类多关系关联规则挖掘算法
• 基于ILP技术的算法:解决统计偏斜问题
• WARMER • FARMER