基于关联规则的多关系分类算法研究.

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生成多关系分类规则
运用分类规则进行分类
单表闭频繁项集：初始节点集： (rank,2) (rank,2) uu 1u 1u 2u 2u 44 (history,<100) (history,≥100) uu 3u 1u 42 (rank,2)(history, (history,<100)≥ u 100) 3u4 u1u2 •与类标项组合： •无法直接对2个事务集求交 •支持度计数的计算:使用传递过来的目标元组ID
挖掘多关系分类闭频繁项集
生成多关系分类规则（续）
• 伪码表示：
生成多关系分类规则
运用分类规则进行分类
运用分类规则进行分类
• 对测试数据集中的元组进行分类
挖掘多关系分类闭频繁项集
生成多关系分类规则
运用分类规则进行分类
• 假设元组满足n个分类规则（n=0,1,2,…），我们将这n个规则按照置信度由高到低的排列，这样就得到一个分类器（R1,R2,…,Rn,DefaultClass），其中conf（Ri）≧conf（Rj）（i<j） • 分类时，选择置信度最高的规则的类标作为预测类标
类标项： (status,Y)r1r3 (status,N)r2r4
挖掘多关系分类闭频繁项集
挖掘多关系分类闭频繁项集（续）
Paper P# m# p1m1 p2m2 p3m3 p4m4 p5 p6m5 m6 m# type author m1conference 1 m2conference 2 m3conference 3 m4 journal 1 m5 1 m4 journal 2 journal Media R# name r1 VLDB r2 KDD r3 ICDE VLDB r1 Journal r4 SIGMOD r2 record Journal of Software
• 目标表中的单表项集 • 非目标表中的跨表项集
生பைடு நூலகம்多关系分类规则
运用分类规则进行分类
• 出于性能考虑，不考虑跨更多表的项集。但已经包含了类标与各表中项集间的关联，我们期望能从中生成出有强分类能力的规则。
挖掘多关系分类闭频繁项集
挖掘多关系分类闭频繁项集（续）
• 目标关系的情形
R# r1 r2 r3 r4 sex F M M F Researcher age middle middle old middle U# u1 u2 u3 u3 status Y N Y N
• 目标表、项、项集、频繁项集（项之间可能有关联） • 闭频繁项集：
• 项集X，不存在一个项集Y，YX，且Y与X的支持度相同
• 分类闭频繁项集：包含类标项
• 主要步骤：
挖掘多关系分类闭频繁项集生成多关系分类规则运用分类规则进行分类
挖掘多关系分类闭频繁项集
挖掘多关系分类闭频繁项集
• 挖掘下列2种分类闭频繁项集：
挖掘多关系分类闭频繁项集
挖掘多关系分类闭频繁项集（续）
• 非目标关系
• 在单个非目标关系上利用CHARM算法找到所有的闭频繁项集 • 通过传递过来的目标元组ID将闭频繁项集和类标项组合生成分类闭频繁项集
U# u1 u2 u3 u4 University rank history 2 ≥100 2 ≥100 1 < 100 2 < 100 IDs r1 r2 r3,r4
与类标项组合：根据minsup修剪后： (status,Y)(sex,M) 3 24 (status,N)(age,middle) (status,Y)(age,middle)1 (status,Y)(sex,F)(age,middle)1 (status,N)(sex,M)2 (status,N)(age,middle)24 (status,N)(sex,F)(age,middle)4
跨表闭频繁项集： (status,Y)(author,1):2 (status,N)(author,2):2
挖掘多关系分类闭频繁项集
生成多关系分类规则
• 由闭频繁项集生成规则集
• 规则须满足最小置信度的要求 • 生成规则时的修建策略
生成多关系分类规则
运用分类规则进行分类
• 短规则比长规则有更广泛的预测能力，优先生成短规则，利用已经生成的短规则进行修剪
生成多关系分类规则
初始节点集合：类标项： (sex,F) 14 (status,Y) 13 (sex,M) 23 (status,N) 24 (age,middle)124
运用分类规则进行分类
闭频繁项集： (sex,M)23 (age,middle)124 (sex,F)(age,middle)14
基于关联规则的多关系分类算法研究
指导教师：何军副教授 05计算机2班顾应钦
研究背景
• 我们必须找到有效方法，自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。这是数据库研究最活跃、最令人激动地领域之一。 ——Jim Gray • 传统数据挖掘方法的局限：
生成多关系分类规则
运用分类规则进行分类
level IDs 1 r1 2 r2 单表闭频繁项集： 3 r3 (author,1) p1p 2 r1,r2 4p5
(author,2)p2p6
1 3
r4
跨表闭频繁项集： (status,Y) (type,conference):2 (status,N)(type,journal):2 (status,N) (level,2):2
• 针对星型模式的算法：解决性能问题
• JSApriori • masl、masb • MultiClose
• 第一类算法是基于演绎数据库实现的，另外有运算复杂度高和发现的模式不易理解等缺点；第二类算法只使用于特殊的星型结构的数据库 • 无法直接使用现有的多关系关联规则算法
多关系关联分类算法
• 基本定义：
• 多关系数据挖掘
• 分类任务：
基于关联规则的多关系分类
• 基于关联规则的分类方法 • 优点：高分类准确度，分类规则易于理解和可重用 • 现有的关联分类算法都是基于单表数据实现的
多关系关联规则挖掘
• 2类多关系关联规则挖掘算法
• 基于ILP技术的算法：解决统计偏斜问题
• WARMER • FARMER