数据挖掘原理与算法03资料

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Fra Baidu bibliotek
Ct=subset（Ck，t）; // Ct是所有t包含的候选集元素
FOR all candidates c Ct DO
c.count++;
（8） END
（9） Lk={cCk |c.countminsup_count} （10） END
（11） L= Lk;
2020年10月6日星期二
9
apriori-gen过程
一个事务数据库可以用来刻画：
购物记录： I是全部物品集合， D是购物清单，每个元组ti是一次购买物品的集合（它当然是I的一个子集）。
其它应用问题
2020年10月6日星期二
3
支持度与频繁项目集
定义3-1（项目集的支持度）. 给定一个全局项目集I和数据库D，一个项目集I1I在D上的支持度（Support）是包含I1 的事务在D中所占的百分比：support（ I1 ）=|| {t D | I1 t}|| / || D||。
其中I1，I2I，I1∩I2=Ф。
定义3-4（强关联规则）. D在I上满足最小支持度和最小信任度（Minconfidence）的关联规则称为强关联规则（Strong Association Rule）。
2020年10月6日星期二
5
关联规则挖掘基本过程
关联规则挖掘问题可以划分成两个子问题：
1. 发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。
关联规则挖掘是数据挖掘的其他研究分支的基础。
2020年10月6日星期二
2
3.1 基本概念与解决方法
事务数据库
设I={ i1，i2，…，im }是一个项目集合，事务数据库 D={ t1，t2，…，tn }是由一系列具有唯一标识TID的事务组成，每个事务ti（i=1，2，…，n）都对应I上的一个子集。
算法apriori中调用了apriori-gen（Lk-1），是为了通过（k-1）-频集产生K-侯选集。
（1） FOR all itemset p Lk-1 DO
（2） FOR all itemset qLk-1 DO
（3） IF p.item1=q.item1， …， p.itemk-2=q.itemk-2，
定义3-2（频繁项目集）.给定全局项目集I和数据库D ，D 中所有满足用户指定的最小支持度（Minsupport）的项目集，即大于或等于minsupport的I的非空子集，称为频繁项目集（频集：Frequent Itemsets）或者大项目集（Large Iitemsets）。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集（最大频集： Maximum Frequent Itemsets）或最大大项目集（Maximum Large Iitemsets）。
2020年10月6日星期二
4
可信度与关联规则
定义3-3（关联规则与可信度）.给定一个全局项目集I和数据库D，一个定义在I和D上的关联规则形如I1I2，并且它的可信度或信任度或置信度（Confidence）是指包含I1和I2的事务数与包含I1的事务数之比，即
Confidence（I1I2）= support（I1∪I2）/ support（I1），
第三章关联规则挖掘理论和算法
内容提要
基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法
2020年10月6日星期二
1
3.1 基本概念与解决方法
关联规则挖掘（Association Rule Mining）是数据挖掘中研究较早而且至今仍活跃的研究方法之一。
7
3.2.1 项目集空间理论
Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论（1993, Appriori 属性）。
定理3-1（ Appriori 属性1）. 如果项目集X 是频繁项目集，那么它的所有非空子集都是频繁项目集。
证明设X是一个项目集，事务数据库T 中支持X 的元组数为s。对X 的任一非空子集为Y，设T中支持Y的元组数为s1。
根据项目集支持数的定义，很容易知道支持X 的元组一定支持Y，所以s1 ≥s，即support（Y） ≥ support（X）。
按假设：项目集X 是频繁项目集，即support(X)≥ minsupport，所以support（Y）≥ support（X）≥ minsupport，因此Y是频繁项目集。□
定理3-2（ Appriori 属性2）.如果项目集X 是非频繁项目集，那么它的所有超集都是非频繁项目集。
证明（略）
2020年10月6日星期二
8
3.2.2 经典的发现频繁项目集算法
1994年，Agrawal 等人提出了著名的Apriori 算法。
算法3-1 Apriori（发现频繁项目集）
2．生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。
第1个子问题是近年来关联规则挖掘算法研究的重点。
2020年10月6日星期二
6
3.2 经典的频繁项目集生成算法分析
项目集空间理论经典的发现频繁项目集算法关联规则生成算法
2020年10月6日星期二
最早是由Agrawal等人提出的（1993）。最初提出的动机是针对购物篮分析（Basket Analysis）问题提出的，其目的是为了发现交易数据库（Transaction Database）中不同商品之间的联系规则。
关联规则的挖掘工作成果颇丰。例如，关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘（Parallel Association Rule Mining）以及数量关联规则挖掘（Quantitive Association Rule Mining）等。
（1）（2）（3）（4）
L1 = {large 1-itemsets}; //所有1-项目频集 FOR （k=2; Lk-1; k++） DO BEGIN
Ck=apriori-gen（Lk-1）; // Ck是k-候选集
FOR all transactions tD DO BEGIN
（5）（6）（7）