数据仓库与数据挖掘基础第6章关联规则(赵志升)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 挖掘事务数据库的单维布尔关联规则
1、Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联
规则频繁项集的算法,通过侯选项集找频繁项集。 基本思路: Apriori使用一种称作逐层搜索的迭代 方法,K-项集用于探索(K+1)-项集。首先,找 出频繁1-项集的集合,记为L1; L1用于找频繁2项集的集合L2 ,而L2用于找L3,如此下去,直到 找到频繁K-项集。找每个LK需要一次数据库扫描。 其过程包括:连接和剪枝两个方面。
第六章 挖掘大型数据库中的 关联规则
1、关联规则挖掘 2、挖掘事务数据库的单维布尔关联规则 3、挖掘事务数据库的多层关联规则 4、挖掘关系数据库和数据仓库的多维关联规则 5、由关联挖掘到相关分析
第六章 挖掘大型数据库中的 关联规则
❖ 关联规则挖掘发现大量数据中项集之间有趣的 关联或相关联系。
❖ 从大量商务事务记录中发现有趣的关联关系, 可以帮助许多商务决策的制定,如分类设计、交 叉购物和贱卖分析。
第二节 挖掘事务数据库的单维布尔关联规则
1、Apriori算法 例如,设已有包含9
个事务的事务数据库,即 |D|=9,各事务按字典 次序存放,设最小事务支 持度计数为2 。
confidence( A B) P(B | A)
第一节 关联规则挖掘
2、基本概念 ➢ 项的集合称为项集,包含K个项的项集称为
K-项集。集合{computer,software}是一 个2-项集。项集的出现频率是包含项集的事 务数简称为频率、支持计数或计数。 ➢ 项集满足最小支持度,若项集的出现频率大 于或等于最小支持度与D中事务总数的乘积。 ➢ 如果项集满足最小支持度,则称它为频繁项 集。
第一节 关联规则挖掘
1、购物篮分析 ✓ 规则的支持度和置信度是两个规则兴趣度度量
,反映规则的有用性和确定性,上述规则的支 持度2%意味分析中的全部事务的2%同时购买 计算机和操作系统软件。置信度60%意味购买 计算机的顾客60%也购买操作系统软件。 ✓ 关联规则被认为是有趣的,如果它满足最小支 持度阈值和最小置信度阈值。这些阈值可由用 户和领域专家设定。
第一节 关联规则挖掘
1、购物篮分析 ✓ 可以想象全域是商店中可利用的商品的集合,
则每钟商品有一个布尔变量,表示该商品的有 无。每个篮子可以用一个布尔向量表示。可以 分析布尔向量,得到反映商品频繁关联或同时 购买的购买模式。 ✓ 这些模式可以用关联规则的形式表示:
computer operating _ system _ software [sup port 2%, confidence 60%]
购买的商品涉及不同的抽象层,称所挖掘的规则 集由多层关联规则组成。否则,规则只涉及单 一抽象层的项或属性,则该集合包含单层关联 规则。
第一节 关联规则挖掘
3、关联规则挖掘的分类标准 ➢ 根据关联规则的各种扩充:关联规则可以扩充
到相关分析,以识别项是否相关。用最大模式 (最大的频繁模式)或频繁闭项集显著压缩挖 掘所产生的频繁项集数。
根据下列标准,关联规则有多种分类方法: ➢ 根据规则中所处理的值的类型:若规则考虑项
的在与不在,则它是布尔关联规则;若规则描 述的是量化的项或属性之间的关联,则它是量 化关联规则。如,下列为一个量化关联规则:
age( X ,"23...33") income( X ,"42K...62K") buys( X ," fashion _ car") X为顾客变量,age和income为量化属性。
➢ 分析的结果可以用于市场规划、广告策划、分 类设计。例如,购物篮分析可以帮助经理设计 不同的商店布局,以及规划什么商品降价。
第一节 关联规则挖掘
1、购物篮分析 ✓ 策略一:经常购买的商品可以放近一些,以便
进一步刺激这些商品一起销售。 ✓ 策略二:将经常购买的商品放在商店的两端,
可能诱发买这些商品的顾客一路挑选其他商品。
第一节 关联规则挖掘
3、关联规则挖掘的分类标准 ➢ 根据规则中涉及的数据维:若关联规则中的项
或属性每个只涉及一个维,则它是单维关联规 则;若关联规则涉及两个或多个维,则它是多 维关联规则。如
单维:buys( X ,"computer") buys( X ,"os _ software") 多维:age( X ,"23...33") income( X ,"42K...62K") buys( X ," fashion _ car")
第一节 关联规则挖掘
2、基本概念 关联规则的挖掘包含两个基本步骤:
➢ 找出所有频繁项集:这些项集出现的频繁性 至少和预定义的最小支持计数一样。
➢ 由频繁项集产生强关联规则:这些规则必须 满足最小支持度和最小置信度。
挖掘关联规则的总体性能由第一步决Hale Waihona Puke Baidu。
第一节 关联规则挖掘
3、关联规则挖掘的分类标准 购物篮分析只是关联规则挖掘的一种形式。
第一节 关联规则挖掘
3、关联规则挖掘的分类标准 ➢ 根据规则集所涉及的抽象层:有些挖掘关联规
则的方法可以在不同的抽象层发现规则。如,
age( X ,"23...33") buys( X ,"os _ software") age( X ,"23...33") buys( X ," software")
❖ 关联规则挖掘的一个典型的例子是购物篮分析。
第一节 关联规则挖掘
1、购物篮分析
牛奶 面包 谷类
牛奶 面包 糖 鸡旦
市 场
分
顾客1
顾客2
析 员
牛奶 面包 黄油
糖 鸡旦
顾客3
顾客4
第一节 关联规则挖掘
➢ 问题:什么商品组或集合顾客多半会在一次购 物时同时购买?
➢ 回答:需要分析商店的顾客事务零售数据,并 在其上运行购物篮分析。
第一节 关联规则挖掘
2、基本概念 设I={i1,i2,…,im}是项的集合,。设任务
相关的数据D是数据库事务的集合,其中每个 事务T是项的集合,使得TI。每一个事务有一 个标识符TID。设A是一个项集,事务T包含A ,当且仅当AT。关联规则是形如AB的蕴涵 式,其中AI, BI,且AB=Ø 。
sup port( A B) P( A B)