第十二讲 关联分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

最小置信度设定为70%,则只有以下三个关联规则输出:
20
1.
系统客观层面 使用“支持度-可信度”的框架,有时会产生一些错误的结果。 看如下的一个例子: 〖例〗假设一个提供早餐的零售商调查了400名学生在早晨进 行什么运动,得到的结果是275名学生打篮球,280名学生 晨跑,180名学生打篮球、晨跑。那么如果设minsup为 40%,minconf为60%,可以得到如下的关联规则: 打篮球 晨跑 因为它的支持度为180/400=45%;信任度为 180/275=65.5%; 显然分别满足最小支持度和最小信任值得 要求。 但这条规则,其实是错误的,因为晨跑的学生的比例是 70%, 大于65.5%(信任度值)。说明了打篮球和晨跑之间所存在的 关系是一种负关联,也就是存在打篮球将会减少晨跑的人数 的可能。
比较候选支持度 计数与最小支持 度计数
L3
项集 {I1,I2,I3} {I1,I2,I5} 支持度 2 2
求频繁集结束
17
置信度计算
置信度使用下式计算:
Confidence(A → B)
=support_count(A∪B)/support_count(A)
其中:support_count(A∪B) 是包含 A∪B的事务数, support_count(A) 是包 含A的事务数。
{I5}
C2
项集 {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5} 支持度 4 4 1 2 4 2 2 0 1 0
扫描D, 对每个候 选计数
比较 选支 度计 与最 支持 计数
候 持 数 小 度
本讲讲授目标: 1. 关联规则挖掘的基本概念 2. 关联规则挖掘的过程 3. 关联规则挖掘的Apriori算法 4. 关联规则价值衡量的方法
1
1. 购物篮分析-引发关联规则挖掘的例子 问题:“什么商品组或集合, 顾客多半会在一次购 物中同时购买?” 〖例〗购买计算机与购买财务管理软件的关联规则 可表示为: computer financial_management_software [support=2%,confidence=60%] support为支持度,confidence为置信度。 该规则表示:在所分析的全部事务中,有2%的事 务同时购买计算机和财务管理软件;在购买计算 机的顾客中60%也购买财务管理软件。


置信度和支持度均大于给定阈值(即最小置信度阈 值和最小支持度阈值)。即: support(XY) >= min_sup confidence(XY) >= min_conf 的关联规则称为强规则;否则称为弱规则。 数据挖掘主要就是对强规则的挖掘。通过设置最小 支持度和最小置信度可以了解某些数据之间的关联 程度。
11
Apriori算法的基本思想是:

L1
首先,通过扫描数据集,产生一个大的候选数据项集, 并计算每个候选数据项发生的次数,然后基于预先给 定的最小支持度生成频繁1-项集的集合,该集合记作 L1; 然后基于L1和数据集中的数据,产生频繁2-项集L2; 用同样的方法,直到生成频繁n-项集Ln,其中已不再 可能生成满足最小支持度的(N+1)-项集。 最后,从大数据项集中导出规则。
21
2.
用户主观层面 一个规则的有用与否最终取决于用户的 感觉。只有用户可以决定规则的有效性、 可行性。所以应该将用户的需求和系统更 加紧密的结合起来。
22
19

对数据包含频繁项集I={I1,I2,I5}, 置信度设定为70%,
第1步:对于频繁项集I={I1,I2,I5},产生I的所有非空子 集: {I1,I2},{I1,I5},{I2,I5},{I1},{I2},{I5} 第2步:对于I的每一个非空子集s,输出关联规则“s→(I-s)”
I1∧I2→I5 I1∧I5→I2 I2∧I5→I1 I1→I2∧I5 I2→I1∧I5 I5→I1∧I2 I1∧I5→I2 I2∧I5→I1 I5→I1∧I2 confidence=2/4=50% confidence=2/2=100% confidence=2/2=100% confidence=2/6=33% confidence=2/7=29% confidence=2/7=100% confidence=2/2=100% confidence=2/2=100% confidence=2/7=100%
10
第1步:找出所有的频繁项集,即找出支持度 大于或等于给定的最小支持度阈值的 所有项集。可以从1到k递归查找k-频 繁项集。 第2步:由频繁项集产生强关联规则,即找出 满足最小支持度和最小置信度的关联 规则。对给定的L,如果其非空子集 AL,sup(L)为L的支持度,sup(A) 为A的支持度,则产生形式为ALA的规则。
多维关联 age(“30..40”)∧income(“42000..50000”)=>buys(x,“ HR_TV”)


单层关联规则 age(“30..40”)=>buys(x,“IBM computer”)
多层关联规则 age(“30..40”)=>buys(x,“computer”)
8

〖定义〗在关联规则挖掘算法中,把项目的 集合称为项集(itemset),包含有k个项 目的项集称为k-项集。包含项集的事务数称 为项集的出现频率,简称为项集的频率或支 持度计数。如果项集的出现频率大于或等于 最小支持度S与D中事务总数的乘积,则称 该项集满足最小支持度S。如果项集满足最 小支持度,则称该项集为频繁项集 (frequent itemset )。
4
〖定义〗在关联规则挖掘算法中,把项目的 集合称为项集(itemset),包含有k个项目 的项集称为k-项集。包含项集的事务数称为 项集的出现频率,简称为项集的频率或支持 度计数。 如果项集的出现频率大于或等于最小支 持度S与D中事务总数的乘积,则称该项集满 足最小支持度S。如果项集满足最小支持度, 则称该项集为频繁项集(frequent itemset )。
2
关联(Associations)分析的目的是为了
挖掘隐藏在数据间的相互关系,即对于给定 的一组项目和一个记录集,通过对记录集的 分析,得出项目集中的项目之间的相关性。 项目之间的相关性用关联规则来描述,关联 规则反映了一组数据项之间的密切程度或关 系。
3
support(XY)=(包含X和Y的事务数 / 事务总数)×100% confidence(XY)=(包含X和Y的事务数 / 包含X的事务数)×100 %
L2
项集 {I1,I2} {I1,I3} {I1,I5} {I2,I3} {I2,I4} {I2,I5} 支持度 4 4 2 4 2 2
16
由L2 产生 候选C3
C3
项集 {I1,I2,I3} {I1,I2,I5}
扫描D, 对每个候 选计数
C3
项集 {I1,I2,I3} {I1,I2,I5} 支持度 2 2
9
Apriori性质:频繁项集的所有非空子集都
必须是频繁的。 Apriori性质基于如下事实:根据定义,如 果项集I不满足最小支持度阈值min_sup, 则I 不是频繁的,即sup(I)< min_sup。 如果将项A添加到I, 则结果项集(即I∪A) 不可能比I更频繁出现。因此,I∪A也不是 频繁的,即 sup(I∪A)< min_sup。
12
13
14
下表为顾客购买记录情况,TID代表一次购
买记录,其中I1—牛奶,I2 —鸡蛋,I3 —面 包,I4 —黄油,I5 —果酱。试分析顾客同 TID 项ID的列表 时购买食品的情况。 (设最小支持度为2)
T100 T200 T300 T400 T500 T600 T700 T800 T900 I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3
交易 ID
2000 1000 4000 5000
Hale Waihona Puke Baidu购买的商品
A,B,C A,C A,D B,E,F
规则1: A C (50%, 66.6%) 规则2: C A (50%, 100%)
7

布尔关联规则 量化关联规则 单维规则 buys(x,“computer”)=>buys(x,“management_soft ware”)
18
关联规则产生的步骤:
第1步:对于每一个频繁项集I,产生I的所有非空子 集。 第2步:对于I的每一个非空子集s,如果 Confidence(s→I-S)= support_count(I)/support_count(s) >= min_conf 则输出关联规则“s →(I-s)” ,其中min_conf为最 小置信度阈值。
15
D
扫描D, 对每个候 选计数
C1
项集 {L1} {I2} {I3} {I4} 支持度 6 7 6 2 2
比较候选支持 度计数与最小 支持度计数
L1
项集 {I1} {I2} {I3} {I4} {I5} 支持度 6 7 6 2 2
由L1 产生C2
C2
项集 {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5}
5
强规则XY对应的项集(X∪Y)必定是频
繁集。因此,可以把关联规则挖掘划分为以 下两个子问题:
• 根据最小支持度找出事务集D中的所有频繁项集。
――核心 • 根据频繁项集和最小置信度产生关联规则。 ――较易
6
〖例〗
购买商品事务如下表所示,设最小 支持度为50%, 最小可信度为 50%, 则可得 到以下关联规则:
相关文档
最新文档