关联规则分析及应用ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
8
2012-10-12
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
3
2012-10-12
绪论
4
2012-10-12
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
7
2012-10-12
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
啤酒=>尿布
职业 秘书 工程师
购买物品 月工资
尿布
3000
啤酒、尿布 5000
性别=“女”=>职业=“秘书”
20
2012-10-12
四、关联规则的价值衡量
对关联规则的评价与价值衡量涉及两个层面: A.系统客观的层面 使用“支持度和信任度”框架可能会产生一 些不正确的规则。
B.用户主观的层面 ✓只有用户才能决定规则的有效性、可行性。 ✓如果把某些约束条件与算法紧密结合,既能提高数 据挖掘效率,又能明确数据挖掘的目标。
I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒
Support-count(I1)=6
6
2012-10-12
一、基本概念
❖关联规则:形如 A => B 的蕴涵式,其中A ⊂I , B⊂I,并且 A∩B =ф。
❖ 支持度:关联规则在D中的支持度(support)是D中事 务同时包含A、B的百分比,即概率。[规则代表性、 重要性衡量]
21
2012-10-12
五、关联规则的挖掘算法
Apriori算法 挖掘或识别出所有频繁项集是该算法的核心,占
整个计算量的大部分。 不足:产生大量候选频繁集、多次扫描数据库 FP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库 其他算法…
22
2012-10-12
六、关联规则的应用
购物分 析
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
➢ 打篮球 => 不喝麦片粥 [20%, 33.3%]这个规则远比上面 那个要精确,尽管支持度和置信度都要低的多。
14
2012-10-12
二、关联规则挖掘过程
兴趣度(作用度):描述了项集A对项集B的影响力的 大小,即A与B的相关程度。
23
医疗诊 断
2012-10-12
气象预 测
…
Thank You!
2012-10-12
24
13
2012-10-12
二、关联规则挖掘过程
对强关联规则的批评:
eg:
项目 喝麦片 不喝麦片 合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
16
2012-10-12
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型:布尔型关联规则处理的值都是离散的、种
类化的,它显示了这些变量之间的关系; B. 数值型 :数值型关联规则可以和多维关联或多层
关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=>职业=“秘书” 性别=“女”=>avg(收入)=2300
关联规则分析及应用ppt课件
目录
1
基本概念
2
关联规则挖掘过程
3
分类
4
关联规则的价值衡量
5
挖掘算法
6
关联规则的应用
2
2012-10-12
绪论
在购买铁锤的顾客当中,有70%的人同时 购买了铁钉。
年龄在40 岁以上,工作在A区的投保人当 中,有45%的人曾经向保险公司索赔过。
在超市购买面包的人有70%会购买牛奶
Hale Waihona Puke 172012-10-12
三、关联规则的分类
基于规则中数据的抽象层次: A.单层关联规则:所有的变量都没有考虑到现实的数
据是具有多个不同的层次的;
B.多层关联规则:对数据的多层性已经进行了充分的 考虑。
层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。
eg: IBM台式机=>Sony打印机
生成强关联规则
min_conf
用户
规则评价
9
2012-10-12
二、关联规则挖掘过程
关联规则挖掘举例:
假定数据包含频繁项集
M={I1,I2,I5}。可以由M
产生哪些关联规则?
10
2012-10-12
二、关联规则挖掘过程
❖ M 的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、
{I1}、{I2}和{I5}。则结果关联规则如下,每个都
I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %
P(AB) I(A B)= P(A)P(B) ✓若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; ✓若I(A B)<1,表示A出现和B出现是负相关的。 ✓若I(A B)>1,表示A出现和B出现是正相关的。意味 着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。
数就是整个数据集中包含该项集的事务数。
5
2012-10-12
一、基本概念
D
TID
Items
001
I1、I2、I5
002
I2、I4
T
003
A I2、I3
004
I1、I2、I4
005
I1、I3
006
B I2、I3
007
I1、I3
008
I1、I2、I3、I5
009
I1、I2、I3
In(n=1,2,…) 指具体项目,如 购物篮分析中:
12
2012-10-12
二、关联规则挖掘过程
如果最小置信度阈值为70%,那么只有第2、3、6个规 则可以作为最终的结果输出,因为只有这些是产生的 强关联规则。
I1 I5 I2, I2 I5 I1,
I5 I1 I2,
confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%
台式机=>Sony打印机
18
2012-10-12
三、关联规则的分类
分层示例:
19
2012-10-12
三、关联规则的分类
基于规则中数据的维数: A.单维关联规则:只涉及到数据的一个维,如用户购
买的物品;
B.多维关联规则:要处理的数据将会涉及多个维。
TID 001 002
eg:
姓名 张三 李四
性别 女 男
列出置信度。
项集
支持度计
数
项集 支持度 {I1,I2}
4
计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I1,I3}
4
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
项集
支持度 计数
{I1,I2,I3} 2
{I1,I2,I5} 2
{I5}
2
{I2,I5}
2
11
2012-10-12
二、关联规则挖掘过程
15
2012-10-12
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型:布尔型关联规则处理的值都是离散的、种
类化的,它显示了这些变量之间的关系; B. 数值型:数值型关联规则可以和多维关联或多层
关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=>职业=“秘书” 性别=“女”=>avg(收入)=2300