关联规则分析及应用ppt课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

❖ 强关联规则：同时满足用户定义的最小支持度阈值（min_sup）和最小置信度阈值(min_conf)的规则称为强规则。
9
8
2012-10-12
二、关联规则挖掘过程
两个步骤： ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式：
Database
产生频繁项集
min_sup
3
2012-10-12
绪论
4
2012-10-12
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D：是事务（或元组）的集合。
❖事务T：是项的集合，且每个事务具有事务标识符TID。
❖项集A：是T 的一个子集，加上TID 即事务。
❖项集(Items)：项的集合，包含k个项的项集称为 k-项集，如二项集{I1,I2}。 ❖支持度计数(Support count)：一个项集的出现次
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集：若一个项集的支持度大于等于某个阈值。
7
2012-10-12
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比，即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
啤酒=>尿布
职业秘书工程师
购买物品月工资
尿布
3000
啤酒、尿布 5000
性别=“女”=>职业=“秘书”
20
2012-10-12
四、关联规则的价值衡量
对关联规则的评价与价值衡量涉及两个层面： A.系统客观的层面使用“支持度和信任度”框架可能会产生一些不正确的规则。
B.用户主观的层面 ✓只有用户才能决定规则的有效性、可行性。 ✓如果把某些约束条件与算法紧密结合，既能提高数据挖掘效率，又能明确数据挖掘的目标。
I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒
Support-count(I1)=6
6
2012-10-12
一、基本概念
❖关联规则:形如 A => B 的蕴涵式，其中A ⊂I , B⊂I,并且 A∩B =ф。
❖ 支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比，即概率。[规则代表性、重要性衡量]
21
2012-10-12
五、关联规则的挖掘算法
Apriori算法挖掘或识别出所有频繁项集是该算法的核心，占
整个计算量的大部分。不足：产生大量候选频繁集、多次扫描数据库 FP-Tree算法优点:不产生候选频繁集、只两次扫描数据库其他算法…
22
2012-10-12
六、关联规则的应用
购物分析
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的，因为全部学生中喝麦片粥的比率是75%，比打篮球学生的66.7%要高。
➢ 打篮球 => 不喝麦片粥 [20%, 33.3%]这个规则远比上面那个要精确，尽管支持度和置信度都要低的多。
14
2012-10-12
二、关联规则挖掘过程
兴趣度（作用度）：描述了项集A对项集B的影响力的大小，即A与B的相关程度。
23
医疗诊断
2012-10-12
气象预测
…
Thank You!
2012-10-12
24
13
2012-10-12
二、关联规则挖掘过程
对强关联规则的批评：
eg:
项目喝麦片不喝麦片合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中，3000个打篮球，3750个喝麦片粥，2000个学生既打篮球又喝麦片粥。
16
2012-10-12
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型:布尔型关联规则处理的值都是离散的、种
类化的，它显示了这些变量之间的关系； B. 数值型 :数值型关联规则可以和多维关联或多层
关联规则结合起来，对数值型字段进行处理。 eg：性别=“女”=>职业=“秘书” 性别=“女”=>avg（收入）=2300
关联规则分析及应用ppt课件
目录
1
基本概念
2
关联规则挖掘过程
3
分类
4
关联规则的价值衡量
5
挖掘算法
6
关联规则的应用
2
2012-10-12
绪论
在购买铁锤的顾客当中，有70％的人同时购买了铁钉。
年龄在40 岁以上，工作在A区的投保人当中，有45％的人曾经向保险公司索赔过。
在超市购买面包的人有70%会购买牛奶
Hale Waihona Puke 172012-10-12
三、关联规则的分类
基于规则中数据的抽象层次： A.单层关联规则:所有的变量都没有考虑到现实的数
据是具有多个不同的层次的；
B.多层关联规则:对数据的多层性已经进行了充分的考虑。
层：大类是否细分的问题，如上衣可以细分为衬衣、夹克、风衣等。
eg: IBM台式机=>Sony打印机
生成强关联规则
min_conf
用户
规则评价
9
2012-10-12
二、关联规则挖掘过程
关联规则挖掘举例：
假定数据包含频繁项集
M={I1，I2，I5}。可以由M
产生哪些关联规则？
10
2012-10-12
二、关联规则挖掘过程
❖ M 的非空真子集有{I1，I2}、{I1，I5}、{I2，I5}、
{I1}、{I2}和{I5}。则结果关联规则如下，每个都
I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,
confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 %
confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %
P(AB) I(A B)= P(A)P(B) ✓若I(A B)=1,即P(A)P(B)=P(AB)，A与B相互独立； ✓若I(A B)<1,表示A出现和B出现是负相关的。 ✓若I(A B)>1,表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。小结：只有兴趣度大于1，该规则才具有实际价值。
数就是整个数据集中包含该项集的事务数。
5
2012-10-12
一、基本概念
D
TID
Items
001
I1、I2、I5
002
I2、I4
T
003
A I2、I3
004
I1、I2、I4
005
I1、I3
006
B I2、I3
007
I1、I3
008
I1、I2、I3、I5
009
I1、I2、I3
In（n=1,2,…）指具体项目，如购物篮分析中：
12
2012-10-12
二、关联规则挖掘过程
如果最小置信度阈值为70%，那么只有第2、3、6个规则可以作为最终的结果输出，因为只有这些是产生的强关联规则。
I1 I5 I2, I2 I5 I1,
I5 I1 I2,
confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%
台式机=>Sony打印机
18
2012-10-12
三、关联规则的分类
分层示例：
19
2012-10-12
三、关联规则的分类
基于规则中数据的维数： A.单维关联规则:只涉及到数据的一个维，如用户购
买的物品；
B.多维关联规则:要处理的数据将会涉及多个维。
TID 001 002
eg:
姓名张三李四
性别女男
列出置信度。
项集
支持度计
数
项集支持度 {I1，I2}
4
计数
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I1，I3}
4
{I1，I5}
2
{I2，I3}
4
{I2，I4}
2
项集
支持度计数
{I1，I2，I3} 2
{I1，I2，I5} 2
{I5}
2
{I2，I5}
2
11
2012-10-12
二、关联规则挖掘过程
15
2012-10-12
三、关联规则的分类
基于规则中处理的变量的类别 A.布尔型：布尔型关联规则处理的值都是离散的、种
类化的，它显示了这些变量之间的关系； B. 数值型：数值型关联规则可以和多维关联或多层
关联规则结合起来，对数值型字段进行处理。 eg：性别=“女”=>职业=“秘书” 性别=“女”=>avg（收入）=2300