关联规则分析及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T)
❖频繁项集:若一个项集的支持度大于等于
某个阈值。 2012-10-12
7
一、基本概念
❖置信度c:是包含A的事务中同时又包含B的百 分比,即条件概率。[规则准确性衡量]
c=onsfuidppeonrcte_(coAuntB( )A =U PB )( B | A) support_count ( A)
min_conf
用户
规则评价
2012-10-12
9
二、关联规则挖掘过程 关联规则挖掘举例:
假定数据包含频繁项集
M={I1,I2,I5}。可以由M
产生哪些关联规则?
2012-10-12
10
二、关联规则挖掘过程
❖I下M5},的、每非{I个空1}都、真列{子I出2集}置和有{信{II度51},。。I则2}结、果{I关1,联I5规}、则{如I2,
16
三、关联规则的分类
基于规则中处理的变量的类别
A.布尔型:布尔型关联规则处理的值都是离散 的、种类化的,它显示了这些变量之间的 关系;
B. 数值型 :数值型关联规则可以和多维关联 或多层 关联规则结合起来,对数值型字 段进行处理。
2012-10-12
13
二、关联规则挖掘过程 对强关联规则的批评:
eg:
项目 喝麦片 不喝麦片 合计
打篮球 2000 1000 3000
不打篮球 1750 250 2000
合计 3750 1250 5000
在5000个学生中,3000个打篮球,3750个喝麦片 粥,2000个学生既打篮球又喝麦片粥。
在超市购买面包的人有70%会购买牛 奶
2012-10-12
3
绪论
2012-10-12
4
一、基本概念
设 I={I1,Iຫໍສະໝຸດ Baidu,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务 标识符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集 称为k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出 现次数就是整个数据集中包含该项集的事务数。
➢ 打篮球 => 喝麦片粥 [40%, 66.7%]是错误的,因为全部 学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。
➢ 打篮球 => 不喝麦片粥 [20%, 33.3%]这个规则远比上面 那个要精确,尽管支持度和置信度都要低的多。
2012-10-12
14
二、关联规则挖掘过程
兴趣度(作用度):描述了项集A对项集B的
15
三、关联规则的分类
基于规则中处理的变量的类别
A.布尔型:布尔型关联规则处理的值都是离 散的、种类化的,它显示了这些变量之间 的关系;
B. 数值型:数值型关联规则可以和多维关联 或多层 关联规则结合起来,对数值型 字段进行处理。
eg: 性别=“女”=>职业=“秘书”
2012-10-12
性别=“女”=>avg(收入)
2012-10-12
12
二、关联规则挖掘过程 如果最小置信度阈值为70%,那么只有第2、3、 6个规则可以作为最终的结果输出,因为只有 这些是产生的强关联规则。
I1 I5 I2, I2 I5 I1,
I5 I1 I2,
confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%
2012-10-12
5
一、基本概念 D
TID
Items
001
I1、I2、I5
002
I2、I4
T
003
A I2、I3
004
I1、I2、I4
005
I1、I3
006
B I2、I3
007
I1、I3
008
I1、I2、I3、I5
009
I1、I2、I3
2012-10-12
In(n=1,2,…) 指具体项目,如 购物篮分析中:
❖强关联规则:同时满足用户定义的最小支
持度阈值(min_sup)和最小置信度阈值
(min_conf)的规则称为强规则。
9
2012-10-12
8
二、关联规则挖掘过程
两个步骤:
▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
生成强关联规则
Data Mining
关联规则分析及应用
2012-10-12
1
目录
1
基本概念
2
关联规则挖掘过程
3
分类
4
关联规则的价值衡量
5
挖掘算法
6
关联规则的应用
2012-10-12
2
绪论
在购买铁锤的顾客当中,有70%的人 同时购买了铁钉。
年龄在40 岁以上,工作在A区的投保 人当中,有45%的人曾经向保险公司 索赔过。
项集
支持度计
数
项集 支持度 {I1,I2}
4
计数
{I1,I3}
4
{I1}
6
项集
支持度
{I1,I5}
2
计数
{I2}
7
{I1,I2,I3} 2
{I3}
{I2,I3}
4
6
{I4}
2
{I2,I4}
2
{I1,I2,I5} 2
{I5}
2
{I2,I5}
2
2012-10-12
11
二、关联规则挖掘过程
I1 I2 I5, confidence = 2/4 = 50 % I1 I5 I2, confidence = 2/2 = 100 % I2 I5 I1, confidence = 2/2 = 100 % I1 I2 I5, confidence = 2/6 = 33% I2 I1 I5, confidence = 2/7 = 29% I5 I1 I2, confidence = 2/2 = 100 %
I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒
Support-count(I1)=6
6
一、基本概念
❖关联规则:形如 A => B 的蕴涵式,其中A ⊂I , B⊂I,并且 A∩B =ф。
❖支持度:关联规则在D中的支持度(support) 是D中事务同时包含A、B的百分比,即概率。 [规则代表性、重要性衡量]
影响力的大小,即A与B的相关程度。
I(A B)=
P(AB)
P(A)P(B)
✓若I(A B)=1,即P(A)P(B)=P(AB),A与B相互 独立;
✓若I(A B)<1,表示A出现和B出现是负相关的。
✓若I(A B)>1,表示A出现和B出现是正相关的。 意味着A的出 现蕴含B的出现。
2012-10-12