多维关联规则

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

买
买不买买不买买买
学生？
否
买
是
128 64 132
不买
买
不买
买
64
32 32 63
青
中中老
中
中高中
是
否是否
优
优良优
买
买买不买
他/她会买计算机吗？
1
老
6
中
否
优
买
Computer ,CCUT
粗糙集方法
在DB中，将行元素看成对象，列元素是属性（分为条件属性和决策属性）。等价关系R定义为不同对象在某几个属性上取值相同。满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况：
support ( x y ) 100% support ( x)
若 confidence( x y) minconf 则为所求关联规则。
例如：
support ( BE ) 3 confidence( B E ) 100% 100% support ( B) 3
Computer ,CCUT
①下近似：Y包含E 建立确定规则
②上近似：Y和E的交非空
③无关： Y和E的交为空
建立不确定规则
不存在规则
7
Computer ,CCUT
R 1 2 3 4 5 6 7 8 9 10
a1 V11 V10 V12 V11 V11 V12 V10 V11 V11 v10
a2 V20 V21 V20 V21 V20 V20 V21 V21 V20 v21
Items ACD BCE ABCE BE

Itemset
Sum
Support
A B C D E
2 3 3 1 3
50% 75% 75% 25% 75%
Computer ,CCUT
2

x y x y 称为关联 y 若 x,为项目集，且，则规则，则此规则的置信度为：
confidence( x y)
a3 V32 V30 V30 V30 V32 V30 V31 V31 V32 V31
基于a1划分等价类
E1={1,4,5,8,9};E2={2,7,10};E3={3,6}
基于{a1,a2}划分等价类 E1={1,5,9};E2={2,7,10};E3={3,6}; E4={4,8} 基于a3划分等价类 Y1={1,5,9};Y2={7,8,10};Y3={2,3,4,6} AY1={1,5,9}; AY2={}; AY3={3,6} A-Y1={1,5,9}; A-Y2={2,4,7,8,10}; A-Y3={2,3,4,6,7,8,10}
#7({3}, {a2,b1,c2,d3})
#9(, {a1,a2,a3,b1,b2,b3,c1,c2,d1,d2,d3,d4})
9
Computer ,CCUT
代数格
10
Computer ,CCUT
11
Computer ,CCUT
数据挖掘的主要问题
数据的特点：动态变化、有噪声、不完整、冗余信息、数据稀疏、超大数据量挖掘方法和用户交互问题在数据库上挖掘不同类型的知识（用户不同兴趣也不同）多个抽象层的交互知识挖掘结合背景知识数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和显示处理噪声和不完全数据模式评估——兴趣度问题性能问题数据挖掘算法的有效性和可伸缩性 Computer ,CCUT 并行，分布式和增量挖掘算法
3
关联规则挖掘
[例]、超级商场中购买面包和黄油
该关联规则的可信度就回答这样一个问题：如果一个顾客购买了面包，那么也购买黄油的可能性有多大？
如购买面包的顾客中有 70%的人购买了黄油，则置信度为
confidence 70%
如果某天共有1000个顾客到商场购买物品，其中有100 个顾客购买了面包，则关联规则的支持度为 support=(100/1000)×100%=10%
| Ei Yj | Cf= | Ei |
由E1与Y1
(a1=V11) ∧(a2=V20)->(a3=V32) cf=1.0
8
由E2与Y2: (a1=V10) ∧(a2=V21)->(a3=V31) cf=0.67 Computer ,CCUT
形式背景例子
A
1 a1
B
b1
C
c1
D
d1
格
概念格概念之间的泛化和特化关系,概念聚类
A B C
E
1
Computer ,CCUT

数据集D中包含项目集X的事务数称为项目集X的支持数，
记为，项目集 X X的支持度计为
为数据集D的事务数，若频繁集。
X为 support( x)则称 minsup
support( x) 其中 X 100% |D| |D|
TID 1 2 3 4
2
3
a1
a2
b2
b1
c1
c2 c1
d2
d3 d4
4 a3 b3 #1({1, 2, 3, 4}, ) #2({1,3}, {b1})
#3({1,2,4}, {c1}) #4({1,2}, {a1, c1})
#5({4}, {a3,b3,c1,d4}) #6({2}, {a1,b2,c1,d2}) #8({1}, {a1,b1,c1,d1})
关联规则

关联规则挖掘的数据集记为
D {t1 , t2 ,...,tk ,...,tn }
tk {i1, i2 ,...,im ,...,i p }, tk (k 1,2,...,n) 称为事务
im (m 1,2,..., p) 称为项目
事务数据库项目
TID 1 2 3 4
Items ACD BCE ABCE BE
4
Computer ,CCUT
关联规则挖掘的基本步骤
关联规则挖掘即为找到支持度和置信度均满足用户给定闵值的规则，可以分为以下两个步骤： ①、找出所有频繁项集x。 support( x) minsup
②、由频繁项集生成所有满足最小置信度阈值的规则。若B A，B≠ ，且
Support(A)/Support(B)>=minconf 则有关联规则B (A-B)。
5
Computer ,CCUT
决策树
谁在买计算机？
年龄？
青中老
计数 64 64 128
年龄青青中
收入高高高
学生否否否
信誉良优良
归类：买计算机？不买不买买
60
64 64 64 信誉？
优良
老
老老中青青老
中
低低低中低中
否
是是是否是是
良
良优优良良良