多维关联规则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


买 不买 买 不买 买 买
学生?



128 64 132
不买

不买

64
32 32 63

中 中 老

中 高 中

否 是 否

优 良 优

买 买 不买
他/她会买计算机吗?
1

6




Computer ,CCUT
粗糙集方法
在DB中,将行元素看成对象,列元素是属性(分为条件属 性和决策属性)。等价关系R定义为不同对象在某几个属性 上取值相同。满足等价关系的对象组成的集合称为该等价 关系R的等价类。条件属性上的等价类E与决策属性上的等 价类Y之间有三种情况:
support ( x y ) 100% support ( x)
若 confidence( x y) minconf 则为所求关联规则。
例如:
support ( BE ) 3 confidence( B E ) 100% 100% support ( B) 3
Computer ,CCUT
①下近似:Y包含E 建立确定规则
②上近似:Y和E的交非空
③无关: Y和E的交为空
建立不确定规则
不存在规则
7
Computer ,CCUT
R 1 2 3 4 5 6 7 8 9 10
a1 V11 V10 V12 V11 V11 V12 V10 V11 V11 v10
a2 V20 V21 V20 V21 V20 V20 V21 V21 V20 v21
Items ACD BCE ABCE BE

Itemset
Sum
Support
A B C D E
2 3 3 1 3
50% 75% 75% 25% 75%
Computer ,CCUT
2

x y x y 称为关联 y 若 x,为项目集,且 ,则 规则,则此规则的置信度为:
confidence( x y)
a3 V32 V30 V30 V30 V32 V30 V31 V31 V32 V31
基于a1划分等价类
E1={1,4,5,8,9};E2={2,7,10};E3={3,6}
基于{a1,a2}划分等价类 E1={1,5,9};E2={2,7,10};E3={3,6}; E4={4,8} 基于a3划分等价类 Y1={1,5,9};Y2={7,8,10};Y3={2,3,4,6} AY1={1,5,9}; AY2={}; AY3={3,6} A-Y1={1,5,9}; A-Y2={2,4,7,8,10}; A-Y3={2,3,4,6,7,8,10}
#7({3}, {a2,b1,c2,d3})
#9(, {a1,a2,a3,b1,b2,b3,c1,c2,d1,d2,d3,d4})
9
Computer ,CCUT
代数格
10
Computer ,CCUT
11
Computer ,CCUT
数据挖掘的主要问题
数据的特点:动态变化、有噪声、不完整、冗余信息、数据 稀疏、超大数据量 挖掘方法和用户交互问题 在数据库上挖掘不同类型的知识(用户不同兴趣也不同) 多个抽象层的交互知识挖掘 结合背景知识 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 处理噪声和不完全数据 模式评估——兴趣度问题 性能问题 数据挖掘算法的有效性和可伸缩性 Computer ,CCUT 并行,分布式和增量挖掘算法
3
关联规则挖掘
[例]、超级商场中购买面包和黄油
该关联规则的可信度就回答这样一个问题:如果一个 顾客购买了面包,那么也购买黄油的可能性有多大?
如购买面包的顾客中有 70%的人购买了黄油,则置信 度为
confidence 70%
如果某天共有1000个顾客到商场购买物品,其中有100 个顾客购买了面包,则关联规则的支持度为 support=(100/1000)×100%=10%
| Ei Yj | Cf= | Ei |
由E1与Y1
(a1=V11) ∧(a2=V20)->(a3=V32) cf=1.0
8
由E2与Y2: (a1=V10) ∧(a2=V21)->(a3=V31) cf=0.67 Computer ,CCUT
形式背景例子
A
1 a1
B
b1
C
c1
D
d1

概念格 概念之间的泛化 和特化关系,概念 聚类
A B C
E
1
Computer ,CCUT

数据集D中包含项目集X的事务数称为项目集X的支持数,
记为 ,项目集 X X的支持度计为
为数据集D的事务数,若 频繁集。
X为 support( x)则称 minsup
support( x) 其中 X 100% |D| |D|
TID 1 2 3 4
2
3
a1
a2
b2
b1
c1
c2 c1
d2
d3 d4
4 a3 b3 #1({1, 2, 3, 4}, ) #2({1,3}, {b1})
#3({1,2,4}, {c1}) #4({1,2}, {a1, c1})
#5({4}, {a3,b3,c1,d4}) #6({2}, {a1,b2,c1,d2}) #8({1}, {a1,b1,c1,d1})
关联规则

关联规则挖掘的数据集记为
D {t1 , t2 ,...,tk ,...,tn }
tk {i1, i2 ,...,im ,...,i p }, tk (k 1,2,...,n) 称为事务
im (m 1,2,..., p) 称为项目
事务数据库 项目
TID 1 2 3 4
Items ACD BCE ABCE BE
4
Computer ,CCUT
关联规则挖掘的基本步骤
关联规则挖掘即为找到支持度和置信度均满足用户 给定闵值的规则,可以分为以下两个步骤: ①、找出所有频繁项集x。 support( x) minsup
②、由频繁项集生成所有满足最小置信度阈值的 规则。若B A,B≠ ,且
Support(A)/Support(B)>=minconf 则有关联规则B (A-B)。
5
Computer ,CCUT
决策树
谁在买计算机?
年龄?
青 中 老
计数 64 64 128
年龄 青 青 中
收入 高 高 高
学生 否 否 否
信誉 良 优 良
归类:买计 算机? 不买 不买 买
60
64 64 64 信誉?
优 良

老 老 中 青 青 老

低 低 低 中 低 中

是 是 是 否 是 是

良 优 优 良 良 良
相关文档
最新文档