关联规则(1).ppt

合集下载

关联规则

关联规则
21
剪 枝
由Lk-1生成Ck, 所有Lk都在Ck中,但Ck可能仍 然很大,需要对Ck进行剪枝,再使Ck减小, 得到最后的候选集。剪枝过程如下: 再判断Ck中k-1子项目集是否在Lk-1中,如不 在,那么这个Ck就不会是频繁项目集。从Ck 删除。 Ck就会大大减小。 由{i1, i3 ,i4 ,i6} ,{i1, i3 ,i4 ,i8}产生的{i1, i3 ,i4 ,i6, ,i8} 如{ i3 ,i4 ,i6, ,i8}或 {i1,,i4 ,i6, ,i8}……不在Lk-1中, {i1, i3 ,i4 ,i6, ,i8}就应删去。
22
Apriori 算法说明
例子:最小支持度设为2。 D(数据库) C1 (候选集)
TID T100 T200 T300 T400 T500 T600 T700 T800 T900 D中的项目 i1 i2 i2 i1 i1 i2 i1 i1 i1 i2 i5 i4 i3 i2 i4 i3 i3 i3 i2 i3 i5 i2 i3 项集 支持度 {i 1 } {i 2 } {i 3 } {i 4 } {i 5 } 6 7 6 2 2
10
3、若有事务T,其中 X T, Y T, X∩Y=, X∪Y T, X、Y也为项目集;则形如 XY 的规则称为关联规则;(即购物事务,购买X, 也购买Y); 4、在数据库D中,若s% 的事务包含X∪Y,则关联 规则XY的支持率为s%;在数据库 D 中,若c% 包含项目集X的事务的也包含项目集Y,则关联 规则XY的置信度为c%。
13
关联规则挖掘分为两步:
1、找频繁(大)项目集 大于最小支持度项集 2、找强关联规则 大于最小支持度和最小置信度的关联规则
第二个任务已经圆满解决。关联规则挖掘的研 究工作多为找频繁集的各种算法。

大数据技术及应用教学课件第7章 大数据分析挖掘-关联规则

大数据技术及应用教学课件第7章 大数据分析挖掘-关联规则
第7章
大数据分析挖掘—关联规则
主要内容
01
关联规则的概念
02
关联规则挖掘的一般过程
03
Apriori算法
04
FP-Growth算法
05
关联模式评估
大数据分析挖掘——关联规则
7.1基本概念
• 设 I {x1, x2,xm}是项目的集合,其中的元素称为项目 (item),一个集合被称为一个项集,包含k个项的集合称为 k-项集。
项集 支持度计数
{I1,I2} 1
{I1,I3} 2
{I1,I5} 1
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
4.比较候选项支持度计数与最小支持度min_sup,产生2维最大项目集:
项集 支持度计数
{I1,I3} 2
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
5.由L2 产生候选项集 C3,比较候选项支持度计数与最小支持度 min_sup,产生3维最大项目集 L3 ,至此算法终止。
• FP-Growth算法(Frequent Pattern-Growth)是另一种 找出频繁项集的方法,与先生成规则再筛选的Apriori算 法不同,FP-Growth算法是将数据库中符合频繁1-项集规 则的事务映射在一种图数据结构中,即FP树,而后据此 再生成频繁项集,整个过程只需要扫描两次数据集。
表7.1 某商店购物清单 Item 2
Item 3
1
香草华夫
香蕉
狗粮
2
香蕉
3
香蕉
4
香草华夫
5
面包
6
牛奶
7
香草华夫
8
酸奶
9

中医配方关联规则

中医配方关联规则

中医配方关联规则一、中医配方关联规则的初步理解中医配方那可老神奇啦,就像不同的小伙伴凑在一起能搞出超级厉害的组合一样。

这关联规则呢,就是去探寻这些配方里各种药材之间的神秘联系。

比如说,有的药材总是跟另一些药材一起出现,这里面肯定是有啥原因的。

也许是它们在治疗某种病症的时候相互配合能达到更好的效果,就像一个团队里大家分工合作那样。

二、研究中医配方关联规则的意义1. 对中医传承有大作用呢。

通过搞清楚关联规则,能更好地把老祖宗留下来的中医智慧传递下去。

不然有些配方可能就慢慢被遗忘或者用错啦。

2. 对现代医学也有启发。

现在很多病都需要新的治疗方法,中医配方里的关联规则也许能给现代医学研究提供一些新的思路,说不定能研制出一些结合中医智慧的新药呢。

三、如何探索中医配方关联规则1. 从大量的中医典籍入手。

那些古老的医书里记载了超多的配方,我们可以把这些配方都整理出来,看看哪些药材出现的频率高,哪些药材总是跟特定的病症相关的配方在一起。

2. 结合现代技术。

现在有计算机技术啥的,可以把大量的配方数据输入进去,让计算机帮忙分析。

比如说,找出那些经常一起出现的药材组合,然后再深入研究这些组合对病症的影响。

3. 进行实际的病例研究。

看看在真实的病人治疗过程中,哪些配方真的起到了很好的效果,然后分析这些配方里药材的关联,说不定能发现一些之前没注意到的规律。

四、可能遇到的困难和解决办法1. 数据杂乱。

中医典籍太多啦,而且不同的典籍记载的配方可能会有一些差异。

这时候我们就得仔细甄别,多参考权威的典籍,并且可以找一些中医专家来帮忙梳理。

2. 现代技术与中医理论的结合难题。

虽然计算机能分析数据,但是它可能不懂中医的理论。

这就需要既懂中医又懂技术的人来做桥梁,把中医的概念转化成计算机能理解的东西,这样才能更好地探索关联规则。

五、总结中医配方关联规则的研究可不容易,但意义非凡。

要是能把这个研究透了,那中医肯定能发展得更好,也能给全世界的健康事业做出更大的贡献。

关联规则

关联规则

内部资料 泰迪科技()
4
关联规则——Apriori算法介绍
以超市销售数据为例,提取关联规则的最大困难在于当存在
很多商品时,可能的商品的组合(规则的前项与后项)的数
目会达到一种令人望而却步的程度。因而各种关联规则分析 的算法从不同方面入手减小可能的搜索空间的大小以及减小 扫描数据的次数。 Apriori算法是最经典的挖掘频繁项集的算法,第一次实现了 在大数据集上可行的关联规则提取,其核心思想是通过连接 产生候选项与其支持度然后通过剪枝生成频繁项集。
内部资料 泰迪科技()
5
关联规则——Apriori算法介绍
1、关联规则和频繁项集

(1)关联规则的一般形式 项集A、B同时发生的概率称为关联规则的支持度:
Support ( A B) P( A B)
项集A发生,则项集B也同时发生的概率为关联规则的置信度:
Confidence( A B) P( B|A)
订单号 1 2 3 4 5 6 7 8 9 10 菜品id 18491, 8693,8705 8842,7794 8842,8693 18491,8842,8693,7794 18491,8842 8842,8693 18491,8842 18491,8842,8693,8705 18491,8842,8693 18491,8693 菜品id a,c,e b,d b,c a,b,c,d a,b b,c a,b a,b,c,e a,b,c a,c,e
项集将不会存在于 Ck ,该过程就是剪枝。
内部资料 泰迪科技()
13
关联规则——Apriori算法实现
Apriori算法的实现的两个过程 过程一:找出所有的频繁项集。 过程二:由频繁项集产生强关联规则 由过程一可知未超过预定的最小支持度阈值的项集已被剔除, 如果剩下这些规则又满足了预定的最小置信度阈值,那么就挖 掘出了强关联规则。

关联规则简介

关联规则简介

交易ID 2000 1000 4000 5000
购买的商品 A,B,C A,C A,D B,E,F
设最小支持度为50%, 最小可 信度为 50%, 则可得到
– A ⇒ C (50%, 66.6%) – C ⇒ A (50%, 100%)
频繁项集:如果项集的支持度超过用户给定的最小支持度阈值,就称 该项集是频繁项集。
关联规则基本模型
• • • • • 基本概念: 设I={i1, i2,…, im}为所有项目的集合 D为事务数据库,事务T是一个项目子集(T⊆I) 每一个事务具有唯一的事务标识TID。 设A是一个由项目构成的集合,称为项集。事务T 包含项集A,当且仅当A⊆T。如果项集A中包含k个 项目,则称其为k项集。


例子:典型的关联规则发现问题是对超市中的货篮数据(Market
ห้องสมุดไป่ตู้
Basket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系 来分析顾客的购买习惯。
– 超市数据中的什么产品会一起购买?— 啤酒和尿布
– 在买了一台PC之后下一步会购买? – 哪种DNA对这种药物敏感? – 我们如何自动对Web文档进行分类?
关联规则:支持度和信任度分别满足用户给定阈值的规则。
关联规则基本模型
• 发现关联规则需要经历如下两个步骤:
–找出所有频繁项集。 –由频繁项集生成满足最小可信度阈值的规则。 具体来说: (1)候选集与频繁项集的产生 (2)对于L的每个非空子集S,如果 |L|/|S|>=min_conf,则输出规则:S->L-S.
3rd scan
L3
Itemset {B, C, E}
sup 2
提高Apriori算法的方法

医药信息分析与决策-关联规则 ppt课件

医药信息分析与决策-关联规则  ppt课件

则称 为频繁项目集,否则,称 为非频繁项目集。
8.1.2 基本概念与规则度量
• 强关联规则: 关联规则称为强关联规则, 必须

同时成立,否
则称为弱关联规则。
8.1.2 基本概念与规则度量
• 性质1. 设X 和 Y是数据集 中的项目子集
(1)若
,则support (X )
support (Y)
(2)若
是,参与连接的两个K项集合前k-1项相同,第k项不同。
2. 产生频繁项集的过程
2. 剪枝步
从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 Apriori 性质: 任何K+1项频繁集的任意K项子集必须是频繁的 支持度计算
C为CK中的一项,T是事务集中的一条事务,如果C∈T,C的支持度加1,遍历 整个数据库,可以得到C的支持度 例:C1={I1,I2},T2={I1,I2,I3} c.sup++
表示。项目的集合称为项目集,简称项集。设集合
是项
集, I中项目的个数为 n ,则集合 称为 n -项集。例如,集合{啤酒,
尿布,牛奶}是一个3-项集。
8.1.2 基本概念与规则度量
• 事务与事务集: 设
是由数据库中所有项目构成的集合
,一次处理所含项目的集合用 表示,是 I 的子集,称为一个事务。
事务的集合
2.利用频繁项目集生成所需要的关联规则。 对每一频繁项目集 ,找到其所有非空子集 ,如果比 率: 称为强关联规则。
8.2.2 Apriori算法
• 1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持 度,发现所有的频繁项集从而生成关联规则。Apriori 算法 使用称为 逐层收索的迭代方法,首先寻找1-项频繁集的集合,集合 记做L1, L1用于寻找两项频繁集合L2,L2 用于寻找L3,如此下去,直到不能 找K项频繁集合

关联规则概念

关联规则概念
算法的基本思想: 使用一种称作逐层搜索的迭代方法,K-项 集用于探索(K+1)-项集。首先,找出频繁1项集的集合,记为l1。l1用于找频繁2-项集的集 合l2,而l2用于找l3,如此下去,直到不能找到 频繁K-项集LK。找每个LK需要一次数据库扫描。 最后由频繁K-项集可直接产生强关联规则。
11
二、Apriori算法及举例
C3
支持度 项 集 扫描D, 计数 对每个 候选计 {L1,L2,L3} 2 数
{L1,L2,L5} 2
L3
比较候选支持度 计数与最小支持 度计数


支持度计数
2 2
{ L1 ,L2 ,L3} { L1 ,L2 ,L5}
(图2续)
19
二、Apriori算法及举例
Apriori算法的缺点: Ck中的每个元素需在交易数据库中进行验 证来决定其是否加入Lk,这里的验证过程是算 法性能的一个瓶颈。这个方法要求多次扫描可 能很大的交易数据库,如果频繁项集最多包含 10个项,那么就需要扫描交易数据库10遍,这 需要很大的I/O负载。 可能产生大量的候选集,以及可能需要重复 扫描数据库,是Apriori算法的两大缺点。
28
三、Apriori算法的改进
5. 动态项集计数
动态项集计数技术将数据库划分为标记开 始点的块。不象Apriori仅在每次完整的数据 库扫描之前确定新的候选,在这种变形中,可 以在任何开始点添加新的候选项集。该技术动 态地评估已被计数的所有项集的支持度,如果 一个项集的所有子集已被确定为频繁的,则添 加它作为新的候选。结果算法需要的数据库扫 描比Apriori 少。
23
三、Apriori算法的改进
1.散列
桶地址 桶计数 0 2 1 2 2 4

关联规则与反向关联

关联规则与反向关联
关联规则 Efficient Mining of Both Positive and Negative Association Rules
ACM Transactions on Information Systems, Vol. 22, No. 3, July 2004.
XINDONG WU University of Vermont CHENGQI ZHANG University of Technology, Sydney, Australia SHICHAO ZHANG University of Technology, Sydney, Australia and Tsinghua University, China
例子
• 计算fipi与iipi,对Lk和Nk进行修剪
例子
• 修剪后的L2
• N2 =AC, AE, AF, BE, CE, DE, DF, EF • 分别加入PL和NL • Tem3=BCD, BCF, BDF
例子
• Tem4为空,到第三步终止
4.搜索关联规则
• =1,X与Y独立 • >1, X与Y正关联 • 越大,关联越强 • <1, X与Y负关联 • 越大,关联越强
2.概念
• • • • • 项目(item) 项集(itemset) 事务(transaction) 前项( antecedent antecedent) 后项( consequent)
2.概念
• 规则支持度(Support):普遍性 ):普遍性 (Support):
• 项目X和项目Y项同时出现的概率 项目X和项目Y
提纲
• • • • • • 1.概述 2.概念 3.搜索感兴趣的象集(interesting itemsets ) 4.搜索关联规则 4. 5.相关文献 6.实验结果

数据挖掘方法——关联规则(自己整理)

数据挖掘方法——关联规则(自己整理)
一、关联规则概念 二、关联规则应用领域 三、关联规则挖掘的过程 四、关联规则的分类 五、关联规则挖掘的相关算法 六、关联规则的优缺点
1
一、关联规则概念
关联分析(Association analysis):就是从给定的数据集发现频繁出 现的项集模式知识(又称为关联规则,association rules)。
按照不同情况,关联规则可以进行分类如下: 1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值 型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动 态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。 例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入) =2300,涉及的收入是数值类型,所以是一个数值型关联规则。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而 在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打 印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层 次之间的多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维关联规则和多维关联规则。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联 规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的 一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则 只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段 的信息,是两个维上的一条关联规则。

关联规则分析及应用ppt课件

关联规则分析及应用ppt课件

❖ 强关联规则:同时满足用户定义的最小支持度阈值 (min_sup)和最小置信度阈值(min_conf)的规则 称为强规则。
9
8
2012-10-12
二、关联规则挖掘过程
两个步骤: ▪ 找出所有频繁项集。 ▪ 由频繁项集生成满足最小信任度阈值的规则。
挖掘模式:
Database
产生频繁项集
min_sup
3
2012-10-12
绪论
4
2012-10-12
一、基本概念
设 I={I1,I2,…,In} 是项的集合。
❖任务相关数据D:是事务(或元组)的集合。
❖事务T:是项的集合,且每个事务具有事务标识 符TID。
❖项集A:是T 的一个子集,加上TID 即事务。
❖项集(Items):项的集合,包含k个项的项集称为 k-项集,如二项集{I1,I2}。 ❖支持度计数(Support count):一个项集的出现次
Support(A B)=P ( A ∩ B )
= support _ count(A∩B)
count (T) ❖ 频繁项集:若一个项集的支持度大于等于某个阈值。
7
2012-10-12
一、基本概念
❖ 置信度c:是包含A的事务中同时又包含B的百分比, 即条件概率。[规则准确性衡量]
confidence ( A B ) = P ( B | A) = support _ count ( A U B ) support_count ( A)
啤酒=>尿布
职业 秘书 工程师
购买物品 月工资
尿布
3000
啤酒、尿布 5000
性别=“女”=>职业=“秘书”
20
2012-10-12

关联规则

关联规则

关联规则度量
期望 可信度 改善度
兴趣度?
( 置信度-支持度 )/ 描述 X的出现对Y的出现 描述了对于关联规则 Max{ } (X 置信度,支持度 ==> Y)在没有任 影响多大,是置信度与 何条件影响时,Y在所 一条规则的兴趣度大于 期望可信度的比值。 有交易中出现的频率有 0 ,实际利用价值越大 P(Y|X)/P(Y) 多大。即没有 X的作用 ;小于 0则实际利用价 下,Y本身的支持度。 值越小。
表1 交易数据库D
找出频繁项集--Apriori算法
例:最小支持度阈值 为2
C1
项集 {I1} {I2} {I3} {I4} {I5}
扫描D,对每 个候选计数
支持度 计数 6 7 6 2 2
L1
比较候选支持 度计数与最小 支持度计数
项集 {I1} {I2} {I3} {I4} {I5}
支持度 计数 6 7 6 2 2
Apriori算法详述
• 输入:交易数据库D;最小支持度阈值min_sup。 • 输出:D中的频繁项集L。 • 方法:
• (1) 找频繁项集1-项集; • (2) apriori_gen(Lk-1,min_sup) 函 数 做 两 个 动作:连接和剪枝。用于在第k-1次遍历中生 成的Lk-1生成Ck • (3) 由Ck生成Lk


报告人:熊

内容概要
基本概念
Apriori算法 FP-Growth算法
关联规则分类
其他
第3章


3.1 3.2 3.3 3.4
基本概念 原 理 核心算法 其 他
基 本 概 念
自然界中某种事物发生时其他事物也会发生
的这样一种联系称之为关联。 反映事件之间依赖或关联的知识称为关联型 知识(又称依赖关系)。 (?)

Weka系统中的关联规则

Weka系统中的关联规则
将第一区间最低值减去价差,得第二区间最低值,即1613.286.8=1526.4。
依步骤3,得第三区间最低值1439.6和第四区间最低值1352.8。
每个区间的最低值为下一区间的最高值。
这样就可以分为[1700,1613.2),[1613.2,1526.4), [1526.4,1439.6),[1439.6,1352.8),[1352.8,1266]。
共20条规则。其中前3条与Apriori的 所挖出来的3条规则类似。可以看出, PredictiveApriori按acc数值的大小 几乎将所有规则都挖出来。规则虽
然很多,但并没有指出期货市场与 现货市场的关联关系。
使用Terius进行挖掘
·使用Terius进行挖掘
得出的规则
1. /* 0.340260 0.000000 */ Future = LF ==> Current = LC
WEKA数据挖掘平台上的关联规则挖掘算法有 三种,分别是Байду номын сангаасpriori、PredictiveApriori和 Terius,这三个算法均不支持数值型数据。事 实上,绝大部分的关联规则算法均不支持数值 型。所以必须将数据进行处理,将数据按区段 进行划分,进行离散化分箱处理。
小麦期货市场和现货市场的价格数据
Procedure apriori_gen(Lk-1,min_sup) (1) for each l1∈Lk-1 (2) for each l2∈Lk-1 (3) if(l1[1]= l2[1])∧…∧(l1[k-2]= l2[k-2])∧(l1[k-1]= l2[k-1]) { (4) c= l1 join l2; //将两个项集连接到一起 (5) if has _ infrequent _ itemset (c, Lk-1) (6) delete c; //除去不可能产生频繁项集的候选 (7) else Ck=Ck {c}; (8) } (9) Return Ck;
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我们是否可假定? Chips => Salsa
ห้องสมุดไป่ตู้
Lettuce => Spinach
2020/10/23
AA12 关联规则 史忠植
4
基本概念
通常, 数据包含:
TID 事务 ID
Basket 项的子集
2020/10/23
AA12 关联规则 史忠植
5
关联规则挖掘
在事务数据库,关系数据库和其它信 息库中的项或对象的集合之间,发现 频繁模式,关联,相关,或因果关系的 结构.
高级人工智能 第十二章
关联规则 Association Rules
史忠植 中国科学院计算技术研究所
2020/10/23
AA12 关联规则 史忠植
1
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束的关联规则挖掘 总结
2020/10/23
AA12 关联规则 史忠植
2
关联规则
关联规则表示了项之间的关系 示例:
cereal, milk fruit “买谷类食品和牛奶的人也会买水果.”
商店可以把牛奶和谷类食品作特价品以使人们买更多的水 果.
2020/10/23
AA12 关联规则 史忠植
3
市场购物篮分析
分析事务数据库表
的出现暗示着右边的项(集)出现的频度
2020/10/23
AA12 关联规则 史忠植
10
市场购物篮分析
事务 ID A B C D
购物篮 Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter, Chips
Person A B C D
Basket Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter
I是什么? 事务ID B的T是什么? s(Chips=>Salsa) 是什么? c(Chips=>Salsa)是什么?
2020/10/23
AA12 关联规则 史忠植
11
频繁项集
项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集
若I包含m个项,那么可以产生多少个项集?
2020/10/23
AA12 关联规则 史忠植
Items bought A, B, C A, C A, D B, E, F
7
度量有趣的关联规则
支持度s D中包含A和 B 的事务数与总的事务数的比值
s( A B) || {T D | A B T}|| || D ||
规则 AB 在数据集D中的支持度为s, 其中s 表示D中包
confidence(A B )=P(B|A)
条件概率 P(B|A) 表示A发生的条件下B也发生的概率.
2020/10/23
AA12 关联规则 史忠植
9
度量有趣的关联规则
关联规则根据以下两个标准(包含或排除):
最小支持度 – 表示规则中的所有项在事
务中出现的频度
最小可信度 - 表示规则中左边的项(集)
2020/10/23
AA12 关联规则 史忠植
12
强关联规则
给定一个项集,容易生成关联规则. 项集: {Chips, Salsa, Beer}
Beer, Chips => Salsa Beer, Salsa => Chips Chips, Salsa => Beer
强规则是有趣的 强规则通常定义为那些满足最小支持度和最小 可信度的规则.
频繁模式: 数据库中出现频繁的模式 (项集,序列,等等)
2020/10/23
AA12 关联规则 史忠植
6
基本概念
项集 事务 关联规则
I {i1, i2 ,..., im}
TI
Transaction-id 10 20
30
A B
40
A I,B I, AB
D
- 事务数据集 (例如右图)
事务标识 TID 每一个事务关联着一个标识,称作TID.
if minimum support <= l/n then add s to frequent subsets
2020/10/23
AA12 关联规则 史忠植
16
生成频繁项集
naïve algorithm的分析
I 的子集: O(2m)
为每一个子集扫描n个事务 测试s为T的子集: O(2mn) 随着项的个数呈指数级增长! 我们能否做的更好?
2020/10/23
AA12 关联规则 史忠植
15
生成频繁项集
Naïve algorithm
n <- |D| for each subset s of I do
l <- 0 for each transaction T in D do
if s is a subset of T then l <- l + 1
2020/10/23
AA12 关联规则 史忠植
13
关联规则挖掘
两个基本步骤 找出所有的频繁项集 满足最小支持度 找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则
2020/10/23
AA12 关联规则 史忠植
14
内容提要
引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 基于约束的关联规则挖掘 总结
含AB (即同时包含A和B)的事务的百分率.
2020/10/23
AA12 关联规则 史忠植
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值 c( A B) || {T D | A B T}|| || {T D | A T}||
规则 AB 在数据集D中的可信度为c, 其中c表示D中包含A的 事务中也包含B的百分率.即可用条件概率P(B|A)表示.
相关文档
最新文档