数据挖掘方法——关联规则(自己整理)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、关联规则概念二、关联规则应用领域三、关联规则挖掘的过程四、关联规则的分类五、关联规则挖掘的相关算法六、关联规则的优缺点
1
一、关联规则概念
关联分析（Association analysis）：就是从给定的数据集发现频繁出现的项集模式知识（又称为关联规则，association rules）。
按照不同情况，关联规则可以进行分类如下： 1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=>职业=“秘书” ，是布尔型关联规则；性别=“女”=>avg（收入） =2300，涉及的收入是数值类型，所以是一个数值型关联规则。 2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。 3.基于规则中涉及到的数据的维数，关联规则可以分为单维关联规则和多维关联规则。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。
3
二、关联规则应用领域
目前，关联技术的主要应用领域是商业，它的主要挖掘对象是事务数据库。利用关联技术从交易数据库发现规则的过程称为购物篮分析（Market Basket Analysis）。通过对商业数据库中的海量销售记录进行分析，提取出反映顾客购物习惯和偏好的有用规则（或知识），可以决定商品的降价、摆放以及设计优惠券等。当然也可以把得到的信息应用到促销和广告中，例如，关联规则中所有后项为“Diet Coke”的规则可能会给商店提供出信息：什么会促使Diet Coke大量售出。
另外，关联规则也可以服务于Cross-sale。服务业的激烈竞争使得公司留住老顾客和吸引新顾客一样重要。通过分析老顾客的购买记录，了解他们的产品消费偏好，给他们提供其它产品的优惠及服务，这样不但能留住他们还可以使他们逐渐熟悉另外的产品，公司从而以尽快的速度获得利润。 Cross-sale就是试图让一种产品的固定购买客户购买另一种产品。但大公司的顾客购买数据库很大，人工分析是很难的，关联规则挖掘技术可以结合专家从大型数据库中发现有用知识，来帮助领域专家做出决策。

5
三、关联规则挖掘的过程
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(Minimum Confidence)的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。例如：经由高频 k-项目组{A,B}所产生的规则AB，其信赖度可经由公式(2)求得，若信赖度大于等于最小信赖度，则称AB为关联规则。
Confidence=p(condition and result)/p(condition)。
(2)
如：If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称
为项集（itemset），包含K个项集称为K－项集，如果项集满足最小支持度，则称它为频繁项集。
注：关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。
6
四、关联规则的分类
两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。
关联分析的目的：找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性，引入 lift(提高度或兴趣度）、相关性等参数，使得所挖掘的规则更符合需求。
关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，我们可以经由公式(1)求得包含 {A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的kitemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或 Frequent k。算法并从Large k的项目组中再产生Large k+1，直到无法再找到更长的高频项目组为止。
3. Lift（提高率或兴趣度）:使得所挖掘的规则更符合需求。
Lift=p(condition and result)/(p(condition)*p(resul条规则就是比较好的；当Lift小于1的时候，这条规则就是没有很大意义的。 Lift越大，规则的实际意义就越好。
关联技术不但在商业分析中得到了广泛的应用，在其它领域也得到了应用，包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。
4
三、关联规则挖掘的过程
关联规则的挖掘可以发现大量数据中数据项集之间有趣的关联。而核心就是识别或发现所有频繁项目集。
关联规则的挖掘是一个两步的过程： 1、找出所有频繁项集(Frequent Itemsets); 2、由频繁项集产生强关联规则(Association Rules )，根据定义，这些规则必须满足最小支持度和最小置信度。
2
一、关联规则概念
规则就是一个条件和一个结果的和：If condition then result。
1. Support（支持度）：是一个元组在整个数据库中出现的概率。
Support=P(condition and result )。
(1)
如：if A then B。则它的支持度Support=P(A and B) 2. Confidence（可信度）：它是针对规则而言的。