关联规则数据挖掘技术应用论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析关联规则数据挖掘技术及其应用摘要:关联规则分析是数据挖掘的一个非常重要的研究分支,其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律.本文简要介绍了关联规则数据挖掘的相关理论和概念、apriori算法,最后介绍了关联规则数据挖掘的应用情况。

关键词:关联规则数据挖掘 apriori算法应用
关联规则的发现是数据挖掘中最成功和最重要的一项任务,它的目标是发现数据集中所有的频繁模式;目前所进行的大部分研究工作集中在开发有效的算法上,而对关联规则的理论基础工作的研究却很少。

关联规则可用于发现交易数据库中不同商品项之间的联系,这些规则找出顾客行为模式,如购买了某一商品对购买其他商品的影响;然而,这样的规则可以应用于商品货架设计,存货安排以及根据购买模式对用户进行分类。

一、关联规则挖掘原理
1.关联规则挖掘概述
数据挖掘(data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,也称作知识发现(knowledge discovery)。

数据挖掘所发现的知识最常见的包括:广义知识、特征型知识、差异型知识、关联知识、分类知识、预测型知识、偏离型知识等。

关联知识是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联,那么
其中一项的属性值就可以依据其他属性值进行预测;
关联知识发现即关联规则挖掘在数据挖掘中是一个重要的课题, 最近几年已被业界所广泛研究。

2.关联规则挖掘原理
关联规则挖掘,是指从一个大型的数据集中发现有趣的关联关系,即从数据集中识别出频繁出现的属性值集,也称为频繁项集(frequent item sets,简称频繁集),然后利用所得的频繁集创建描述关联规则的过程.
关联规则中的支持度和置信度是两个规则兴趣度的度量,它们
说明了所发现规则的有用性(utility)、确定性(certainty)、新颖性(novelty)和简洁性(simplicity).在实际问题的处理过程中,为了满足需要,用户需指定规则必须满足支持度和信任度的门限,我们称其为最小支持度(minimum support)和最小信任度(minimum confidence).
3.关联规则的定义:假设i是项的集合。

给定一个交易数据库,其中每个事务t是i的非空子集,即每一个交易都与一个唯一的标识符tid对应。

关联规则是形如x→y的蕴涵式,其中且,x和y分别称为关联
规则的先导lhs和后继rhs。

关联规则在d中的支持度是d中事务
包含的百分比,即概率;置信度是包含x的事务中同时包含y的百分比,即条件概率。

关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈
值。

这些阈值由用户或者专家设定
4.关联规则挖掘的一般步骤
给定一个事务数据库,关联规则挖掘的基本任务就是首先通过用户指定最小支持度和最小置信度,挖掘出大型数据库中的强关联规则。

可分成两个步骤:1)挖掘频繁项集:通过用户给定的最小支持度,找出所有频繁项集,即支持度不小于最小支持度的所有项集。

2)生成关联规则:使用频繁项集生成置信度大于预先给定的最小置信度阈值的关联规则。

挖掘关联规则的整个性能主要是由第一步(挖掘频繁项集)决定的,所以有效地计算频繁项集就成了关联规则挖掘算法研究的重点。

5.关联规则的分类:按照不同情况,关联规则可以进行分类如下:①基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型;②基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则;③基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。

6.关联规则挖掘的相关算法:①apriori算法:使用候选项集找频繁项集。

apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法;②fp-growth算法:把记录集d中的信息压缩到一个树结构中,在寻找频繁集的过程中可以不产生品候选集,大大提高了运算效率。

二、apriori算法原理
apriori算法是由美国学者r.agrawal 等在1993 年提出的一种从大规模商业数据中挖掘关联规则的有效方法,也是一种最有影响力的挖掘布尔关联规则频繁项集的算法,其通过对数据库d的多趟扫描来发现所有的频繁项集。

现在已经被广泛用于商业决策、社会科学、科学数据处理等各种数据挖掘领域之中。

1.apriori算法的基本原理
apriori是最有影响的挖掘布尔关联规则频繁项目集的经典算法。

在apriori算法中,通过遍历数据库得到一项集l1。

如果l1非空,由l1产生长度为2的候选项集合c2, 然后对事务数据库中的每一个事务t,求出t在c2中的全部子集ct,对于ct中的每一个长度为2的候选项集c,令c的计数加1。

当扫描事务数据库一遍后, 筛选出候选项集合c2中所有计数满足最小支持度的项集组成了长度为2的频繁项集合。

用以上步骤重复处理新得到的频繁项集合,直到没有频繁项集合产生。

其中候选项集产生的过程被分为连接与剪技两个部分。

采用这种方式,使得所有的频繁项集既不会遗漏又不会重复。

为提高频繁项集逐层产生的率,apriori算法利用了两个重要的性质用于压缩搜索空间。

性质1.k维数据项目集x是频繁项目集的必要条件是它的所有k-1维子集均是频繁项目集。

性质2.若k维项目集x中有一(k-1)维子集不是频繁项集,则x不是频繁项集。

2.apriori算法的核心思想
该算法的核心思想是使用候选项集找频繁项集。

采用两阶段挖
掘的思想,并且基于多次扫描事务数据库来执行的为了生成所有频集。

其核心思想简要描述如下:
①使用候选集产生发现频繁集
首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。

然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。

然后使用找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。

一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。

为了生成所有频集,使用了递推的方法。

②由频繁项集产生关联规则
一旦数据库d中的事务找出频繁集,可直接由它们产生强关联规则,同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:
每个关联规则可由如下过程产生:
1)对于每个频繁项集l,产生l的所有非空子集;
2)对于每个非空子集s,如果
则输出规则
3.算法分析
apriori 算法在执行“连接-剪枝”过程中,需多次扫描数据库。

寻找每个k -频繁项集( k = 1,2,…,m) 都需要扫描数据库一次,
共需要扫描m 次。

因此当数据库或者m太大时, 算法的耗时太大甚至无法完成,并且在迭代过程中,候选项集ck是以指数速度增长,lk-1自连接会产生大量的候选k-项集,例如有104个1-项集,自连接后就可产生约107个候选2-项集。

这些都严重影响了apriori 算法的效率。

三、关联规则挖掘应用举例
下面结合顾客购买实例提出一个可行的关联分析方法;
某公司专业生产化妆用品和沐浴用品,该公司在全国各大城市的各大商场都设点销售,公司对一定时间范围内顾客购买详细情况作了收集,情况如下所示:
针对上表进行关联分析,分析如下:
1.构造两种商品间的关联表,如下所示,表中每一个数值表示的是行,列代表的两种商品同时被一个用户购买的次数:
2.针对设定的最小支持度阈值,计算每一个x的最小支持度,将大于最小支持度阈值的x列出(本例假设最小支持度阈值为0.5)support(洗面奶)=0.5;support(晚霜)=0.5;support(洗发
水)=0.5;support(沐浴乳)=0.5;
3.针对设定的最小置信度阈值和上一步列出的x,计算的x->y最小置信度表,如下图所示:
4.将大于最小置信度阈值的x->y列出,(本例中,设最小置信度阈值为0.5),即为关联分析所得出的规则:
rule1:晚霜->洗面奶,support=0.5,confidence=0.667;
rule2:洗面奶->晚霜,support=0.5,confidence=0.667;
rule3:洗发水->沐浴乳,support=0.667,confidence=0.75;
rule1:沐浴乳->洗发水,support=0.5,confidence=1;
5.从上述规则可以初步得出一下结论:购买本公司产品的顾客中相当比例的人有晚上用洗面奶洗脸,并用晚霜保养皮肤的习惯;购买洗发水的顾客,多半会同时购买沐浴乳,而购买沐浴乳的顾客则几乎肯定会后购买洗发水的;
6.根据上述规则,公司在营销时采取如下措施:①将晚霜与洗面奶,洗发水与沐浴乳放置在一起,方便顾客购买;②营业员在顾客购买了一种商品后,适当推荐购买另一种商品;③在生产与发货运输上,将关联产品配套安排;采取这些措施后,顾客的交叉消费大为提高,商场与顾客的满意度也有所提高。

四、结束语关联规则挖掘主要是发现大量数据中项集之间有趣的关联或相互联系。

随着大量数据不停的收集和存储,人们希望从他们的交易数据中发现感兴趣的数据关联关系,从而帮助商家进行商务决策的指定,如商品分类设计,交叉购物,货物摆放策略等。

关联规则挖掘系统已成功被应用于市场营销、银行业、零售业、保险业、电信业和公司经营管理等各个方面。

参考文献:
[1]陈志泊主编,数据仓库与数据挖掘,清华大学出版社
[2]margaret h.dunham著,郭崇慧,田凤占等译,清华大学出
版社
[3]李雄飞,李军著,数据挖掘与知识发现,高等教育出版社
[4]jiawei han,micheline kamber著,范明,孟小峰译,数据挖掘概念与技术;机械工业出版社
[5]周根贵主编,数据仓库与数据挖掘,浙江大学出版社[6]张凤云浅析关联规则及其apriori算法
[7]郭秀娟,张树彬,岳俊华:基于apriori 数据挖掘算法研究吉林建筑工程学院学报2010年6月第27卷第3期
[8]李新良,陈湘涛.数据挖掘中关联规则算法的研究[j].计算机工程与应用,
[9]郭秀娟,基于关联规则数据挖掘算法的研究[d]吉林大学博士论文,2004.
[10]崔贯勋,李梁,王柯柯,苟光磊,邹航等:关联规则挖掘中apriori算法的研究与改进计算机应用2010年11月第30卷第11期
[11]陈应霞,陈艳.关联规则中的apriori挖掘算法改进[j].长江大学学报:。

相关文档
最新文档