基于选择标准的Apriori算法改进

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
I1,I2一I5 置信度 =2/4=50% (1)
进行剪枝 ,对于满足最小支持度的项集进行连接 生成 3一项集
6)直 到没有 新的频 繁项 集产生 或候选集 为空. Apriori算法中在 汁算项集支持度时需要多次 进行 数据 库 的扫 描 . 当数 据 库较 大 时这 种 花 销成 指数 型增长[ .在此基础上 ,如果我们能够将数据 库根据类标签进行筛选 .从而来达到降低数据库 的大小 ,提高算法的执行效率.这种方法在 许多 应 用 中都 是 可 行 的 , 比如 :特 征选 择 、降 低 维 度 、特征抽取 等 .对于任何给定的数据库 ,在 分 析 特 征 选 择 的 基 础 上 通 过 Apriori算 法 找 到 与 特 征 值 相 关 的满 足 最小 支持 度 和最 小置 信 度关 联
关联规则的表示形式 为 A— B.其中 A与 B
Apriori算法是关联规则挖掘中应用最广泛的一个 不 相 交 . 即 AnB= .关 联 规 则 挖 掘 需 要 生 成
算 法 。是 由 Agrawa等 在 1993年 提 来 .Apriori 满 足最 小 支 持 度 、最 小 置 信 度 的规 则 .规 则 A—
就是将这些隐含的信息从数据库中挖掘 I 叶I来的过 度 是指 包 含此项 目集 的事务 的个 数 .如 下表 示 :叮
程 .关联 规则 挖 掘 是 数 据 挖 掘 的 一种 非 常重 要 的 (i)=I{tilX t t∈T}I.
技 术 .它 是 从 数 据 库 中 发 现 属 性 之 间 的 关 系 .
联规 则挖掘 的经典算法 Apriori需要 重复 多次扫描整 个数 据库导致在 空 间和 时间方面有很 大 负载的
问题 ,提 出了根据研 究者所感兴趣 的项集作 为关联规 则的结果 ,采 用对数据 库进 行类标 签压缩 来
减 少迭代次数.通过 实验显 示该方 法可以有效提 高 Apriori算法的效率.
重 复 多次 扫 描 数据 库 ,导致 时 问 复杂 度 和 空 问
support(A--- ̄B)= (A U B)
(1)
复 杂度方 面的代价 过高【1]. ̄-tx;t Apriori算 法 ,研究
confidence(A-- ̄B)=盯(A U B)/cr(A) (2)
者 提 出 了很 多 的改进 方 法 .刘 美 玲 等提 出利 用项 3 相 关工 作
集的有序性来改进算法 ;徐晓 l{l等提}fJ利用支
Apriori算法包含 2个步骤 :
持矩阵对算法进行优化[。:;陆建江等提 的加权模
1)自我连接 ;
糊关联规则来体现不同厨 }生的重要性 . 2 关联规则挖掘
2)剪枝 . Apriori算 法是 利用 层 次顺 序 搜 索循 环方 法 来
关键词 :数据挖掘 ;关联规 则;数据库压缩 :Apriori算 法;ARM
中图分类号 :TP391.75 文献标识码 :A
文章编号 :1672—0520(2016)02—0082—03
DOI:10.13874 ̄.cnki.62一ll7l/g4.2016.02.014
l 概 述
设 l=fiI,i ,i,,…,iml是一个项 目的集合,
现在.我们通过将不需要 的交易记录删除来
3)对生成的 C,按照剪枝策略根据最小支持度 进 行 剪枝 ,只有 满 足最 小 支持 度 的项 集 才 能进 入 下一 步
4)通过 自身连接 生成 2一项 集 C: 5)扫描整个数据库计算 2一项集 的支持度并
提高算法的效率.假设最小支持度为 2,最小置信 度为 50%.根据表 1所给的交易数据库 Apriori算 法需要 扫描数据库 17次,频繁项集是 Il、I2、I5 和 I2、I3、I5,规则 生成 如 下.
收稿 日期 :2016—04-05 基金项 目:甘肃省 自然科学基金 项 目(项 目批 准号 :1212RJZA059)· 作者 简介:马 良斋 (1978- ),男,甘 肃兰州人,讲 师,研究方向 :数 据挖 掘·
· 82 ·
马 良斋 姜 滨,等 :基 于选择标 准的 Apriori算法改进
完 成 频 繁 项 集 的 生 成 丁 作 , 即利 用 (k一1)一项 集
表 2 交易数据库
来完 成 k一项 集 的生成 ,描述 如下 : I)产 生 1一项 集 C 2)通过扫描整个数据 库 ,计算所有 l一项集
的支持 度
TID
T1 T8
项 目
I1, I2, I5 I1, 12, I3, I5
随着信息技术的发展 ,我们周围分布着很多 T= {t。,t ,… ,t }是一 个 历史 交易 数据 库 ,每 一
有用的信息 ,从大型数据库 中挖掘 有用的信息 个 交 易记 录 t。是 由项 目的 集 合 I中 的 元 素 组 成 ,
和 知识 已经 成 为 一个 重 要 的 研 究 领 域 .数 据 挖 掘 我们把项 目的集 合称 为项 目集.其 中项集 的支持
算 法 的有 一 个 重要性 质 “频 繁 项 集 的每 一 个 子集 B的支持度 support(A-- ̄B)指 同时包 含 A和 B的交
都 是 频繁 项 集 :非频 繁 项集 的超 集 一定 不 是 频 繁 易 的数 目 .规 则 A— B的置 信 度 confidence (A—
项 集 .”.Apriori算 法 在频 繁 项 集 生 成过 程 中需 要 B)是 指在 B中H}现 A的频 率.公式 定义 如下 :
第 32卷第 2期 (2016)
河西学 院学报
Vo1.32 No.2(2016)
基于选择标准 的 Apriori 算法改进
马 良 斋 姜 滨 摆 慧 娟 2
(1.兰州交通大学电子与信息_丁程学院 ,甘肃 兰州 730070;2.甘肃银行 ,甘肃 兰州 730000)
摘 要 :关联规 则挖掘 通过 发现 密切相 关项 集的方法 已经在 商业决策 中被广泛使 用.现针 对关
相关文档
最新文档