几种典型关联规则算法的分析与比较
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项 集 的超 集 一 定 是 非 频 繁 的 . 用 这 个 性 质 . 以减 少 利 可 计 算 中 出 现 的 候 选 项 集 的 个 数 .我 们 可 以通 过 连 接 后 进 行 剪 枝 把 非 频 繁 的 子 集 给 删 除 下 面 是 连 接 和 剪 枝
关联 规则 .算法 的核心思想是 采用逐层搜索 的迭代方 法, 在挖 掘 中使用 了先验 知识 , 例如用 k频繁项 集的知
中所有项 的集合 , 每个 事务 T是一 个项集 , 满足 T_I C,
它 有 唯 一 的标 识 TD 多 条 事 务 T组 合 在 一 起 便 是 事 务 I。 集 D, 在 假 设 A、 现 B为项 集 , ACIB 且 A1B , , CI " = 则 3
I F p. e 1=q.em 1Pie 2 = ie i m t i t ,.tm q.tm2, … , ie p. mk -2 =q. t ie t mk一2 ,
频 繁项 集 的 所 有 非 空 子 集 也 必 须 是 频 繁 的 .这 包
含两层 含义 : ①频繁项集 的子项为频繁项 集 ; ②非频 繁
收 稿 日 期 :0 1 0 —0 21— 7 4 修 稿 日 期 :0 1 0 —3 21— 7 0
作者简介 : 胡佳 ( 9 2 , , 西 南 昌人 , 读 硕 士研 究 生 , 师 , 究 方 向 为 数 据 挖 掘 1 8 -) 女 江 在 讲 研
件 笛 加 9 n1 Q 1n
题 。 首先 介 绍 关联 规 则 的基 本概 念和 它 的挖 掘 过 程 , 后 就 几种 典 型 的 关 联 规 则 算 法 进 行 然
概 括 并 对 它们 进 行 分析 和性 能 的 比 较 . 关联 规 则挖 掘 应 用 的 现 状进 行 总 结 。 对
关 键 词 :关联 规 则 ;频繁 项 集 ; 则 挖 掘 规
0 引
言
具 有 A B形 式 的蕴 含式 就 是 关 联 规则 : j 一条 关 联 规 则
数 据挖 掘(a iig就是从 大 量 、 完 全 、 噪 D t M nn1 a 不 有 声 、 糊、 模 随机 的数据 中, 提取 隐含在其 中的 、 人们 事先
未 知 、 又 是 潜 在 有 用 的信 息 和 知 识 的 过 程 『 随 着 信 但 1 ] 。 息 技 术 的 飞速 发 展 。 据 量 与 日俱 增 。 数 以及 对 数 据 的 处 理 要 求 的 不 断 提 高 .人 们 迫 切 需 要 一 种 自动 智 能 的 方 法 将 待 处 理 的数 据 转 化 为有 用 的 信 息 和 知 识 . 就 是 这 数 据 挖 掘 技 术 产 生 的重 要 原 因 。 在 数 据 挖 掘 中关 联 规 则 ( s c t nR l ) 挖 掘 A s i i ue 的 o ao s 是 一 个 重 要 课 题 .它 是 从 大 量 的 数 据 中挖 掘 出 有 价 值 的 数 据 项 之 间 的 相 互 联 系 .例 如从 大 量 的商 业 交 易 记
1 关 联 规 则 的基 本 原 理
11 关联 规 则 的基 本 概 念 .
设 D为 相 关 数 据 库 的 事 务 集 , =II… , } D I (,, I 是 l :
2 几种 经 典 的 关 联 规 则 算 法
21 pir算法 . A r i o
19 9 4年提 出的 A r r算法 是个 布尔 、 pi i o 单维 、 单层
几种典型关联规则算 法的分析与 比较
胡 佳 1 , 2
( . 东 师 范 大 学 , 海 2 0 4 ; . 西 教 育 学 院 ,南 昌 3 0 2 ) 1华 上 02 1 2 江 3 09
摘 要 :数 据 挖 掘 是 目前 比较 热 门的 一 个研 究 领 域 . 关联 规 则 的挖 掘 又 是数 据挖 掘 的 一 个 重 要 课 而
识 得 到 f+ ) 繁 项 集 , 了 提 高 频 繁 项 集 的 的 产 生 效 k 1频 为
率 , 到 A f f性 质 , : 用 po ii 即
F a h i ms tP∈ OR e c t e e
一
1
DO
F a h i ms t OR e c e e t q∈L — k l
录 中发现 有价值 的关联规 则 .以辅助商家决策 者做 出
有 效 的决 策 来 促 进 销 售 其 中最 典 型 的 案 例 有 “ 物 篮 购
② 由频 繁项集产 生强关 联规则 。 在频繁项集 的基础上 , 结 合预设 的最小置信度生成
就 以 上 两个 步 骤 比较 .第 一 步 的 复 杂 度 远 高 于 第
一
般 来说关联规则 的挖掘分 两步走 :① 发现所有
的 频 繁项 集 数 据 项 的集 合 为项 集 . 来自百度文库 k 数 据 项 的 包 个
为 k 项集 . 谓 的频繁 项集是指满 足支持度大 于等 于 一 所
预设 的 最 小 支 持 度 .有 些 时 候 为 了运 算 的方 便 可 以用
支 持度计 数表示 .即项集 在数据集 D中 出现 的次数 :
分析 ” 根据被 放进购 物篮 的商 品记 录 . . 找到 商品 间的 内在联 系 . 而分析得到顾客 的购物习惯 , 从 这样 商家可 以调整货架 商品的摆放 . 和进行 一些针对性 的促 销 . 从
而 提 高 营 业 额
二步 .因此关联规则挖 掘算法的核心任务 在于识别事
务 集 D 中 的所 有 频 繁 项 集 .以便 进 一 步 构 造 相 应 的关 联 规 则 . 面 文 中 主要 针 对 频 繁 项 集 的 挖 掘 目前 比 下 对 较 典 型 的 几 种关 联 规 则 算 法 进 行 分 析 和 比较
成 立的条件是满 足最小支持度和最小置信 度 .所谓 的 支持 度 (up r 是 AuB在 D 中所 占的百 分 比 . S p0t ) 置信
度 ( of ec ) D 中事 务 中 包 含 AuB 的 事 务 与 包 C ni n e 是 d
含 A事 务 的百 分 比
1 关联 规 则 的 挖 掘 过 程 . 2
关联 规则 .算法 的核心思想是 采用逐层搜索 的迭代方 法, 在挖 掘 中使用 了先验 知识 , 例如用 k频繁项 集的知
中所有项 的集合 , 每个 事务 T是一 个项集 , 满足 T_I C,
它 有 唯 一 的标 识 TD 多 条 事 务 T组 合 在 一 起 便 是 事 务 I。 集 D, 在 假 设 A、 现 B为项 集 , ACIB 且 A1B , , CI " = 则 3
I F p. e 1=q.em 1Pie 2 = ie i m t i t ,.tm q.tm2, … , ie p. mk -2 =q. t ie t mk一2 ,
频 繁项 集 的 所 有 非 空 子 集 也 必 须 是 频 繁 的 .这 包
含两层 含义 : ①频繁项集 的子项为频繁项 集 ; ②非频 繁
收 稿 日 期 :0 1 0 —0 21— 7 4 修 稿 日 期 :0 1 0 —3 21— 7 0
作者简介 : 胡佳 ( 9 2 , , 西 南 昌人 , 读 硕 士研 究 生 , 师 , 究 方 向 为 数 据 挖 掘 1 8 -) 女 江 在 讲 研
件 笛 加 9 n1 Q 1n
题 。 首先 介 绍 关联 规 则 的基 本概 念和 它 的挖 掘 过 程 , 后 就 几种 典 型 的 关 联 规 则 算 法 进 行 然
概 括 并 对 它们 进 行 分析 和性 能 的 比 较 . 关联 规 则挖 掘 应 用 的 现 状进 行 总 结 。 对
关 键 词 :关联 规 则 ;频繁 项 集 ; 则 挖 掘 规
0 引
言
具 有 A B形 式 的蕴 含式 就 是 关 联 规则 : j 一条 关 联 规 则
数 据挖 掘(a iig就是从 大 量 、 完 全 、 噪 D t M nn1 a 不 有 声 、 糊、 模 随机 的数据 中, 提取 隐含在其 中的 、 人们 事先
未 知 、 又 是 潜 在 有 用 的信 息 和 知 识 的 过 程 『 随 着 信 但 1 ] 。 息 技 术 的 飞速 发 展 。 据 量 与 日俱 增 。 数 以及 对 数 据 的 处 理 要 求 的 不 断 提 高 .人 们 迫 切 需 要 一 种 自动 智 能 的 方 法 将 待 处 理 的数 据 转 化 为有 用 的 信 息 和 知 识 . 就 是 这 数 据 挖 掘 技 术 产 生 的重 要 原 因 。 在 数 据 挖 掘 中关 联 规 则 ( s c t nR l ) 挖 掘 A s i i ue 的 o ao s 是 一 个 重 要 课 题 .它 是 从 大 量 的 数 据 中挖 掘 出 有 价 值 的 数 据 项 之 间 的 相 互 联 系 .例 如从 大 量 的商 业 交 易 记
1 关 联 规 则 的基 本 原 理
11 关联 规 则 的基 本 概 念 .
设 D为 相 关 数 据 库 的 事 务 集 , =II… , } D I (,, I 是 l :
2 几种 经 典 的 关 联 规 则 算 法
21 pir算法 . A r i o
19 9 4年提 出的 A r r算法 是个 布尔 、 pi i o 单维 、 单层
几种典型关联规则算 法的分析与 比较
胡 佳 1 , 2
( . 东 师 范 大 学 , 海 2 0 4 ; . 西 教 育 学 院 ,南 昌 3 0 2 ) 1华 上 02 1 2 江 3 09
摘 要 :数 据 挖 掘 是 目前 比较 热 门的 一 个研 究 领 域 . 关联 规 则 的挖 掘 又 是数 据挖 掘 的 一 个 重 要 课 而
识 得 到 f+ ) 繁 项 集 , 了 提 高 频 繁 项 集 的 的 产 生 效 k 1频 为
率 , 到 A f f性 质 , : 用 po ii 即
F a h i ms tP∈ OR e c t e e
一
1
DO
F a h i ms t OR e c e e t q∈L — k l
录 中发现 有价值 的关联规 则 .以辅助商家决策 者做 出
有 效 的决 策 来 促 进 销 售 其 中最 典 型 的 案 例 有 “ 物 篮 购
② 由频 繁项集产 生强关 联规则 。 在频繁项集 的基础上 , 结 合预设 的最小置信度生成
就 以 上 两个 步 骤 比较 .第 一 步 的 复 杂 度 远 高 于 第
一
般 来说关联规则 的挖掘分 两步走 :① 发现所有
的 频 繁项 集 数 据 项 的集 合 为项 集 . 来自百度文库 k 数 据 项 的 包 个
为 k 项集 . 谓 的频繁 项集是指满 足支持度大 于等 于 一 所
预设 的 最 小 支 持 度 .有 些 时 候 为 了运 算 的方 便 可 以用
支 持度计 数表示 .即项集 在数据集 D中 出现 的次数 :
分析 ” 根据被 放进购 物篮 的商 品记 录 . . 找到 商品 间的 内在联 系 . 而分析得到顾客 的购物习惯 , 从 这样 商家可 以调整货架 商品的摆放 . 和进行 一些针对性 的促 销 . 从
而 提 高 营 业 额
二步 .因此关联规则挖 掘算法的核心任务 在于识别事
务 集 D 中 的所 有 频 繁 项 集 .以便 进 一 步 构 造 相 应 的关 联 规 则 . 面 文 中 主要 针 对 频 繁 项 集 的 挖 掘 目前 比 下 对 较 典 型 的 几 种关 联 规 则 算 法 进 行 分 析 和 比较
成 立的条件是满 足最小支持度和最小置信 度 .所谓 的 支持 度 (up r 是 AuB在 D 中所 占的百 分 比 . S p0t ) 置信
度 ( of ec ) D 中事 务 中 包 含 AuB 的 事 务 与 包 C ni n e 是 d
含 A事 务 的百 分 比
1 关联 规 则 的 挖 掘 过 程 . 2