基于关联规则的购物篮分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Vo . 3 No 4 12 .
Au . 01 g2 0
文章编 号 :6 3 1 4 ( 0 0) 40 3 -4 1 7 -5 9 2 1 0 -4 00
基 于 关 联 规 则 的购 物 篮 分 析
方 玮 玮 ,
(. 1合肥工业大学计算机与信息学院 , 合肥 2 00 ;. 30 9 2 铜陵学院数学 与计算机科学系 , 安徽 铜陵 24 0 ) 4 00
第2 3卷第 4期
21 0 0年 8月
四 川理 工 学院 学报 ( 自然科 学版 )
J un l f i u n U i r t o c n e& E g er g N tr c n eE io ) o ra o Sc a n es y f i c h v i S e n i ei ( a a S i c d i n n u l e tn
感 兴趣 , 以便 了解 顾 客 的 购 买 行 为 , 以使 用 这 些 有 价 可
值的信息来进行市场促销 , 库存管理等… 。
表 1 购 物 篮事 务 的例 子
TD I 项 集 { 面包 , 奶 } 牛
关联规则是形如 x —Y的蕴涵表达式 , 其中 x和 Y
是 不相 交 的项 集 , xnY= 0 即 q 。关 联规 则 的强 度 可 以用

要: 关联 规 则研 究有助 于发 现数 据 库 中不 同商 品 之 间 的联 系。 其 分析 结果 可 以应 用 于制 定 营
销 策略 , 求最 佳 的商 品货 架布 局 。从 关联 规 则挖 掘 算 法和 关联 模 式 的评 估 两方 面对 购 物 篮 数 据 进 行 寻
关联 分 析 。
关 键词 : 物篮 ; 购 关联 规 则 ; 频繁 项 集 ; pi i 法 A rr算 o 中图分 类 号 :P 8 T 12 文献 标识 码 : A
引 言
许多 商业 企 业 在 日复 一 1的 运 营 中积 聚 了 大 量 的 3
集。如果一个项集包含 k 个项 , 则称它为 k 一项集。例
如 ,啤酒 , { 尿布 , 牛奶 } 是一 个 3一 集 。 项
项集 的一个重要性质是它的支持度计数 , 即包含特
定 项 集 的事务 个 数 。 在 表 1显 示 的 数 据 集 中 , 集 { 项 啤 酒 , 布, 尿 牛奶 } 的支 持度 计 数为 2 因为只 有两 个事 务 同 ,
大多数 关 联规 则挖 掘 算 法 刮通 常 采 用 的一 种 策 略
在 关联 分 析 中 , 包含 0 或 多个 项 的集 合 被 称 为项 个
收 稿 日期 :0 00 —9 2 1 - 1 4
作者简介: 方玮玮( 9 6) 女 , 17 一 , 安徽枞 阳人, 师, 讲 硕士 , 主要从事数据挖掘 、 集理论及数据结构方面的研究。 粗糙
半也不是令人感兴趣的 , 因为对顾客很少 同时购买 的商 品进行促销可能并无益处 。因此 , 支持度通常用来删去 那些不令人感兴趣 的规则 。此外 , 支持度还具有一种期
望 的性 质 , 以用于 关联 规则 的有效 发 现 。 可
置信度度量通过规则进 行推理 的可靠性 。对于给
定 的规 则 x Y, — 置信 度越 高 , 包含 x 的事 务 中 出现 Y在
时包 含这 三个 项 。 1 2 关 联 规则 .
数据。例如 , 商场的收银台每天都收集大量顾客购物数
据 。表 1 出一 个 这 种 数 据 的例 子 , 作 购 物 篮 事 务 。 给 称
表 中每一行对应一个事务, 包含一个 唯一标识 TD和给 I 定顾客购买的商品的集合 。零售商对 分析这些数 据很
面包 , 布 , 酒 , 蛋 尿 啤 鸡 牛 奶 , 布 , 酒 , 乐 尿 啤 可 面包 , 牛奶 , 布 , 酒 尿 啤 面包 , 牛奶 , 布 , 乐 尿 可
通 过对 关 联 分析 的方 法 进 行研 究 , 现 隐 藏 在 大 型 发 数 据集 中的令 人感 兴 趣 的联 系 。所 发 现 的 联 系 用 关 联 规则 或 频繁 项集 的形式 表示 。例 如 , 表 1 示 的 数据 从 所 中可 以提 取 如 下 规 则 : 尿 布 } { { 一 啤酒 } 。该 规 则 表 明 尿 布 和啤酒 的销售 之 间存 在 着 很 强 的联 系 , 因为 很 多 父
第2 3卷 第 4期
方 玮玮 : 于 关联 规 则 的 购物 篮 分析 基
1: =1 k wenku.baidu.com
41 3
是 , 关联 规 则 挖 掘 任 务 分 解 为 如 下 两 个 主 要 的 子 任 将
务:
2 F ={ f ∈I ( i) : i ^盯 {} ≥N× i u }{ i m n p 发现所有 s 的频繁 1 项集 } 一
它 的支持度和置信度度量。支持度确定规 则可 以用于
给 定数 据 集 的频 繁程 度 , 置信 度确 定 Y在包 含 x的事 而 务 中出现 的频 繁程 度 。 支持 度是 一种 重 要度 量 , 为支 持 度 很 低 的规 则 可 因 能 只 是偶 然 出现 。从 商务 角 度 来看 , 支 持 度 的规 则 多 低
3: e e t rp a 4: k=k + 1
( ) 繁项 集 产 生 : 目标 是 发 现 满 足 最 小 支 持 度 1频 其 阈值 的所 有项 集 , 这些 项 集称 作 频 繁项 集 。 () 2 规则 的产 生 : 目标 是 从 上 一 步发 现 的 频 繁 项 其
集 中提取所有高置信度的规则 , 这些规则称作强规则。 通常 , 频繁项集产生所需 的计算开销远大于规则的 产生所需的计算开销 。
亲在购买尿布的同时也购买 啤酒 。零售 商们可 以使用
这 类规 则 , 帮助他 们 发 现新 的交 叉 销售 机会 。
的可能性就越大。置信度也提供 Y在给定 x下 的条件
概率的估计。
l 关联 分 析 中的基 本 术语
1 1 项 集和 支持 度 计数 .
2 关联 规 则挖 掘 算 法
相关文档
最新文档