超市商品关联性的分析(东南大学课程报告)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ii
目录
摘要
i
Abstract
ii
第一章 数据预处理
1
第二章 关联规则
2
2.1 关 联 规 则 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 关 联 规 则 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 结 果 分 析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
第三章 聚类分析
10
3.1 聚 类 分 析 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
������(������ ∪ ������ ) ������������������(������ → ������ ) =
������ 置 信 度(confidence):T中 事 务 已 经 包 含X 的 情 况 下 ,包 含Y的 百 分 比 ,即 条件概率。
������������������(������ → ������ ) ������(������ ∪ ������ )
本文对超市商品示例数据进行关联规则分析,并同时使用了聚类分析 和Logistic回 归 进 行 结 果 比 较,得 到 了 多 组 较 好 的 关 联 规 则 。 关 键 词: 数 据 挖 掘, 关 联 规 则, 聚 类 分 析, Logistic回 归
i
Analysis of the Association of Supermarket Goods
下 包 含B产 品 的 可 能 性 之 比 。
������������������������ (������ → ������ ) ������������������(������ → ������ ) ������ ������(������ ∪ ������ )
������������������ ������(������ → ������ ) =
本 文 采 用 关 联 规 则 对 超 市 商 品 数 据 进 行 分 析 。关 联 规 则 可 以 用 于 发 现 数 据 库 中 两 个 看 似 无 关 的 数 据 之 间 的 联 系 。在 数 据 挖 掘 中,关 联 规 则 对 于 分 析 和 预 测 消 费 者 偏 好 有 着 很 好 的 效 果,同 时 能 用 于 购 物 篮 分 析 、商 品 分 类 、目 录 设计和店面分布等。
表 1.1 超 市 商 品 数 据
白酒 冰品 饼干 菜肴半成品 常温乳制品 常温熟食类 炒货食品 ···
F
F
F
F
F
F
F
···
F
F
F
F
F
F
F
···
F
F
F
F
F
F
F
百度文库···
F
F
F
F
F
T
F
···
F
F
F
F
F
T
F
···
F
F
F
F
F
T
F
···
...
...
...
...
...
...
...
...
1
第二章 关联规则
关 联 规 则(Association Rules)是 形 如������ → ������ 的 蕴 涵 式 ,其 中 ,X和Y分 别 称 为 关 联 规 则 的 先 导(antecedent或left-hand-side, LHS) 和 后 继(consequent或right-handside, RHS)。关 联 规 则 分 析 就 是 在 交 易 数 据 、关 系 数 据 或 其 他 信 息 载 体 中 ,查 找 存 在 于 项 目 集 合 或 对 象 集 合 之 间 的 频 繁 模 式 、相 关 性 或 因 果 结 构 。或 者 说 , 关 联 分 析 是 发 现 交 易 数 据 库 中 不 同 商 品( 项 )之 间 的 联 系 。对 于 交 易 数 据 的 商 品 ,简 单 地 说 ,关 联 规 则 分 析 要 解 决 的 主 要 问 题 是 :一 群 用 户 购 买 了 很 多 产 品 之 后 ,哪 些 产 品 同 时 购 买 的 几 率 比 较 高 ?买 了A产 品 的 同 时 买 哪 些 产 品 的 几 率 比较高?
4.2 Logistic回 归 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
参考文献
17
iii
第一章 数据预处理
部 分 原 始 数 据 见 表1.1,其 中 第 一 行 为 该 超 市 的 所 有 商 品 ,共195 种 。第 二 行 开 始 每 行 代 表 一 位 顾 客 在 该 超 市 购 物 的 记 录 ,对 应 的 商 品 为T 表 示 够 买 了 该 商 品 、F表 示 未 购 买 ,共747条 记 录 。原 始 数 据 为747×195的 布 尔 型 数 据 。
由 于 关 联 规 则 起 初 在 超 市 等 交 易 数 据 上 应 用 广 泛 ,所 以 又 称 之 为 购 物 篮 分 析(Market Basket Analysis, MBA),最 经 典 的 案 例 有“ 啤 酒 与 尿 布 ”。
S2.1 关 联 规 则 理 论 基 础
一 、几 个 概 念
对数据作如下处理: 1)删 除 顾 客 只 购 买 了 一 种 商 品 的 记 录 。对 该 商 品 数 据 进 行 关 联 规 则 分 析 的 主 要 目 的 ,是 为 了 寻 找 不 同 商 品 之 间 的 关 联 。所 以 对 于 这747条 记 录 中 那 些 只 购 买 了 一 种 商 品 的 数 据 ,在 本 文 的 研 究 目 的 下 ,可 以 将 其 剔 除 。剔 除 后 剩 余615条 记 录 。 2)删 除 记 录 中 未 被 购 买 过 的 商 品 。在195中 商 品 中 ,对 于 那 些747个 顾 客 都 没 有 够 买 过 的 商 品 ,在 分 析 中 没 有 价 值 ,先 予 以 剔 除 。剔 除 后 剩 余41种 商 品 。 处 理 过 后 的 数 据 为615×41的 布 尔 型 数 据 ,见 文 件mba.txt。
In this article, we get several wonderful rules when using Association Rules, Clustering Analysis and Logistic Regression to analyze a goods sample data of a supermarket. Key Words: Data Mining, Association Rules, Clustering Analysis, Logistic Regression
=
=
������������������(������ )
������������������(������)������������������(������ ) ������(������)������(������ )
Abstract The technology of Information Storage and Data Management is becoming mature, and the accumulation of data makes it hard to deal with the processing of data by using traditional methods. The meaning of Big Data is not only getting the data, but mining the valuable information in the massive data. This thought help us analyze the Market Basket in some retail industries such like a supermarket.
������������������������ (������ → ������ ) =
=
������������������(������ )
������(������ )
2
东南大学数学系R语言
第二章 关联规则
提 升 度(lift):T中 事 务 已 经 包 含X的 条 件 下 包 含Y 的 可 能 与 没 有 这 个 条 件
Then we use Association Rules to analyze the goods data in a supermarket. Association Rules helps uncover relationships between seemingly unrelated data in a relational database. In Data Mining, Association Rules is useful for analyzing and predicting customer behavior. It plays an important role in Market Basket data analysis, product clustering, catalog design and store layout.
3.2 聚 类 分 析 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
第 四 章 Logistic回 归
14
4.1 Logistic回 归 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
东南大学数学系R语言
超市商品关联性的分析
摘要
信 息 存 储 和 数 据 管 理 技 术 越 来 越 成 熟,数 据 不 断 积 累 成 传 统 方 法 很 难 处 理 的 大 数 据 。大 数 据 技 术 的 意 义 不 在 于 掌 握 庞 大 的 数 据 信 息,而 在 于 对 这 海 量 数 据 进 行 专 业 化 处 理,从 中 挖 掘 出 更 有 价 值 的 信 息 。这 一 特 点 可 以 用 于 超 市零售业的购物篮分析。
记������1, ������2, · · · , ������������为 购 物 篮 中 所 有 的 项( 商 品 ),那 么������ = {������1, ������2, · · · , ������������}为 所 有 商 品的集合。
事 务(Transaction):������������为������的 一 个 非 空 子 集 ,������������ ⊂ ������。 交 易 数 据 库T:������ = {������1, ������2, · · · , ������������ }为 所 有 事 务 的 集 合 ,每 一 个 交 易 都 与 一 个 唯 一 的 标 识 符TID(Transaction ID) 对 应 ,������ 为 数 据 中 所 有 事 务 总 个 数 。 项 集(itemset):包 含0个 或 多 个 项 的 集 合 。如 果 一 个 项 集 包 含������个 项 ,则 称 为������-项 集 。若 项 集������ ⊂ ������������,称 事 务������������包 含 项 集������。 记������(������) = #{������������|������ ⊂ ������������, ������������ ∈ ������ } 为 项 集������ 的 支 持 度 计 数 ,即 包 含������的 事 务 的 总 个 数 。关 联 规 则 是 形 如������ → ������ 的 蕴 含 表 达 式 ,其 中������ 和������ 是 不 相 交 的 项 集 。 支 持 度(support):T中 事 务 同 时 包 含X、Y 的 百 分 比 ,即 概 率 。
目录
摘要
i
Abstract
ii
第一章 数据预处理
1
第二章 关联规则
2
2.1 关 联 规 则 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 关 联 规 则 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 结 果 分 析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
第三章 聚类分析
10
3.1 聚 类 分 析 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
������(������ ∪ ������ ) ������������������(������ → ������ ) =
������ 置 信 度(confidence):T中 事 务 已 经 包 含X 的 情 况 下 ,包 含Y的 百 分 比 ,即 条件概率。
������������������(������ → ������ ) ������(������ ∪ ������ )
本文对超市商品示例数据进行关联规则分析,并同时使用了聚类分析 和Logistic回 归 进 行 结 果 比 较,得 到 了 多 组 较 好 的 关 联 规 则 。 关 键 词: 数 据 挖 掘, 关 联 规 则, 聚 类 分 析, Logistic回 归
i
Analysis of the Association of Supermarket Goods
下 包 含B产 品 的 可 能 性 之 比 。
������������������������ (������ → ������ ) ������������������(������ → ������ ) ������ ������(������ ∪ ������ )
������������������ ������(������ → ������ ) =
本 文 采 用 关 联 规 则 对 超 市 商 品 数 据 进 行 分 析 。关 联 规 则 可 以 用 于 发 现 数 据 库 中 两 个 看 似 无 关 的 数 据 之 间 的 联 系 。在 数 据 挖 掘 中,关 联 规 则 对 于 分 析 和 预 测 消 费 者 偏 好 有 着 很 好 的 效 果,同 时 能 用 于 购 物 篮 分 析 、商 品 分 类 、目 录 设计和店面分布等。
表 1.1 超 市 商 品 数 据
白酒 冰品 饼干 菜肴半成品 常温乳制品 常温熟食类 炒货食品 ···
F
F
F
F
F
F
F
···
F
F
F
F
F
F
F
···
F
F
F
F
F
F
F
百度文库···
F
F
F
F
F
T
F
···
F
F
F
F
F
T
F
···
F
F
F
F
F
T
F
···
...
...
...
...
...
...
...
...
1
第二章 关联规则
关 联 规 则(Association Rules)是 形 如������ → ������ 的 蕴 涵 式 ,其 中 ,X和Y分 别 称 为 关 联 规 则 的 先 导(antecedent或left-hand-side, LHS) 和 后 继(consequent或right-handside, RHS)。关 联 规 则 分 析 就 是 在 交 易 数 据 、关 系 数 据 或 其 他 信 息 载 体 中 ,查 找 存 在 于 项 目 集 合 或 对 象 集 合 之 间 的 频 繁 模 式 、相 关 性 或 因 果 结 构 。或 者 说 , 关 联 分 析 是 发 现 交 易 数 据 库 中 不 同 商 品( 项 )之 间 的 联 系 。对 于 交 易 数 据 的 商 品 ,简 单 地 说 ,关 联 规 则 分 析 要 解 决 的 主 要 问 题 是 :一 群 用 户 购 买 了 很 多 产 品 之 后 ,哪 些 产 品 同 时 购 买 的 几 率 比 较 高 ?买 了A产 品 的 同 时 买 哪 些 产 品 的 几 率 比较高?
4.2 Logistic回 归 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
参考文献
17
iii
第一章 数据预处理
部 分 原 始 数 据 见 表1.1,其 中 第 一 行 为 该 超 市 的 所 有 商 品 ,共195 种 。第 二 行 开 始 每 行 代 表 一 位 顾 客 在 该 超 市 购 物 的 记 录 ,对 应 的 商 品 为T 表 示 够 买 了 该 商 品 、F表 示 未 购 买 ,共747条 记 录 。原 始 数 据 为747×195的 布 尔 型 数 据 。
由 于 关 联 规 则 起 初 在 超 市 等 交 易 数 据 上 应 用 广 泛 ,所 以 又 称 之 为 购 物 篮 分 析(Market Basket Analysis, MBA),最 经 典 的 案 例 有“ 啤 酒 与 尿 布 ”。
S2.1 关 联 规 则 理 论 基 础
一 、几 个 概 念
对数据作如下处理: 1)删 除 顾 客 只 购 买 了 一 种 商 品 的 记 录 。对 该 商 品 数 据 进 行 关 联 规 则 分 析 的 主 要 目 的 ,是 为 了 寻 找 不 同 商 品 之 间 的 关 联 。所 以 对 于 这747条 记 录 中 那 些 只 购 买 了 一 种 商 品 的 数 据 ,在 本 文 的 研 究 目 的 下 ,可 以 将 其 剔 除 。剔 除 后 剩 余615条 记 录 。 2)删 除 记 录 中 未 被 购 买 过 的 商 品 。在195中 商 品 中 ,对 于 那 些747个 顾 客 都 没 有 够 买 过 的 商 品 ,在 分 析 中 没 有 价 值 ,先 予 以 剔 除 。剔 除 后 剩 余41种 商 品 。 处 理 过 后 的 数 据 为615×41的 布 尔 型 数 据 ,见 文 件mba.txt。
In this article, we get several wonderful rules when using Association Rules, Clustering Analysis and Logistic Regression to analyze a goods sample data of a supermarket. Key Words: Data Mining, Association Rules, Clustering Analysis, Logistic Regression
=
=
������������������(������ )
������������������(������)������������������(������ ) ������(������)������(������ )
Abstract The technology of Information Storage and Data Management is becoming mature, and the accumulation of data makes it hard to deal with the processing of data by using traditional methods. The meaning of Big Data is not only getting the data, but mining the valuable information in the massive data. This thought help us analyze the Market Basket in some retail industries such like a supermarket.
������������������������ (������ → ������ ) =
=
������������������(������ )
������(������ )
2
东南大学数学系R语言
第二章 关联规则
提 升 度(lift):T中 事 务 已 经 包 含X的 条 件 下 包 含Y 的 可 能 与 没 有 这 个 条 件
Then we use Association Rules to analyze the goods data in a supermarket. Association Rules helps uncover relationships between seemingly unrelated data in a relational database. In Data Mining, Association Rules is useful for analyzing and predicting customer behavior. It plays an important role in Market Basket data analysis, product clustering, catalog design and store layout.
3.2 聚 类 分 析 处 理 数 据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
第 四 章 Logistic回 归
14
4.1 Logistic回 归 理 论 基 础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
东南大学数学系R语言
超市商品关联性的分析
摘要
信 息 存 储 和 数 据 管 理 技 术 越 来 越 成 熟,数 据 不 断 积 累 成 传 统 方 法 很 难 处 理 的 大 数 据 。大 数 据 技 术 的 意 义 不 在 于 掌 握 庞 大 的 数 据 信 息,而 在 于 对 这 海 量 数 据 进 行 专 业 化 处 理,从 中 挖 掘 出 更 有 价 值 的 信 息 。这 一 特 点 可 以 用 于 超 市零售业的购物篮分析。
记������1, ������2, · · · , ������������为 购 物 篮 中 所 有 的 项( 商 品 ),那 么������ = {������1, ������2, · · · , ������������}为 所 有 商 品的集合。
事 务(Transaction):������������为������的 一 个 非 空 子 集 ,������������ ⊂ ������。 交 易 数 据 库T:������ = {������1, ������2, · · · , ������������ }为 所 有 事 务 的 集 合 ,每 一 个 交 易 都 与 一 个 唯 一 的 标 识 符TID(Transaction ID) 对 应 ,������ 为 数 据 中 所 有 事 务 总 个 数 。 项 集(itemset):包 含0个 或 多 个 项 的 集 合 。如 果 一 个 项 集 包 含������个 项 ,则 称 为������-项 集 。若 项 集������ ⊂ ������������,称 事 务������������包 含 项 集������。 记������(������) = #{������������|������ ⊂ ������������, ������������ ∈ ������ } 为 项 集������ 的 支 持 度 计 数 ,即 包 含������的 事 务 的 总 个 数 。关 联 规 则 是 形 如������ → ������ 的 蕴 含 表 达 式 ,其 中������ 和������ 是 不 相 交 的 项 集 。 支 持 度(support):T中 事 务 同 时 包 含X、Y 的 百 分 比 ,即 概 率 。