数据挖掘实验报告 超市商品销售分析及数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通信与信息工程学院
课程设计说明书
课程名称: 数据仓库与数据挖掘课程设计题目: 超市商品销售分析及数据挖掘专业/班级: 电子商务(理)
组长:
学号:
组员/学号:
开始时间: 2011 年12 月29 日完成时间: 2012 年01 月 3 日
目录
1.绪论 (1)
1.1项目背景 (1)
1.2提出问题 (1)
2.数据仓库与数据集市的概念介绍 (1)
2.1数据仓库介绍 (1)
2.2数据集市介绍 (2)
3.数据仓库 (3)
3.1数据仓库的设计 (3)
3.1.1数据仓库的概念模型设计 (4)
3.1.2数据仓库的逻辑模型设计 (5)
3.2 数据仓库的建立 (5)
3.2.1数据仓库数据集成 (5)
3.2.2建立维表 (8)
4.OLAP操作 (10)
5.数据预处理 (12)
5.1描述性数据汇总 (12)
5.2数据清理与变换 (13)
6.数据挖掘操作 (13)
6.1关联规则挖掘 (13)
6.2 分类和预测 (17)
6.3决策树的建立 (18)
6.4聚类分析 (22)
7.总结 (25)
8.任务分配 (26)
数据挖掘实验报告
1.绪论
1.1项目背景
在商业领域中使用计算机科学与技术是当今商业的发展方向,而数据挖掘是商业领域与计算机领域的乔梁。在超市的经营中,应用数据挖掘技术分析顾客的购买习惯和不同商品之间的关联,并借由陈列的手法,和合适的促销手段将商品有魅力的展现在顾客的眼前, 可以起到方便购买、节约空间、美化购物环境、激发顾客的购买欲等各种重要作用。
1.2提出问题
那么超市应该对哪些销售信息进行挖掘?怎样挖掘?具体说,超市如何运用OLAP操作和关联规则了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售呢?如何判断一个顾客的销售水平并进行推荐呢?本次实验为解决这一问题提出了解决方案。
2.数据仓库与数据集市的概念介绍
2.1数据仓库介绍
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。........
2.2数据集市介绍
数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。.......
3.数据仓库
3.1数据仓库的设计
3.1.1数据库的概念模型
3.1.2数据仓库的模型
数据仓库的模型主要包括数据仓库的星型模型图,我们创建了四个
维表和一个事实表。四个维表为:item维表,time维表,branch维表,location维表。事实表为:sales事实表。其中,
3.2数据仓库的建立
3.2.1数据仓库数据集成
我们小组粗略的统计了超市一年的销售记录,并建立了数据库。其....
当然,这只是最初的表,后面还要进行数据清理与转换,对其进一步改进,以便于数据挖掘。
3.2.2建立维表
item维表
branch维表
location维表
sales事实表
4.OLAP操作
按时间上卷:
切块:
按片查询:
整个数据立方体:
5.数据预处理
5.1描述性数据汇总
【saleID】S*:销售号(笔数)
【customerID】C*:顾客编号
【productID】P*:购买的商品号
【timeID】T*:时间号(月)
5.2数据清理与变换
数据清理:(1)初始表格在前面已经给出,每笔交易中购买的商品不止一
....
数据变换:对不同的数据类型做不同的变换。比如男女分别用1,0表示;高中档商品用1,0表示;收入统一除以10000。
6.数据挖掘操作
6.1关联规则挖掘
6.1.1频繁一项集筛选
I1支持度的代码及结果为:
输出结果为:24
其他一项候选集同理
6.1.2、频繁二项集筛选
频繁二项集候选集为(I1,I18),(I1,I2),(I1,,I3),(I1,I4),(I1,I5),(I1,I7),
(I18,I2),(I18,I3),(I18,I4),(I18,I5),(I18,I7),
(I2,I3),(I2,I4),(I2,I5),(I2,I7),
(I3,I4),(I3,I4),(I3,I5),(I3,I7),
(I4,I5),(I4,I7),
(I5,I7)
(I1,I18)的支持度代码和结果为:
输出结果为:15
I3和I18支持度的代码和结果为:
输出结果为:14
I1和I3支持度的代码和结果为:
输出结果为:18
同理可得:
6.1.3、频繁三项集筛选
频繁三项集候选集为:(I1,I3,I18)
(I1,I3,I18)的支持度代码和结果为:
输出结果为:13
综上可得I1、I3和I18的支持度和置信度为:
[]c s
(
)1
,
)2
(
,
(
∀
∈
∧
,⇒
)3
,
X
buys
item
buys
X
item
item
X
transcatio
x,
buys
n
[]%
buys
I
X
buys
buys
I
X
∧
∀
X
∈
x⇒
transcatio
n
%,
18
,
)
12
93
(
)3
,
(
)1
(
,
,I
[]%
I
X
buys
X
buys
I
buys
n
∈
X
∧
x⇒
transcatio
∀
%,
,
(
)3
12
87
)
18
,
(
)1
(
,
,I
[]%
buys
I
X
I
X
buys
X
buys
∧
∈
x⇒
transcatio
n
∀
,I
)1
,
12
%,
72
(
)
)3
,
(
,
18
(
由上可知:1.顾客习惯一起购买商品I1,I3,I18,即牛奶面包和电视机
2.所以超市可以将牛奶面包电视机摆放在一起
6.2分类和预测
预测的结果可以用关联规则的结果和OLAP的结果来说明。预测结果如下:1.根据OLAP从日到月上卷操作,1月为销售旺季,商店可以在此期间加大供应量,以获得更大利润。
2.顾客对牛奶的需求很大,且为蒙牛牛奶
3.顾客对面包的需求也很大,且为安琪面包
4. 对步步高电视机的需求也很大。
6.3决策树的建立:
通过研究顾客的属性,分析这些属性对顾客购买商品档次的影响,建立决策树,预测顾客购买商品的档次。
6.3.1.选择最佳分裂点:
1)源数据:(部分展示)