河南科技大学数据挖掘课程设计报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河南科技大学
课程设计说明书
课程名称__软件项目综合实践__
题目超市商品销售数据挖掘系统
学院信息工程学院
班级计科113
学生姓名彭逸帆
学号 111404060319
指导教师白秀玲、赵海霞、张蕾
日期 2014.9.22~2014.9.30
目录
第1章数据挖掘基本理论 (1)
§1.1数据挖掘的概念 (1)
§1.2数据挖掘的步骤 (1)
第2章系统分析 (1)
§2.1系统用户分析 (1)
§2.2系统功能分析 (2)
§2.3系统算法分析 (2)
第3章数据管理 (2)
§3.1数据管理的方法 (2)
§3.2数据管理的具体实现过程 (2)
第4章数据采集 (2)
§4.1数据采集的方法 (2)
§4.2数据采集的具体实现过程 (2)
第5章数据预处理 (2)
§5.1数据预处理的方法 (2)
§5.2数据预处理的具体实现过程 (4)
第6章数据挖掘 (4)
§6.1算法描述与流程图 (5)
§6.2数据结构的设计 (5)
§6.3算法的具体实现 (6)
第7章结果显示与解释评估 (6)
§7.1参数设置 (11)
§7.2结果显示界面的具体实现 (11)
§7.3解释评估 (11)
学习体会 (15)
参考文献 (15)
致谢 (15)
§第1章数据挖掘基本理论
§1.1数据挖掘的概念
数据挖掘又称为数据库中知识发现,它是一个从大量数据中抽取挖掘出来未知的、有价值的模式或规律等知识的复杂过程。
§1.2数据挖掘的步骤
首先进行数据预处理,从数据库里提取数据,使其形成集合列表形式,以便在程序中扫描数据库的时候,可以直接遍历此集合列表,即达到扫描数据的目的。然后生成K项频繁集。最后通过K项频繁集与最小信任度比较获得关联规则。并显示关联规则。生成K项频繁集的过程,首先是生成1项频繁集,之后利用递
归方法,直到不能再生成频繁集为止。
§第2章系统分析
§2.1 系统用户分析
利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识。比如:作为一个商场主管,肯定想要知道商场顾客的购物习惯;尤其是希望了解在(一次)购物过程中,那些商品会在一起被(顾客所)购买。为帮助回答这一问题,就需要进行市场购物分析,即对顾客在商场购物交易记录数据进行分析。所分析的结果将帮助商场主管制定有针对性的市场营销和广告宣传计划,以及编撰合适的商品目录。比如:市场购物分析结果将帮助商家对商场内商品应如何合理摆放进行规划设计。其中一种策略就是将常常一起购买的商品摆放在相邻近的位置,以方便顾客同时购买这两件商品;如:如果顾客购买电脑的同时常也会购买一些金融管理类软件,那么将电脑软件摆放在电脑硬件附近显然将有助于促进这两种商品的销售;而另一种策略则是将电脑软件与电脑硬件分别摆放在商场的两端,这就会促使顾客在购买两种商品时,走更多的路从而达到诱导他们购买更多商品的目的。比如:顾客在决定购买一台昂贵电脑之后,在去购买相应金融管理软件的路上可能会看到安全系统软件,这时他就有可能购买这一类软件。市场购物分析可以帮助商场主管确定那些物品可以进行捆绑减价销售,如一个购买电脑的顾客很有可能购买一个捆绑减价销售的打印机。
§2.2 系统功能分析
我们组所开发的超市销售记录数据挖掘系统是采用关联规则挖掘的方法来挖掘出商家希望得到的销售信息。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。我们开发的超市销售记录数据挖掘系统主要应用就是市场购物分析。根据被放到一个购物袋的(购物)内容记录数据而发现的不同(被购买)商品之间所存在的关联知识无疑将会帮助商家分析顾客的购买习惯。如图- 所示。发现常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销策略。比如:顾客在购买牛奶时,是否也可能同时购买面包或会购买哪个牌子的面包,显然能够回答这些问题的有关信息肯定会有效地帮助商家进行有针对性的促销,以及进行合适的货架商品摆放。如可以将牛奶和面包放在相近的地方或许会促进这两个商品的销售。
将商场所有销售商品设为一个集合,每个商品(item)均为一个取布尔值(真/假)的变量以描述相应商品是否被(一个)顾客购买。因此每个顾客购物(袋)就可以用一个布尔向量来表示。分析相应布尔向量就可获得那些商品是在一起被购买(关联)的购物模式。如顾客购买电脑的同时也会购买金融管理软件的购物模式就可以用以下的关联规则来描述:
computer=>financial_management_software[support=2%,confidence=60% ]
关联规则的支持度(support)和信任度(confidence)是两个度量有关规则趣味性的方法。它们分别描述了一个被挖掘出的关联规则的有用性和确定性。规则的支持度为2%,就表示所分析的交易记录数据中有交易记录同时包含电脑和金融管理软件(即在一起被购买)。规则的60%信任度则表示有60%的顾客在购买电脑的同时还会购买金融管理软件。通常如果一个关联规则满足最小支持度阈值(minimum support threshold)和最小信任度阈值(minimum confidence threshole),那么就认为该关联规则是有意义的;而用户或专家可以设置最小支持度阈值和最小信任度阈值。
§2.3系统算法分析
超市商品销售数据挖掘系统采用关联规则算法,主要进行数据管理。对数据