2012数据仓库课设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据仓库与数据挖掘》
课程设计报告
班级:信管101
学号:3100561021
姓名:黄彦芳
指导教师:王建仁/段刚龙
日期:2012.01.04
1需求分析与数据理解 1
1.1需求分析 (2)
1.2 数据理解 (2)
2挖掘(或分析)数据准备 (2)
3 数据挖掘(或分析)过程 (7)
3.1挖掘算法与挖掘软件选择 (7)
3.2 数据预处理 (7)
3.3挖掘过程说明 (8)
4 结果展示与评价 (9)
5总结 (10)
5.1 设计中遇到的主要问题及解决方法 (10)
5.2设计方案的主要优点及不足 (10)
5.3 收获及建议 (11)
参考文献 (12)
题目
1需求分析与数据理解
1.1需求分析
即明确挖掘目标和要求。

(1)方法:在本次实验中我们采用了头脑风暴方法进行问题分析,在实验之前我们组在一起综合上面的方法商量并确定了分析什么数据?需要多少数据?如何进行各种数据的平衡?又需要什么转换才能进行有效的挖掘?如何对挖掘结果进行处理?如何提高借阅者的借阅效率和图书管理员的管理效率等;(2)任务:我们组每个人都根据自己的偏好选择了分析问题的角度,我选择的是关联分析方法,即通过关联法挖掘出图书借阅者所借阅书籍之间的关系,进行挖掘系统部署后,可建议图书管理员对书籍的摆放根据挖掘结果的规则进行一定程度的调整,进而方便借阅者的借阅和图书管理员的管理。

1.2 数据理解
即了解目前的数据状况。

1.需要的数据及含义:(1)读者信息(借阅证号,姓名,性别,类型,最长可保留天数),其中借阅证号是主键;(2)读者借阅信息(借阅证号,书名,作者,出版社,出版日期),其中借阅证号和书名两个都是主键,但读者借阅信息中的借阅证号是参照读者信息中的借阅证号而来。

2挖掘(或分析)数据准备
(1)读者信息(借阅证号,姓名,性别,类型,最长可保留天数),其中借阅证号是主键;设计如下:
(2)读者借阅信息(借阅证号,书名,作者,出版社,出版日期),其中借阅证号和书名是主键,设计如下:
(3)数据库关系图表示如下:
(4)相关处理过程如下:
1)新建数据源;2)数据源视图分析结果如下:
3)新建挖掘结构;把读者信息设置为实例,读者借阅信息设置为嵌套;
挖掘模型结构如下:
4)钻取结果如下:
4)在此设置最小支持度为50%,最小置信度为75%,界面如下:
5)建立关联规则模型如下:
3 数据挖掘(或分析)过程
3.1挖掘算法与挖掘软件选择
(1)挖掘算法:采用数据挖掘算法中的关联法来分析寻找数据间的关联性,在对候选集进行分析时采用Apriori算法找出频繁项集,进而由频繁项集产生关联规则。

(2)挖掘软件选择:Microsoft Visual Studio 2005和MS公司的SQL Server 2005 Data Mining软件。

3.2 数据预处理
(1)数据预处理是指在数据分析之前,我们通常需要先将数据标准化(Normalization),利用标准化后的数据进行数据分析。

数据预处理有助于为数据挖掘提供高质量的数据,良好的数据源是数据挖掘成功的重要保证,但现实的数据源中存在不完整的、异常的和不一致的数据,因此,数据的预处理是进行数据分析、
成功实验的基础。

例如:本次在对高校图书馆管理系统数据进行分析方案设计之前,我们组采用了头脑风暴法进行分析,然后各自选定和充分明确自己分析和研究问题的目的,然后采用数据清理、数据集成、数据转换和数据归约等技术有效改善数据挖掘的质量。

3.3挖掘过程说明
数据挖掘过程由以下步骤组成:1.确定业务问题,即理解业务需求,清晰定义业务问题,从而避免迷失在大量数据中。

在定义业务问题时,首先要考虑是否有充足的与业务有关的数据,识别数据挖掘分析的数据是否包含需要的模式;其次,需要考虑如何运用已发现的知识。

思考如何把数据挖掘的结果应用到业务中有助于洞察业务存在的实际问题。

例如:本次在对高校图书馆管理系统数据进行分析方案设计时,数据挖掘的最终目的是通过了解读者的借书模式,确定读者在图书馆进行借书时的规律,图书管理员针对这些规律合理摆放书籍,既方便读者借阅也方便图书管理员的管理;2.数据探测:即数据挖掘在确定业务问题后就要选择相关的数据,这些数据一般用简单文件、文本或数据库表的数据结构表示。

分析什么数据?需要多少数据?如何进行各种数据的平衡?又需要什么转换才能进行有效的挖掘?为了解决这些问题就需要进行数据探测,进而整理出包含业务模式的数据。

例如:本次在对高校图书馆管理系统数据进行分析方案设计时,我们组进行头脑风暴法来进行决策,进行删减了一部分数据进而得出当前的研究数据;3.数据预处理,即在分析研究之前对数据进行清理、归约、离散化处理和概念提升等操作,先将数据标准化(Normalization),利用标准化后的数据进行数据分析,数据预处理有助于为数据挖掘提供高质量的数据,良好的数据源是数据挖掘成功的重要保证;4.数据挖掘,本次在对高校图书馆管理系统数据进行分析方案设计时,采用数据挖掘算法中的关联法来分析寻找数据间的关联性,在对候选集进行分析时采用Apriori算法找出频繁项集,进而由频繁项集产生关联规则,挖掘软件选择的是Microsoft Visual Studio 2005和MS公司的SQL Server 2005 Data Mining;5.构建软件、硬件、数据平台,
确定相关参数,并具体挖掘,即为了判断模型的有效性和可靠性,需要合理构建软件、硬件、数据平台,确定相关参数,这个阶段与业务人员的沟通十分重要,在这次实验中我们组根据各自的研究目的进行合理筛选数据,进而合理构建软件、硬件、数据平台,确定相关参数,并具体挖掘;6.结果展示、评价、部署与维护,数据挖掘算法会输出很多模式,但不是所有的模式都是用户感兴趣的,因此要对这些模式进行评估,把挖掘结果应用到商务决策中,更好地辅助管理人员和业务人员及时做出正确的决策,产生经济效益,但这些模式具有一定的时效性,需要补充新的数据增量挖掘、更新,本次实验的目的是更具关联规则的结果进行合理摆放图书,进而方便借阅者的借阅和图书管理员的维护工作。

4 结果展示与评价
(1)查看挖掘结果如下:
(2)结果评价:由挖掘的结果可以看出读者如果借阅高等数学题集就会借阅高等数学,如果借阅高等数学就会借阅高等数学题集。

因此,为了方便图书管理员的管理工作以及读者的借阅,在此建议图书馆管理人员把高等数学和高等数学题集摆放在同一个楼层、如果有条件的话最好把它们放在同一个或者相邻书架上。

5总结
5.1 设计中遇到的主要问题及解决方法
(1)设计中遇到的主要问题:在对分析对象进行选择时,一开始我在读者信息表中输入了8个研究对象(其中包括2名本科生,2名教师,2名硕士和2名研究生),但是当要往读者借阅信息表中输入信息时,我才发现这个需要输入的数据太多了,因为读者借阅信息中的借阅证号是根据读者信息表中而来,而要找出关联关系每个读者借的书又和其他读者之间有一定的联系,这就造成了工作量很大。

(2)解决方法:将建好的读者信息中去掉一部分研究对象,只保留了4个具有代表性的研究对象,这样根据读者信息表中的信息就比较容易建立读者借阅信息表了,从而在很大程度上简化了工作量,但并不影响所要分析的结果。

5.2设计方案的主要优点及不足
(1)设计方案的主要优点:能够根据支持度<=置信度这一规则合理设置支持度为50%,置信度为75%,进行设计和分析,我们组的选题即对高校图书馆管理系统数据进行分析方案设计也很贴近我们现在的生活,从我所选择的关联分析方法分析中得出的关联规则(高等数学解题集<->高等数学),如果图书管理员根据该规则合理摆放图书,则可以帮助读者和图书管理员简化很多工作。

(2)不足之处:由于我们组去年做的课设和这次的图书馆管理系统数据分析方案设计类似,所以这次我们根据去年的调查结果增删了部分数据,各自选择适合自己研究的数据以及数据属性,但是由于研究目的以及工作量的关系,我只是选择了比较有代表性的一小部分数据,虽然也得到了一个关联规则,即高等数学解题集<->高等数学,但是由于研究对象的局限性,这个只是得出了高数方面的关联,但是我们是否可以根据这个规则推出所有的课本和习题集之间都是这种关系吗?这个问题这次并不能说明,还是有待研究的。

5.3 收获及建议
每一次课程设计都会有或多或少的、不同的体会和感悟,这次也不例外。

本次课程设计虽然也只有短短的一周,但是不仅给了我们将平时在数据仓库课堂上学到的知识充分应用到实践中的机会,而且给了我们理论联系实际的机会,同时也让我再次体会到了团队力量的巨大。

这次我们组的课设选题是高校图书馆管理系统数据进行分析方案设计,在这个课设中,我们组一共四个人,在开始做之前,我们组组员进行了头脑风暴法来收集建议然后再进行决策,每个人各自选定一个分析角度,每个人都站在自己的角度分析和研究问题,然后综合在一起。

我选择的是关联分析方法,即挖掘数据之间的关联规则,进行项目改进,进而改善项目,使之更加方便顾客或者产生更多效益。

在进行数据的选择和分析时,我们根据自己以前的观察和知识了解到本科生、研究生、教师以及硕士等的借书期限和书的种类都有比较大的差异,为了挖掘数据之间的规则,找出数据之间的联系,我从中选出了一些比较有代表性的也是在期中和期末借阅最多的书籍来进行分析,选定了研究对象之后,我就进行数据准备工作以及挖掘软件的选择等,通过关联分析法得出了关联规则:高等数学解题集<->高等数学,根据这一关联规则结果,为了可以简化图书管理员的管理工作和借阅者的借阅工作,我建议图书馆管理人员将一般的课本和习题集放在同一个阅览室,如果可能的话最好放在同一个书架上,以达双赢。

然而,在这次实验中我也遇到过不少问题,例如:在对分析对象进行选择时,一开始我在读者信息表中输入了8个研究对象(其中包括2名本科生,2名教师,2名硕士和2名研究生),但是当要往读者借阅信息表中输入信息时,我才发现这个需要输入的数据太多了,因为读者借阅信息中的借阅证号是根据读者信息表中而来,而要找出关联关系每个读者借的书又和其他读者之间有一定的联系,这就造成了工作量很大,于是我又重新抉择选择了一部分具有代表性的数据、也删除了一部分数据,如果说在没有开始做之前我就考虑到了这么多,那就不会造成后面冗余的工作和时间的浪费,所以,我又一次意识到了事前正确决策的重要性。

为了避免类似情况的再次发生,我要不
断地、更加努力地学习,不仅学习课本而且也要注重逻辑思维的培养,通过坚持不懈的学习不断提高、完善自己。

参考文献
参照下面格式写:
[1] 陈志泊等.数据仓库与数据挖掘.北京:清华大学出版社,2009.
[2] 朱德利.SQL Server2005数据仓库与商业智能完全解决方案.北京:电子工业出版社,2007.
[3]李慧,闻豪.基于数据仓库的OLAP技术的研究[J].电脑知识与技术,2008(2).
[4]张庆.基于数据仓库的数据挖掘算法研究.合肥工业大学,2006.
[5]赵卫东.商务智能(第二版).北京:清华大学出版社,2011.。

相关文档
最新文档