数据挖掘课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
枣庄学院
信息科学与工程学院课程设计任务书题目:数据挖掘在期末成绩评估中的应用
小组成员:赵尊强、桂文学
成员学号:2、 2
专业班级:计算机科学与技术、2012级本1班
课程:数据挖掘
指导教师:迟庆云职称:副教授
完成时间:2015年5 月----------------2015年6 月
枣庄学院信息科学与工程学院制
2015年5 月20日
课程设计任务书及成绩评定
2.2逻辑模型设计
本数据仓库只有一个表,逻辑模型设计如下:
2.3物理模型设计
在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个,一是提高性能,二是更好地管理存储的数据。访问的频率、数据容量、选择的RDBMS 支持的特性和存储介质的配置都会影响物理设计的最终结果。在本数据挖掘中,数据的索引策略采取的并不是位图索引而是按列索引
scor
lasttest
performa
nce
averscore
2.4 OLAP模型设计
在本设计中由于案例考虑的并不复杂,所以OLAP模型设计也就比较的简单。
下面的数据是保存在Excel中的。大概的模型设计也就如下图所示。
2.5 OLAP前端展示设计
3数据挖掘分析
3.1 期末成绩评估系统应用挖掘概述
在本系统中,数据仓库采用一个二维表来存储和表示同学们的平时成绩,平时表现得分,以及期末成绩等属性。数据挖掘则采用关联分析来将二维表中的实例分开,并探究这些数据所蕴含的规律。
3.2.3
实验内容 (输入数据集,选择算法,输出结果,比较分析)
建立一个Analysis Services Project的项目,在数据源中输入数据集:
说明:以上实验室在实验室做的,由于时间不够,回到宿舍自己安装了
中文版的SQL SERVER工具,并完成接下来的实验步骤。
3.2.4 算法选择
分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。
分类算法有多种,例如,决策树分类算法、神经网络分类算法、贝叶斯分类算法等。这里需要用的是决策树分类算法。
在本挖掘中选择是关联分析,分析过程和结果如以下图所示:
下面是挖掘模型:
关联规则:
项集:
说明(项集是比较准确的)分类矩阵:
依赖关系网络图:
提升图:
通过整合做出散点图如下图:
通过以上的分析,我们得出一个结论,就是期末成绩在最终得分中所占的比例最大,平时成绩和平时表现的权重差不多,在这个结论中,期末考试的成绩的重要性,不言而喻,增加期末考试的成绩,最能提高最终成绩,平时成绩和表现的得分也很重要,但相对权重没有期末成绩大。一个分数高的学生,他的所有成绩都应该是很高的。
4小结
由于团队技术水平有限,在开发过程中遇到了很多技术问题,不过大多数都是一些小的细节问题,花了很长时间。
还有就是由于对软件的不熟练,然后经常会搞错多对一等的关系,或者是一些属性的不对应,最后通过同学的帮忙,帮我查找到错误,并帮我们改正。
经过几个星期的课程设计,过程曲折可谓一语难尽。生活就是这样,汗水预示着结果也见证着收获。通过这次的设计培养了我综合应用所学知识,发现、提出、分析和解决实际问题,锻炼了我的实践能力。