数据挖掘在学生成绩数据中的应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘在学生成绩数据中的应用研究
摘要:针对课程设置与课程成绩之间的关系,通过比较分析可以发现学生成绩背后所隐藏的有价值信息。
通过对学生成绩数据的挖掘,可以发现隐藏其中的关联规则,得出有实际价值的规则及结论,从而为教学管理人员优化课程设置提供决策支持。
关键词:数据挖掘;关联规则;学生成绩;Apriori算法
0引言
随着招生规模的不断扩大,教务管理系统中的数据急剧增加,普遍存在的问题是学生成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段,如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题[1]。
本文着重讨论了数据挖掘技术在学生成绩这一海量数据中的应用,发现成绩数据中隐藏的课程相关规则或模式,力图通过关联与分类,得出一些有用的知识,对教学质量的提高起到积极的促进作用。
1数据挖掘及关联规则
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
数据挖掘是一个循环往复的知识发现过程,通过对挖掘结果的描述、分析与评价,不断优化数据挖掘模型和挖掘算法,最终获得最优化数据挖掘解决方案[2]。
1.1数据挖掘流程
(1)确定业务对象。
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。
挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
(2)数据准备。
①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。
建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
(3)数据挖掘。
对所得到的经过转换的数据进行挖掘。
除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
(4)分析和同化。
①结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术;②知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
数据挖掘的过程如图1 所示。
1.2关联规则简述
关联规则挖掘就是在海量的数据中发现数据项之间的关系,关联规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。
他们分别反映了所发现规则的有用性和确定性。
一般地,用户可以定义两个阈值,分别为最小支持度阈值(minsup)和最小置
信度阈值(minconf)。
当挖掘出的关联规则支持度和置信度都满足这两个阈值时,就认为这个规则是有效的,否则,就是无效的。
这些阈值一般可由领域专家设定,也可以进行其它分析,揭示关联项之间的联系。
2基于数据挖掘的高校学生成绩分析
对学生成绩的正确分析,是保证教学工作顺利进行的关键,揭示一些“教”与“学”的现象和规则,能更好地指导教师的“教”与学生的“学”,为教育教学的计划和决策提供依据,提高教学的效果和成果。
2.1数据采集
高质量的数据,是保证数据挖掘成功的前提保证。
本研究所需数据取自计算机专业学生的期末考试成绩数据库文件,确定某门课程和其它课程之间的关联性。
为减少不必要的影响因素,影响关联规则的产生,删除了英语类、思政类、体育类的课程,将数学类和计算机课程进行分析,最终随机抽取385 名学生的《C&C++ 语言程序设计》、《线性代数》、《离散数学》、《计算机系统原理》、《计算机网络》、《计算机组成原理》、《软件工程》、《数据库原理》、《数据结构》等课程的期末考试成绩。
2.2数据预处理
数据预处理是数据挖掘的关键阶段,原始数据往往存在不完整的、含噪声的和不一致的数据,不能直接运用于数据的挖掘,需要对其进行数据预处理,包括数据清理、数据集成、数据变换等内容。
(1)数据清理。
通过填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。
从数据库中导出字段包括学号、课程名、成绩、备注等信息。
对备注中显示补考、重修的成绩填充为50分。
对缺失值的填充,我们运用了决策树归纳的方法,填写最可能的值进行填写,以便数据挖掘结果更准确。
经数据清理的数据如表1所示。
(2)数据集成。
将多个数据源合并到一致的数据存储,依据以往经验思政类和体育类课程对本研究的结果影响不大,予以删除。
根据此类思想整理数据,并将所有数据集成到一个Excel中,最终数据包含4 065条271名学生的15门数据。
(3)数据变换。
将数据转化成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的区间内。
由于成绩是按照数值形式存储的,不利于数据的挖掘,需要对各科成绩进行离散化处理,将成绩分为优秀、良、一般、差4个等级,分别用A、B、C、D进行标识,规定85~100为A,75~85为B,60~75为C,60分以下为D。
笔者运用Apriori算法对表1数据进行关联规则的挖掘,进行数据转化后如表2所示。
2.3Apriori算法的运用
采用SPSS Clementine工具进行数据挖掘,预处理的数据已满足Apriori算法对数据的要求,导入数据可直接使用Apriori模型进行分析。
为了得到更有效的数据,笔者进行了反复的验证。
设置条件支持度为0.15,最小规则置信度为0.75,挖掘结果如图2所示。
2.4结果分析
上面挖掘的关联规则并非每条都有现实意义,我们进一步进行处
理,将关联规则模型导出,分析这些关联规则,得到主要知识如下:(1)学好计算机应用基础、C&C++程序设计、数据结构是学好数据库的基础,数据结构又是学好软件工程的基础。
知识发现过程如下:计算机应用基础=A =>数据库=A,支持度为32.32%,置信度为85.3%。
计算机应用基础和数据库同时是A的人数占总人数的32.32%,计算机应用基础为A中85.3%的人数据库原理也为A,所以说要学好数据库原理先要学好计算机应用基础,C&C++程序设计=A =>数据库原理=A,支持度为42.35%,置信度为86.56%,同上解释,C&C++程序设计也是数据库原理的基础。
数据库原理=A =>软件工程=A,支持度45.36%,置信度为81.02%,数据库原理也是软件工程的基础。
(2)学好离散数学是学好数据结构的基础。
(3)要把计算机操作系统学好,计算机组成原理、C&C++程序设计、数据结构、离散数学是基础。
(4)计算机操作系统取得好成绩的人数中76%的人计算机网络也学的好。
(5)C&C++程序设计、数据结构和数据库原理又是学好软件工程的基础。
此处只列出了部分知识发现,管理者可以以此为参考,结合实际情况对所学的课程进行调整,并通过预警对学生的学习进行提醒和帮扶。
学生可以结合自己的成绩及时预测某门课程的成绩,及时补救,
加大课程的学习力度。
3结语
利用关联规则中的Apriori算法对计算机科学与技术专业的课程进行了挖掘,找出了隐藏在课程背后有趣的规律,发现偏离正常学习轨道的学生,及时进行预警和干预,帮助学生顺利完成学业,对学生课程的学习和管理者的决策提供参考,也为关联规则在其它学科的应用提供了思路。
参考文献参考文献:
[1]朱艳丽,高国.Apriori算法研究及其在学生成绩分析的应用[J].福建电脑,2010(1):47.
[2]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2010:41-43.
[3]王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):54-56.
[4]杨康,张伟.Apriori算法在DNS记录挖掘中的应用与研究[J].技术研究,2012(2):60-64.
[5]崔学文.关联规则挖掘算法Apriori在学生成绩分析中的应用[J].河北北方学院学报:自然科学版,2011(1):44-47.。