学生成绩预测模型中数据挖掘技术的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学生成绩预测模型中数据挖掘技术的应用
作者:李嘉伟费雪李丞勇党同真高克宁
来源:《中国教育信息化·高教职教》2019年第08期
摘; ;要:教育数据挖掘是指开发、研究和应用计算机技术来发掘存在于大规模教育数据背后的潜在模式。本文着重梳理数据挖掘技术在学生学习成绩预测领域内应用的文献,重点介绍自2016年以来的主要研究成果,对其应用的典型算法进行详细阐述,并分析不同算法的应用范围与局限性。最后总结出学生成绩预测的主要流程及其未来发展方向。
关键词:教育数据挖掘;学生成绩预测;分类;回归
中图分类号:TP315 文献标志码:A 文章编号:1673-8454(2019)15-0055-06
一、研究背景
数据挖掘在教育中的应用是一个新兴的跨学科研究领域,被称为教育数据挖掘(EDM)[1]。即通过开发相关的算法探索来自教育环境的独特数据类型。通常这些数据具有多层次的结构,人们在这种环境中开发和探索数据内部所蕴含的联系与意义。通过数据统计、指标展现、横向对比、趋势分析等技术方法将数据转化为知识,以此探索符合新工科建设下所需的教学模式。国外很早就有应用数据挖掘技术建立学生成绩预测模型的研究,主要是应用于传统的课堂教学考试成绩预测中。近年来随着互联网教学模式的兴起,许多研究者也将数据挖掘技术应用于MOOC数据环境,但其研究侧重点更多关注学生的辍学率或坚持时间。另一部分研究者则选择利用学生学习管理系统中收集的数据来实现学生成绩的预测。本文通过对不同文献中预测学生成绩模型的梳理,总结出在学生成绩预测过程中的研究方法及流程。
二、数据收集与预处理
1.数据来源
预测学生成绩的数据主要来源于问卷调查、学习管理系统等。问卷调查方式广泛应用于教育领域,以此收集的数据具有个性化和适应性的特点。其个性化表现在可收集不同学生除人口特征外的基本信息,适应性则是帮助研究人员提取关于课程不同方面的数据。文献[2]发现三个潜在影响数学课堂教学质量的因素:教师的专业能力、学生的课后学习兴趣及其学习表现。因此针对性地设计了身份描述、教师评价和对数学学科的兴趣性三个部分调查问卷,最后得出不同因素在预测学生成绩表现中的占比。文献[3]通过设计性格学业动机、性格求助行为、自我调节学习的倾向、性格认知情绪等四份调查问卷,来探究学生根据不同的学习倾向遵循一定的行為模式对最终学习成绩的影响。
一般的学习管理系统(LMS)主要包含:网上注册报名、课程管理、课程分配、信息资源、学习评估等内容。旨在传递,跟踪,报告和管理学习内容,掌握学员学习进度以及学员的
参与互动。文献[4]为建立学生期末考试成绩预测模型,通过分析学生Moodle日志的时间分布规律,生成包含学生在课程进行期间访问某个LMS课程的次数和时间顺序。文献[5]利用Moodle日志中提取的数据,研究学生的学习过程,对学生的学习时间、作业拖延等方面进行聚类,并将这些行为与最终学习成绩进行匹配。
2.数据分类
预测学生成绩的数据包括学生与教育系统的交互(如测验成绩、互动练习等)、学生合作的数据(如小组讨论、社交活动等)、管理数据(如学校、老师的信息等)、人口数据(如年龄、性别等)、学生情感作用(如动机、情绪状态等)等。传统考试成绩预测形式更侧重于学生、学校与家庭因素,通常包括学生基本信息与学生情感状态分析、教师教学水平与学校资源配置、家庭幸福程度与父母受教育程度等内容。本文将当前主要文献所使用的预测因素进行分析并归类如表1所示。
3.数据预处理
由于采集预测学生成绩的数据有多种来源,最终收集的数据可能受到噪声数据、数据值缺失、数据冲突等影响,因此必须对数据预处理,常用的方法如表2所示。
数据的预处理主要包括数据集成、数据清洗、数据归约和数据转换等。数据集成是将多个数据源中的数据采用一致的数据存储集成存储。数据清洗包括对数据的不一致检验、噪声数据的识别、数据过滤等方面,有利于提高数据的一致性、准确性、真实性和可用性。数据归约需要在不损害分析结果准确性的前提下降低数据集规模,提升预测模型训练的速度。数据转换目的是将各变量不同形式的数据转化为数据挖掘算法需要的形式,如通常使用独热编码将学生特征属性转化为数值类型。
三、相关算法
常见的数据挖掘方法主要包括分类、回归、聚类、关联规则挖掘与探索性分析等。其中学生成绩预测更多应用监督学习中的分类与回归等相关算法。分类主要的算法包括:决策树、神经网络、朴素贝叶斯、支持向量机、K邻近等。通过将学生成绩划分成多个等级区间来实现预测分类,例如预测学生成绩是否能够及格。回归则通过发现变量或属性之间的依赖关系来预测连续型数据,例如预测学生的GPA成绩。
1.决策树
文献[6]通过调查问卷收集VBS Purvanchal大学的成绩报告和学生饮酒量等多种特征,采用BFTree、J48、REPTree和CART四种决策树算法探究酒精对学生记忆能力的影响,进而实现对学生成绩的预测。文献[7]使用决策树预测学生四年学习计划结束后的成绩,同时将学生群体划分为低成就学生和高成就学生。为可能成绩差的学生提供及时警告和支持,为成绩好的学生提供建议和机会。文献[8]利用遗传算法优化ID3、C4.5和CART三种决策树来预测学生
通过教师资格考试(LET)的可能性。结果表明C4.5算法是最适合该模型的算法。其精度为73.10%,F1测度为62.53%。决策树的优点在于计算简单、易于理解。比较适合处理有缺失属性的样本、处理不相关的特征。在相对短的时间内能够对大型数据源做出可行且效果良好的结果。但也会造成忽略数据之间的相关性、发生过拟合的现象。对于那些类别样本数量不一致的数据,信息增益的结果会更加偏向于占比更大的特征,可能会影响到预测的效果。
2.朴素贝叶斯
贝叶斯方法被广泛运用于关联度较小的因素下学生成绩预测模型。文献[9]通过多种数据挖掘算法找出影响Sri Lanka相关专业学生成绩的关键因素。其中朴素贝叶斯算法生成的模型取得92.17%的准确率。文献[10]从学习管理系统中提取特征数据集使用朴素贝叶斯等多种数据挖掘算法来对学生最终成绩进行五元分类,最终获得69%的准确率。文献[11]等人在模型的构建过程中考虑了11个基于学生的因素,以76.60%的准确率成功预测八年级土耳其学生的数学成绩分类,同时,学生信心因素也被发现是影响八年级学生数学成绩的最有效因素。朴素贝叶斯模型对小规模的数据表现很,能够处理多分类任务,适合增量式训练。对缺失数据不太敏感,常用于文本分类。但是朴素贝叶斯需要计算先验概率,并且要求在给定目标值时的属性之间相互条件独立。
3.神经网络
人工神经网络(ANN)依靠系统的复杂程度,调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。文献[12]阐述了课程难度的科学评估方法,并将其作为衡量学生在该课程中的表现的指标,并使用神经网络算法建立预测成绩模型,最终预测率达97.12%。文献[13]在研究中评估了包括神经网络等两种半监督学习算法预测学生期末考试成绩的有效性。实验表明半监督方法的优势在于利用少量有标记和大量无标记的数据可以建立可靠的预测模型,能够显著提高分类精度(79.90%)。文献[14] 在训练阶段对神经网络算法建模过程中通过PCA来消除数据集中的相关信息,从而提高分类器的性能至95.54%。神经网络相较于其他算法的优点在于其能充分逼近复杂的非线性关系,同时具备联想记忆的功能。但神经网络学习时间过长,有时甚至可能达不到学习的目的,其需要大量的参数,如网络拓扑结构、权值和阈值的初始值等,并且神经网络对输出结果的解释性较弱。
4.支持向量机
支持向量机(SVM)是一種二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。文献[15]使用SVM 对计算机应用专业本科一年级学生的编程能力进行了预测,分析了影响学生编程能力的因素并提出了一些该领域在教学模式上有前景的发展方向。文献[16]通过收集巴基斯坦不同大学学生的奖学金数据,对家庭支出和学生个人信息特征集进行研究,判别和生成分类模型用来预测学生是否能够完成他的学位,SVM实现了76.60%的预测准确率。文献[17]针对学生档案系统、学习管理系统和调查等三个数据源使用了SVM算法进行建模。由多种变量组合预测学生的学