开题报告_基于数据挖掘方法的学生课程推荐算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
开题报告_基于数据挖掘方法的学生课程推荐算法研究基于数据挖掘方法的学生课程推荐算法研究一、课题来源及研究的目的和意义
1.1 课题来源
计算机技术的进步,以及计算机网络建设的完善促使着社会信息化进程持续
[1]发展。信息数据的获取、记录、保存、检索等操作也因为新技术的不断应用而
[2]变得更加方便快捷。一方面,遍布各处的计算机网络终端设备打破了信息数据记录的时间和地域限制,让我们可以随时随地发送和接收数据;另一方面,存储速度越来越快的大容量电磁存储技术大大降低了信息数据存储的代价,使得记录并长时间保存海量数据成为现实。总体来说,在当今社会的各个领域中,信息数
[3]据的记录已经告别了“记账簿”形式的传统方式,迈入了电磁化存储的新时代。信息数据存储需求与信息数据存储代价两者之间的矛盾进一步深化为信息数据存储数量激增与信息数据处理能力停滞不前的矛盾。简单的说就是“我们应该如何获取蕴涵于海量数据之中的信息,”这一问题。总所周知,信息处理是一个知识创造的过程。这个过程需要具有某领域专业知识的专家通过对数据进行分析来完成。数据的大爆炸使得整个信息处理过程不堪重负。在原始的信息处理方式日益不能满足信息处理的需求的背景下,在统计学、计算机科学、人工智能等多学科知识融合的基础上,数据挖掘方法应运而生,将数据处理和信息获取从原始的
[4]人工方式转向了大规模计算机自动化的方式,开辟了信息数据处理的新局面。
教育是立国之本。随着我国改革开放的不断深化,教育事业正在逐步成为我国现代化建设过程中的一项重要工作[5]。我国的各项新教育政策的出台鼓励更多的
青少年走进学校接受高等教育,为祖国的未来贡献自己的力量。到2020年,我国的大学入学率计划达到40%,较2006年提高了17%。在如此庞大的学生群体面前,人均可利用的教育资源正在逐年缩减。如何在有限教育资源的前提下,提高教育资源利用率是关系我国教育教学质量的重要问题之一。为此,需要我国的教育工作者深入研究我国目前的教育体制,提出合理化建议,健全我国教育教学体制,提高教学质量。衡量教学质量的关键因素是学生,量化学生学习质量的主要指标是学生成绩。面对3000万学生以及上亿的成绩数据,显然数据挖掘是
[6]必不可少的信息数据处理方法。
1.2 课题研究目的和意义
我国的现代化教育体系建设起步虽然略晚于西方发达国家,但是其发展却相当快速,并且取得了长足的进步。其中最具代表性的就是目前广泛应用于各所高校中的学生成绩数据挖掘系统。由于不同高校在重点学科建设的倾向性不同,所以各个高校在系统建设的指导思想上和具体实施过程中都结合自身的特点有所取舍,不同系统之间取长补短,各具特色,形成一种“百家争鸣,百花齐放”的良性竞争局面。其中效果较好的方法是将系统分为数据获取、数据处理、信息[36-40]挖掘、信息理解和结果应用五个模块。在信息挖掘和信息理解模块,系统综合运用Apriori算法、C4.5算法、K-means算法和层次聚类等机器学习方法,构
[41,42,43]建完善的学生成绩分析平台。于成的《数据挖掘在学生成绩分析中的应用》、武丽芬和孟强的《学生成绩数据挖掘的研究与实现》、朱燕燕的《学生成绩数据挖掘系统的设计与应用》、白玲的《数据挖掘在高校学生成绩分析中的应用》
都是基于这种思想构建的教学平台。虽然这些方法在算法的具体细节上都具有各自的特点,但是它们的关注焦点都集中在对数据中关联规则的挖掘。通过有效地
发现、理解、运用关联规则,能够使隐含于大量数据之中复杂而有用的知识为现代化教育系统的建设做出更大的贡献。这些系统所需的数据来源于多年来教学过程中积累的学生考试成绩。通过对这些数据的深度挖掘不难发现,学生成绩的高低不单单取决于课程本身,还会受到学科的课程设置、教学计划的制定、各门课程的先后顺序等诸多方面的影响。由此产生了学者关于“如何为学科设置课程”、“各门课程之间的相互关系”、“如何评定综合学生学科综合成绩”等问题的思考。经过高校教育工作者、领域专家学家多年来共同的研究与实践,我国已经探索出一条符合中国教育实际情况的发展之路。高校智能排课系统的出现正是其中[45,46,47]重要的成果之一。四川师范大学2008年在汪晓飞等学者的努力下,成功将遗传算法应用于求解排课问题中,取得了良好的效果。该方法分析对比确定了一系列影响排课问题的因素,将其作为约束条件建立排课问题最优化模型,通过遗传算法多代进化找到了科学合理的课程排列顺序。2011年大连交通大学的刘震根据实际的工作经验,在原有的研究基础上全面阐述了排课工作的原则、流程以及重点难点。针对排课问题中易出现的冲突,他应用关联规则算法加以解决,排除了排课问题中漏课重课的错误,减轻了人工排课的压力,提高了学生学习的效率。将智能排课与自动出题、考试成绩分析三者相结合,从根本上改变了传统教学方式下经验式排课、院系集中出题、教师人工阅卷的局面,将教师从繁重的教学辅助工作中解放出来,使其能够有更多时间指导学生的日常学习,答疑解惑[48]。
二、国内外在该方向的研究现状及分析
国内外学者已经从不同角度,不同侧重对这一问题进行了深入的研究与探讨。尤其是近年来,随着全世界对教育热点问题关注度的持续升温,许多新思想、新方法层出不穷。其中着重于学生考试成绩分析的研究方法一直是解决这一问题[25,26,27]的热点。印度学者Brijesh Kumar Baradwaj和Saurabh Pal在2011年发表的论文《Mining Educational Data to An alyze Students’
Performance》中提出一种通过分析学生考试成绩数据的方法来预测学生的表现。该方法首先通过在线考试系统获得学生的考试成绩数据,然后建立高校教育系统的数据挖掘模型,利用以ID3决策树为主的机器学习方法对模型中的数据进行分类,最终达到预测学生在学校学习情况的目的。与之相关的数据方法还包括Pandey和Pal提出的《Data Mining:
A prediction of performer or underperformer using classification》。这种方法以学生的年级和先修课程为基础,以贝叶斯网络为手段,目的是预测初学者可能出现的学习情况。此类方法都是典型的机器学习方法。它们需要采集学生的多种信息数据作为算法的分析基础,通过多种机器学习方法相结合的方式构造数据挖掘模
[28,29]型,并将构造好的分析模型应用于具体的分类和回归问题中去。除了上述的决策树学习算法和贝叶斯网络算法,常用的数据挖掘方法还包括聚类算法、神经
[30-35]网络算法、遗传算法和线性回归算法等。利用准确的成绩预测模型,我们还可以继续深化关于问题的研究。例如Galit等在论文《Examining online learning
processes based on log files analysis: a case study 》中描述了一种教学辅助系统就是对考试分析结果的再利用。该系统根据学生的学习情况,为学生提供必要的学习计划,督导学生按计划执行学习,帮助学生顺利通过最终的学科测验。三、主要研究内容及创新点
3.1 主要研究内容
[7]目前,我国的现代化教育体制综合信息平台主要分为以下四个方面:第一,现代化远程教育系统;第二,基于海量题库的自动出题系统;第三,学生成绩的智能分析系统;第四,学科设计及教学计划的优化系统。上述四类系统基本涵盖了现代