教育大数据分析方法与探索教育资料

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

教育大数据分析：方法与探索

一、大数据与大数据分析概述

随着数据获取、存储等技术的不断发展，以及人们对数据的重视程度不断提高，大数据得到了广泛的重视，不仅仅在IT领域，包括经济学领域、医疗领域、营销领域等等。例如，在移动社交网络中，用户拍照片、上网、评论、点赞等信息积累起来都构成大数据；医疗系统中的病例、医学影像等积累起来也构成大数据；在商务系统中，顾客购买东西的行为被记录下来，也形成了大数据。

时至今日，大数据并没有特别公认的定义。有三个不同角度的定义：（1）“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。（2）“大数据”指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理的方法的数据[2]。（3）“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

通常把大数据的特点归纳为4个V，即数据量大（Volume）、数据类型多（Varity）、数据的价值密度低（Value）以及数据产生和处理的速度非常快（Velocity）。

对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前，但传统的数据分析和大数据分析是不同的。

传统的数据分析往往是由客户提出一个问题，分析者围绕该问题建立一个系统，进而基于该系统解释这个问题；而大数据分析有时候并没有明确的问题，而是通过搜集数据，浏览数据来提出问题。

另一方面，传统的数据分析是在可用的信息上进行抽样，大数据分析则是对数据进行不断的探索，通过全局分析连接数据，达到数据分析的目的。

传统的数据分析的方法，往往是大胆假设小心求证，先做出假设，再对数据进行分析，从而验证先前的假设；而大数据分析则是对大数据进行探索来发现结果，甚至发现错误的结果，之后再通过数据验证结果是否正确。

因此，传统的数据分析可以看成一种静态的分析，大数据分析可以看成一种动态的分析。尽管如此，大数据分析和传统数据分析也并非是泾渭分明的，传统数据分析的方法是大数据分析的基础，在很多大数据分析的工作中仍沿用了传统数据分析的方法。

基于上述讨论，我们给出“大数据分析”的定义：用适当的统计分析方法对大数据进行分析，提取有用信息并形成结论，从而对数据加以详细研究和概括总结的过程。

大数据分析分为三个层次[3]，即描述分析、预测分析和规范分析。描述分析是探索历史数据并描述发生了什么（分析已经发生的行为），预测分析用于预测未来的概率和趋势（分析可能

发生的行为），规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议（分析应该发生的行为）。例如，对于学生学习成绩的分析，描述分析是通过分析描述学生的行为，如是否成绩高的同学回答问题较多；预测分析是根据学生的学习行为数据对其分数进行预测，如根据学生回答问题的次数预测其成绩；而规范分析则是根据学生的数据得到学生下一步的学习计划，如对学生回答问题的最优次数提出建议。

大数据分析的过程可以划分为如下7个步骤：（1）业务调研，即明确分析的目标；（2）数据

准备，收集需要的数据；（3）数据浏览，发现数据可能存在的关联；（4）变量选?瘢?找出自变量与因变量；（5）定义模式，确定模型；（6）计算模型的参数；（7）模型评估。

我们以预测学生学习成绩为例解释上述过程。首先，我们的目的是根据学生的行为预测学习成绩。接下来，对于传统的方法来说，通过专家的分析确定需要什么数据，比如专家提出对学生成绩有影响的数据，包括出勤率、作业的完成率等，可以从数据源获取这样的数据；大数据分析的方法有所不同，是找到所有可能相关的数据，甚至包括血型等，这些数据与成绩之间的关系未必有影响，就算发现了关系也未必可以解释，但是获取尽可能多的数据有可能发现未知的关联关系。

上面的步骤包括了很多因素，下面确定哪些因素会体现在模

型中，可以通过可视化等方法发现哪些因素和我们的分析目标相关，也可以通过特征工程的方法选择包含在模型中的变量，并排除一些相关的自变量，比如学生的起床时间和吃早饭的时间存在关联，在模型中可以只考虑其中之一，加快计算速度。

再接下来是定义模型的模式，比如可以把上述问题定义为线性回归，再通过一些算法确定模型中的参数，从而得到最后的模型。然后对模型进行评估，检验这个模型是不是真的有效，以及是否是可解释的。有些有用的模型并不见得可解释，例如发现了血压对成绩有影响，这个是有用的，但是未必有一个明确的解释。

二、在线教育大数据分析研究现状

在线教育大数据为教育研究的进行提供了非常好的途径和

机会，它构成了一个跨国家、跨文化、跨职业、跨阶层的平台，学习者的每个行为都为研究者贡献了数据。而通过研究这些数据，我们可以发现新的规律，或是指导学习者的行为，例如预测学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。利用平台得到的数据，预测并回馈给平台，从而可以达到改进平台的目的，还可以为平台发现新的业务。

当前在线教育大数据的研究已经开始，但是研究成果并不多，主要的研究对象是学生，集中在对学生学习行为的研究，而授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类，分为多个方面，包括：（1）学习者行为分析与预测；

（2）学习者学习效果分析与预测；

（3）平台供应商数据分析。

学习者行为分析与预测的研究指的是，通过学习者在MOOC 平台上产生并积累的行为数据，采用量化学习者行为特征的方式，对其学习行为进行分析与预测。具体而言，文献[4]研究了在MOOC平台上有退课风险的学习者的早期预警问题，他们基于回归分析的方法，提出了两种迁移学习算法，通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三个方法，分别是LR-SEQ，LR-SIM与LR-MOV，其中在AUC指标上LR-SIM与LR-MOV效果更好，LR-SIM在开课前两周的预测相对于其他方法更为出色。文献[5]采用了机器学习的方法研究了学习者退课率的预测方法，他们仅利用了网页浏览流数据，提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行，预测准确率逐渐上升，但在开课前几周的预测效果不够理想。文献[6]同样研究了学习者退课预测的问题，他们采用的方法是构建精确的预测模型与数据的时态与非时态表达，得到了较为良好的AUC指标。文献[7]则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测，他们通过简单交叉乘积的方法，将连续特征编码为单一离散可观察状态。文献[8]同样研究了退课问题，他们构建了时序模型，通过标签的方法，采用了LSTM单元的RNN模型。他们得到的结果说明了在此问题上使用LSTM单元要比普通的RNN效果更好。文献[9]研究了在MOOC平