数据挖掘技术在电大教务管理中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术在电大教务管理中的应用

【摘要】本文在研究数据挖掘基本理论与技术的基础上,探讨数据挖掘技术在电大教务管理中的应用。从教务管理数据仓库中挖掘出隐藏在海量数据中潜在的关联规则,可以获取影响学生能在最短年限内毕业的潜在因素与信息,将研究结果用于指导教学、开展有针对性的教学安排与教学组织,对学校的教学管理工作提出建议。

【关键词】数据挖掘;关联规则;Apriori算法;教务管理

0引言

随着“中央电大人才培养模式改革和开放教育试点”已经通过教育部的总结性评估,现代远程开放教育成为电大办学的常规形式,这表明电大教育进入新的发展阶段。开放教育事业的飞速发展,学生注册人数不断增加,毕业生的数据也在持续递涨[1]。由于电大主要面向成人教育,具有远程教育特征、采用多种媒体教学、共享优秀教育资源、开放的学习模式、学籍年限长等特点。一方面学生们学习目的明确,学习主动性很高,他们都希望学到知识的同时能在教育部规定的最短年限内获取毕业证书;另一方面作为学校,也希望在保证教学质量的同时,提高学生首次毕业通过率。但如何才能在最短年限内取得证书?这已成为制约学校招生、教学管理发展的棘手问题。本文希望通过数据挖掘技术能在大量的教务管理系统数据中,发现潜在规律,找出隐含的模式,找出制约的原因,为学校的管理决策提供有力的数据支持和依据,提高管理水平和办学质量。

1数据挖掘的基本理论

1.1数据挖掘的基本概念

数据挖掘就是技术地从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息在被提取之前是是隐含的,事先未知而潜在有用的,被提取的知识表示为概念、规则、规律、模式等形式。

1.2数据挖掘的对象

原则上讲,数据挖掘可以在任何类型的信息存储上进行,包括关系数据库、事务数据库、数据仓库、高级数据库系统和面向特殊应用的数据库系统(面向对象数据库、对象-关系数据库、空间数据库、时间数据库、时间序列数据库、文本数据库、多媒体数据库、WWW等)[2][3][4]。

1.3数据挖掘的过程

数据库中的知识挖掘是一个多步骤的处理过程,数据挖掘的基本过程和主要步骤如图1所示。

图1数据挖掘的基本过程和主要步骤

1.4数据挖掘的方法和算法

常用的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析、预测分析、回归分析;而常用的数据挖掘算法有人工神经网络、决策树、遗传算法、最临近技术、规则归纳、可视化技术等。数据挖掘不是一个单向的过程,对同一个问题,可有多种不同的算法。不同的数据挖掘方法作用于同一数据库,对数据的理解可有不同的角度,每种方法的合理与否都有可能。这就需要将发现结果在实际运用中反复求证,以检验其合理性。

2关联规则中的Apriori 算法及分析

1993年IBMAldRhCt的RkhAgawl等人首先提出关联规则挖掘,关联规则挖

掘目的是发现大量数据中项集之间有趣的关联或相关联系,可以帮助许多商务决策的制订,如市场规划、广告策划、分类设计等。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。

3数据挖掘在电大教务管理中的应用

以广东电大为例,抽取2004年级的12001名本科学生为主要分析对象,根据这些学生的学籍及第一年考试成绩作为分析的原始数据,参考其他高校分析的一些指标定义,构造挖掘模型。从教务管理广东理工职业学院数据仓库中导出相关的基本表进行集成、清理、转换等数据预处理;使用关联分析中的Apriori算法对数据进行挖掘分析,从数据中发现某些规律和参考信息,找出学生能在最短年限内毕业的因素,对教学等管理提出建议。

3.1设立模型

对电大学生数据建立分析模型,以选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。建立分析模型如图2。

图2电大学生数据分析模型

3.2数据预处理

数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要用掉挖掘过程中70%的工作量。本文以2004年级的本科学生为主要分析对象,因此从教务管理系统仓库中导出相关的三个表:学生基本档案表、成绩总表、毕业生名单,并对这三个表进行预处理。经过数据采集、数据清理、数据集成、数据转换、数据消减这五个步骤后,最终建立了可用于下一步数据挖掘的目标数据表。如图3所示。

其中: xh(学号)字段值为

20041440000001-20041440011999;

kscs(考试次数)字段值定义为:1-16;

hgcs(合格次数)字段值定义为:1-16;

hgl(合格率=■)字段值如此定义:0-1;

rxjd(入学季度)字段值如此定义:1表示春季入学,2表示秋季入学;

zhpjcj(综合平均分=■)字段值如此定义:A表示90-100、B表示80-89、C表示70-79、D表示60-69、F表示低于60分;

hydm(婚姻代码) 字段值如此定义:根据全局统计只有两种状况:1表示未婚,2表示已婚;

nl(年龄)字段值如此定义:年龄采用等高方式划分bucket,分成5个年龄段:20、25、30、35、40;dwdm(单位代码)字段值如此定义:将广东电大系统地区划分为四个区域,A代表粤北,B代表粤东,C代表粤西,D代表珠三角。

图3目标数据表片段

3.3数据挖掘

相关文档
最新文档