数据挖掘技术论文教学管理系统论文:数据挖掘技术在教学管理系统中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术论文教学管理系统论文:数据挖掘技术在教学管理系统中的应用
摘要:根据教学管理系统的特点,采用数据挖掘技术,介绍了决策树中ID3算法,并以高职院校机械类学生机加工实习为对象,研究了数据挖掘技术在教学管理系统中的应用,为改善课程教学效果提供科学依据。
关键词:数据挖掘决策树ID3算法
中图分类号:TP311.5文献标识码:A 文章编号:1007-9416(2011)05-0185-02
引言
高等职业院校是培养高素质技能型人才的基地,把学生能力的培养作为教学的核心。
这几年,随着计算机技术、通信技术和网络技术的发展,高等职业院校建设了校园网,构建了基于校园网的教学管理系统。
通过网络收集、查询、统计、打印各种教学信息,但是,通过深入分析数据,指导教学改革,提高教学质量的工作很薄弱。
将数据挖掘技术应用于教学管理系统,可以充分
发挥教学管理系统的潜能。
本文结合盐城纺织职业技术学院机械专业机加工实践课程,使用ID3决策树算法生成决策树分析学生实践考核成绩,找出影响学生成绩的潜在因素并进行分析,为提高该课程的教学效果提供参考依据。
1、数据挖掘技术
数据挖掘(Data Mining,DM)就是对庞大的数据或数据库进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据[1]。
数据挖掘可以帮助人们从数据库、数据仓库相关的数据集中提取出感兴趣的知识、规则或更高层次的信息,主要是分类规则、聚类规则、关联规则、预测趋势等,升可以帮助人们从不同程度上去分析它们,从而可以更加有效地利用数据库。
数据挖掘技术主要有集合论法、决策树法、遗传算法、神经网络方法等。
决策树又分为ID3算法、CLS算法、IBLE算法等。
数据挖掘技术在大型超市、电信、金融等积累有大量数据的行业有着广泛的应用,在高等院校,学生人数多,课程种类多,成绩数据多,还有大量的与学习成绩相关的因素信息,传统的学习成绩分析方法已经不能满足教学研究的要求,对此可以引入数据挖
掘技术找到影响学生成绩的真实原因,制定相应的措施,提高教学质量。
2、决策树ID3算法
ID3是基于信息熵的决策树分类算法,根据属性集的取值选择实例的类别。
ID3的算法核心是在决策树中各级结点上选择属性,用信息增益作为属性选择标准,使得在每一个非叶子结点进行测试时,能获得关于被测试例子最大的类别信息,使用该属性将例子集分成子集后,系统的熵值最小。
期望该非叶子结点到达各后代叶结点的平均路径最短。
使生成的决策树平均深度较小,提高分类速度和准确率。
设是个数据样本的集合。
假定类标号属性具有个不同值,定义个不同类。
设是类中的样本数。
对一个给定的样本分类所需的期望信息由公式(1-1)给出:
其中是任意样本属于的概率,一般可用来估计。
设是子集中类的样本数。
由划分成子集的熵的计算公式如(1-2):
熵值越小,子集划分的纯度越高。
对于给定的子集,其期望信息由公式(1-3)给出:
由期望信息和熵值可以得到对应的信息增益值,由公式(1-4)得到:
是由于获得属性的值而导致的熵的期望压缩,决策树算法就是计算每个属性的信息增益,将具有最高信息增益的属性选作给定集合的测试属性,创建一个节点,并以该属性标记,对属性的每个值创建分枝,并且据此划分样本。
3、决策树在机加工技能考核成绩分析体系应用
3.1 数据预处理
高职院校机械类学生都有机加工实习,一般要求通过国家劳动保障部的职业技能考核,考核分为理论知识与操作技能两部分。
在课程改革过程中,机加工这种基础性实习的学时被大大压缩,在有限的学时内如何安排理论复习与上床时数,如何针对不
同的学生因材施教,我们通过学院教学管理系统的学生成绩库,收集相关的数据,进行数据挖掘。
我们提取字段有:编号、性别、理论成绩、上床操作时数、操作技能成绩,重新组成一个挖掘数据库,以便在应用数据挖掘时操作更加方便高效。
提取出的挖掘数据库信息如表1所示。
为了探索决策树技术的应用方法,我们将收集到的500名学生的调查问卷按比例选择其中的19条记录形成调查表,即在500条记录的样例空间,抽取19条记录作为训练集,说明决策树技术的应用方法。
3.2 构建决策树
1.计算样例分类所需的期望信息:
I(成绩) =
说明:“成绩”属性值中的“优秀”样例为3个,“良好”的样例为10个,“一般”的样例有4个,“及格”的样例数有2人。
2.计算“性别”属性的期望信息:
I(男) =
(男生13人:2个优秀、7个良好、3个一般、1个及格)。
I(女) = -log2-log2 =0.81128
(女生6人:3个一般、1个及格)。
3. 计算“性别”属性的信息熵:
E(性别) =
4. 计算每个属性的信息增益:
Gain(性别) = I(成绩) - E(性别) =0.34198
同理求得其余各属性的信息增益分别为:Gain(理论) = 0.21347, Gain(床时) = 0.15438。
选取信息增益最大的属性“性别”作为决策树的根节点,然
后分别对“男生”“女生”重复上面的计算,得到信息增益:男生,Gain(理论) > Gain(床时);女生,Gain(机时) > Gain(理论) 。
考虑到影响学生机床操作技能成绩的因素很多,这里只选取其中最重要的3个因素。
决策树如图1所示。
2.3 结论与分析
从决策树图中可以得出如下结论:尽管影响学生机加工技能成绩的因素很多,但通过决策树可以看到学生性别、理论基础和实习上床操作时间是主要因素。
其中,学生性别对机加工操作成绩影响最大,男生往往从小喜爱装拆小玩具,修理东西,动手能力较强,在机器前面比女生胆子大,好奇心和控制欲较强,实习考核成绩普遍比女生强些。
男生中理论成绩好的,实践成绩普遍好于理论成绩差的,这说明理论成绩好的学生对实习很重视,学习态度好,对机器工作原理、加工工艺掌握得好,有助于实践技能的提高。
对于女生而言,受实习时间的影响比较大,实习时间长了,慢慢适应了,技能水平会不断上升。
因此,要提高学生机加工实践操作成绩,必要的实习课时是关键,对于女生更是如此。
3、结语
本文通过一个实例表明了,充分利用教学管理系统中的数据资源,依靠数据挖掘技术分析学生成绩,探寻影响学生成绩的关键因素,对于完善教学计划,改变教学方法,提高教学质量具有极大的促进作用,也深化了现有教学管理系统的功能,使校园信息化跨上了新台阶。