数据挖掘技术在学生成绩分析中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科 教 文 化
・1 2 9・
数据挖掘 技术在学 生成 绩分析 中的应用
刘春辉 1 李 芳 , , 2 (、 1 沈阳理 工大学信息与工程学院 。 宁 沈阳 10 6 2 北票市职教 中心计算机 系, 宁 朝 阳 12 0 ) 辽 118 、 辽 2 10 摘 要: 随着, 国内职业教 育规模扩 大, 学生的数量越来越 多, 充分地利 用这些数据 , 其潜在 的使 用价值得到 充分的挖掘和利 用, 何 使 为学校 决策者提供 决策依 据 , 学指 导教 学 , 科 将是职 业学校 迫切 需要 解决的 问题 。本 文利 用现 有学生成绩数据库 , 应用改进 的数据挖掘 A f f 算法进行 了情况分类 , po ii 分析 结果 , 出了“ 电一体化” 得 机 专业分课程之 间的影响学生成 绩的内部原 因, 为学校的教学管理提供参考。 关键词 : 数据挖掘 ; 成绩分析 ; 关联 规则; pi i算法 A rr o 首先对成绩表中的“ 成绩” 进行离散化处理 , 具体分数的成绩按 二十一世 纪 以来 , 国内在不 断扩大职业教 育规模 , 成立 职业教 照百 分制 1 0 9 0 ~ 0对应 “ ”8 ~ 0对 应 “ ”7 0对应 … ,9 6 A, 8 9 B ,9 7 C’6 ~0 育 中心 , 学校规模不断扩 大 , 专业设置 日趋多样化 , 学校运行着各种 对应“ ,9 0对应“ ” D”5 ~ E 五个具体分数段等级 。 为了找到具有较高典 系统和各类 数据库 , 学生入 学后 的学籍管理 , 教务处 的学生成 绩管 型性 的规则 , 只对 “ ” “ ” “ ” A 、B 、E 三个等级的成绩进行分析 , 出影 找 理, 就业处对毕业生 的就业管理等 , 都积 累了大量 的数据 。 如何充分 响成绩 的内在因素 , 而分析 出课程之 间的先后 次序 , 从 为我们制定 地利用 这些数据 ,使其潜在 的使用价值得到充分 的挖掘和利用 , 是 合理 、 有效 的教学计划提供决策支持 。对于… 、D 两类成绩 , C’“ ” 由于 职业学校在今后 的工作 中努力要解决 的问题 。 不 具 有 典 型性 , 以 不 考虑 挖 掘 。 所 2 数 据 挖 掘 技 术 3 模 型 的选 定 . 3 21数据挖掘 中关联规则方法 . 分 析学生各科 目成绩的之间的影响关 系 , 例如 : 学生 “ 某 机械制 关联规 则挖掘是 在大量数据 中项集之 间发 现有趣 的关联或相 图” 优秀一车工技 能优 秀的关系 。 根据我们前 面分析学习 , 在此我们 关联系 , 一种 简单 却很 实用 的分 析规则 。满足 x的数据库元组也 采用关联规则 中最著名的 A f f算法。 是 po ii 很可能会满足 Y, 我们说这就是关联规则 的一般描述 。 34数据采集 . 般地 , 关联规则挖掘 问题可 以划分成两个子问题 : () 1 学生 调查信息 ( ) 现频 繁项 目集 1发 内容包 括任课教师 的平时考核 , 对学 生调查问卷 , 由学生填 写 通过 用户 给定 的 m nu p r isp ot ,寻找所 有频 繁项 目集 (rq e t 产 生 。 Fe un I mst, t e)即满足 sp o e u p  ̄不小 于 mispot nu p r的项 目集 。事实上 , 这些 () 2 成绩数据库 频繁项 目集可能具有包含关系。 成绩数据库 中包括 了学生 的平 时作业成绩及课程 的考试成绩。 ( ) 成 关 联 规 则 2生 这 个 数 据 库 由教 师在 教学 过 程 中产 生 。 子问题( ) 1是近年来关联规则挖掘算法研究的重点。 35数据 预处理 . 2 . 2关联规则挖掘算法 数据的预处理是数据挖掘过程 中一个非常重要的环节 , 一般需 ( ) p o 算法 1A f f ii 要用掉挖掘过程 中百分之七八十 的工作量 。经验表明 , 如果数据准 充分 , 在模型建立 阶段就会节省大量的精力 。 算法的第一次遍历仅仅 计算每个项 目的具体值 的数量 , 以确定 备工作做得非常细致 、 频繁 1 项集 L。 1随后 的遍历 , k 第 次遍历 , 包括两个阶段。 首先 , 使用 ( ) 据 集 成 1数 数 据 挖 掘 所 应 用 的数 据 如 果 来 自多 个 数 据 源 , 需 要 进 行 数 据 就 第 (一 ) k 1次遍历 中找到的频 繁项集 k 。 和根据 L一产生候选项集 。 k . 接 本研 究中 , 将数据采集得 到的多个数据库文件 , 利用数据库 着 扫描数据库 , 计算 c 中候选 的支持 度 , 从而生成频 繁项集 。如 的集成 。 技术生成学生成绩分析基本数据库 1 。随机抽取一些学生的专业课 此下 去 , 直到不能找到维度更高 的频繁项集为止。 程( 机械基础 , 钳工工艺 , 车工工艺 ) 的成绩 , 如表 1 。 () 2 基于链表 的 A f f算法的改进 po ii k l为机械基础 ,e c k 2为钳工工艺 ,c 为车工工艺。 k3 在经典的 A f f基础上 , 用新 的数据结构 , po ii 采 改进后 的算 法拟 采用 基于链 表的数据结 构 , 链表涉及三种结点 , 分别为项集头结点 、 ( ) 据 清 理 2数 如 果 没 有好 的数 据 环 境 , 不 会 有 好 的 挖 掘效 果 。 就 项结 点 、 事务结点 。 对数据库或者数据仓库只需要 进行 一次扫描 , 这 在学生成绩分析基本数据库及调查表 中我们看到 , 有一些我们 样就 可以避免 A f f算法 中对数据库 的多次扫描 , po ii 减少 了大量 的 I , 感兴趣 的属 性缺少属性值 , 对于这些空缺 , 以使用数据 清理技术 可 0开销 , 大大提高 了系统的性能 。 因为某位 同学 的缺考 链 表的一级 兄弟结点从左 到右按照 子集支持度 计数 的递 增顺 来填补 。我们发 现在我们所调用的成绩表 中, 还有的就是 问卷调查 , 序排 列 ,这样 即使 1 一项集很大 的情况下 ,也将 只产 生较少的候选 而导致值的空缺 , 表 1学 生成 绩 分 析 基 本 表 1 2 项集 ,. 集再 产生更少 的候选 3 2项 一项集 等等 ,从 而提高了系统
一
一
1 引言
0
8
O
4
O O 8
的性 能 。 3 方 案 实 施 实 例 31挖 掘 对 象 及 目标 . 我校教务管 理系统成绩表 中存放 了近五年 的成 绩数据有 几十 万条 , 如果我们 选取所有 的数 据作为挖掘对象 , 么数据挖 掘的时 那 间会 太长 , 规则也会很多 , 最终用户将 面对着大量 的规则 。 大多数用
结 果 应 用 于 对 3 . 2具体分数成绩离散化
有的同学除了填写姓名外其余 的部分都是空 白, 因而要对这部 分数据进行清洗 。 在本例中 , 采用忽略元组 的方法删除没有参加考试或学生填写
作者简介 : 刘春辉 (9 3 ) 辽宁省北票市职教 中心讲师 , 宁省朝 阳市中学计 算机 学科 带头人 , 于沈 阳理工 大学研 究生学院攻读 17 一 , 辽 现
8 8
86
9 0
8 0
70
76
85
65
8 6
91
82
92
90
84
9 0
户对 总体数据含有的规则并 不感兴趣 , 他们 只关 心某些与 自己相关 的隐含规则。面对如此的情况 , 本研究将采 取相 对细化的 区域进行 挖掘, 以学校 “ 电一 体化 ” 机 这个专业 的学 生成绩数据 为挖掘对象 , 探讨 出课程之间影响的强弱 , 以求得 到最合 理的规则。将挖掘 出的
工程硕士学位。
・ቤተ መጻሕፍቲ ባይዱ
2 0 2・
科 教 文 化
第三步 , 调用另一个存储 过程 , 计算 各子项 的支持度 , f 表 将 f s 的调查数据 中有大量的空缺项 的记录 。 中支持度计数小 于最小支持度的记 录删除 , 得到最终的频繁项集 。 经过数据清理后 , 总记录数为 2 8 。 4条 () 6在求后继各频繁项 目集 时 , 第一步产生候选 项 , 第二步生成 ( ) 据 转 换 3数 最后 , 删除支持度计数小 于最小支持度 的记 录。 直到求 在对学生成绩进行关 联分析挖掘时 , 要逻辑 型数 据 , 以应 频繁项 目集 。 需 所 若发现某候选项集 的数 目为零 , 则停止运算 。 把学生成绩表的数据转换成布尔型表示 , 因为挖掘 的是各学科之间 出所有 的频繁项 目集 , 输出所有项 目的频繁集。 的优秀关系 , 以 9 以上字段值为“ ” 表示 事务中存 在该 项 , 所 0分 1, 为 最后 , () 7 计算最终频 繁项集 的各非空子集 的置信 度 , 删除小于最小 …’ , 0 时 表示事务中不存在该项 。 置信度 阈值 的记录 , 最终产生规则 , 存入规则数据表 。 将表 l 转化为关联规则算法便于处理的格式 , 如表 2 : 要对上述表 中的优秀课 程进 行关联规则挖掘 , 需要给出支持度 表 2 学 生成 绩 分 析 逻辑 数 据 表 和置信度。假定最小支持度为 3 %、 0 置信度为 5 %时 。 0 ( )c 、c 1k 1k 2同时优秀时 ,c 有大于 7 %的优秀 的可能 ; k3 1 ( )c 、e 2k lk 3同时优秀时 ,c 有大于 10 k2 0 %的优秀的可能 ; ( )e 、e 3k 2 k3同时优秀时 ,e 有 大于 10 kl 0 %的优秀的可能 ; ( )e 优秀时,e 、e 4k l k 2 k3有大于 7 %同时优秀的可能 ; 1 ( )c 5 k2优秀时 ,e 、c k lk3有大于 5 %同时优秀的可能 ; 0 ( )c 6 k3优秀时 ,c 、e k lk2有大于 8 %同时优秀的可能。 3 从 上述 运行结果来看 , 我们 可以得到下 面的潜在 的关联 : 一些 课程间存在一些联 系 , 它们是相互影 响的 , 一些课 程成绩 的好 坏直 将连续 的成绩值转换 为离散值属性 ( 即离散化 ) 将学生本学期 接影响另一些课程成绩的好坏 ,当然这个结论仅对本样本有效 , 。 如 的综合评定成 绩属性 的所有 值按 0 7 、0分一 0 、0分 以上 果本数据非 常之 大 ,我们 就可以将关联分析结论作 为挖掘 出的知 ~ 0分 7 8分 8 划 分成 “ ” “ 般 ” “ 差 、一 、 良好 ” 类 。 三 识。 并期望用所获得的知识指导学生的学 习及今后 的教学工作。同 从 而将 学生调查信息与本学期考试 成绩生成学 生成绩分析基 时我们还可 以对学生成绩数据 表的不及格课程进行关联规则挖 掘。 本 数据库 2 如表 3 , : 另外 , 在高等教育与学生籍贯 、 学生年龄 、 教师学历 、 师测评 结果 、 教 表 3 学 生 成 绩分 析 基 本 数 据 表 2 教师的教学方法适合哪一种学 生或哪门课程 、 合理设置学生课程与 安排课程表等方 面存在的相关性等分析都适用 A r r算法 。 pi i o 3 . 6挖掘结果 我们以学生成绩库 中的学生成绩数据为样本 , 使用第 三章 提出 的改进 的 A r r算法进行挖掘得到的部分结果如表 5 pi i o 。 部 分 挖 掘结 果 :
O 8 O O
O 8
0 8 O
4 1 0
0 8 0
4 l 2
O 8 O
・1 2 9・
数据挖掘 技术在学 生成 绩分析 中的应用
刘春辉 1 李 芳 , , 2 (、 1 沈阳理 工大学信息与工程学院 。 宁 沈阳 10 6 2 北票市职教 中心计算机 系, 宁 朝 阳 12 0 ) 辽 118 、 辽 2 10 摘 要: 随着, 国内职业教 育规模扩 大, 学生的数量越来越 多, 充分地利 用这些数据 , 其潜在 的使 用价值得到 充分的挖掘和利 用, 何 使 为学校 决策者提供 决策依 据 , 学指 导教 学 , 科 将是职 业学校 迫切 需要 解决的 问题 。本 文利 用现 有学生成绩数据库 , 应用改进 的数据挖掘 A f f 算法进行 了情况分类 , po ii 分析 结果 , 出了“ 电一体化” 得 机 专业分课程之 间的影响学生成 绩的内部原 因, 为学校的教学管理提供参考。 关键词 : 数据挖掘 ; 成绩分析 ; 关联 规则; pi i算法 A rr o 首先对成绩表中的“ 成绩” 进行离散化处理 , 具体分数的成绩按 二十一世 纪 以来 , 国内在不 断扩大职业教 育规模 , 成立 职业教 照百 分制 1 0 9 0 ~ 0对应 “ ”8 ~ 0对 应 “ ”7 0对应 … ,9 6 A, 8 9 B ,9 7 C’6 ~0 育 中心 , 学校规模不断扩 大 , 专业设置 日趋多样化 , 学校运行着各种 对应“ ,9 0对应“ ” D”5 ~ E 五个具体分数段等级 。 为了找到具有较高典 系统和各类 数据库 , 学生入 学后 的学籍管理 , 教务处 的学生成 绩管 型性 的规则 , 只对 “ ” “ ” “ ” A 、B 、E 三个等级的成绩进行分析 , 出影 找 理, 就业处对毕业生 的就业管理等 , 都积 累了大量 的数据 。 如何充分 响成绩 的内在因素 , 而分析 出课程之 间的先后 次序 , 从 为我们制定 地利用 这些数据 ,使其潜在 的使用价值得到充分 的挖掘和利用 , 是 合理 、 有效 的教学计划提供决策支持 。对于… 、D 两类成绩 , C’“ ” 由于 职业学校在今后 的工作 中努力要解决 的问题 。 不 具 有 典 型性 , 以 不 考虑 挖 掘 。 所 2 数 据 挖 掘 技 术 3 模 型 的选 定 . 3 21数据挖掘 中关联规则方法 . 分 析学生各科 目成绩的之间的影响关 系 , 例如 : 学生 “ 某 机械制 关联规 则挖掘是 在大量数据 中项集之 间发 现有趣 的关联或相 图” 优秀一车工技 能优 秀的关系 。 根据我们前 面分析学习 , 在此我们 关联系 , 一种 简单 却很 实用 的分 析规则 。满足 x的数据库元组也 采用关联规则 中最著名的 A f f算法。 是 po ii 很可能会满足 Y, 我们说这就是关联规则 的一般描述 。 34数据采集 . 般地 , 关联规则挖掘 问题可 以划分成两个子问题 : () 1 学生 调查信息 ( ) 现频 繁项 目集 1发 内容包 括任课教师 的平时考核 , 对学 生调查问卷 , 由学生填 写 通过 用户 给定 的 m nu p r isp ot ,寻找所 有频 繁项 目集 (rq e t 产 生 。 Fe un I mst, t e)即满足 sp o e u p  ̄不小 于 mispot nu p r的项 目集 。事实上 , 这些 () 2 成绩数据库 频繁项 目集可能具有包含关系。 成绩数据库 中包括 了学生 的平 时作业成绩及课程 的考试成绩。 ( ) 成 关 联 规 则 2生 这 个 数 据 库 由教 师在 教学 过 程 中产 生 。 子问题( ) 1是近年来关联规则挖掘算法研究的重点。 35数据 预处理 . 2 . 2关联规则挖掘算法 数据的预处理是数据挖掘过程 中一个非常重要的环节 , 一般需 ( ) p o 算法 1A f f ii 要用掉挖掘过程 中百分之七八十 的工作量 。经验表明 , 如果数据准 充分 , 在模型建立 阶段就会节省大量的精力 。 算法的第一次遍历仅仅 计算每个项 目的具体值 的数量 , 以确定 备工作做得非常细致 、 频繁 1 项集 L。 1随后 的遍历 , k 第 次遍历 , 包括两个阶段。 首先 , 使用 ( ) 据 集 成 1数 数 据 挖 掘 所 应 用 的数 据 如 果 来 自多 个 数 据 源 , 需 要 进 行 数 据 就 第 (一 ) k 1次遍历 中找到的频 繁项集 k 。 和根据 L一产生候选项集 。 k . 接 本研 究中 , 将数据采集得 到的多个数据库文件 , 利用数据库 着 扫描数据库 , 计算 c 中候选 的支持 度 , 从而生成频 繁项集 。如 的集成 。 技术生成学生成绩分析基本数据库 1 。随机抽取一些学生的专业课 此下 去 , 直到不能找到维度更高 的频繁项集为止。 程( 机械基础 , 钳工工艺 , 车工工艺 ) 的成绩 , 如表 1 。 () 2 基于链表 的 A f f算法的改进 po ii k l为机械基础 ,e c k 2为钳工工艺 ,c 为车工工艺。 k3 在经典的 A f f基础上 , 用新 的数据结构 , po ii 采 改进后 的算 法拟 采用 基于链 表的数据结 构 , 链表涉及三种结点 , 分别为项集头结点 、 ( ) 据 清 理 2数 如 果 没 有好 的数 据 环 境 , 不 会 有 好 的 挖 掘效 果 。 就 项结 点 、 事务结点 。 对数据库或者数据仓库只需要 进行 一次扫描 , 这 在学生成绩分析基本数据库及调查表 中我们看到 , 有一些我们 样就 可以避免 A f f算法 中对数据库 的多次扫描 , po ii 减少 了大量 的 I , 感兴趣 的属 性缺少属性值 , 对于这些空缺 , 以使用数据 清理技术 可 0开销 , 大大提高 了系统的性能 。 因为某位 同学 的缺考 链 表的一级 兄弟结点从左 到右按照 子集支持度 计数 的递 增顺 来填补 。我们发 现在我们所调用的成绩表 中, 还有的就是 问卷调查 , 序排 列 ,这样 即使 1 一项集很大 的情况下 ,也将 只产 生较少的候选 而导致值的空缺 , 表 1学 生成 绩 分 析 基 本 表 1 2 项集 ,. 集再 产生更少 的候选 3 2项 一项集 等等 ,从 而提高了系统
一
一
1 引言
0
8
O
4
O O 8
的性 能 。 3 方 案 实 施 实 例 31挖 掘 对 象 及 目标 . 我校教务管 理系统成绩表 中存放 了近五年 的成 绩数据有 几十 万条 , 如果我们 选取所有 的数 据作为挖掘对象 , 么数据挖 掘的时 那 间会 太长 , 规则也会很多 , 最终用户将 面对着大量 的规则 。 大多数用
结 果 应 用 于 对 3 . 2具体分数成绩离散化
有的同学除了填写姓名外其余 的部分都是空 白, 因而要对这部 分数据进行清洗 。 在本例中 , 采用忽略元组 的方法删除没有参加考试或学生填写
作者简介 : 刘春辉 (9 3 ) 辽宁省北票市职教 中心讲师 , 宁省朝 阳市中学计 算机 学科 带头人 , 于沈 阳理工 大学研 究生学院攻读 17 一 , 辽 现
8 8
86
9 0
8 0
70
76
85
65
8 6
91
82
92
90
84
9 0
户对 总体数据含有的规则并 不感兴趣 , 他们 只关 心某些与 自己相关 的隐含规则。面对如此的情况 , 本研究将采 取相 对细化的 区域进行 挖掘, 以学校 “ 电一 体化 ” 机 这个专业 的学 生成绩数据 为挖掘对象 , 探讨 出课程之间影响的强弱 , 以求得 到最合 理的规则。将挖掘 出的
工程硕士学位。
・ቤተ መጻሕፍቲ ባይዱ
2 0 2・
科 教 文 化
第三步 , 调用另一个存储 过程 , 计算 各子项 的支持度 , f 表 将 f s 的调查数据 中有大量的空缺项 的记录 。 中支持度计数小 于最小支持度的记 录删除 , 得到最终的频繁项集 。 经过数据清理后 , 总记录数为 2 8 。 4条 () 6在求后继各频繁项 目集 时 , 第一步产生候选 项 , 第二步生成 ( ) 据 转 换 3数 最后 , 删除支持度计数小 于最小支持度 的记 录。 直到求 在对学生成绩进行关 联分析挖掘时 , 要逻辑 型数 据 , 以应 频繁项 目集 。 需 所 若发现某候选项集 的数 目为零 , 则停止运算 。 把学生成绩表的数据转换成布尔型表示 , 因为挖掘 的是各学科之间 出所有 的频繁项 目集 , 输出所有项 目的频繁集。 的优秀关系 , 以 9 以上字段值为“ ” 表示 事务中存 在该 项 , 所 0分 1, 为 最后 , () 7 计算最终频 繁项集 的各非空子集 的置信 度 , 删除小于最小 …’ , 0 时 表示事务中不存在该项 。 置信度 阈值 的记录 , 最终产生规则 , 存入规则数据表 。 将表 l 转化为关联规则算法便于处理的格式 , 如表 2 : 要对上述表 中的优秀课 程进 行关联规则挖掘 , 需要给出支持度 表 2 学 生成 绩 分 析 逻辑 数 据 表 和置信度。假定最小支持度为 3 %、 0 置信度为 5 %时 。 0 ( )c 、c 1k 1k 2同时优秀时 ,c 有大于 7 %的优秀 的可能 ; k3 1 ( )c 、e 2k lk 3同时优秀时 ,c 有大于 10 k2 0 %的优秀的可能 ; ( )e 、e 3k 2 k3同时优秀时 ,e 有 大于 10 kl 0 %的优秀的可能 ; ( )e 优秀时,e 、e 4k l k 2 k3有大于 7 %同时优秀的可能 ; 1 ( )c 5 k2优秀时 ,e 、c k lk3有大于 5 %同时优秀的可能 ; 0 ( )c 6 k3优秀时 ,c 、e k lk2有大于 8 %同时优秀的可能。 3 从 上述 运行结果来看 , 我们 可以得到下 面的潜在 的关联 : 一些 课程间存在一些联 系 , 它们是相互影 响的 , 一些课 程成绩 的好 坏直 将连续 的成绩值转换 为离散值属性 ( 即离散化 ) 将学生本学期 接影响另一些课程成绩的好坏 ,当然这个结论仅对本样本有效 , 。 如 的综合评定成 绩属性 的所有 值按 0 7 、0分一 0 、0分 以上 果本数据非 常之 大 ,我们 就可以将关联分析结论作 为挖掘 出的知 ~ 0分 7 8分 8 划 分成 “ ” “ 般 ” “ 差 、一 、 良好 ” 类 。 三 识。 并期望用所获得的知识指导学生的学 习及今后 的教学工作。同 从 而将 学生调查信息与本学期考试 成绩生成学 生成绩分析基 时我们还可 以对学生成绩数据 表的不及格课程进行关联规则挖 掘。 本 数据库 2 如表 3 , : 另外 , 在高等教育与学生籍贯 、 学生年龄 、 教师学历 、 师测评 结果 、 教 表 3 学 生 成 绩分 析 基 本 数 据 表 2 教师的教学方法适合哪一种学 生或哪门课程 、 合理设置学生课程与 安排课程表等方 面存在的相关性等分析都适用 A r r算法 。 pi i o 3 . 6挖掘结果 我们以学生成绩库 中的学生成绩数据为样本 , 使用第 三章 提出 的改进 的 A r r算法进行挖掘得到的部分结果如表 5 pi i o 。 部 分 挖 掘结 果 :
O 8 O O
O 8
0 8 O
4 1 0
0 8 0
4 l 2
O 8 O