数据挖掘技术在高校学生成绩分析中的应用
基于数据挖掘技术的学生行为分析研究
基于数据挖掘技术的学生行为分析研究在如今这个数字化时代,数据已经变得格外重要,而其中一个重要的应用便是数据挖掘技术。
数据挖掘是一种从数据集合中提取出有价值信息的过程,它利用机器学习、模式识别和统计分析等技术,从大量数据中发现规律和关联性,为 decision-making 提供支持,解决众多实际问题,为人们的决策提供源源不断的商业价值。
在教育领域,数据挖掘技术也格外重要,它可以帮助教育工作者挖掘学生自身的行为模式、学习状态和倾向性,并能够针对这些数据来优化学校的课程设计、学生管理和教学方式。
因此,基于数据挖掘技术的学生行为分析研究已成为热点话题。
一、数据挖掘技术在学生行为分析中的应用数据挖掘技术在学生行为分析中的主要应用是通过数据分析来探究学生的学习行为,包括学生的学习时间分布、学习偏好、学习策略、错题率等,以此为基础,发现一些规律性的关联,并帮助教师优化教学。
在大规模的在线教育系统中,来自大量不同学生的数据变得尤其有价值,通过挖掘这些数据,理解学生的学习过程、习惯和态度,进一步针对不同学生制定更为个性化的教学方案。
二、数据挖掘技术在学生行为分析中的实践案例数据挖掘技术在学生行为分析的实践中有着广泛的应用,我们可以以一个实例来进一步了解这种技术的应用。
在学生遗留问题的解决方面,很多在线高等教育平台使用基于数据挖掘的预测模型来预测学生的成绩、学习时间等,基于这些数据,教师能够有效地了解到每个学生的学习现状,针对性地进行辅导和帮助。
比如在 Coursera 的学分机制中,该平台使用了一个机器学习算法,从大量的学生数据中分析出未来的成绩,并给学生提供了一系列学习建议和模块练习题,大大提高了学生的学习效率和成绩。
三、数据挖掘技术在学生行为分析中的问题和挑战基于数据挖掘技术分析学生行为的过程中,往往会遇到很多挑战和问题,这些问题需要我们不断地去探究和解决。
其中,最大的问题是学生的数据可能涉及个人隐私问题,需要在保障个人隐私的前提下进行有效的数据分析和预测,避免对学生造成伤害。
数据挖掘技术在学生成绩分析中的应用
28.1%
90.4%
[A5,I4] ⇒ C5
16.3%
85.3%
[A5,I3] ⇒ C5
11.1%
79.3%
[ I5,A2] ⇒ C2
10.3%
90.2%
[G1,L1] ⇒ C1
15%
95.3%
C5 ⇒ L5
25.0%
94.6%
L5 ⇒ A5
31.2%
91.2%
5.知识获取
对于所有的关联规则,本人重点分析学生内在因素对成绩的影响。可以发现上课座位位
G5
态度综合 A1
A2
A3
A4
A5
项目 事务
表 2 教师相关事务表
性别
职称
学历
教 副教
男女
讲师 本科 硕士 博士
授授
T1 T2 T3 T4 T5 T6 T7
T8
行政职位
兼政 专 职
T9
T10
4.2 生成关联规则 采用 Apriori 递推算法[4] [5],对所有学生数据进行分析,本人主要统计有三个专业四个
Yi Xue- Ming (Information College of Guangdong Ocean University, ZhanJiang 524025, China) Abstract: A present, there are so much data around with us, and much information hide in the sea of data. So data ware house and data mining technology is applied widely. The author have practiced for a few years and collected many data. Using data ware house and data mining technology, author mined data of students’ scores and found many important correlation factors of scores. These factors provide some useful consult for teachers and managers. Key words: data warehouse; data mining; students’ score; association rule; apriori algorithm 1. 引言 近年来,为适应时代的发展,满足社会的需求,中国高等教育规模越来越大,正从精英 教育转向大众教育。在当前竞争日益激烈,就业形势日益严峻的大背景下,社会对大学生的 素质提出了更高的要求,大学生的技能、素质、就业问题等均成为社会的热点。所以如何培 养一个合格的大学生,关注学生成绩和能力,是所有高校教师所面临的问题。作者经过三年 的数据收集和准备,在收集大量的事实数据前提下,使用数据仓库和数据挖掘技术,建立雪 花型数据仓库模型,使用 Apriori 关联规则算法,对数百名学生的成绩进行综合挖掘,分析 发现一些重要信息和原因,为工作的展开提供一些理论和事实依据。 2. 数据仓库的建立 2.1 集市数据的收集和集成 数据分析是建立在大量的数据基础上,作者经过 3 年的数据收集和准备,收集了大量的 集市数据。集市数据来源于需求不同的部门,数据类型也各有千秋,先对其集成处理,将数 据集成到下面的几个关系表里。 (1)学生基础数据表 高中基础是大学的起跑线,高考成绩不仅反映学生的基础,同时在一定的程度上反映学 生学习习惯和态度。高考成绩数据表数据来源于学生高考原始成绩整理和录入。集成后的模 型为:学生基础表(学生编号,年龄,性别,高考分数)。 (2)大学考试成绩表 大学成绩数据来源于教学管理部门每学期成绩表,由于课程性质、学习时间等因素的不 同,必需将其整合和简化,去掉一些不需要的字段,同时构造“课程编号”字段。建立的模 型为:学生成绩表(学生编号,课程编号,成绩)。 (3) 学生智商数据表 学生智商表数据来源于对学生智商进行测试和统计,建立的数据模型为:学生智商表(学 生编号,测试 1,测试 2,学生评测)。数据来源于具体 IQ 测试软件进行测试得分[1] 。为了 数据更有说服力,使用两个测试软件,在规定的时间内进行测试,同时还组织同学进行评测,
基于数据挖掘的高校学生学习成绩分析应用研究
( Mo d e m E d u c a t i o n T e c h n o l o g y C e n t e r o f X i ’ a n I n t e r n a t i o n a l U n i v e r s i t y , X i ’ a n 7 1 0 0 7 7, C h i n a )
樊 同科 , 孙 姜 燕
( 西安外事学院现代教 育技术 中心, 陕西 西安 7 1 0 0 7 7 )
摘要 : 高校的 学生成绩管理是各 高校教务 管理 工作 的核心和基础 。大多数 高校 的学生成 绩是 以 多种形式保存 , 一般 只限 于对成绩的查询及 简单的统计上面 , 没有 对这 些积 累的海量数据 背后的 有用信 息进行挖掘 分析 。针 对这些 海量数据 构
Ab s t r a c t :Ma n a g e me n t o f c o l l e g e s t u d e n t s ’a c a d e mi c r e c o r d i S a n i mp o r t a n t p a r t o f w o r k i n e d u c a t i o n l a a d mi n i s t r a t i o n .Mo s t c o 1 . 1 e g e s s t o r e s t u d e n t s ’r e c o r d s i n v a r i o u s w a y s ,ma i n l y l i mi t e d t o s e a r c h i n g a n d s i mp l e s t a t i s t i c s ,a n d u s e f u l i n f o r ma t i o n b e h i n d s u c h ma s s d a t a i s n o t a n a l y z e d .A d a t a b a s e j s c o n s t r u c t e d b a s e d o n s u c h d a t a a n d s t u d e n t s ’a c a d e mi c r e c o r d i S a n a l y z e d b y u - s i n g c l a s s i i f c a t i o n a n d p r e d i c t i o n a l g o r i t h m ,s h o wi n g t h a t s t u d e n t s ’a c a d e mi c p e r f o r ma n c e i s r e l a t e d t o s t u d e n t s ’p a r t i c u l a r i t y, o r - i g i n a n d t e a c h e s ’e r d u c a t i o n b a c k g r o u n d.S u c h p e r t i n e n c e c a n p r o v i d e e v i d e n c e f o r d e c i s i o n — ma k i n g a n d a d mi n i s t r a t i o n d e p a t r - me n t s o f s c h o o l s or f a n ly a s i s a n d a d mi n i s t r a t i o n .I n t u r n .i t c a l l i n s t r u c t e d u c a t i o n nd a i mp r o v e o v e r a l l e d u c a t i o n a l q u a l i t y . Ke y wo r d s :d a t a mi n i n g ;d e c i s i o n t r e e ;a n ly a s i s o f s t u d e n t ’ s a c a d e mi c r e c o r d
学生成绩数据挖掘系统的设计与应用
S QL ev r2 0 S r e 0 0。
务 管 理 系 统 中的 数 据 急 剧 增 加 , 教 务 管 理 人 员 仅 能 对 数 而
据 库 中 存 储 的 大 量 信 息 进 行 简 单 的查 询 和 报 表 统 计 输 出 ,
( )计 数 步 骤 。通 过 扫 描 事 务 数 据 库 , 每 次 生 成 的 3 对
根 据 系 统 挖 掘 流 程 图 , 用 VB 0 0设 计 系 统 主 界 面 利 21 由 获 取 数 据 、 据 预 处 理 、 联 规 则 挖 掘 和 规 则 结 果 分 析 数 关
候 选 项 集 的各 项 在 事 务 中 的 出现 次 数 计 数 , 根 据 给 定 的 并 最 小 支 持 度 阚值 , 成 频 繁 项 集 。 生 2 学 生 成 绩 数 据 挖 掘 系统 的设 计 与 应 用
高校学生成绩管理是 教务 管理工 作 的重要组成 部分 , 是 对 学 生 在 校 期 间 学 习 的 一 个 全 面 管 理 的 过 程 , 目 的 是 其
了 解 学 生 在 校 学 习情 况 , 一 定 程 度 上 也 反 映 了 学 校 的 教 从
教 务 管 理 系 统 中的 学 生 成 绩 记 录 , 计 开 发 一 个 学 生 成 绩 设
满足最小支持度和最小置信度 的强规则
』 联 则果析 I 规 结 分 关
l 用 所 决 支 户 需策持
图 1 学 生 成 绩 数3 系统 的 实现 和 结 果 分析 .
前k 一2项 相 等 并 且 第 1 频 繁 ( ~ 1 一项 集 的 第 k 1 个 k ) 一 项
基于数据挖掘的高职生成绩分析与预测
二、数据挖掘技术在 高职 生教学 的应 用
( 一) 数据挖 掘技 术的应用步 骤
1 1 根 据研究 的 问题确 定主题 与 目标 。本论 文要研 究 的 问
库 、人 工智 能 、数理统 计 、可视 化 、并 行计算 等 。数据 挖掘
的使用极大地提高了信息的利用率,使用有效信息更高效,
为社会 与人类 的发展提供 了方便 的实用工 具…。 ( 二) 应用于学 生成绩 的数据挖 掘技 术方法
4 ) 遗 传算 法 :这种方 法适 用 于结算最 优数 据 ,其 内容是
利用概率计算,直接计算出最有数据结果的方法。遗传算法
模拟了 自 然 界优 胜劣 汰 、适 者生存 的 自然进 化规 则 ,生成 的 用于 数据选 择 的随机搜 索算 法 。其优 点是在 对数 据进行 操作 过程 中 ,不 需要 制定 规则 ,直接 用于 数据对 象 ,直接 快捷 地 得倒 最优 化搜 索 。缺 点是应 用 比较单 一化 ,可 以配合 其他 方
法使用 。
规则或深层次的信息。狭义定义:数据挖掘是一个利用各种
分析工 具在 海量数 据 中发现模 型 和数据 之间关 系 的过程 ,是
知识发 现过 程 中的一个 关键 步骤 。数据 挖掘是 一 门广义 的交 叉学 科 ,它 的 发展 和 应 用 涉及 到 不 同 的领 域 ,尤其 是 数 据
法模 型预测 未知数据 对象 。其 中分类 模型可应 用于预 测 。 操 作步骤 为 :a . 构造 对数 据进 行分 类 的分类 器 。例如 运 动 员体 能数 据库 中 ,根 据学体 能测试 成绩 ,将 运动 员 的成绩 分 类 为 :优 、 良、可 、差 四个 等级 。b . 精确 分析 分类 规则 , 即是通 过总 结分析 运动 员成绩 数据 ,对 成绩分 类等 级做 出更
数据挖掘技术在高职院校学生综合素质考核中的应用
在 A上分枝将 获得的编码信息是 决策树归纳的基本算法是贪心算法 .它以 自 向下递 归的划 分一 顶 G ( = ( lJ , ,m)E(  ̄nA)/s ,2 … S - A) s 控制方式构造决策树 策树是通过一系列规则对数据进行分类 的过 决 换言之 , anA是 由于知道属性 A的值而导致的熵的期 望压缩 。 G i() 程. 它提供一种在什么条 件下会得到什么值的类似规则的方法 本文 通过此算法计算 出每个属性 的信息增益 。 具有最高信息增益的属 是基于 I 3 法的 , D算 其基本策略是 : 性选作为给定集合 s 的测试属性 。 并创建一个结点 , 并以该属性标记 , ( ) 以代表训练样 本的单个结点开始 ( 1树 步骤 1 。 ) 对属性 的每个值创建分枝 , 并据此划分样本 。 ( ) 果样本都在 同一个类 . 2如 则该节 点成 为树 叶, 并用该 类标号 ( 步骤 2和 3 。 ) 2 学生综合素质考核 中的决策树算法应用 () 3 否则 , 算法使用称为信息增益 的基本熵 的度量作为启发信息 , 表 1 学生样本数据集 选择能 够最 好地将 样本分类的属性 ( 步骤 6 该属性成为该结点 的 ) “ 测试 ” 判定” 或“ 属性 ( 步骤 7 。在算法 的该版本 中, ) 所有 的属性都是 样本 姓名 学年考试 德育 职业技 能 社会 实践 考核成绩 编号 平均成绩 成绩 水平 能力 分类 的. 即离散值 。连续属性必须离散化 。 () 4 对测试属性 的每个 已知的值 . 创建一个分枝 . 并据此 划分样 本 1 张文海 优 中 中 由 B ( 步骤 8 1 ) — O。 2 李兴松 良 优 高 高 A ( ) 法使用 同样 的过程 , 5算 递归地形 成每个划分上 的样本决 策树 。 3 苗桂军 优 良 高 由 A 旦 一个属性 出现在一个结点上 . 就不必该结 点的任 何后代上考虑它 ( 步骤 1 ) 3。 4 张子硕 良 良 高 由 B () 6 递归划分 步骤仅 当下列条件之一成立停止 : 5 元丰 良 良 高 由 B () a给定结点的所有样本属于同一类 ( 步骤 2 3 。 和 ) 6 李祥林 良 由 由 低 C () b 没有剩余属性可 以用来进一步划分样本 ( 步骤 4 。在此情况 ) 下, 使用多数表决( 步骤 5 。 ) 这涉及将给定的结点转换成树 叶. 并用样 7 王泽华 由 良 低 低 D 本中的多数所在的类标记它 。替换地 . 可以存放结点样本 的类分布 。 8 杜选 峰 及 格 d 由 由 E () c分枝没 有样本 ( 步骤 1 ) 1 。在这种情况下 。 以训 练样本中的多 9 盖文 海 中 良 中 低 C 数类创建一个树叶( 步骤 1 ) 2 12 决策树的生成算法 . 1 刘世 峰 0 由 中 低 低 E 首先需要计算 出每一个属性 的信息增益 . 其次 以最高信息增益 的 属性作为集合 的检 验属性 . 用检验属 性生成结点并标记 . 最后对于检 为了利用决策树分类算法 将学生综合素质 考核 中的考核结果 进 验属性的每个值生成分叉 行分类 , 此前首先需要确定 数据挖掘 的对象 , 我们从学生信 息数 据 中
决策树数据挖掘算法在学生评价分析中的应用
Ju n l fHe a dc lC l g o tf n ok r o ra n n Me ia ol efrSafa d W res o e ・6 43 价 分 析 中的应 用
齐云飞 , 李勇强
表、 事实 表和评 价 事 实模 型 。系统 为 评 价信 息 表 建
立 了两 个 维 度 :er t m 构 成 的 时 间 维 度 和 cm y a、e r o.
m e at nt or、 om m ent t c a or
—
t e 性构 成 的评 价人 维度 。 y 属 p
系统需要 建立 dm— t、 i cm mett 两个 维 度 i a d e m— o m nao r 表 和事 实表 F ea ai , —v l t n 维度 表 与系统 表关 系如 图 u o
具 有较 大差异 。下 面选 择决策 树算法 来实 现对学 生 评 价 的分类分 析 , 使用 决 策 树 算法 主 要 基 于 以下 考 虑 : 为 学 生 设 计 的 评 价 项 多 数 使 用 的 是 ‘ ’ ① 高 、
技术 作为 专用 于信息查 询和 分析 的新兴 技术 在商业
智 能领域 取得 了极 大 的成功 。学生 评价 作为 教学评
解 的特 点 。 2 使 用决策树 算 法实现 学生评 价分 析
学 管理 。因此 , 立 科 学 的高 校 学 生评 价 系 统是 加 建
强 高 等 学 校 教 学 管 理 和 提 高 教 学 质 量 的 重 要 举措 。
1 数 据挖 掘与 决策树 算法 1 1 数据挖 掘 的定 义 数 据 挖 掘 是经 由 自动或 半 . 自动 的方式 来探究 及 分 析 大量 的信 息 , 以发 现有 意 义 的规 律 。H n和 K mbr 认 为 数 据挖 掘是 从 数 a a e则 据库 、 数据 仓库或 其 他 的数 据 存 储 的大 量 数 据 中提 取有用 的 信 息 与 模 式 。F ya ayd等人 将 数 据 挖 掘 定义 为从数 据 中找 出有 效地 、 新颖 的 、 藏有用 的 以 潜 及最 终能被 理解 的模式 的高 级过程 。 数据挖 掘 的功 能 可 以分 为六 类 : 类 、 分 回归 、 预
数据挖掘技术在试卷分析中的应用
2 4
1 2 21 22
1 3
9 1 1 1 0
1
2 2 3
本文采用 ss ps软件处理数据,由于其高效 的处理数据能力, 避免了手 工 易出错 的缺点. 数据处 理过程 , 在 采用了对距 离的测量方 法 S ur qa d e
Ec e Dsne公 uia i c 式是: D L ( Y= ( ). l n t , d a E U I x ) : D , 一
1 4 3 3
大体分成三类, 基础题 、中等题、提高题. 即: 本文只列出了其中 2 1个数
据, 如下表所示:
21 .. 2聚类 过程 分析
2 5 5 00 01 2 05 6 0 01 2 5 7 00 01
20 0 8 0 5 1
2 05 9 0 01 20 50 0 0 2 2 5 00 021
绩 特 征 的学 生群 体 ,析 出试 卷 上 特 定 题 目知 识 点 间 的 相 关性 ,得 到 的结 论 对 高校 教 学有 一 定 的指 导作 用.
关 键 字 :数 据 挖 掘 技 术 聚 类 关联 规 则 试 卷分 析
中图分类号:P 7 T 24
文献标识码 : A
1 引言
A g2 u 008
.
数 据 挖 掘 技 术在 试 卷分 析 中的应 用
张瑶 ,陈高 云,王 鹏
(. 1 成都信 息工程 学院计 算机 系并行计 算实验 室, 四川成都, 12 5 .成都信息工程 学院软件 工程 系并行计算 实验室, 602; 2 四川 成 都,12 53 成都信息工程学院软件工程 系并行计算实验室,四川成都 6 0 2 ) 6 0 2 ;. 12 5
—
数据挖掘技术在高校教学与管理中的应用
r h n a ay i g su e t’ s o e . E p r e t s o t a l se i g meh di r e s n b ea d s in i cwh n c mp r dwi i m o n l zn t d n s t c rs x e i n s h w t u tr t o mo er a o a l n c e t e o ae t m h c n s i f h t d t n l c r ss mmi g meh d a d te c u t r g r s l o ti r s f l n o ma in E p r n s s o t a h r v d r i o a o e u a i s n t o , n l se n e u t c n a n mo e u e u f r t . x e i h i s i o me t h w t e i h t mp o e
数据挖掘技术在高校教学管理中的应用
器 学 习 。机 器 学 习 是 用 计 算 机 模 拟 人 类 学 习 的一 门科
取 出 事 先 很 难 甚 至 无 法 预 知 的 信 息 和 知 识 ,它 能 高 度 自 动 化 地 分 析 原 有 数 据 , 出 归 纳 性 推 理 。 中 挖 掘 出 做 从
维普资讯
第 1 期 1
( 0 6年 ) 20 62 总 第 2 8期 第 2 — 8页 2
教育科掣 袷殪
EDUCAT1 N SCI 0 ENCE F0 RUM
No 1 . 1
(0 6 20 )
P2 6一P 28
数据挖掘技术在高校教学管理中的应用
潜 在 的 模 式 , 而 帮 助 管 理 人 员 调 整 策 略 . 出 正 确 的 从 做
决 策 。 面 以 高 校 学 生 成 绩 的 聚 类 分 析 为 例 . 要 的讨 下 简
学 , 较 成 熟 的算 法 有 神 经 网 络 、 传 算 法 等 。 比 遗
用 数 据 库 管 理 系 统 来 存 储 数 据 ,用 机 器 学 习 的 方 法 来 分 析数 据 , 掘 大 量 数 据 背 后 的 知识 , 两 者 的 结 挖 这
l5 9 6年 诞 生 之 后 取 得 了 重 大 进 展 。 经 历 了 博 弈 时 期 、 自然 语 言 理 解 、 识 工 程 等 阶 段 , 知 目前 的 研 究 热 点 是 机
随 着 数 据 库 管 理 系 统 在 高 校 教 学 工 作 中 的 大 量 应 用 , 据 库 积 累 的数 据 越 来 越 多 , 些 数 据 背 后 隐 藏 着 数 这 许 多 重 要 的 信 息 ,如 何 快 速 而 又 准 确 的从 海 量 的 教 学 信 息 资 源 中提 取 出所 需 信 息 ,是 高 校 教 学 管 理 人 员 所
数据挖掘技术在高校学生管理中的应用
构化 ) 中提取有 用 的信 息 和知 识 的过程 。在 这个 定义 中 , 要
求数据源应该是 大量的 、 真实 的 、 有 噪 音 的 ; 发 现 的信 息 含 所 和知 识 是 潜 在 的 并 隐 藏 在 大 量 数 据 背 后 的 。 用 户 感 兴 趣 是 的、 可理 解 、 运 用 的知 识 。所 以 , 据 挖 掘 有 时 也 被 人 们 称 可 数 为 知 识 挖 掘 、 识 提 取 、 识发 现 等 [ 。 知 知 1 ]
中 国 高等 医 学教 育
20 0 8年
第l 0期
・ 8 ・ 1
数 据 挖 掘 技 术在 高 校 学 生 管理 中的应 用
薛卫京 , 海洋 , 王 孟 建
( 山 医学 院 教 务 处 , 东 泰 安 2 1 1 ) 泰 山 70 6 [ 要 ] 目的 : 分 利 用 高校 目前 的 教 务 信 息 系统 , 大 量 的 学 生数 据 进 行 深入 地 分 析 , 出重 要 的 关 摘 充 对 找 联 关 系 , 现 一 些 潜 在 的 规 则 , 学校 的 决 策提 供 重要 依 据 。 方 法 : 用 数 据 挖 掘 技 术 中 的规 则 和 算 法 对 大 发 为 利
s p o tA- B) :P( u p r( > : AUB)
c n d n e A- B) P( A ) o f e c( > i = B/
段 , 没有 对 大 量 的 学 生 数 据 进 行 深 入 地 分 析 , 而 捕 捉 有 并 进
利 于 学 生 管 理 工 作 的 信 息 。 因 此 将 数 据 挖 掘 技 术 应 用 于 高
含 A 当 且 仅 当 AT。关 联 规 则 是 形 如 A > B 的蕴 涵 式 , 中 - 其 AI B , 且 AnB: 。规 则 A > B在 事 务 集 D 中 成 立 , , I并 _ 具
数据挖掘的Apriori算法在高校学生成绩分析中的应用
数据挖掘的Apriori算法在高校学生成绩分析中的应用作者:卞欢平来源:《电脑知识与技术》2014年第21期摘要:该文基于数据挖掘中的关联规则理论,以某高职院校教务学生成绩系统数据为依据,应用Apriori 算法,探寻某专业的专业课程之间的内在关联关系,为教学提供相应的指导。
关键词:数据挖掘;关联规则;Apriori 算法中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)21-4945-03随着高职院校的扩招,高职院校的教务管理系统中的学生成绩数据也日益庞大,而目前这些的数据只是停留在对数据做一些简单的备份、统计学生的课程及格率等应用,而这些应用也只是对数据的初步应用,不能从这些庞大的数据中发掘出一些对引导教学比较有用的信息,以供学校的教学管理者、任课教师有启示性的信息。
故此,该文将利用数据挖掘的关联规则中的Apriori 算法,以某高职院校某专业学生成绩系统数据为基础,挖掘出此专业的专业课程之间的存在的关联关系,找出它们之间的内在规律。
1 基本原理1.1 关联规则1.2 Apriori算法关联规则挖掘的核心问题是频繁项集的取得,Apriori算法用于发现数据集中的频繁项集。
该算法:1)先遍历计算每个项集的支持度,找出支持度大于或等于最小支持度阈值min_sup的项集,丢弃小于最小支持度阈值min_sup的项集,得出频繁项集L1。
2)利用频繁项集L1,进行自然连接产生新的候选集C2,并利用1)步的方法,找出满足最小支持度的频繁项集L2。
以此类推,重复上述过程,直到没有频繁项集产生为止。
2 Apriori算法在学生成绩中的应用2.1 数据选择研究的数据选自某高职院校计算机应用专业专业课成绩的数据。
随机抽取310名学生的专业课程的成绩数据进行数据挖掘。
2.2 数据清理数据清理的目的是去除数据中存在的噪声。
如:将成绩中某些考生缺考的记录直接删除。
对于有参加补考的学生成绩,取其平均值进行填充。
基于数据挖掘的学情分析研究
基于数据挖掘的学情分析研究学情分析是指通过对学生学习过程中产生的大量数据进行分析和挖掘,以获取对学生学习状况、学习行为、学习成果及学习难点等方面的深入了解和洞察。
基于数据挖掘的学情分析研究旨在利用数据挖掘技术,深入挖掘学生学习数据背后的信息,为教学改进、个性化教学、学习辅导等提供决策支持和科学依据。
以下是基于数据挖掘的学情分析研究的内容。
一、学习状况分析通过学习平台上学生的学习行为数据,可以对学生的学习状况进行分析。
例如,通过分析学生的学习时间、访问频率、学习任务完成情况等指标,可以了解学生的学习积极性和学习效果。
同时,还可以通过学习成绩、作业提交情况等数据,对学生的学习成果进行评估和分析,发现学生的学科优势和学科短板,为个性化学习提供科学依据。
二、学习行为分析学生的学习行为数据是学情分析的重要来源之一。
通过对学生在学习平台上的学习行为数据的挖掘和分析,可以了解学生的学习习惯、学习过程、学习策略等方面的信息。
例如,通过分析学生的学习路径和点击行为,可以发现学生在学习过程中的兴趣点和掌握程度。
通过分析学生的笔记记录和问题提问,可以发现学生的学习问题和困惑,为教师提供指导和辅导的线索。
三、学习难点分析学习难点对学生的学习有着重要的影响。
通过对学生学习数据的挖掘和分析,可以发现学生在学习过程中的难点和困惑。
例如,通过分析学生的错题数据和课后作业成绩,可以发现学生常犯的错误和易错的知识点。
通过分析学生的在线提问和问题反馈,可以发现学生在学习中遇到的问题和困惑。
这些分析结果可以为教师提供教学改进的方向和策略,帮助学生克服学习困难。
四、个性化学习分析基于数据挖掘的学情分析可以为个性化学习提供支持。
通过对学生学习数据的挖掘和分析,可以了解学生的学习特点、学习兴趣和学习能力,并根据不同学生的特点,为其提供个性化的学习服务。
例如,通过学习数据的挖掘和分析,可以为学生推荐适合其学习风格的教学内容和学习资源。
同时,还可以通过学习数据的挖掘和分析,为学生提供个性化的学习辅导和学习反馈,帮助学生充分发挥自身潜能。
数据挖掘技术在成绩分析中的应用
计 算机 科学 C o n s u me r E l e c t r o n i c s Ma g a z i n e 2 0 1 3 年 1 O月下
数据挖掘技术在成绩分析中的应用
吴 梨 梨
( 福州英华职业学院计算机 系,福 州 3 5 0 0 1 8 ) 摘 要 :在 学生成绩 管理 系统 中,学生成绩是一个重要的组成部分 , 体现 了教师 的教 学水平 以及 学生的学习情 况。 如何合理 利用这些成绩数据 ,从 中找 出能 够影 响成绩 高低 的因素,对提 高教 学质量有 着非常重要的作用 。利 用数据 挖 掘的关联规则算 法可以科 学的分析 出影 响成 绩变化 的主要 因素。 关键词 :成绩 分析 ;数据挖掘 ;关联 规则 中图分类号 :T P 3 1 1 . 1 3 文献标识码 :A 文章 编号 :1 6 7 4 — 7 7 1 2 ( 2 0 1 3 ) 2 0 — 0 1 1 2 — 0 1 随着高职 院校 的不断扩 招,生源质量 在下 降,生源 的数 量也在逐 步 出现 萎缩。在这种情 况下 ,如何有 效 的利用 现有 的教学 资源 ,改善教 学质量 ,使人才 的培养质 量得到进 一步 的提高,在 逆境中成长,是每一所高职院校面临 的重大挑战 。 目 前各个高职院校 的教务管理基 本上都是采用基于数据库 的教务管理系统软件。 教务软件在这么多年的应用中积累了大量 的数据, 学生的成绩信息在教务软件 的数据库中就大量的存在。 般情况下, 成绩数据仅仅只是作为一种备份数据存放于数据库 中, 大部分只是进行简单的查询修改操作等, 对于数据之间潜在 的联系, 影 响成绩 的因素等这些信息, 我们却无从得知, 并没有 做到充分的利用这些数据。 利用数据挖掘技术 , 我们可以从这些 成绩数据中挖 掘出可以指导我们教学的、 有意义 的信息, 主要表 现在:( 1 ) 可 以全面地认识学生 的学习状况。 对学生学习成绩的 全面分析, 不仅能够获得 学生学习的整体情况 , 还可 以了解学生 对具体课程 内容的掌握情况。( 2 ) 可以分析课程之间的相关性。 分析各个专业的核心课程, 可以了解学生对这些课程 的理解情况 , 以及学生在这 些课程 中的得分情况, 找出课程之间的联系, 还可 以对排课情况进行指导。( 3 ) 可 以分析入学成绩对在校学习情况 的影响。 跟踪学生在本专业的学习情况 , 结合入学的成绩 , 找出入 学成绩对专业相关课程 的影口 I 句 J 隋况 , 从而指导学生的专业学习。 数据挖掘的概念 与技术 ( 一 )什么 是数据挖 掘。数据挖掘 是一门涉及面很 广的 交叉学科 ,受到 了各种 不同领域 的专家学者 的关注,关于数据 挖掘的定义也有非常多种,但归纳起来数据挖掘主要就是从大 量的没有经过处理的数据 中发现未知的有价值的规律的过程 。 ( 二) 数 据挖掘的过程 。 数据挖 掘的过程一般 由五个 阶段 组成 : ( 1 ) 定义问题 , 明确数据挖掘的 目的是什么。 ( 2 ) 数据准备, 包括要选择什么样的数据以及对选择到的数据如何进行预处理 等。( 3 ) 数据挖掘 , 根据数据 的特点, 选择合适的数据挖掘算法, 在 已经处理过的数据上进行数据挖掘。( 4 ) 结果分析, 对数据挖 掘 的结果进行合理的解释, 给出能够被用户所接受的知识 。( 5 ) 知识运用, 将数 据挖掘出来 的结果应用到相应的领域中。 数据挖掘的过程并不是一个简单的按流程完成任务的过程 , 在数据挖掘的过程 中往往会出现循环往复, 精益求精的过程。 例 如, 在任务过程 中发现之前选择 的数据 不是很好或者对数据 的 预处理没有达到我们 的效果 , 那么这个 时候我们就需要重新对 数据进行选择或者重新对数据进行处理直 到达到我们 的效果。 ( 三 )常用 的数据挖掘方 法。数据挖掘 技术是一 门交叉 学科 ,充分结合 了人工智 能与机器学习的特 点,因此如聚类分 析,决策树 ,统计分析等在机器学习,模式识别,人工智能等 这些领域 中的一些常规技术经过改进,大部分都可以作为数据 挖掘 的方法进行使用 。模糊集方法 , 关联规则方法 ,遗传算法 , 神经 网络方法,覆盖正例排斥反例方法 ,决策树方法 ,统计分 析方法和粗集理 论方法等都是数据挖掘技术中常用 的方法 。 二、成绩分析 中的数据挖掘方法 成 绩分析 中主要是采 用关联规则算 法作为数据 挖掘 的方 法。关联是指两个或两个 以上 的事务 间存在着某种 的规 律性, 数据关联 是数据库 中普遍存 在的可被发现 且重要 的知识 。关
数据挖掘技术在学生成绩分析中的应用
数据挖掘技术在学生成绩分析中的应用作者:费建刚梁建国来源:《电脑知识与技术》2013年第24期摘要:数据挖掘技术应用广泛。
该文采用数据挖掘技术对我院学生成绩进行了分析,并探讨了其原因。
关键词:数据挖掘;成绩分析;数据处理中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)24-5391-03数据挖掘是按照既定目标,对大量数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效方法[1]。
数据挖掘的常用方法有决策树、神经元网络技术、遗传算法、关联规则等。
决策树的典型应用是分类规则挖掘,国际上出现最早、最有影响的决策树方法是由Quiulan研制的ID3方法,在系统中采用此方法有美国的IDIS、法国的SIPINA、英国的Clementinc和澳大利亚的C5.0[2]。
神经元网络技术模拟人脑的神经元结构,完成类似统计学中的判别、回归、类聚等功能,是一种非线性的模型。
俄罗斯的Poly Analyst、美国的Brain Maker、Neurosell和OWL等以神经元为主导技术。
遗传算法是一种基于自然群体遗传演化机制的高效探索算法[3]。
美国的Gene Hunter使用遗传算法[4]。
关联规则挖掘是描述数据之间存在关系的规则,形式为A1∧A2∧...An→B1∧B2∧...Bn。
一般分为两个步骤:①求出大数据项集;②用大数据项集产生关联规则。
数据挖掘技术近年来在国内外发展迅猛。
我国的数据挖掘技术在理论上也有长足发展,但具体应用稍显不足[5]。
为了研究计算机专业学生的学习情况,探讨计算机专业学生各门课程之间的学习关联,该文选取我院计算机专业部分学生成绩使用数据挖掘技术进行分析。
并将分析结果应用于指导教学实践。
该文使用是数据挖掘方法属于关联规则挖掘方法。
数据挖掘工作的具体步骤如下:1 数据选取和预处理数据选取我院计算机专业在校生的基础课、专业基础课和专业课真实成绩。
高校学生成绩数据挖掘与系统模型研究
一
数据挖掘所得 到的信 息应具有先前 未知性 、 有效性和实 用性 三个特征 。先前未 知性是 指挖 掘出 的信 息是预 先未 曾
预料到 的, 即数据挖掘是要发现那些不能靠直觉发现的信息
、
传统技术与数据挖掘技术
( 传统统计与数据分析 一)
统计学是搜集 、 、 展示 分析及解释数据 的科 学 , 统计应 用 的一个基本特征是探索性分析 , 索式 分析的重要数据工 具 探
21 00年 1月 第2 9卷第 1 期
黑龙江教育学 院学报
Junl f i nj n o eeo E ua o ora o Heog agC l g f d ct n l i l i
Jn 2 0 a . 01
V0. 9 N . 12 o 1
高校学生成绩数据挖掘与系统模 型研究
一
的标 志 TD来标识 。关联规则 是形如 x I —Y的蕴涵式 , 其
传统分析方法包括查询、 报表 、 联机应 用分析等 , 它与数 据挖掘的本质区别是在 探索数据关 系 时所使 用 的方法 。传 统数据分析工具使用基于验证 的方 法 , 即用户首先对特 定的 数据关系作出假 设 , 然后使用分析工具去确认或否认这 些假 设 。这种方法 的有效性受到许多 因素 的限制 , 如提 出的问题
郝 燕
( 北京物资学院 , 北京 114 ) 0 19
摘
要 : 统统计在数 据分析方面持 续发挥 着主导的作 用 , 着计 算机 存储技 术的发展 , 传 随 现代数据挖掘技 术成
为研 究转 向的焦点。结合传统数据分析 , 引入数据挖掘针对不 同问题设计 的优化 算法对教学 实际 问题进行研 究, 提
收稿 1期 :0 9~1 2 5 2 0 0~ 5 1
基于大数据挖掘的高校学生行为数据分析系统的研究与开发
基于大数据挖掘的高校学生行为数据分析系统的研究与开发一、本文概述随着信息技术的迅猛发展和大数据时代的到来,高校作为人才培养的摇篮,其学生行为数据的挖掘和分析显得尤为重要。
这些数据不仅反映了学生的日常生活习惯、学习状态、社交活动等,还能为高校管理者提供有力的决策支持,促进教育教学的改革和创新。
研究和开发一套基于大数据挖掘的高校学生行为数据分析系统,对于提升高校管理水平和提高教育质量具有重要意义。
本文旨在探讨基于大数据挖掘的高校学生行为数据分析系统的研究与开发。
文章将概述大数据和数据挖掘的基本概念,以及其在高校学生行为分析中的应用价值。
将详细介绍该系统的架构设计、功能实现和关键技术,包括数据采集、预处理、存储、分析和可视化等环节。
在此基础上,文章还将分析系统在实际应用中的效果,并探讨其可能存在的问题和改进方向。
文章将总结研究成果,展望未来的发展方向,以期为我国高校教育信息化和智能化提供有益的参考和借鉴。
二、文献综述在信息化社会的浪潮下,大数据已经渗透到各个领域,为各行各业带来了前所未有的变革。
高校作为人才培养和知识创新的重要基地,其内部产生的学生行为数据具有极高的研究价值。
近年来,随着技术的发展,越来越多的学者和实践者开始关注如何利用数据挖掘技术来分析高校学生行为数据,从而优化教育资源配置、提高教育质量、促进学生个性化发展。
现有文献中,关于高校学生行为数据分析的研究主要集中在以下几个方面:一是学生学习行为分析,包括学习成绩、学习时长、学习资源使用等方面的数据挖掘,旨在发现学习规律,为学习预警和个性化学习推荐提供依据二是学生生活行为分析,涉及餐饮消费、社交互动、运动健康等方面的数据,旨在分析学生的生活习惯和兴趣偏好三是学生行为预测,通过构建预测模型,预测学生的未来发展趋势,如学业成就、职业选择等。
在技术开发方面,文献中提到了多种数据挖掘技术和方法,如聚类分析、关联规则挖掘、时间序列分析、神经网络等。
这些技术和方法在高校学生行为数据分析中得到了广泛应用,并取得了显著的成果。
基于数据挖掘的高校学生成绩预警状况分析
定义 1 设x I 且 x≠ , 项 目集 x在 事 务数 据 库 D上 的 支持 度 指 在 事 务 数 据 库 中包 含 项 目集 x 的
百分 比, 即S u p p o r t ( X ) =l 】 { t 仨 D l x t }l l /I I D l l 。 定义 2 设有关联规则 x Y, 所谓关联规则 的置信度 指在只包含 x的事务数 中包含 x和 Y的百分
数S 。
定 义 4 对给 定样 本 所 需 的期 望 信 息 : , ( s 。 , s , …, s )=
l 0 g “
其 中P 是类 c 的 概率 , 设 每 个 样本 具 有 相 同概 率 , 则P 可 以表 示 为 s 。 定义 5 设有 t 个 不 同值 的属性 , 根 据 属性 可 将 s分 为 t 个子 集 { S , s , …, S } , 设S i 是 某个 子 集 ,
再从各个子集中再次找出最高信息增益的属性 , 再进行划分 , 以此类推 , 直到所有子集 只含 同一类型数据。
数据挖掘技术在高校学生成绩分析中的应用
数 据挖 掘技 术 是一种 以海量 数据 为基础 的有效 知识 挖
特 点 的教学 信息 是现代 科学化 教 学的 主要考虑 问题 。
助 高校 对现 有 的教 学 内容和 教学 计划 等进行 调 整或 重新 规 划 ,以便于 让 学生 更好 的利 用教 学资源 ,获得 更高 的教 学 质 量 。需要 说 明 的是 ,进行 数据 挖掘 时所 使用 的数 据信 息
中 图分 类 号:T P 3 1 1 . 1 3
集 算法 在 进 行数 据 挖掘 时 具有 以下几 点特 性 : ( 1 )该 算 法对 包含 噪 声的 、分类 不 明确 、具 有模 糊性 的数 据 分类 具 有很 好 的应 用效 果 。 ( 2 )相对 而 言 算法 更 加注 重 挖 掘 隐 藏在 数据 样 本 中的事 实 ,故按 照其 进行 的规 则更 信息化
数据挖掘技术在 高校学生成绩分析 中的应用
张勤, 刘 宇 /南京 邮 电大学
,
校 教育 中,学 生成 绩 能够 反 映学 生对 所 学 知
三 识的理解与掌握程度,是教师用于评估教学
I H ’ J效 果 的 主 要 依 据 之 一 。随 着 高 等 教 育 的普 及 ,现 代 高校 的教 学规 模逐 年扩 大 ,学 生数 量不 断增 加 , 影 响 学生学 习效果 的 因素从 以个 人 因素 为主 逐渐 拓 展到 多 种 因 素的综 合 作用 ,高 校 教务 管理 系统 中也积 累 了大量 的 学 生 数据 资源 。信 息 时代 中 ,数据 收集 、存 储 与处 理 已经 成 为推 动 社会 进步 的主 要 动力 之一 ,特 别 是在 目前 对教 学 方式 和学 习 内容依 赖性 较 强 高校教 育 中 ,如何 应用 先进 数 据分析算法从海量数据 中提取有价值的信息协助制定和完 善教 学决 策 ,帮助 学 生获 得更 具针 对性 ,更符 合个 人学 习
数据挖掘技术在高等教育中的应用
数据挖掘技术在高等教育中的应用作者:郭佳来源:《数字化用户》2013年第25期【摘要】数据挖掘技术是近几年发展比较迅速的数据处理技术,其能够在海量的数据中挖掘出满足用户需求的数据类型。
本文主要从数据挖掘在高校管理、高校选课系统、高校课堂教学评价系统、高校学生信息管理系统以及高校图书馆信息系统五个方面的应用来简要说明数据挖掘技术的优势。
【关键词】数据挖掘高校管理高校选课高校课堂教学评价系统学生信息管理图书馆信息管理一、高校管理中的应用数据挖掘技术在高校管理的内容主要包括:高校招生录取工作、贫困生选定以及优秀生评定等。
高校每年的招生工作是学校可持续发展的重要环节,直接影响到高校教学质量以及发展情况。
比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。
具体步骤是通过进行数据的收集和预处理,建立相关数据模型,采用分类算法,提取和挖掘对用户有用的信息,然后进行数据挖掘的数据存储形式。
目前高校数据挖掘技术应用的范围比较广泛,由于高校管理内容比较复杂,因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理,比如学生成绩管理,课堂教学评价系统等。
二、高校选课系统数据挖掘技术在高校选课系统中的应用主要是利用其关联规则。
通过对学生真实成绩进行整理,分析得出教学调研以及学生成绩分布的特点,总结出影响学生学习的因素,比如选课的顺序以及教师的水平等,现阶段高校选课系统中只考虑学生的选课顺序。
关联规则技术就是从海量的数据中挖掘出对用户需求有价值的并且能够描述数据之间相互联系的内容,换句话说就是数据挖掘技术就是找出具有价值关联的数据群。
三、高校课堂教学评价中的应用数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联规则,首先先对数据进行预处理工作,数据的预处理是数据挖掘技术的关键步骤,并且直接影响着数据挖掘技术的应用效率。
数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Technology &Economy in Areas of Communications交通科技与经济2008年第3期(总第47期)数据挖掘技术在高校学生成绩分析中的应用刘宇阳(黑龙江工程学院计算机科学与技术系,黑龙江哈尔滨150050)摘 要:数据挖掘是数据仓库技术中的重要技术之一,也是计算机行业中发展最快的领域之一,它使数据库技术进入了一个更高级的阶段,并迅速扩大成为一个独立的领域。
在讨论目前高校教学中存在问题的基础上,简单介绍粗糙集理论及数据挖掘技术。
以高校学生成绩为例,提出基于粗糙集理论的数据挖掘技术在高校学生成绩分析中应用的解决方案。
关键词:数据挖掘;粗糙集理论;数据仓库;学生成绩分析中图分类号:O128 文献标识码:A 文章编号:100825696(2008)0320065203Application of Data Mining T echnology of U niversity Students ’G radesL IU Yu 2yang(Department of Computer Science and Technology ,Heilongjiang Institute of Technology ,Harbin 150050,China )Abstract :Data mining is one of t he important technology in t he data storage technology and one of t he fas 2test developing domain in t he comp uter industry ,it makes t he database technology come into a more ad 2vanced stage ,and rapidly extended an independent domain.On t he base of discussing t he current problems and a brief int roduction of rough set t heory and data mining technology ,t he procedures which adopt data mining technology are p ut forward ,taking university st udent ’s grades as an example.K ey w ords :data mining ;rough set t heory ;data storage ;analysis of st udent s ’grades收稿日期:2008201217作者简介:刘宇阳(1975~),男,讲师,研究方向:计算机数据库. 在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。
传统分析无非是得到均值、方差、信度、效度和区别显著性检验等,往往还是基于教学本身。
其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,供教学管理人员做出相应的决策。
这些信息是无法从传统的学生成绩分析方法中获得,但可以通过从20世纪90年代中期兴起的数据挖掘技术中获得,从而找到影响学生学习成绩的真实原因,制定相应措施,提高教学效果。
1 基于粗糙集理论的数据挖掘技术数据挖掘就是从大量的、不完全的、有噪声的、模糊的数据中,提取隐含在其中的、以前未知的、并具有潜在可用模式的过程。
如何对复杂的、不完整数据进行分析、推理,发现数据间的关系,如何提取有用的模式,简化信息处理,如何确定不精确、不完备知识的表达,这是数据挖掘要解决的最重要任务。
粗糙集(Rough Set )理论是波兰科学家Pawlak 在1982年提出的,借鉴了逻辑学和哲学中不精确、模糊的各种定义,针对知识库提出不精确范畴等概念,并在此基础上形成了完整的理论体系———粗糙集理论。
粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的不可分辨(等价)关系,而不可分辨关系又构成了对该空间的划分。
粗糙集理论作为一种新的分析和处理不精确、不一致、不完整信息和知识的数学工具,正好可以满足数据挖掘中数据特征的需求。
因此,粗糙集理论正越来越广泛的应用于数据挖掘领域。
数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘技术应用于教学非常有益,它可以全面地分析学生成绩与各种因素之间隐藏的内在联系。
比如,经过对学生成绩相关数据库系统的分析,数据挖掘工具可以问答诸如“哪些因素对学生的学习成绩可能有影响”等类似的问题,这是传统方法无法达到的。
通过数据挖掘分析,其结果可能给教学带来一定的收获。
2 解决方案在这里,提出采用数据挖掘中的分类算法,将大量的数据转化为分类规则,从而更好地分析这些数据,步骤如图1所示。
第一步:确定挖掘对象及目标。
清晰地定义出问题,认清数据挖掘的目的是数据挖掘的重要一步。
虽然挖掘的最后结果不可预测,但要探索的问题应是有预见的。
第二步:数据采集。
这是一个工作量较大、占据时间较多的阶段。
教师需要在以往的教学实践中,以各种途径收集数据信息。
第三步:数据预处理。
将教师收集到的不同的数据信息集成并转换为一个分析数据模型,这一数据模型是针对算法交通科技与经济 第10卷图1 分类挖掘实施流程而准备的,不同的算法可能需要不同的分析数据模型。
第四步:数据分类挖掘。
分类挖掘的目的是为了建立一个分类模型。
首先要选择合适的挖掘算法,并使用合适的程序设计软件实现这一算法,接着对所得到的经过转换的数据进行挖掘。
第五步:分类规则结果分析。
这一步主要解释和评估分类结果。
第六步:知识的使用。
将分析所得到的知识集成到教师的教学环节中去,教师可利用所得知识改进教学策略,进一步指导教学。
3 方案实施实例3.1 确定挖掘对象及目标 以计算机系的学生为研究对象,希望能够根据学生的平时基本学习情况(如学习兴趣、学习前的知识掌握情况、课堂学习效果、课后上机时间量等)探讨出哪些因素对学习成绩有影响,并用所获得的分析结果指导今后的教学工作。
3.2 数据采集1)学生基本信息。
数据结构如下:学号、姓名、性别、籍贯、所属院系、专业、班级,这些信息可以通过学校的学生关系系统获得。
2)学生调查信息。
内容包括学号、学习兴趣、学习前的知识掌握情况、课堂学习效果、课后上机时间量等。
这些信息主要采用调查问卷,由学生填写。
为了解决大量的数据统计问题,同时考虑人工统计的数据有较高出错率,可制作一个网上教学在线调查系统。
3)成绩。
成绩数据库中包括了学生的平时成绩、考试成绩和总评成绩,这个数据库由教师在教学过程中产生。
3.3 数据预处理1)数据集成。
就是将来自多个数据源的数据合并到一起。
本研究中,将数据采集得到的多个数据库文件,利用数据库技术生成学生成绩分析基本数据库,如图2所示。
2)数据清理。
数据清理的主要工作就是填补遗漏的数据值。
在学生成绩分析基本数据库中我们看到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补。
有很多种方法可以为属性填写空缺值:①忽略元组。
当类标号缺少或元组有多个属性缺少值时通常采图2 学生成绩分析基本数据库的建立用这种方法;②人工填写空缺值。
一般地说,该方法很费时,并且当数据集很大、缺少很多值时,该方法可能行不通;③使用一个全局常量填充空缺值。
将空缺的属性值用同一个常数(如“Unkown ”)替换。
但是,如果空缺值都用“Unkown ”替换,挖掘程序可能会误以为它们形成了一个有趣的概念,因它们都具有相同的值———“Unkown ”。
因此,尽管该方法简单,这里并不推荐;④使用属性的平均值填充空缺值;⑤使用与给定元组属同一类的所有样本的平均值;⑥使用最可能的值填充空缺值。
可以用回归方法、贝叶斯方法或决策树归纳确定。
在本例中,采用忽略元组的方法删除没有参加考试或学生填写的在线调查数据中有大量空缺项的记录。
对于其他个别空缺,因为总的记录数不算太多,空缺值较少,可采用人工填充的方法,填充原则是以该记录的其他属性值作为筛选条件,在数据库中进行筛选,选择多数属性值填充该空缺。
3)数据转换。
数据转换主要是对数据进行规格化操作。
大多数属性属于离散值属性,只有个别连续值属性(如平时成绩、考试成绩和总评成绩属性)需进行离散化处理。
使用概念分层技术,可以将连续值属性转换为离散值属性(即离散化)。
直方图分析是一种较简单的离散化方法,分为等宽分箱和等深分箱两类。
等宽分箱将属性值划分成相等的部分或区间。
在等深分箱中,值被划分使得每个部分包括尽可能相同个数的样本。
平时成绩属性数据分布的直方图,如图3所示。
在这里,使用等深分箱进行离散化,将上述成绩属性的所有值分为3类:成绩从0~65分属于“较差”,65~85分属于“中”,85分以上属于“较好”。
平时成绩的等深分箱直方图,如图4所示。
・66・ 第3期刘宇阳:数据挖掘技术在高校学生成绩分析中的应用另外,对于一些属性值较多的属性,使用概念分层,用高层次概念替换低层次概念,可减少属性值的数目。
4)数据消减。
数据消减的目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。
在这里,采用消减维数的方法,即从初始特征属性中找出真正有用的特征属性以减少数据挖掘时要考虑的特征属性或变量个数。
由于学生信息表中的属性字段很多,本文为了便于分类挖掘,删除了籍贯、班别这2个与成绩属性相关性不大的属性,从而生成新的学生成绩分析基本数据表S。
3.4 数据分类挖掘首先我们对学生成绩分析基本数据表S采用如下算法进行属性约简,然后对得到的学生成绩分析约简数据表S’进行值约简,得到分类规则。
3.4.1 属性约简令M为学生成绩分析基本数据表S的差别矩阵,M中的元素表示为M ij,M ij称为项。
设M中的项M ij共有K类,将每一类M ij置于区分数组DA中,da(t)为DA中的元素,对应每一类M ij,p(t)表示每一类M ij的个数,t=1,2,…, K。
C={C1,C2,…,C n}是S中所有属性的集合,其中任一属性C r∈C。
令f(C r)是DA中任一属性C r的属性频率函数,则有f(C r)=f(C r)+|C|/|da(t)|×p(t),其中绝对值表示集合中元素的个数。
算法描述如下:step1:cone=U{|da(t)|=1},R=core;step2:Q={da(t)|da(t)∩R=φ,t=1,2,…,k},B=C -R;step3:若Q=φ,转step6,否则,转step4;step4:对所有C r∈B,计算f(C r),并且令f(C v)=maxr {f(C r)}。