利用K-means聚类分析技术分析学生成绩
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用K-means聚类分析技术分析学生成绩
摘要:数据挖掘是在海量的数据中寻找模式或规则的过程。
数据聚类则是数据挖掘中的一项重要技术,就是将数据对象划分到不同的类或者簇中,使得属于同簇的数据对象相似性尽量大,而不同簇的数据对象相异性尽量大。
目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。
本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在选择专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等。
运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。
关键字:数据挖掘聚类分析学生成绩分析
Abstract:Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.
Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors.
Keywords :Data Mining , Clustering Technology , Students' Achievement
1.概述
1.1背景
随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。
那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课题。
高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。
从目前来看。
各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。
这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和学生都只能通过查看,或者简单的排序以及
统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数据中的信息一直没有得到充分应用。
如何对这些数据进行重新分析利用,在原基础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。
1.2发展现状
目前将数据挖掘技术与学校学生成绩分析管理系统相结合,通过分析和处理系统中大量的学生成绩数据,从中挖掘潜在的规律及模式,促使学校更好地开展教学工作,提高教学质量,帮助教学管理者制定教学计划,使学生成绩管理系统的功能能够更加完善。
目前,在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。
传统分析无非是得到均值、方差等一些简单的分析结果,往往还是基于教学本身。
其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,为教学管理人员及学生做出相应的决策。
1.3 研究意义
利用数据挖掘聚类技术挖掘发现课程与课程之间,或者每门课程中的知识点之间,以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。
使得现阶段已有的数据发挥其真正的价值,为了解决这一问题,可以利用数据挖掘技术对这些数据进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。
2.数据挖掘理论概述
2.1数据挖掘概述
数据挖掘是集统计学、人工智能、模式识别、并行计算、机器学习、数据库系统、数据仓库、数据可视化和信息检索等技术的一个交叉性学科。
数据挖掘是数据仓库之上的一种应用。
但是数据挖掘不限于分析数据仓库中的数据,它执行关联、分类、预测、聚类、时间序列分析等任务,而且数据挖掘应用范围也相对较广。
2.2数据挖掘的过程
数据挖掘是一个复杂的多阶段过程,如图2.2所示,主要可以分为如下几个主要阶段:
(1)确定挖掘对象;
(2)数据准备;
①数据选择;
②数据预处理;
③数据的转换。
(3)数据挖掘;
(4)结果分析;
(5)知识表达和解释。
图2.2 数据挖掘过程图示
2.3 聚类分析及K-means算法
聚类分析是数据挖掘中的一个重要研究领域。
聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。
聚类分析的算法可以分为以下几类:划分方法、层次方法、基于密度方法等,其中划分方法的典型算法当推K均值算法,即K-means算法。
K均值聚类,即数据挖掘中的C均值聚类,属于聚类分析方法中一种基本的且应用最广泛的划分算法。
K-均值算法以k为参数,把N个对象分为k个簇,以使簇内具有
较高的相似度。
相似度的计算根据一个簇中对象的平均值来进行。
算法首先随机地选择K 个对象,每个对象初始地代表了一个簇的平均值或中心。
对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。
然后重新计算每个簇的平均值。
这个过程不断重复,直到准则函数收敛。
K-Means 算法的准则函数定义为:
2
1i
k
i x C E i
x x =∈=-∑∑
,
其中E 是数据库所有对象的平方误差的总和,x 是空间中的点,表示给定的数据对象,x i 是簇 C i 的平均值。
2.4 聚类分析工具软件(WEKA )
WEKA 是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis ),是一款免费的,非商业化(与之对应的是SPSS 公司商业数据挖掘产品--Clementine )的,基于JA V A 环境下开源的机器学习(Machine Learning )以及数据挖掘(DataMining )软件。
该软件的缩写WEKA 也是New Zealand 独有的一种鸟名,而WEKA 的主要开发者同时恰好来自New Zealand 的the University of Waikato 。
WEKA 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界面上的可视化。
而开发者则可使用Java 语言,利用WEKA 的架构上开发出更多的数据挖掘算法。
读者如果想自己实现数据挖掘算法的话,可以看一看WEKA 的接口文档。
在WEKA 中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
聚类,分类和关联分窗口提供对数据应用对应各类数据挖掘算法的界面,尤其对于成绩管理系统中大都是数值的数据。
因此,选用WEKA 工具来对高校学生成绩分析能够得到很有效的结果。
3.数据挖掘实验过程
3.1 数据准备及预处理
本文在数据挖掘过程当中所使用的工具是WEKA ,而WEKA 所支持的数据格式有两种:ARFF 文件和CSV 文件。
故将原始数据EXCEL 文件转换为ARFF 或CSV 文件。
转换方法为:在EXCEL 中打开“MARK.xls ”,选择菜单—>另存为,在弹出的对话框中,文件名输入“Mark ”,保存类型选择“CSV ( 逗号分隔)”,保存,便可得到“Mark.csv ”文件。
其结果如图3.1所示:
图3.1数据文件截图
打开WEKA 软件的Exporler 菜单,点击Open file 按钮,打开刚得到的“Mark.csv ”文件,点击“Save ”按钮,在弹出的对话框中,文件名输入“Mark ”,文件类型选择“Arff date files (*.arff)”,这样就得到的数据文件为“Mark.arff ”。
3.2 算法应用
打开WEKA 软件中的Exporler ,点击刚才得到的“Mark.arff ”,出现下面的窗口,如图3.2.1所示:
图3.2.1数据分析截图
切换到“Cluster ”,点“Choose ”按钮选择“SimpleKmeans ”,这是WEKA 中实现K 均值的算法。
点击旁边的文本框,将“numClusters ”设置为3,把实例分成三个簇,即K =3。
其他结果按默认值,如图3.2.2所示。
图3.2.2 设置界面截图
3.3 结果及分析
右击左下方“Result list ”列出的结果,点“Visualize cluster assignments”。
显示弹出的窗口给出了各实例的散点图。
散点图如图3.3所示:
图3.3 结果散点图
3.4结论
在Cluster0簇里的实例,占总实例的32%,其中男生相对较多,这类学生在分专业时选择了硬件方向。
故在以后计算机专业的学生在分方向时,对计算机硬件结构及系统有一定了解,具有较强动手能力和创新意识的同学可以选择硬件方向。
在Cluster1簇里的实例,占总实例的41%,其中男生同样相对较多;根据该簇里面各实例的成绩可以看出,在我们所分析的数据实例中,这类的学生在分专业时选择了网络方向。
因此,在以后计算机专业的学生在分方向时,对计算机常用的命令有很强的识别能力的同学可以选择网络方向。
在Cluster2簇里的实例,占总实例的27%,但其中女生相对较多;女生也符合思维周密的要求,有耐心,并且有创新的意识。
根据本文所分析的数据来看,这类的学生在分专业时选择了软件方向。