利用Kmeans聚类分析技术分析学生成绩

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

利用K-means聚类分析技术分析学生成绩

摘要：数据挖掘是在海量的数据中寻找模式或规则的过程。数据聚类则是数据挖掘中的一项重要技术，就是将数据对象划分到不同的类或者簇中，使得属于同簇的数据对象相似性尽量大，而不同簇的数据对象相异性尽量大。

目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用，而在教育领域的应用较少，随着高校招生规模的扩大，在校学生成绩分布越来越复杂，除了传统成绩分析得到的一些结论外，还有一些不易发现的信息隐含其中，因而把数据挖掘技术引入到学生成绩分析中，有利于针对性地提高教学质量。本论文就是运用数据挖掘中的聚类分析学生成绩的，利用学生在选择专业前的各主要学科的成绩构成，对数据进行选择，预处理，挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择，从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。

关键字：数据挖掘聚类分析学生成绩分析

Abstract：Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.

Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give

some reference opinions after students of different grades choose their majors.

Keywords :Data Mining , Clustering Technology , Students' Achievement

1.概述

1.1背景

随着我国经济的发展，网络已被应用到各个行业，人们对网络带来的高效率越来越重视，然而大量数据信息给人们带来方便的同时，也随之带来了许多新问题，大量数据资源的背后隐藏着许多重要的信息，人们希望能对其进行更深入的分析，以便更好地利用这些数据，从中找出潜在的规律。那么，如何从大量的数据中提取并发现有用信息以提供决策的依据，已成为一个新的研究课题。高校是教学和科研的重要基地，也是培养人才的重要场所，教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分，也是衡量高校管理水平的依据。从目前来看。各高校随着

招生规模的扩大，信息量大幅度增加，学校运行着各类管理系统，存在着各类数据库，如有成绩管理，学籍管理等。这些系统积累了大量的数据，在很大程度上提高了工作的效率，但在这样的教学管理系统中，学校的管理人员、教师和学生都只能通过查看，或者简单的排序以及统计功能来获得数据表面的信息，由于缺乏信息意识和相应的技术，隐藏在这些大量数据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用，在原基础上扩充高校教学管理系统的功能，从大量数据中发现潜在规律，提高学校管理的决策性，是很多高

校正在考虑的问题。

1.2发展现状

目前将数据挖掘技术与学校学生成绩分析管理系统相结合，通过分析和处理系统中大量的学生成绩数据，从中挖掘潜在的规律及模式，促使学校更好地开展教学工作，提高教学质量，帮助教学管理者制定教学计划，使学生成绩管理系统的功能能够更加完善。目前，在高校学生成绩管理中，影响学生学习成绩的因素很多，因此要进行综合分析。传统分析无非是得到均值、方差等一些简单的分析结果，往往还是基于教学本身。其实，还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩，这些都需要进一步分析，从而得出结论，为教学管理人员及学生做出相应的决策。

1.3 研究意义

利用数据挖掘聚类技术挖掘发

现课程与课程之间，或者每门课程中的知识点之间，以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。使得现阶段已有的数据发挥其真正的价值，为了解决这一问题，可以利用数据挖掘技术对这些数据进行合理的利用和深层的分析，从而更好的指导教师在教学中

的工作。

2.数据挖掘理论概述

2.1数据挖掘概述

数据挖掘是集统计学、人工智能、模式识别、并行计算、机器学习、数据库系统、数据仓库、数据可视化和信息检索等技术的一个交叉性学科。数据挖掘是数据仓库之上的一种应用。但是数据挖掘不限于分析数据仓库中的数据，它执行关联、分类、预测、聚类、时间序列分析等任务，而且数据挖掘应用范围也相对较广。

2.2数据挖掘的过程

数据挖掘是一个复杂的多阶段过程，如图2.2所示，主要可以分为如下几个主要阶段：

(1)确定挖掘对象；

(2)数据准备；

①数据选择；

②数据预处理；

③数据的转换。

(3)数据挖掘；

(4)结果分析；

(5)知识表达和解释。

图2.2 数据挖掘过程图示

2.3 聚类分析及K-means算法

聚类分析是数据挖掘中的一个重要研究领域。聚类分析就是将一组数据分组，使其具有最大的组内相似性和最小的组间相似性。聚类分析的算法可以分为以下几类：划分方法、层次方法、基于密度方法等，其中划分方法的典型算法当推K均值算法，即K-means算法。

K均值聚类，即数据挖掘中的C 均值聚类，属于聚类分析方法中一种基本的且应用最广泛的划分算法。K-均值算法以k为参数，把N 个对象分为k个簇，以使簇内具有较高的相似度。相似度的计算根据