学生成绩的主成分分析和聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学生成绩的主成分分析和聚类分析
摘要
运用主成分分析方法和聚类分析方法,对高校学生的综合成绩进行评价。避免传
统方法在综合评价中对指标的主观选择及对权重的主观判断,使权重的分配更合理,
尽可能地减少重叠信息的不良影响,克服变量之间的多重相关性,简化系统分析。
关键词:主成分分析;综合评价;聚类分析
Principal Component and Cluster Analysis
in Students’Grades
Abstract
Using principal component analysis and cluster analysis method to evaluate College students’comprehensive performance.Avoid the traditional method of Comprehensive Evaluation that will give rise to choice subjective indicators and subjectively judge right weight. So there is a more reasonable distribution of right weight.Possible to reduce duplication of information that causes the adverse effects.Overcome the multiple variables related to simplify analysis.
K ey words:principal component analysis,comprehensive evaluation,cluster analysis
1引言
学生的学习成绩是学校、工作单位选拔人才的重要依据,更是学生衡量自己知识掌握程度的重要标准。因此,对成绩进行科学评价的问题显得尤为重要。假如每人只有一科分数,排出名次即可。但实际上,每个学生都有几科甚至几十科分数。这就需要对这些数据进行加工整理分析并提取出有关这N个学生的有用信息,即多指标统计分析问题。显然,指标越多越复杂,因此,自然希望通过对原有指标数据的科学的加工、整理,将问题的指标数尽可能地减少、压缩。所以,我们希望能用较少的几个新的综合指标,来代替原由的
较多的指标,使问题大大简化,但同时要求新指标:1、尽可能保留原有指标含有的信息量;2、各指标之间不相关,即各自含有的信息不重叠。这样一种将原来较多的指标简化为少数几个新的综合指标的多元统计方法叫主成分分析。新的综合指标称为原指标的主成分。并且按其含有的信息量的大小依次称为第一主成分,第二主成分……
在提取出样本的主成分之后,我们自然希望能对学生进行更加深入的评级。目前最常用的加工方法是计算各人的加权平均分,按平均分的高低来评价学生。但是这样虽然可以将问题简化,但往往也失去许多信息。目前,综合评价大学生的方法比较单一,多数大学或院系都是用学生的总成绩或平均成绩作为评价的定量依据。应该说这种评价方法比较简单,并能提供一定的综合信息,但它存在着两大缺点:一是这种评价方法掩盖了学生的个性,即不能反映学生不同方面的特点。比如,我们无法从这种评价结论中得知一个学生基础知识怎样,动手能力强弱,外语水平高低等等;二是这种评价方法不能对学生进行分类,即不能提供学生群体的分类标准。上述两方面特征即学生个性特征和群体分类特征是学生管理工作中非常有用的重要信息,因此,研究反映这两个特征的方法是非常必要的。
本论文的主要目的为:利用多元统计中的主成分法和聚类分析,提取学生成绩的主成分并将学生进行分类,让我们用几个主成分就能解释学生于科目之间的关系,让我们知道哪些学生善于理性思维,哪些学生的动手能力强,这样也可以从中得到两类学生的比例,作为系里评价学生的一个基础,也可以让学生很清楚自己在那个方面的优势,对其以后的发展作一个前期的指导。
2、方法简述
2.1、主成分方法简介[1]
设有n 组样本,每组样品有p 个变量。用主成分分析法,利用全部p 个变量来重新构造
q 个新的综合变量,并使得这些较少的变量既能更多得反映原来p 个变量的统计特性,又使它们之间相互独立。假定是一组随机变量,并且.考虑
()'
12,,...,p x x x =x ,()EX Var x V µ==的一个线形组合这里对于综合12,,...,p x x x 1122...'p p Z a x a x a x a x =+++=12'(,, ...,).p a a a a =变量Z,要选择这一组系数使得Z 的方差最大值(为加以限制,令=1)。12'(,, ...,).p a a a a ='a a 用拉格朗日极值理论,可以证明,的最大值等价于求的值,就等于矩阵( )Var x 'x
'a va
ma a a
V 的最大特征根,a 就是对应的特征向量。若记矩阵的p 个特征值L 1λ1λ+Σ,且m 个非零特征值所对应的特征向量分别为121......0m m p λλλλλ+≥≥≥≥===。那么把矩阵V 的非0特征根所对应的特征向量分别作为
12,, ...,m a a a 12...0m λλλ≥≥≥≥的系数向量,分别称为随机变量x的第1主成分、第2主成分、…第
12,, ...,m a a a '''
12,...m a x a x a x n 主成分。当i≠j 时所以主成分之间是不相关的。而且可()cov ,0i j i j j i j a x a x a va a a λ===以看到,主成分分析主要就是求实对称矩阵(相关矩阵或协方差矩阵)的特征值和特征向量。称为第k 个主成分的贡献率,它反映了第k 个主成分提取全部信息的多
1/p
k k j p j λλ==∑少。又称为前k 个主成分的积累贡献率,它反映了前k 个主成分共同提取全部信
1
1
/p k
j j j j λλ==∑∑息的多少。
2.2、聚类分析及其基础知识简介[2]
2.2.1、聚类分析的思想
我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
2.2.2、聚类分析作用
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。
R型聚类分析的主要作用是:
1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q 型聚类分析。