用主成分分析模型构造综合评价指数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用主成分分析模型构造中学考试综合评价指数
[摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。
通过简单加权的合成方法,难以得到科学的结果。
主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。
[关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法
一、问题的提出
在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。
考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。
这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。
在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。
因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。
某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。
如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。
主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。
较好地解决了这一课题。
二、主成分分析的数学模型
设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵:
用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为:
上述方程组要求:
且系数αij 由下列原则决定:
①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关;
②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。
⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211⎥⎥⎥
⎥⎦
⎤
⎢⎢⎢⎢⎣⎡=ni i i i x x x X 2
1
⎪⎪
⎩⎪⎪⎨
⎧+++=+++=+++=p
pp p p p p p p p
p X a X a X a F X a X a X a F X a X a X a F 22122221122122111111
2
2221=+++pi i i a a a
这样决定的综合变量F 1,F 2,…,F p 分别称为原变量的第一,第二,…,第p 主成分,其中F 1的方差在总方差中占的比例最大,其余主成分F 2,F 3,…,F p 的方差依次递减。
在实际工作中挑选前几个甚至一个最大主成分F 1,就能够基本包括全部指标所具有的信息,达到了将众多指标简化浓缩为少数几个甚至一个综合评价指标的目的。
三、主成分分析的计算步骤及实例
求解满足上述要求的方程组系数αij 的运算,在数学上可以变为求方程组中的系数向量,即矩阵的特征值及其相应的单位特征向量的问题。
建立模型时,首先将原始数据写成矩阵,如(式1—1)。
注意:原始数据矩阵X 的p 个指标需要有一定的联系,而且为正相关(如果为负相关,需要进行相应的转化)。
1、将原始数据标准化。
2、建立变量的相关系数矩阵:R =(r ij )p ╳p 不妨设R=X ’X
3、求R 的特征值λ1≥λ2≥…≥λp > 0 及其相应的单位特征向量:
4、写出主成分:
F i = a 1i X 1 + a 2i X 2 + … + a Pi X P i = 1, …,p
5、计算第j 个主成分(特征值)的方差贡献率及前几个主成分的累计方差贡献率。
选取累计贡献率大
于某值(如定为90%、95%、99%等)的前几个主成分。
6、对选取的主成分进行解释或分析。
主成分分析计算过程举例:
对青岛市中考的5项指标作主成分分析,原始数据如附表1: 由于“低分率”指标与其他指标之间呈显著的“负相关”,直接代入必然产生严重的干扰,故实际写入矩阵时该指标以“100% - 低分率”的形式出现。
第一步、将原始数据标准化。
第二步、建立变量的相关系数矩阵R 如下:
第三步、求特征值、特征向量和方差贡献率
从表2看,前2个特征值累计贡献率已达99.30%,说明前2个主成分包括了全部指标具有的99.30%
⎥⎥⎥⎥⎥
⎦
⎤⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p p a a a a a a a a a a a a 21222122121111,,,
的信息,我们取前2个特征值,并计算出相应的特征向量。
第四步、写出主成分:
第一主成分 F 1 = 0.453012X 1 + 0.434557X 2 + 0.451546X 3 +0.457640X 4 + 0.438876X 5 第二主成分 F 2 = 0.336346X 1 - 0.642130X 2 - 0.320931X 3 + 0.008946X 4 + 0.609478X 5
第五步、分析。
从第一主成分F 1的各项指标的系数大小基本相当可见:这5个指标对F 1的作用也基本相当。
“良好率”指标的系数(0.451546)甚至略大于“优秀率”指标的系数(0.434557)。
从第二主成分F 2的各项指标的系数分析可见:“低分率”指标(0.609478)对F 2的作用最大。
本例说明把“良好率”和“低分率”纳入指标考核的体系是有必要的(某些地区未采用这2个指标)。
四、构造综合评价指数的方法
方法一:利用主成分F 1,… ,F m 作线性组合,并以每个主成分F i 的方差贡献率αi 作为权数构造一个综合评价函数:
y = a 1F 1 … + a m F m
y 也称为评估指数,可以依据对每个样品计算出的y 值大小进行排序或分类划级。
在上述例子中,青岛市中考指标主成分分析的综合评价函数可以表述为:
y = 4.7350 F 1 + 0.2298 F 2
方法二:只用第一主成分F 1作综合评价指数。
在本例中,第1个特征值累计贡献率已达94.70%,说明第一主成分已经基本包括了主要指标具有的信息。
当主成分特征向量的各分量符号不一致时(如本例第二主成分F 2),只用F 1作综合评价指数是适宜的。
青岛市中考指标主成分分析的结果见附表1。
该表中分别列出了“第一主成分F 1指数”和“综合评估指数”的数值、标准分值Z 及其排序名次。
当原来的指标X 1,…,X P 的重要程度存在较大差异时,可以对原来指标辅以加权—“加权主成分分析”,相当于:
其中 m = m 1 + … + m p =1,然后对y 值作主成分分析。
五、用计算机软件自动实现主成分分析的过程
掌握主成分分析的数学模型需要一定的高等代数如矩阵运算的基础知识;进行实际计算的工作量十分
繁杂;以通用的Excel 软件不可能实现其计算过程;……等等,都限制了该方法在基层教研部门的普及应用,甚至在国内中心城市教研室中的应用也尚不普遍。
曾见有关文献介绍“陕西省高中会考综合评价的主成分分析模型及应用”的经验。
用计算机软件实现主成分分析综合评价的过程,并在基层教研部门甚至重点中学进行普及应用具有重要的意义。
笔者设计的《大中型城市教研室成绩汇总、统计分析系统》GSAS 软件设有“主成分分析综合评价”
模块,可完成数据采集、负相关转化、标准化、计算分析、构造评价指数和排序的全部过程,主要功能有:
1
、选择评估对象。
可选择“全部地区”(以市、县、区为单位评估),也可选择“全部学校”或“某地区学校”(以学校为单位评估)
,也可以在软件的“学校版” 内运行,即在校内以班级为单位评估等。
⎥⎥
⎥⎦
⎤
⎢⎢⎢⎣⎡=p m m M 001 ⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=p X X 1⎥⎥
⎥⎦
⎤⎢⎢⎢⎣⎡=p p X m X m y 11
2、选择评估科目。
可选择“汇总指标”,对考试进行评估,也可选择“单科指标”,对某个科目评估。
3、加权主成分分析。
模块具有“权数”设置的条件。
例如某次考试为了强调“及格率”在整体评价目标中的作用,可加大该指标的权数,而相应减小其他指标的权数。
如果想把“考试评价”扩展为更广义的“教学评价”,在评价指标体系中加入“巩固率”(实际考试人数/在册学生人数)、“科平差生转化率”、……等指标,也是完全可以实现的。
[参考文献]
①、于秀林任雪松编著《多元统计分析》中国统计出版社2003年4月
②、刘新平刘存侠编著《教育统计与测评导论》科学出版社2003年6月
③、王汉澜主编《教育评价学》河南大学出版社1995年版
附表1、青岛市中考指标主成分分析统计表
备注1、各科平均指标计算方法的说明
(科目1及格人数+ 科目2及格人数+ ……+ 科目n及格人数)各科平均及格率=
(科目1考试人数+ 科目2考试人数+ ……+ 科目n考试人数)当各科目考试人数完全相等时:
各科平均及格率= (科目1及格率+ 科目2及格率+ ……+ 科目n及格率)/ n 各科平均优秀率、各科平均良好率、各科平均低分率的计算方法相同。