聚类分析案例研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析案例—我国各地区普通高等教育发展状况分析
聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析
方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例
运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。
1.案例研究背景
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国
各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展
状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展
现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
-592-
2.案例研究过程
(1)建立综合评价指标体系
高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相
关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4。
(2)数据资料
指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以
各地区相应的人口数得到十项指标值见表6。其中:1x为每百万人口高等院校数;2x为每十万人口高等院校毕业生数;3x为每十万人口高等院校招生数;4x为每十万人口高等院校在校生数;5x为每十万人口高等院校教职工数;6x为每十万人口高等院校专职教师数;7x为高级职称占专职教师的比例;8x为平均每所高等院校的在校生数;9x为国家财政预算内普通高教经费占国内生产总值的比重;10x为生均教育经费。
图4高等教育的十项评价指标
(3)R型聚类分析
定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之
间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招生数与每十万人口高等院校在校生数之间可能存在较强的相关性,每十万人口高等院校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这种想法,运用MATLAB 软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。
可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取
-594-
几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见图5。
计算的MATLAB程序如下:
load gj.txt%把原始数据保存在纯文本文件gj.txt中
r=corrcoef(gj)%计算相关系数矩阵
d=1-r;%进行数据变换,把相关系数转化为距离
d=tril(d);%取出矩阵d的下三角元素
d=nonzeros(d);%取出非零元素
d=d';%化成行向量
z=linkage(d,'average');%按类平均法聚类
dendrogram(z);%画聚类图
T=cluster(z,'maxclust',6)%把变量划分成6类
for i=1:6
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、
每十万人口高等院校教职工数、每十万人口高等院校专职教师数、每十万人口高等院校毕业生数5个指标之间有较大的相关性,最先被聚到一起。如果将10个指标分为6类,其它5个指标各自为一类。这样就从十个指标中选定了六个分析指标:
1x:每百万人口高等院校数;
2x:每十万人口高等院校毕业生数;
7x:高级职称占专职教师的比例;
8x:平均每所高等院校的在校生数;
9x:国家财政预算内普通高教经费占国内生产总值的比重;
10x:生均教育经费。
可以根据这六个指标对30个地区进行聚类分析。
(4)Q型聚类分析
根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化
-595-
处理,样本间相似性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图见图6。
计算的MATLAB程序如下:
clc,clear
load gj.txt%把原始数据保存在纯文本文件gj.txt中
gj(:,3:6)=[];%删除数据矩阵的第3列~第6列,即使用变量1,2,7,8,9,10
gj=zscore(gj);%数据标准化
y=pdist(gj);%求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average');%按类平均法聚类
dendrogram(z);%画聚类图
for k=3:5
fprintf('划分成%d类的结果如下:\n',k)
T=cluster(z,'maxclust',k);%把样本点划分成k类
for i=1:k
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
if k==5
break
end
fprintf('**********************************\n');
end
4.案例研究结果
各地区高等教育发展状况存在较大的差异,高教资源的地区分布很不均衡。如果根
据各地区高等教育发展状况把30个地区分为三类,结果为:
第一类:北京;第二类:西藏;第三类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为四类,结果为:
第一类:北京;第二类:西藏;第三类:上海,天津;第四类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为五类,结果为:
第一类:北京;第二类:西藏;第三类:上海,天津;第四类:宁夏、贵州、青海;
第五类:其他地区。
从以上结果结合聚类图中的合并距离可以看出,北京的高等教育状况与其它地区相
比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国家财政预算内普通高教经费占国内生产总值的比重等方面远远高于其他地区,这与北京作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外两个较早的直辖市,高等教育状况和北京是类似的状况。宁夏、贵州和青海的高等教育状况极为类似,高等教育资源相对匮乏。西藏作为一个非常特殊的民族地区,其高等教育状况具有和其它地区不同的情形,被单独聚为一类,主要表现在每百万人口高等院校数比较高,国家财政预算内普通高教经费占国内生产总值的比重和生均教育经费也相对较高,而高级职称占专职教师的比例与平均每所高等院校的在校生数又都是全国最低的。这正是西藏高等教育状况的特殊之处:人口相对较少,经费比较充足,高等院校规模较小,师资力量薄弱。其他地区的高等教育状况较为类似,共同被聚为一类。针对这种情况,有关部门可以采取相应措施对宁夏、贵州、青海和西藏地区进行扶持,促进当地高等教育事业的发展。