[VIP专享]聚类分析案例研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析案例—我国各地区普通高等教育发展状况分析
聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析
方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例
运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。
1.案例研究背景
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国
各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展
状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展
现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
-592-
2.案例研究过程
(1)建立综合评价指标体系
高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相
关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4。(2)数据资料
指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以
各地区相应的人口数得到十项指标值见表6。其中: 1 x 为每百万人口高等院校数; 2 x 为
每十万人口高等院校毕业生数; 3 x 为每十万人口高等院校招生数; 4 x 为每十万人口高等院校在校生数; 5 x 为每十万人口高等院校教职工数; 6 x 为每十万人口高等院校专职教师数;7 x 为高级职称占专职教师的比例;8 x 为平均每所高等院校的在校生数;9 x 为
国家财政预算内普通高教经费占国内生产总值的比重;10 x 为生均教育经费。
图4 高等教育的十项评价指标
(3)R 型聚类分析
定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招生数与每十万人口高等院校在校生数之间可能存在较强的相关性, 每十万人口高等院校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这种想法,运用MATLAB 软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。
可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取
-594-
几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见图5。
计算的MATLAB程序如下:
load gj.txt %把原始数据保存在纯文本文件gj.txt 中
r=corrcoef(gj) %计算相关系数矩阵
d=1-r; %进行数据变换,把相关系数转化为距离
d=tril(d); %取出矩阵d 的下三角元素
d=nonzeros(d); %取出非零元素
d=d'; %化成行向量
z=linkage(d,'average'); %按类平均法聚类
dendrogram(z); %画聚类图
T=cluster(z,'maxclust',6) %把变量划分成6 类
for i=1:6
tm=find(T==i); %求第i 类的对象
tm=reshape(tm,1,length(tm)); %变成行向量
fprintf('第%d 类的有%s\n',i,int2str(tm)); %显示分类结果
end
从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、
每十万人口高等院校教职工数、每十万人口高等院校专职教师数、每十万人口高等院校毕业生数5 个指标之间有较大的相关性,最先被聚到一起。如果将10 个指标分为6 类,其它5 个指标各自为一类。这样就从十个指标中选定了六个分析指标:
1 x :每百万人口高等院校数;
2 x :每十万人口高等院校毕业生数;
7 x :高级职称占专职教师的比例;
8 x :平均每所高等院校的在校生数;
9 x :国家财政预算内普通高教经费占国内生产总值的比重;
10 x :生均教育经费。
可以根据这六个指标对30个地区进行聚类分析。
(4)Q 型聚类分析
根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化
-595-
处理,样本间相似性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图见图6。
计算的MATLAB程序如下:
clc,clear
load gj.txt %把原始数据保存在纯文本文件gj.txt中
gj(:,3:6)=[]; %删除数据矩阵的第3列~第6列,即使用变量1,2,7,8,9,10
gj=zscore(gj); %数据标准化
y=pdist(gj); %求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average'); %按类平均法聚类
dendrogram(z); %画聚类图
for k=3:5
fprintf('划分成%d类的结果如下:\n',k)
T=cluster(z,'maxclust',k); %把样本点划分成k类
for i=1:k
tm=find(T==i); %求第i类的对象
tm=reshape(tm,1,length(tm)); %变成行向量