聚类分析论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析及其在新疆经济研究中的应用
孙鹿梅
(伊犁师范学院数学与统计学院新疆伊宁 835000)
摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.
关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分
一、引言
聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的
组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济
学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评
估等多方面.
在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界着名统计软件SPSS(Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.
由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.
二、基础知识
由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所
有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.
聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q 型聚类分析,对变量的分类常称为R 型聚类分析.
聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.
常见的聚类分析方法有系统聚类法、K -均值法和模糊聚类法等. 1聚类要素的数据处理
假设有m 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.
在聚类分析中,常用的聚类要素的数据处理方法有如下几种.
① 总和标准化
),2,1(11'n j x m
i ij 且. ② 标准差标准化
),,2,1,,,2,1('
n j m i s x x x j
j
ij ij
,
m i ij
j x m x 1'
1,
m i j ij j x x m s 1
2''
)(1 .
011
'
m i ij j x m x 且,
1)(11
2''
m i j ij j x x m s .
变换后的数据,每个变量的样本均值为0,极差为1,且1*
ij x ,在以后的分析计算中可
以减少误差的产生;同时变换后的数据也是无量纲的量. ③ 极大值标准化
n j m i x x x ij i
ij
ij
,,2,1,,,2,1max '
.
经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1. ④ 极差的标准化
n j m i x x x x x ij i
ij i
ij i
ij
ij ,,2,1,,2,1min max min
.
经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.
(1)距离的计算
描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(m j n i x xj 列成下列
X 矩阵的形式.
设有n 个样品,每个样品测得p 个变量,原始资料阵为
np n n p p x x x x x x x x x X
212222111211,
其中ij x 为i 个样品的第j 个变量的观测数据.
用ij d 表示第i 个样品的第j 个样品之间的距离,其值越小表示两个样品接近程度越大. 距离的一般要求:
① ;0;,,0)()(j i ij ij X X d j i d 当对一切 ② ;,,j i d d ji ij 对一切
③ ).(,,,三角不等式对一切k j i d d d kj ik ij 常用的距离有以下几种:
1)闵氏距离
q
p
k q
jk ik ij X X q d 11)()( ,
其中常用的距离有绝对距离和欧氏距离.
绝对距离
)
()1(1
p
k jk ik ij X X d .
欧氏距离
2
11
2
)()2( p
k jk ik ij X X d .
欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.
2)马氏距离
设i X 与j X 是来自均值向量为 ,协方差为 0的总体G 中的p 维样品,则两个样品间的马氏距离为
)
()()(1'2
j i j i ij X X X X M d .
马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.
选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数
在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角
变量i X 与j X 是来自均值向量为 ,协方差为 0x 的总体G 在的p 维空间的两个向量,则这两个向量间的夹角余弦可表示为