聚类分析论文

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析及其在新疆经济研究中的应用

孙鹿梅

(伊犁师范学院数学与统计学院新疆伊宁 835000)

摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.

关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分

一、引言

聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.

在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界著名统计软件SPSS(Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.

由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.

二、基础知识

2.1聚类分析的基本思想

由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.

2.2聚类分析的种类

聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q 型聚类分析,对变量的分类常称为R 型聚类分析. 2.3聚类分析的原理

聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.

常见的聚类分析方法有系统聚类法、K -均值法和模糊聚类法等. 2.3.1聚类要素的数据处理

假设有m 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.

在聚类分析中,常用的聚类要素的数据处理方法有如下几种.

① 总和标准化

),2,1,,,2,1(1

'

n j m i x

x x m

i ij

ij

ij

===

∑=

),2,1(11

'

n j x m

i ij ==∑=且. ② 标准差标准化

),,2,1,,,2,1('

n j m i s x x x j

j

ij ij

==-=

∑==m i ij

j x m x 1'

1,

∑=-=m i j ij j x x m s 1

2''

)(1 .

011

'

==∑=m i ij j x m x 且,

1)(11

2''

=-=

∑=m i j ij j x x m s .

变换后的数据,每个变量的样本均值为0,极差为1,且1*

以减少误差的产生;同时变换后的数据也是无量纲的量. ③ 极大值标准化

{}

()

n j m i x x x ij i

ij

ij ,,2,1,,,2,1max '

===

.

经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1. ④ 极差的标准化

{}

{}{}

()

n j m i x x x x x ij i

ij i

ij i ij

ij ,,2,1,,2,1min max min ===

.

经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.

2.3.2样品间的距离和相似系数 (1)距离的计算

描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(m j n i x xj ==列成下列

X 矩阵的形式.

设有n 个样品,每个样品测得p 个变量,原始资料阵为

⎥⎥

⎥⎥⎦⎤

⎢⎢⎢⎢

⎢⎣⎡=np n n p p x x x x x x x x x X 21

22221

11211

,

其中ij x 为i 个样品的第j 个变量的观测数据.

用ij d 表示第i 个样品的第j 个样品之间的距离,其值越小表示两个样品接近程度越大. 距离的一般要求:

① ;0;,,0)()(j i ij ij X X d j i d =⇔=≥当对一切 ② ;,,j i d d ji ij 对一切=

③ ).(,,,三角不等式对一切k j i d d d kj ik ij +≤

相关文档
最新文档