应用空间聚类进行点数据分布研究_林冬云
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2006年 8月第42卷 第4期北京师范大学学报(自然科学版)
Jour nal of Beijing N ormal U niver sity (N atural Science )A ug.2006
V ol.42 N o.4
应用空间聚类进行点数据分布研究*
林冬云1) 刘慧平1,2,3)†
(1)北京师范大学地理学与遥感科学学院;2)北京师范大学遥感科学国家重点实验室;
3)北京师范大学环境遥感与数字城市北京市重点实验室:100875,北京)
摘要 空间数据挖掘是寻找大数据量空间分布的重要方法,应用地理信息系统(G IS )进行空间数据挖掘是目前进行海量数据分析的重要手段之一.应用空间聚类方法对北京市海淀区54325个企业点数据进行量化分析研究,通过空间位置聚类,进行属性指标量化,从而进行属性指标分层聚类,得到企业空间分布特征.研究表明,空间聚类方法是进行点数据空间分布研究的有效方法.
关键词 空间聚类;企业分布;地理信息系统;量化
*国家自然科学基金资助项目(40271035);国家“十五”科技攻关课题资助项目(2003BA808A16-6)
†通讯作者
收稿日期:2005-11-23
随着数据获取和处理技术的迅速发展及数据库管
理系统的广泛应用,人们积累的数据越来越多,但在激增的数据背后隐藏着许多重要的信息,由于缺乏有效的方法,导致了一种“数据爆炸但知识贫乏”的现象[1],面对这一挑战,数据挖掘(data mining ,DM )和知识发现(know ledge discovery in database s ,KDD )技术应运而生并得到迅速发展,它的出现为自动和智能地把海量的数据转化成为有用的信息和知识提供了手段.
作为DM 技术一个新的分支,空间DM 也称基于空间数据库的数据挖掘和知识发现(spatial data mining and know ledge disco very ),是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程[2].
空间聚类方法是空间数据挖掘中的主要方法之一,是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域.聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构[3].在无先验知识的情况下,聚类分析技术是进行数据挖掘时的首选[4],因而运用空间数据聚类方法来处理海量数据,对于提取大型空间数据库中有用的信息和知识具有十分重要的现实意义.
目前,对于空间聚类的研究主要集中在算法研究和应用研究上,存在2种偏向,一是从事GIS 理论方法和技术工具研究的工作者大多根据空间对象的地理坐标进行聚类,即只考虑对象的空间邻近性,而不考虑对象属性特征的相似性[2,5];另一种是从事GIS 应用和地学研究的工作者,直接套用传统聚类分析方法,根据属性特征集进行分析,忽视了对象的空间邻近性[6].
而空间对象本质上具有地理位置和属性特征双重含
义,二者结合才能完整地描述空间特征和空间差异.将地理位置和属性特征纳入统一的空间距离测度和空间聚类分析系统,将会改善空间分析和空间DM 的信息
质量[7-9]
.
本文主要应用GIS 分析技术,采用空间DM 中的空间聚类方法,通过将空间位置与属性相结合的聚类方法,对北京市海淀区5万多个企事业单位的点分布数据进行分析,探讨对于属性是定性描述的点分布数据的量化方法.
1 研究区和数据来源
海淀区是北京市重要近郊区,占地面积大,人口众多,交通发达,存在着大量的居民和村民混居现象,是中心城市自上而下的扩散能力最强、城乡一体化程度最高、城乡联系最密切的地区,也是大都市空间扩展的主要地区[10].
研究使用的数据来源是2001年北京市企业数据的统计表,经数字化处理生成企业单位点位分布图,按照数据文件中企业注册地址信息,结合参考北京市电子地图、北京市街道胡同地图集、北京市地图、网上北京市地图以及有关企事业单位的网站,将海淀区共计54325条记录生成5万多个企业的点分布图.
2 研究方法
应用GIS 提取企事业单位分布空间坐标,进行按位置距离聚类分析,获得位置聚类小区,然后进行属性指标的量化,应用聚类分析进行属性聚类,分析企事业
420 北京师范大学学报(自然科学版)
第42卷
分布的空间规律.此方法可以弥补将位置和属性分立的不足.为此,分别定义位置距离和属性距离.
聚类分析中常用的距离有近10种,最常采用的是欧氏距离.记点状地物或区域中心P i 的平面直角坐标为(X i ,Y i ),对应的属性向量为(a i 1,a i 2,…,a in ),则点P i 和P j 之间的位置距离和属性距离可分别表示为:
位置距离为:D p =(x i -x j )2
+(y i -y j )2
,
属性距离为:D a =(∑n
k =1
(a ik -a jk )2.
在聚类中,地理特征向量应是无量纲的,因此应进行标准化处理.
2.1 空间位置聚类 聚类算法[11]
的步骤如下:
1)地理特征向量中的每一个元素进行无量纲化处理.
2)令类别数k =2,迭代误差阈值e min =0.00001(可根据需要设置).
3)置迭代次数t =0,k 个初始聚类中心为:
C (t )j =S j j =1,2,…,k.
4)对第t 次迭代,若有
|S i C (t )j 0|<|S i C (t )
j |, j =1,2,…,k 且
j ≠j 0;i =1,2,…,m.
则把样本S i 分配到第j 0个聚类域D (t )
j 0.如此,所有
的m 个样本可以被划分到k 个聚类域D (t )
j 中,j =1,2,
…,k .
5)计算新的聚类中心
C
(t +1)j
=1N j ∑S
j ∈D (t )j
S
i
, j =1,2,…,k ,
式中N j 为第j 个聚类域中包含的样本个数.
6)若|C (t +1)j -C (t )
j | 则停止迭代,第t 次迭代结果为划分为k 个类别的聚类方案,转向7);否则,t =t +1,转向4).7)k 2.3 属性指标量化 属性共分为4类指标:行业指标、企业经济性质指标、人员数量指标、营业收入指标.各类指标有进一步的分级,包括行业指标16个,企业经济性质指标23个,人员数量指标10个,营业收入指标15个.各分级指标均为定性的分级,例如行业指标为16个(见表1),通过计算每一指标占空间位置聚类小区中的百分比进行每一指标的量化. 2.4 属性分层聚类 对量化的属性指标进行分层聚类,通过对组间连接法(betw een -g roups linkag e )、组 内连接法(within -g roups linkage )、最近邻法(nea rest 表1 定性分级的16个行业指标 序号行业名称 代码指标*1 农、林、牧渔业A hya 2采掘业B hy b 3制造业 C hyc 4电力、煤气及水的生产和供应业 D h yd 5建筑业 E hye 6地质勘查业、水利管理业 F hyf 7交通运输、仓储及邮电通信业 G h yg 8批发和零售贸易、餐饮业 H hy h 9金融、保险业 I hyI 10房地产业 J hy j 11社会服务业 K hy k 12卫生、体育和社会福利业 L hy l 13教育、文化艺术及广播电影电视M hym 14科学研究和综合技术服务业N hy n 15国家机关、政党机关和社会团体O h yo 16 其他行业 P hy p *hya -hyp 为计算方便设置的16个行业指标变量. neighbor )、最远邻法(furthest neighbor )、重心聚类法(centroid clustering )、中位数法(median clustering )、 最小方差法(w ard ’s me thod )等聚类方法做对比,发现结果都相近,但以w ard 最小方差法的聚类效果最明显,因而选择此方法,这种方法以方差最小为聚类原则.距离测度选择欧式距离平方.通过分层聚类获得树型图,确定聚类区域,分析分布规律. 3 结果分析 根据2001年的数据,海淀区共有54325个企业,通过空间位置聚类,确立企事业相对聚集区,聚类总数 分别选择25和50类进行实验,通过比较发现二者在表现空间分布时相似.以25类为例进行分析,利用K -平均法进行聚类,25类聚类结果见图1~3. 图1 海淀区空间位置聚类(共25类小区) 分别计算聚类结果中3大区各区行业平均百分比、经济性质平均百分比、人员数量平均百分比和营业