第五章 聚类分析(修改)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x
ij
2012-10-30
7
2、对变换后的数据进行标准化处理
(1)极差标准化
x ij x ij x j (min) x j (max) x j (min) ( i 1, 2 ..., n ; j 1, 2 ,..., m )
(2)标准差标准化
x ij
6:烟台 0.9970 0.9980 0.9950 0.9800 0.9730 1.0000 0.9800 0.9830 0.9740 0.9870 0.9770 0.9860 0.9330 0.9840 0.9480 0.9750 0.8150
7:潍坊 0.9740 0.9790 0.9660 1.0000 0.9160 0.9800 1.0000 0.9990 0.9980 0.9450 0.9980 0.9980 0.9770 1.0000 0.9830 0.9900 0.9030
cos ij
k 1
m
x ik x jk
2 ik
k 1
m
x
k 1
m
x
2 jk
式中,i,j代表两个地点(或两个样品),xik、xjk表示 两个地点的第k个特征值或指标。夹角余旋也叫相似系数。 如果把两两地点的相似系数都计算出来,便可以得到一个 2012-10-30 11 相似矩阵
——所谓分类统计量就是用来刻画点与点之间 相似性,并以此作为分类依据的统计量。
1、相似系数
相似系数是描述地理数据之间相似程 度的一种指标。
2012-10-30
10
(1)夹角余旋(
cos
)
设两个地点i,j的各指标为(xi1,xi2,….xin)和 (xj1,xj2,….xjn),其之间的夹角余旋为
2:青岛 0.9960 1.0000 0.9980 0.9780 0.9770 0.9980 0.9790 0.9810 0.9700 0.9910 0.9730 0.9840 0.9230 0.9810 0.9430 0.9700 0.8010
3:淄博 0.9960 0.9980 1.0000 0.9650 0.9840 0.9950 0.9660 0.9680 0.9540 0.9970 0.9580 0.9750 0.8990 0.9690 0.9210 0.9550 0.7650
第五章 地理系统的聚类分析
第五章 地理系统的聚类分析
一、 聚类分析的概念
1、概念:是依据某种方法及准则对一组样本或变量 进行分类的多元统计分析方法。类是指相似元素的
集合。
2、类型:对样本进行分类被称为Q型聚类,对变量 (样本的不同特征)进行分类被称为R型聚类。
从技术角度看,R型聚类可以看成是对原始数据矩 阵转置后进行的Q型聚类。
(三)构建聚类分析的统计量(计算点与 点之间距离) (四)选择聚类方法(计算类与类之间距 离),画出分类谱系图
2012-10-30 4
(一)确定研究对象,建立指标体系,构建
聚类要素矩阵
1、本例是对样本的划分,因而是Q型聚类 2、本例的指标为:
2012-10-30
5
3、原始数据矩阵
x1 x2 x 12 x 22
…
x 10 x 110
1
2
x 11 x 21
…
…
x 210
17
x 171
x1:人均GDP; x2为非农业人口比重; x3为人均地 方财政收入; x4人均社会商品零售额; x5人均实际利 用外资; x6二产比重; x7三产比重; x8人均邮电业务 量; x9城镇居民可支配收入; x10农民人均纯收入
2012-10-30 6
cos 11 cos 21
cos 12 cos 22
…. ….
cos 1 n cos 2 n
A=
cos ij
… …
cos n 1
的取值范围在-1到+1之间, 其绝对值越大,相似程度越强。
12
… …
cos n 2
… … ….
cos nn
2012-10-30
Case 1:济南 1:济南 1.0000 2:青岛 0.9960 3:淄博 0.9960 4:枣庄 0.9730 5:东营 0.9690 6:烟台 0.9970 7:潍坊 0.9740 8:济宁 0.9740 9:泰安 0.9650 10:威海 0.9890 11:日照 0.9660 12:莱芜 0.9840 13:临沂 0.9180 14:德州 0.9770 15:聊城 0.9300 16:滨州 0.9600 17:菏泽 0.7930
4:枣庄 0.9730 0.9780 0.9650 1.0000 0.9160 0.9800 1.0000 0.9990 0.9980 0.9440 0.9980 0.9970 0.9780 1.0000 0.9850 0.9910 0.9050
5:东营 0.9690 0.9770 0.9840 0.9160 1.0000 0.9730 0.9160 0.9250 0.9040 0.9920 0.9130 0.9260 0.8380 0.9230 0.8740 0.9200 0.6780
10:威海 11:日照 12:莱芜 13:临沂 14:德州 15:聊城 16:滨州 17:菏泽 0.9890 0.9660 0.9840 0.9180 0.9770 0.9300 0.9600 0.7930 0.9910 0.9730 0.9840 0.9230 0.9810 0.9430 0.9700 0.8010 0.9970 0.9580 0.9750 0.8990 0.9690 0.9210 0.9550 0.7650 0.9440 0.9980 0.9970 0.9780 1.0000 0.9850 0.9910 0.9050 0.9920 0.9130 0.9260 0.8380 0.9230 0.8740 0.9200 0.6780 0.9870 0.9770 0.9860 0.9330 0.9840 0.9480 0.9750 0.8150 0.9450 0.9980 0.9980 0.9770 1.0000 0.9830 0.9900 0.9030 0.9480 0.9990 0.9950 0.9790 0.9990 0.9880 0.9960 0.9020 0.9300 0.9990 0.9930 0.9880 0.9980 0.9910 0.9940 0.9230 1.0000 0.9360 0.9570 0.8660 0.9490 0.8940 0.9340 0.7180 0.9360 1.0000 0.9920 0.9860 0.9980 0.9920 0.9970 0.9170 0.9570 0.9920 1.0000 0.9650 0.9980 0.9700 0.9820 0.8800 0.8660 0.9860 0.9650 1.0000 0.9770 0.9940 0.9830 0.9680 0.9490 0.9980 0.9980 0.9770 1.0000 0.9840 0.9920 0.8990 0.8940 0.9920 0.9700 0.9940 0.9840 1.0000 0.9940 0.9480 0.9340 0.9970 0.9820 0.9830 0.9920 0.9940 1.0000 0.9110 0.7180 0.9170 0.8800 0.9680 0.8990 0.9480 0.9110 1.0000
2012-10-30
x ij x sj
j
( i 1, 2 ,..., n ; j 1, 2 ,..., m )
8
(3)极大值标准化
x ij
'
x ij x j (max)
(4)极小值标准化
x ij
'
2012-10-30
x ij x j (min)
9
(三) 构建聚类分析的统计量
17地市两两地市间的夹角余旋
2012-10-30 13
(2)相关系数r
为了衡量要素(变量)或指标之间的亲疏关系,也常用 相关系数作为分类统计量,即计算出两两样本之间的相关 系数(不再重复)。
Case 1:济南 1:济南 1.0000 2:青岛 0.9940 3:淄博 0.9940 4:枣庄 0.9600 5:东营 0.9650 6:烟台 0.9960 7:潍坊 0.9620 8:济宁 0.9610 9:泰安 0.9480 10:威海 0.9860 11:日照 0.9500 12:莱芜 0.9770 13:临沂 0.8770 14:德州 0.9670 15:聊城 0.8960 16:滨州 0.9410 17:菏泽 0.6950 2:青岛 0.9940 1.0000 0.9970 0.9670 0.9760 0.9970 0.9680 0.9710 0.9540 0.9890 0.9600 0.9770 0.8850 0.9720 0.9140 0.9560 0.7070 3:淄博 0.9940 0.9970 1.0000 0.9510 0.9830 0.9930 0.9520 0.9530 0.9340 0.9970 0.9390 0.9660 0.8520 0.9560 0.8850 0.9350 0.6600 4:枣庄 0.9600 0.9670 0.9510 1.0000 0.8950 0.9710 1.0000 0.9980 0.9970 0.9220 0.9970 0.9960 0.9670 0.9990 0.9780 0.9880 0.8580 5:东营 0.9650 0.9760 0.9830 0.8950 1.0000 0.9680 0.8950 0.9060 0.8760 0.9920 0.8880 0.9090 0.7830 0.9040 0.8330 0.8960 0.5630 6:烟台 0.9960 0.9970 0.9930 0.9710 0.9680 1.0000 0.9720 0.9760 0.9630 0.9820 0.9670 0.9810 0.9020 0.9770 0.9240 0.9640 0.7300 7:潍坊 0.9620 0.9680 0.9520 1.0000 0.8950 0.9720 1.0000 0.9980 0.9970 0.9240 0.9970 0.9970 0.9660 1.0000 0.9750 0.9870 0.8550 8:济宁 0.9610 0.9710 0.9530 0.9980 0.9060 0.9760 0.9980 1.0000 0.9970 0.9270 0.9990 0.9920 0.9680 0.9990 0.9820 0.9940 0.8550 9:泰安 0.9480 0.9540 0.9340 0.9970 0.8760 0.9630 0.9970 0.9970 1.0000 0.9020 0.9990 0.9900 0.9820 0.9970 0.9870 0.9920 0.8850 10:威海 11:日照 12:莱芜 13:临沂 14:德州 15:聊城 16:滨州 17:菏泽 0.9860 0.9500 0.9770 0.8770 0.9670 0.8960 0.9410 0.6950 0.9890 0.9600 0.9770 0.8850 0.9720 0.9140 0.9560 0.7070 0.9970 0.9390 0.9660 0.8520 0.9560 0.8850 0.9350 0.6600 0.9220 0.9970 0.9960 0.9670 0.9990 0.9780 0.9880 0.8580 0.9920 0.8880 0.9090 0.7830 0.9040 0.8330 0.8960 0.5630 0.9820 0.9670 0.9810 0.9020 0.9770 0.9240 0.9640 0.7300 0.9240 0.9970 0.9970 0.9660 1.0000 0.9750 0.9870 0.8550 0.9270 0.9990 0.9920 0.9680 0.9990 0.9820 0.9940 0.8550 0.9020 0.9990 0.9900 0.9820 0.9970 0.9870 0.9920 0.8850 1.0000 0.9100 0.9410 0.8090 0.9300 0.8490 0.9070 0.5980 0.9100 1.0000 0.9880 0.9780 0.9970 0.9890 0.9960 0.8770 0.9410 0.9880 1.0000 0.9470 0.9970 0.9550 0.9750 0.8200 0.8090 0.9780 0.9470 1.0000 0.9660 0.9900 0.9750 0.9530 0.9300 0.9970 0.9970 0.9660 1.0000 0.9760 0.9890 0.8500 0.8490 0.9890 0.9550 0.9900 0.9760 1.0000 0.9920 0.9230 0.9070 0.9960 0.9750 0.9750 0.9890 0.9920 1.0000 0.8700 0.5980 0.8770 0.8200 0.9530 0.8500 0.9230 0.8700 1.0000
…
x 172
…
…
x 1710
…
(二) 对聚类变量进行处理
在聚类分析的过程中,数据的大小直接影响 分类的结果,为了消除原始数据由于量纲量级不 同对聚类结果的影响,需对原始数据进行处理。 目的是使每一变量都统一在某种共同的、相对均 匀化的数值范围内 1、首先对原始数据进行对数变换(通常采用自 然对数),形成一个新的数据矩阵
8:济宁 0.9740 0.9810 0.9680 0.9990 0.9250 0.9830 0.9990 1.0000 0.9980 0.9480 0.9990 0.9950 0.9790 0.9990 0.9880 0.9960 0.9020
9:泰安 0.9650 0.9700 0.9540 0.9980 0.9040 0.9740 0.9980 0.9980 1.0000 0.9300 0.9990 0.9930 0.9880 0.9980 0.9910 0.9940 0.9230
Fra Baidu bibliotek
2012-10-30
2
3、基本思路:根据地理变量(或指标或样品)
的属性或特征的相似性、亲疏程度,用数学的 方法把它们逐步地分型划类,最后得到一个能 反映个体或群体之间亲疏关系(相似程度)的 分类系统
2012-10-30
3
二、聚类分析的具体步骤
(一)确定研究对象,建立指标体系, 构建聚类要素矩阵 (二)聚类要素的数据处理