空间自相关1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

空间自相关

全局空间自相关:Join Count算法

空间

虾神daxialu(虾神) ? 2015-11-18 07:38

ArcGIS里面,全局空间自相关只提供了一个Moran's I方法,当然要说一招鲜吃遍天也是可以的,不过关于全局自相关还是有不少其他的方法的,这次给大家介绍一种更加简单并且容易理解的全局空间自相关方法:Join Count 方法。

这个方法最早是英国剑桥大学的著名地理学家Andrew D. Cliff 教授和美国乔治敦大学的J. Keith Ord提出,就是下面的两位老帅哥:

后面这个为J.KeithOrd更是厉害,以前说的 General G 指数也有他的一份。 Join Counts这种算法对比那些公式复杂到抓狂的各种算法来说,简单到让人眼前一亮,下面我们来看看他的原理:

首先从他的名字上来看,就能够猜出是怎么完的了。这个算法,就是对两个要素之间的连接类型进行计数,然后根据这个计数来判定聚类还是离散的。

这种类似一种描述二进制之间关系的方式,如黑/白两种颜色,他们之间的关系就有三种:黑-黑(BB)、白-白(WW)、黑-白(BW)。

如下图:

三种情况的概率,就如下所示:(有数学恐惧症的同学请略过)

算出来之后,他们的预期值是:

算出三种值来之后,就可以进行比较了,比较的结果如下: 如果BW比我们所期望的数值要低,表示正空间自相关。如果BW比我们所期望的数值要高,表示负空间自相关。如果BW比我们所期望的数值均等,表示随机。如下图所示:

最后,我们来看看分布用我们最属性的Moran's I和join Counts两种方法计算出来的全

局空间自相关的结果:

首先是数据,我们选用2004年美国大选中,小布什的得票率来计算,数据如下图:

通过Moran's I方法技术出来的结果如下:

下面逐条解答一下上面的各项内容:

, 数据:data数据集里面的小布什得票数

, 空间权重(空间关系概念化):这里是面数据,用的是共点共边就被认为是近邻,用

的是“Queen's Case”(这点看不懂的,请去看白话空间统计之五:空间关系概念化

(下)里面的描述)

, Moran's I 统计标准偏差:51.731(统计标准偏差:一种量度数据分布的分散程度之标准,

用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,

反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。) , p值:2.2e-16,置信度为99%以上,极高置信度区间,说明这份数据效果非常好。 , alternative hypothesis(备择假设亦称研究假设,统计学的基本概念之一。假设检

验中需要证实的有关总体分布的假设,它包含关于总体分布的一切使原假设不成立的

命题。):极大

, Moran's I 统计指数:0.5565174275

, 期望值:-0.0003219575

, 方差:0.0001158676

因为Moran's I的指数是在-1 ——1 之间,越靠近1的,聚集趋势就越明显,所以根据以上数据,我们可以判定,小布什的得票获胜区域(或者失败区域)有明显的聚集趋势,也就是说,如果他在某个区域获胜,那么在该区域旁边的区域也极有可能获胜,反之亦然。下面是通过Join Count方法进行计算的结果:

因为Join Count只能处理二值化数据,所以第一句就是将值化为二值化,布什获胜的,设置为1,失败的设置为0.

结论解读如下:

, 0:0——失败区域与失败区域关联的计数为130,期望值为54,方差是

6.7,Z值是29.466 , 1:1——获胜区域与获胜区域关联的计数为1111,期望

值为1030,方差是12.6,Z值是

22.596

, 1:0——获胜区域与失败区域关联的计数为311,期望值为472,方差是29.47,Z值是

-29.645

, Jtot——不同颜色的计数值计数为311,期望值为472,方差是29.94,Z

值为-29.413 从上面的数据可以看出,BB和WW都明显出现了计数值远高于期

望值,所以数据呈现聚类模式,其中BB的值方差要小于WW值的方差,所以小布什的获胜选区的聚类程度要略大于失败选区的聚类程度。

而BW的计数小于期望值,可以认为,不存在离散趋势了。

检验统计量表明,BB和WW都是正值,说明我们假设的值比较贴合实际运

算结果,是一份比较可信的运算过程。

最后Jtot 是所谓的“不同颜色”也就是说,离散偏随机的计数,可以看见与BW的值非常贴近,所以这份数据也表明了随机的可能也是比较低的。

白话空间统计十七:聚类和异常值分析

(Anselin Local Moran's I)

空间统计

虾神daxialu(虾神) ? 2015-09-15 17:41

前面我们聊的各种指数,无论是莫兰指数还是P值Z得分,都是整体数据的结论,也就是所谓“全局莫兰指数(Globe Moran's I)”,也就说,不管我给你多少数据,最后你就吐出一个来给我~这算神马~当然,从名字上来看,全局数据嘛,有一个给你就不错了。实际上作为我们玩GIS的人,最喜欢的就是出一张花花绿绿的地图,比如这样的:

或者是这样的:

所以我们更希望的是将我们输入的数据,标示出明显的数值来,比如我输入1000个要素,那么你别就给我1个数据啊,怎么也得吐出1000个数据来吧,甭管什么莫兰指数,P值Z得分啥的,不能给我省了。所以这里就要用到今天我们说的AnselinLocalMoran's I方法了,而它与GlobeMoran's I的区别,如下:

所以,这种算法比较符合我们做GIS的人的思维,那么这种可视为地理信息强迫症的特效药的Anselin Local Moran's I算法,是哪位大爷提出来的呢,下面进入我们的算法科普时间:

上面这个脑门像土豆神一样明亮的老帅哥,就是ASU(美国亚利桑那州立大学)的地理与规划学院院长Luc Anselin教授,也是Anselin Local Moran'I算法的提出者,所以也就用了他的大名来标示这种算法。

如果做地理分析的,一定听说一个叫做GeoDa的软件,这个软件就是Anselin教授领导的ASU的地理空间分析和计算中心弄出来的神器。后来他的这个中心,就一直被人称为“GeoDa Center”

他在2008年的时候,当选为了美国科学院院士,与中国一样,当选院士被认为是美国学术界最高荣誉之一。

好了,起源介绍完了,下面我们来看看这种算法有些啥神奇的地方。

首先,他还是会计算各种常规的指数,比如Moran's I以及P值Z得分啥的,但是他是针对整份数据中,每一个要素都会去记录一个相应的值,算出来就会变成这个样子:

用中国每个省的GDP进行计算,算完对每一个省都会对应有一系列数据,前面三个就是每个省的Moran's I和Z得分以及P值,这个就不解释了,大家有兴趣去看以前的文章,Anselin Local Moran's I最强大的地方,就是他能够用自己身的数据,与周边的数据进行比较,生成COType这样一个字段。

相关文档
最新文档