空间统计与空间数据挖掘之地统计分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

空间统计与空间数据挖掘之地统计分析

空间统计与空间数据挖掘之地统计分析地统计是统计的一类，用于分析和预测与空间或时空现象相关的值。它将数据的空间坐标纳入分析中，以变异函数为主要工具，研究那些分布于空间上既有随机性又有结构性的自然或社会现象的科学，接下来将介绍地统计研究的工作流程和主要步骤，并结合ArcGIS Geostatistical Analyst工具进行实践演示。地统计是用于分析和预测与空间或时空现象相关联的值得统计数据类。利用GIS工具可以构建使用空间坐标的模型。这些模型可以应用于各种情况并通常用于生成未采样位置的预测，也可以用于生成这些预测的不确定性的度量值。

一般情况下，地统计研究的流程为：第一步仔细检查数据。第二步构建地统计模型，根据研究目的和数据集要素的不同，建模过程的步骤会有些差异。在这一阶段，对数据集进行严密地探索并收集信息，扩增对所研究对象的先验知识，这将决定模型的复杂程度和内插值的准确性，以及不确定性的度量值的准确性。第三步将所建模型与数据集结合来生成感兴趣区域内所有未采样位置的内插值。最后模型的输出应该经过检查，确保内插值和相关的不确定性的度量值是合理的并与预期相匹配。我们继续以上文中

提到的某市区垃圾站数据为例，结合GIS工具具体介绍如何利用地统计建模插值。1探索性空间数据分析19世纪60年代的Tukey面向数据分析的主题，提出了探索性数据分析（EDA，exploratory data analysis）的新思路，解决了传统统计分析中数据不能满足正态假设，基于均值、方差的模型在实际数据分析中缺乏稳定性的问题，并且满足了对海量数据进行分析的要求。EDA的特点是对数据来源的总体不作假设，并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概况的方法对数据的特征进行分析和描述，技术核心是“让数据说话”，在探索的基础上对数据进行更为复杂的建模分析（王远飞，何洪林，2007）。在EDA的基础上衍生而出的是探索性空间数据分析（ESDA，exploratory spatial data analysis），是EDA在空间数据分析领域的推广。

在使用插值方法之前，应该使用ESDA工具浏览数据。此工具能使我们更深入地了解数据并为插值模型选择最合适的方法和参数。例如，如果使用普通克里金法生成分位数图，应该事先检查数据的分布，因为是在数据是呈正态分布的前提下才能采用这一方法，如果数据不是正态分布的，应该在插值模型中包含数据变换的操作。检测数据的空间趋势也是ESDA的一大功能。ESDA环境允许用户用图形的方法研究数据集，从而能更好的理解所要研究的数据

集。每个ESDA工具都对该数据给出一个不同的视图并在单独的窗口中显示出来。这些不同的视图包括直方图（histogram）、voronoi地图、正态QQplot分布图、趋势分析（trend analysis）、半变异/协方差函数云等。对于我们接下去将要介绍的克里格插值方法，如果数据的分布近似于正态分布，使用克里格插值法时将会收到更好的效果。利用直方图与正态QQPlot分布图可以检验数据分布是否呈现正态分布。克里格插值方法是建立在平稳假设的基础上，这个假设要求分布中的数据值具有相同的变异性。而实际情况却是当值增加时，其变异性也增加。需要通过一些数据变换方法让数据变换到正态分布，并满足相同变异性的假设（吴秀芹，2007）。而最常用的数据变换方法包括Box-Cox变换、对数变换、反正弦变换。通过观察均值和中值可以确定分布的中心位置，一般来说，如果数据集的中值和均值非常接近，偏度为零，峰度接近于3，则可以判断其分布近似于正态分布。数据变换中应当注意的是，在对一个数据集进行数据变换后，在生成预测表面时必须进行还原变换，还原变换将给出一个具有近似克里格标准差的近似无偏估计。在ArcMap中可以利用直方图和QQPlot图直观地检验数据分布的形状，并且当数据分布不理想时，可以通过上文提到的数据变换方法进行变换。

在进行探索性分析时，除了总览数据分布与数据变换，另

一大功能便是识别异常值。全局异常值是相对于数据集中的所有值具有异常高值或低值的样本点；而局部异常值是指对于一个样本点，其取值范围对于整个数据集来说是处于一个正常的范围内，但对于与其相邻的周边的样本值相比呈现异常情况。从数据集中识别出异常值具有十分重要的意义，一方面，异常值可能是空间现象分布中的异常情况，另一方面，则可能是单纯的错误数据，均需要引起特别注意，进行变换处理或剔除。

单数据集方法直方图（histogram）1.统计信息直方图可以用于观察数据集的总体分布并用于汇总相关的统计数据，比如最大最小值、平均值、标准差、中位数等。如下图所示，可以看出，对于垃圾站的日处理量这个属性并不是呈典型的正态分布，并且在右上角的图例中可以看到一系列常规的统计指标，用于参考。2.数据分布与变换在ArcMap中利用直方图工具可以直观地检验数据分布的形状。如下图所示，数据并没有呈现典型的正态分布，我们可以通过数据变换功能十分便捷的对垃圾站数据进行变换，期望能得到近似的正态分布，分别进行对数变换以及Box-Cox变换（参数设为0.3）。可以看到，进行对数变换的结果也不是特别理想，而进行Box-Cox变换则得到了相对近似的正态分布。 3.异常值识别利用直方图可以很方便直观的筛选出数据集中的异常值，通过探索性分析工具

得到数据集的直方图之后，选择直方图尾部的样本点，这些样本点往往会呈现异常高值或低值。当然，通过这样选取的异常点十分不精确，需要进一步的分析验证，才能决定是数据异常还是单纯的数据错误。如下图所示，选取直方图中的尾值，可以发现这些垃圾站点均为日处理量1000吨以上。voronoi地图 1.查看数据分布通过voronoi地图可以直观的观测数据集的空间可变性和稳定性。如下图所示，基于市区内每个垃圾站点数据，相对应的生成了各自的voronoi多边形。每个点对应的voronoi多边形的面积的倒数可以作为一个评价点局部密度的指标，还可以帮助我们判断点集的分布属于哪一种形式（随机分布或者集聚、规则分布）。例如下图右下角，多边形面积小且数量较多，可以看到垃圾站点的分布相对集中。2.查找异常值在查看VORONOI图时，不仅可以通过多边形的大小密度来识别样本值的总体分布情况，还可以根据其中一个多边形与相邻多边形的差异情况来识别研究对象中的异常值。以上图为例，可以很容易找出颜色与周围多边形明显差异的样本点，查看其属性可知，该点所指示的垃圾站的日处理量为1500吨/天，远高于相邻的几个样本点的值，查看其它样本也可以同样得出此结果。正态QQPlot分布图该统计量用于评估所研究的数据集是否表现为正态分布。简单来说，即是使用研究的对象数据集与正态分布的标准数据集对比得