空间数据探索性分析与地统计分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.数据检查,即空间数据探索分析(ESDA)
在地统计分析中,克里格方法是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值(如普通克里格法、简单克里格法和泛克里格法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换使其服从正态分布。因此,在用地统计分析创建表面之前,了解数据的分布状况十分重要。在ArcGIS GA模块中,主要提供了两种方法检验数据的分布:直方图法和正态QQPlot 图法。
(1)直方图显示数据的概率分布特征以及概括性的统计指标
图1
上图中所展示的数据,中值接近均值、峰值指数接近3。从图中观察可认为近似于正态分布。
(2)正态QQ Plot 图
图2
正态QQ 图上的点可指示数据集的单变量分布的正态性。如果数据是正态分布的,点将落在45 度参考线上。如果数据不是正态分布的,点将会偏离参考线。所以正态QQ 图可以用来检查数据的正态分布情况。作图原理是用分位图思想。直线表示正态分布,从图中可以看出数据很接近正态分布。
该研究通过地统计分析工具生成35个样本点的直方图和正态QQPlot 图,分别如图1、图2所示。从图1及其各种统计指标值可以看出,该样本点近乎于正态分布。在图2中,该例选取的35个样本点基本沿直线分布,也说明样本点接近于服从正态分布。在本研究区的样本点近乎于正态分布,而且区域化变量NO2的期望值是未知的,经过分析,在后期预测表面时,采用普通克里格插值是最为合适的。
(3)趋势分析图
上图为NO2的空间分布趋势图,x 轴正向指向东,y 轴正向指向北,z 轴正向指向属性(此处为NO2浓度)值增大的方向,采样点(即空气质量监测站)位于xy 平面上,黑色的垂直杆的高度代表NO2浓度的大小,分别将散点投影到xz 平面和yz 平面上,然后分别用二次曲线拟合,xz 平面上的绿色曲线代表东西方向的趋势,yz 平面上的蓝色曲线代表南北方向的趋势。从图中可以看到,NO2的浓度南北方向呈现出倒U 型的趋势,东西方向也呈现出倒U 型的趋势,说明在该地区的中部地区NO2浓度最高。
趋势分析工具提供用户研究区平面上的采样点转化为以感兴趣的属性值为高度的三维视图,然后用户从不同视角分析采样数据集的全局趋势。趋势分析图中的每一根竖棒代表了一个数据点的值(该实验中是NO2的浓度)和位置。这些点被投影到一个东西向的和一个南北向的正交平面上。通过投影点可以做出一条最佳拟合线,并用它来模拟特定方向上存在的趋势。此实验中的趋势分析图中南北方向和东西方向上有明显的趋势出现,因此需要用二次曲面拟合,即在后续剔除趋势的操作中选择二次(second)。可见,使用趋势分析来分析样本点数据的走向,可以使后续的表面拟合更加客观,拟合的结果具有更大的可信程度。
(4)Voronoi 图
Voronoi 图可以用来发现离群值。Voronoi 图的生成方法:每个多边形内有一个样点,多变形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后。某个样点的相邻样点便会与该样点的多边形有相邻边。
利用相邻点的这个定义,可计算多种局部统计量。“Voronoi 图”工具提供下列方法来指定或计算面的值。
简单:指定给面的值是在该面内的采样点处记录的值。
平均值:指定给面的值是根据面及其相邻面计算出的平均值。
众数:利用五个组距对所有多边形进行分类。指定给面的值是面及其相邻面的众数(最常出现的组)。
聚类:利用五个组距对所有多边形进行分类。如果面的组距与其每个相邻面的组距都不同,则该面将灰显并放进第六组以区分该面与其相邻面。
熵:所有的面都利用基于数据值(小分位数)的自然分组的五个组进行分类。
(5)半变异函数/协方差函数
该图可以反应数据的空间相关程度,只有数据空间相关,才有必要进行空间插值法。图表的横坐标表示任两点的空间距离,纵标表示该两点的半变异函数值。根据距离越近越相似的原理,因而x 值越小,y 值应该越小。如果任意两点的值都要计算,当采样点很多时,数据量便很大,因而根据距离和方向对样点距离进行了分组。半变异函数表面的范围由步长大小和步长数控制。下列参数便是为此要求而设置:步长大小(步长值),步长组数。步长大小(步长值)和步长组数之乘积应小于采样点区域的坐标范围的一半。
2. 制作表面预测图:
(1)选择输入数据和方法面板(2)地统计方法选择面板(Geostatistical Method Selection)
(3)趋势剔除面板(Detrending)(4)半变异函数/协方差模型面板(Semivariogram/covariance Modeling)
(5)搜索区域面板(Searching Neighbourhood)(6)交叉验证面板(Cross Validation)
(7)数据图层信息面板(Output Layer Information)图略
从上图可以看出,北京市中部的NO2浓度最高,与趋势分析图的分析结果相一致。(8)模型比较
经验贝叶斯克里金法
经验贝叶斯克里金法(EBK) 是一种地统计插值方法,可自动执行构建有效克里金模型过程中的那些最困难的步骤。Geostatistical Analyst 中的其他克里金方法需要您手动调整参数来接收准确的结果,而EBK 可通过构造子集和模拟的过程来自动计算这些参数。
经验贝叶斯克里金法与其他克里金方法也有所不同,它通过估计基础半变异函数来说明所引入的误差。其他克里金方法通过已知的数据位置计算半变异函数,并使用此单一半变异函数在未知位置进行预测;此过程隐式假定估计的半变异函数是插值区域的真实半变异函数。由于不考虑半变异函数估计的不确定性,其他克里金方法都低估了预测的标准误差。经验贝叶斯克里金法在地统计向导中以地理处理工具的形式提供。
经验贝叶斯克里金法与Geostatistical Analyst 中的其他克里金方法不同,它使用固有的0 阶随机函数(IRF-0) 作为克里金模型。其他克里金模型假定过程遵循一个总体平均值(或指定趋势),并且各种变化均围绕该平均值。较大的偏差将向平均值拉回,因此值不会偏差过大。但是,EBK 不会呈现出趋于总体平均值的趋势,因此较大偏差变大变小的可能性相同。
地统计在科学和工程的许多领域中广泛应用,例如:
采矿行业在项目的若干方面应用地统计:最初需量化矿物资源和评估项目的经济可行性,然后需每天使用可用的更新数据确定哪种材料应输送到工厂以及哪种材料是废弃物。
在环境科学中,地统计用于评估污染级别以判断是否对环境和人身健康构成威胁,以及能否保证修复。
最近在土壤科学领域中的新应用着重绘制土壤营养水平(氮、磷、钾等)和其他指标(例如导电率),以便研究它们与作物产量的关系和规定田间每个位置的精确化肥用量。
气象应用包括温度、雨量和相关的变量(例如酸雨)的预测。
最近,地统计在公共健康领域也有一些应用,例如,预测环境污染程度及其与癌症发病率的关系。
在所有这些示例中,普遍情形是某些地区中存在的一些感兴趣的现象(某一污染物对土壤、水或者空气的污染