第七章 空间数据的统计分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二 探索性空间数据分析
Exploratory Spatial Data Analysis—ESDA
对样本数据性质的研究,没有先验的理论 假设,通过对数据全面深入分析来了解其在空 间分布、空间结构以及空间相互影响方面的特 征。
二 探索性数据分析
(一)基本分析工具 (二)检验数据分布 (三)寻找数据离群值 (四)全局趋势分析 (五)空间自相关分析
(一)基本分析工具
直方图:检查数据集的分布和汇总统计数据。 正态 QQ 图和常规 QQ 图:分别评估数据集是否是正态
分布以及研究两个数据集是否具有相似的分布。 Voronoi图:直观地检查数据集的空间可变性和稳定性。 趋势分析:查看并检查数据集的空间趋势。 半变异函数/协方差云:评估数据集的空间依赖性(半变 异函数和协方差)。 交叉协方差云:评估两个数据集间的空间依赖性(协方 差)。
空间统计应用
汇总空间分布的关键特征 识别具有统计显著性的空间聚类和空间异常 值 评估聚集或离散的整体模式 根据属性相似性对要素进行分组 空间关系建模
地统计在科学和工程领域中的应用
采矿行业 :量化矿物资源和评估项目的可行性 环境科学:评估污染级别以判断是否对环境和人身健 康构成威胁,以及能否保证修复。 土壤科学:绘制土壤营养水平(氮、磷、钾等)和其
空间数据的统计分析
着重于空间物体和现象的非空间特性的 统计分析,研究如何以数学统计模型来描 述和模拟空间现象和过程。
空间数据统计分析的目的
描述事物在空间上的分布特征(随机的、聚集 的或规则的)。 分析数据的空间自相关性,空间自相关性对空 间格局的影响,如何利用这种关系构建模型。
空间数据统计分析的流程
半变异函数显示测量采样点的空间自相关。
变程
偏基台 基台 块金
变程:半变异函数的模型首次呈现水平状态的距离 块金:测量误差或小于采样间隔距离处的空间变化源 基台:半变异函数模型在变程处所获得的值(y 轴上的值)
半变异函数/协方差云
每一个点代表一个点对 空间距离越近,相关性越大 发现离群值以及是否存在各 向异性
趋势分析
“趋势分析”工具提供数据的三维透视图。采样
点的位置绘制在 x,y 平面上。在每个采样点的上 方,值由 z 维中的杆的高度给定。 “趋势分析”工具将散点图投影到 x,z 平面和 y,z 平面上。可以将其视为通过三维数据形成的横 向视图。 多项式即会根据投影平面上的散点图进行拟合。 附加要素是您可以旋转数据来隔离方向趋势。
趋势很明显,呈倒置的 U 形。这表明可使用二 阶多项式对数据进行拟合。 趋势的影响力从区域的中心到各个边界逐渐减 弱(即,最大值出现在区域的中心,最小值出 现在边的附近)。
探索性数据分析:Voronoi图
Voronoiwk.baidu.com的定义:
平面n个离散点,把平面分成n个区, 每个区包括一个点,该点所在的区是到 该点距离最近的点的集合。
如何构建正态 QQ 图?
⑤以横轴为理论正态分布值,竖轴为 采样点值,绘制样本数据相对于其标 正态 QQ 图 准正态分布值的散点图。
普通 QQ 图
评估两个数据集的分布的相似程度。
普通 QQ 图
使用 QQ 图检查数据分布
正态 QQ 图上的点可指示数据集的单变量分布的正态 性。如果数据是正态分布的,点将落在 45 度参考线上。 如果数据不是正态分布的,点将会偏离参考线。
(三)查找全局异常值和局部异常值
全局异常值是相对数据集中的所有值具有非常高值或 非常低值的已测量采样点。
局部异常值是一个已测量采样点,具有整个数据集正 常范围内的值,但查看周围点时,其值显得异常高或 异常低。 识别异常值的原因有两个:
• 如果异常值是现象中的真实异常情况,那么这可能是 研究和理解现象的最重要的点。
原始数据 检查、分析数据 选择合适的模型 检验模型或模型比较 分析结果 最后检验模型是否合理 或几种模型进行对比。 探索数据暗含的特点和 规律,比如是否为正态 分布、有没有趋势效应、 各向异性等 进行表面预测。包括半 变异模型的选择和预测 模型的选择。
主要内容
一 二 三 四 五 基本统计量 探索性空间数据分析 地统计分析 克里金插值方法 应用案例
具有典型半变异函数值的位置对,其点对之间的距离 大致相同。 其中的大多数连线与海岸线大致平行,可以看到数据 受到方向因素的影响。
(二)检验数据分布
在地统计分析中,克里金方法是建立在平 稳假设的基础上,并假设数据服从正态分布。 如果数据不服从正态分布,需要进行一定的数 据变换,从而使其服从正态分布。因此,检验 数据分布特征,了解和认识数据具有非常重要 的意义。
检查局部变化
Voronoi 地图是由围绕采样点的位置形 成的一系列多边形所构成的地图。
创建 Voronoi 多边形,以使多边形内的各个位置距该 多边形内的采样点的距离小于距任何其他采样点的距 离。 创建这些多边形后,采样点的相邻点将被定义为与该 所选采样点共享多边形一条边的任何其他采样点。 亮绿色的采样点被一个面包围,这个面以红色高亮显 示。与其他任何采样点(以深蓝色小圆点表示)相比, 红色面内的每个位置更接近亮绿色采样点。蓝色的面 都与红色的面共享一条边,因此,蓝色面内的采样点 是亮绿色采样点的相邻点。
探索性数据分析:直方图
直方图:对采样数据按一定的分级方案(等间隔 分级、标准差分等)进行分级,统计采样点落入 各个级别中的个数或占总采样数的百分比,并通 过条带图或柱状图表现出来。 直方图的一些基本统计量,可以对数据有个初步 的了解。 直方图可以直观的反映采样数据分布特征、总体 规律,可以用来检验数据分布和寻找数据离群值。
一 基本统计量
集中趋势 描述数据特征 的统计量 基 本 统 计 量 其他统计量 离散程度
平均数
中位数 众数 分位数 偏度 极差
离差
平均离差 离差平方和 方差 标准差 变异系数
分布特征
峰度 总和 比率 比例
种类
插 值 方 法 的 选 择
从离散样本点 连续表面
模 型 参 数 的 设 置
不同的插值方法
• 如果异常值是由数据输入过程中的错误导致的,那么 在创建表面之前应该进行校正或移除。
通过直方图工具查找异常值
他指标(例如导电率),以便研究它们与作物产量的关 系和规定田间每个位置的精确化肥用量。
气象:温度、雨量和相关的变量(例如酸雨)的预测 公共健康领域:预测环境污染程度及其与癌症发病率
的关系。
探索性空间数据分析
采用探索性空间数据分析工具来研究 喀尔巴阡山中监测站处获取的臭氧测量值的属性 地统计分析用于研究区域中已测量的采样点为同一区域 内其他未测量位置创建准确预测。探索性空间数据分析工具 用于评估数据的统计属性,比如空间数据变异性、空间数据 相关性和全局趋势。
半变异函数和协方差函数将邻近事物比远处事 物更相似这一假设加以量化。 半变异函数和协方差都将统计相关性的强度作 为距离函数来测量。 对半变异函数和协方差函数建模的过程就是半 变异函数或协方差曲线与经验数据拟合。目标是 达到最佳拟合,并将对现象的认知纳入模型,使 模型便可用于预测。
半变异函数
模型参数设置 • 有多少样本点参与到计算中来? • 每个样本点的权重是相同的吗? • 选择什么函数来模拟表面? • ……
了解数据开始 探索性空间数据分析 Explore Spatial Data Analysis
主要内容
一 二 三 四 五 基本统计量 探索性空间数据分析 地统计分析 克里金插值方法 应用案例
标识的是差异
典型半变异函数的解析图
协方差函数
协方差函数定义为
C(si, sj) = cov(Z(si), Z(sj)), 其中 cov 是协方差。 当两个位置si 和 sj 彼此相近时,希望这两个位 置相似,而它们的协方差(相关性)会变大。 当 si 和 sj 距离逐渐增大时,它们变得越来越不 相似,并且它们的协方差会变为零。
探索性数据分析:趋势分析
识别数据中的全局趋势
如果在数据中存在趋势,则该趋势就是可以通过数学 公式表示非随机(确定性)组成部分。如:通过平面 表示一个平缓的山坡。山谷可以使用二阶多项式通过 创建 U 形来表示出来。 将局部变化添加到表面。使用其中某个平滑函数为趋 势建模,从数据中移除趋势,通过为残差(移除趋势后 的剩余部分)建模继续进行分析。为残差建模时,将 分析表面中的局部变化。 通过“趋势分析”工具可以识别输入数据集中存在的/ 不存在的趋势,并且可以识别出最佳拟合此趋势的多 项式阶数。
半变异函数定义为
γ(si,sj) = ½ var(Z(si) - Z(sj)), 其中 var 是方差。
如果两个位置 si 和 sj,在 d(si, sj) 的距离测量上彼 此相近,那么会希望这两个位置相似,以便缩小两 个位置的差值 Z(si) - Z(sj) 的大小。 当 si 和 sj 距离逐渐增大时,它们变得越来越不相 似,它们的值 Z(si) - Z(sj) 的差异也会增大。
表面预测和误差建模
地统计工具可生成各种类型的地图图层,包括预 测图、分位图、概率图、预测标准误差图。
白俄罗斯放射铯土壤污染级别的预测图
阈值制图
概率图来预测值超过临界阈值的位置。
暗橙色和红色显示的位置表示概率大于 62.5%,此处放射性铯 污染超过森林浆果中最大允许级别(临界阈值)。
模型验证和诊断
在半变异函数图中,相互之间最接近的位置应该具有较小 的半变异函数值。随着位置对之间的距离增加,半变异函 数值也应该增加。但当到达某个距离时云会变平,这表示 相互间的距离大于此距离的点对的值不再相关。
观察半变异函数图,如果出现某些非常接近的数据位 置(在 x 轴上接近零)却具有高于预期的半变异函数 值(在 y 轴上的高值),则应该调查这些位置对,看 一下是否存在不准确的数据。
将输入数据拆分成两个 子集。用数据的第一个子集 开发预测的模型。然后使用 “验证”工具,比较预测值 和其余位置的已知值。
预测伊利诺斯州农场的有机物
协同克里金法的表面预测
探索臭氧(主变量)和二氧化氮(二级变量)之间的空间相关性。在 绘制臭氧地图时,协同克里金法可使用二氧化氮数据改进预测。
第七章 空间数据的统计分析方法
标识的是相关性
典型协方差函数的解析图
半变异函数和协方差函数之间的关系
在半变异函数和协方差函数关系: γ(si, sj) = sill - C(si, sj), Sill为基台,使用两种函数中的任一种来执行预 测,一般采用半变异函数。
典型半变异函数的解析图
典型协方差函数的解析图
了解半变异函数:变程、基台和块金
直方图
变换
对数变换
探索性数据分析:QQplot图
正态QQPlot分布图(Normal Quantile-quantile Plot) 评估具有n个值的单变量样本数据是否服从正态分布
① 对采样值进行排序; ② 计算出每个排序后的数 据的累积值(i-0.5)/n; ③ 绘制累积值分布图;
④在累积值之间使用线性内 插技术,构建一个与其具有 相同累积分布的理论正态分 布图,求对应的正态分布值; 标准正态分布(平均值为 0 标准方差为 1 的高斯分布
将数据分为若干 区间,统计每个区 间内的要素个数 给出一组统计量 检验数据是否符 合正态分布以及发 现离群值
直方图
频率分布
汇总统计数据
用条形图表示,显示 了观察值位于特定区 间或组之内的频率。
通过描述统计数据位 置、离散度和形状的 统计量来概括数据
探索性数据分析:直方图
作为一种快速检查手段,如果平均值和中值近 似相同,则初步证明数据可能呈正态分布。 该臭氧数据直方图表示数据为单峰(一个高峰) 并且向右偏移。分布图的右侧尾部表示存在的 采样点相对较少但臭氧浓度值较高。该数据不 接近于正态分布。
检查局部变化
Voronoi 地图是由围绕采样点的位置形 成的一系列多边形所构成的地图。
通过采用红色和蓝色多边形中采样点的”值”来计算 局部值。 然后将此局部值指定给红色多边形。 将针对所有多边形及其相邻点重复此过程,并以色带 的形式显示计算结果,以区分具有高局部值和低局部 值的区域。
探索性数据分析-半变异函数/协方差云