第10章 空间统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各个级别的数值范围来实现分级的方法。
不同分级体系下坡度的分级结果
2 模式分级
按固定模式进行分级,级差由特定的算法自动设定。
(1)等间距分级 (2)分位数分级 (3)等面积分级 (4)标准差分级 (5)自然裂点法分级 (6)其他分级方法
(1)等间距分级 按某个恒定间隔来对数据进行分级。 间距D=(最大值-最小值)÷分级数
(一)基本分析工具
1 直方图 2 QQplot分布图 3 变异函数 4 Voronoi图
1 直方图
对采样数据按一定的分级方案进行分级,统计采样点落入 各个级别中的个数,并通过条带图或柱状图表现出来。
2 QQplot分布图
(1) 正态QQPlot分布图
用来评估单变量样本数据是否服从正态分布。
河南省18个地级市2010年人均GDP Q-Q图
当Z值为负且显著时,表明存在负的空间自相 关,相似的观测值趋于分散分布;
当Z值为零时,观测值呈独立随机分布。
(2) Geary 系数C
基于相关位置间的数字差分:
n n
n 1
wij xi x j 2
C
i1 j1
nn
n
2 wij xi x2
i1 j1
自然裂点法分级结果
(6)其他分级方法
*有规律的不等间距分级 *按嵌套平均值分级 *按面积正态分布分级
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
四 空间插值
*由点→面,涉及到3方面问题: ① 内插点邻域范围的确定 ② 权值确定方法 ③ 内插函数的选择
(三)寻找数据离群值
数据离群值分为全局离群值和局部离群值 两大类。全局离群值是指对于数据集中所有点 来讲,具有很高或很低的值的观测样点。局部 离群值值对于整个数据集来讲,观测样点的值 处于正常范围,但与其相邻测量点比较,它又 偏高或偏低。
用直方图查找离群值
离群值在直方图上表现为孤立存在或被一群显著不同 的值包围。
w11 w12 w1n
W w21
w22
w2n
wn1
wn2
wnn
式中:Wij表示区域i与j的临近关系,它可以根据邻 接标准或距离标准来度量。
(1) 简单的二进制邻接矩阵
1 当区域i和j相邻接
wij 0
其他
123 456 789
车的行走方式
123 456 789
二 探索性数据分析
Exploratory Data Analysis—EDA
对样本数据性质的研究,没有先验的理论 假设,通过对数据全面深入分析来了解其在空 间分布、空间结构以及空间相互影响方面的特 征。
二 探索性数据分析
(一)基本分析工具 (二)检验数据分布 (三)寻找数据离群值 (四)全局趋势分析 (五)空间自相关分析
基于的思想:分而治之
分块单元常用的内插数函数
1 线性内插 2 双线性内插 3 样条函数 4 克里格插值法
分块内插
能够较好地保留变量变化细节,并通过 块间一定重叠范围保持内插曲面的连续 性。分块内插方法的一个主要问题是分 块大小的确定。
(三)逐点内插法
*逐点内插法:以内插点为中心,确定一个邻域
范围,用落在邻域范围内的采样点计算内插点的;
(一) 分级的概念与目的
概念: 根据一定的方法或标准把数据分
成不同的级别。 目的:
区分数据集中个体的差别。
(二) 分级的原则
*科学性原则 *完整性原则 *适用性原则 *美观性原则
(三)分级统计的方法
*单一分级法和复合分级法 *等值分级法和不等值分级法 *自定义分级法和模式分级法
1 自定义分级—根据自己的应用目的设定
wij xi x x j x
I i1 j1
nn
n
wij xi x 2
i1 j1
i 1
nn
wij (xi x)(xj x)
i1 j1
nn
S 2
wij
i1 j1
nn
wij zi z j
i1 j1 nn wij i1 j1
Voronoi图的特点: 1 组成多边形的边总是与两相邻样点的连线垂直;
2 多边形内的任意位置总是离该多边形内样点的距 离最近,离相邻多边形内样点距离远;
3 每个多边形内包含且仅包含一个样点。
简化(simple) Voronoi图 熵(entropy) Voronoi图
(二)检验数据分布
在地统计分析中,克里格方法是建立在平 稳假设的基础上,这种假设在一定程度上要求 所有数据值具有相同的变异性。另外,一些克 里格插值都假设数据服从正态分布。如果数据 不服从正态分布,需要进行一定的数据变换, 从而使其服从正态分布。因此,检验数据分布 特征,了解和认识数据具有非常重要的意义。
四 空间插值
(一)整体内插 (二)局部分块内插 (三)逐点内插法
(一)整体内插
整个区域用一个数学函数来表达变量的空 间变化特征。
河南省人均GDP分布1-4次趋势面
整体内插法
若选取采样点个数较少时,不足以 描述整个变量变化特征,若选用较 多的采样点则内插函数易出现振荡 现象,很难获得稳定解。
(二)局部分块内插
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
一 基本统计量
平均数
集中趋势
中位数 众数
描述数据特征 的统计量
离散程度
分位数 偏度
基
分布特征
本
峰度
统
计
总和
量
比率
其他统计量
比例
种类
极差
离差 平均离差 离差平方和 方差 标准差 变异系数
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
王、后的行走方式
(2) 基于距离的二进制空间权重矩阵
1 j重心位于i重心d距离范围之内
wij 0
其他
3 空间自相关系数
(1) Moran’s I
设研究区域中存在n个面积单元,第i个 单元上的观测值记为xi,观测变量在n个单 元中的均值记为x ,Moran’s I定义为:
n n
n
2 空间权重矩阵(空间接近性矩阵)
基于“距离”的空间接近性测度就是使用面 积单元之间的距离定义接进行。 如何测度任意两个面积单元之间的距离呢?
① 按照面积单元之间是否有邻接关系的邻接法; ② 基于面积单元中心距离的重心距离法。
假设研究区有n个多边形,任何两个多边形都存 在一个空间关系,这样就有n×n对关系,需要n×n的 矩阵存储这n个单元之间的空间关系。
*逐点内插本质上是局部内插,但与局部分块内
插有所不同;
*逐点内插法的邻域范围大小、形状、位置乃至
采样点个数随内插点的位置而变动,又称为移动 曲面法。
逐点内插法的基本步骤为:
1 定义内插点的邻域范围; 2 确定落在邻域内的采样点; 3 选定内插数学模型; 4 通过邻域内的采样点和内插模型计算内
插点的值;
(2)普通QQPlot 分布图 (General QQPlot)
用来评估两个数据集的分布的相似性。
河南省18个地级市2010年人均GDP与第三产业比值 普通Q-Q图
3 变异函数
r(h) 1 N(h)
N (h) i1
2
z(xi ) z(xi h)
3 变异函数
r(h)
۰ ۰۰ ۰۰
首先要保证数据的分布具有正态分布的规律, 才可计算平均值和标准差,然后根据数据波 动情况划分等级。
1倍标准差分级结果
1/2倍标准差分级结果
(5)自然裂点法分级
基于让各级别中的变异总和达到最小的原 则来选择分级断点的。
任何统计数列都存在一些自然转折点、特征 点,用这些点可以把研究的对象分成性质 相似的群组。
我们在分析某变量的空间分布模式时,实际 上是在测度空间自相关程度或者说空间依赖程度。
空间自相关是指属性值在空间上相关是由要 素的地理位置造成的。
空间自相关是根据位置相似性和属性相 似性的匹配情况来测度的。
位置的相似性可以通过空间接近性矩阵(或 权重矩阵)W来描述;
属性的相似性一般通过交叉乘积xixj,或平方 差异(xi-xj)2,或绝对差异│xi-xj│来描述。
逐点内插
计算简单,比较灵活,主要问题是内 插点邻域的确定,它不仅影响到内插 精度,也影响到内插速度。
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
五 空间回归分析
空间回归在经典的统计回归分析中考虑 了空间的自相关性,这种模型在20世纪 70年代后期开始出现并逐步成熟。
用半变异函数云图识别离群值
如果数据集中有一个异常高值的离群值,则与这 个离群值形成的样点对,无论距离远近,在半变异/ 协方差函数云图中都具有很高的值。
用Voronoi图查找局部离群值
熵(entropy) Voronoi图
聚类(cluster) Voronoi图
(四)全局趋势分析
空间趋势反映了空间物体在空间区域上变化的主 体特征,它主要揭示了空间物体的总体规律,而 忽略局部的变异。
i 1
0≤C≤2 C>1表示负相关, C=1表示不相关, C<1表示正相关。
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
三 分级统计分析
把数据划分成不同的级别,体现 数据自身的特征,为应用研究及专题 制图提供基础。
三 分级统计分析
(一)分级的概念与目的 (二)分级的原则 (三)分级统计的方法
聚集模式
分散模式
随机模式
真实世界中的大部分模式都介于随机与分散 模式或随机与聚集模式之间,极少能遇到极端聚 集、极端分散或极端随机的模式。
既然现实模式很难轻易归入聚集、分散或 随机型,那么我们就要考虑某一给定的空间模 式与这三种模式中的某一种到底有多接近?如 果它接近其中的一种模式,那么这种接近到底 是有偶然因素还是系统过程造成的?
-1≤ I ≤1
1表示极强的正空间自相关,-1表示极强的 负空间自相关。
对于Moran指数,可以用标准化统计量Z来检 验n个区域是否存在空间自相关关系,Z的计算公 式为:
Z I E(I) VAR(I )
当Z值为正且显著时,表明存在正的空间自相 关,也就是说相似的观测值(高值或低值)趋于空间 集聚;
块金C0 0
变程α
۰ ۰ ۰۰ ۰
基台C0+C h
变异函数图
4 Voronoi图
由俄国数学家M.G.Voronoi 于1908年发现并以他 的名字命名的。
又称泰森多边形。
思考题:
中央电视台天气预报,那个省会 城市的天气情况与你家乡最接近?
Voronoi图的定义:
平面n个离散点,把平面分成n个区,每个 区包括一个点,该点所在的区是到该点 距离最近的点的集合。
等间距分级结果
(2)分位数分级
把数列划分为相等个数的分段。
先将数列按大小排列,从一端开始计算其 分位数,把处于分位数上的那个值作为分级 值。
分位数分级可以使每一级别的数据个数接近 一致,往往能产生较好的制图效果。
分位数分级结果
(3)等面积分级
等面积分级结果
(4)标准差分级
标准差可以反映各数据间的离散程度。
趋势面分析是根据空间抽样数据,拟合一个数学 曲面,用该数学曲面来反映空间分布的变化情况。
趋势分析透视图
(五)空间自相关分析
1 空间分布模式 2 空间权重矩阵 3 空间自相关系数
1 空间分布模式
可以划分为聚集模式(clustered pattern)、分散模 式(dispersed pattern)和随机模式(random pattern) 三类。
第10章 空间统计分析
空间统计分析,即空间数据的统计分析, 通过空间位置建立数据间的统计关系。
空间统计分析含义: “空间数据的统计分析”
着重于空间物体和现象的非空间特性的统计分析,研 究如何以数学统计模型来描述和模拟空间现象和过程。
“数据的空间统计分析”
直接从空间物体的空间位置、联系等方面出发,研究 既具有随机性和结构性,或具有空间相关性和依赖性 的自然现象。
1. 空间统计学产生的原因?
大多数经典统计学分析要求样本相 互独立,而空间数据间并非完全独 立,而是存在依赖性。
2 空间统计分析的目的?
描述事物在空间上的分布特征(随机的、 聚集的或规则的)。
分析数据的空间自相关性,空间自相关 性对空间格局的影响ห้องสมุดไป่ตู้如何利用这种关 系构建模型
本章主要内容:
不同分级体系下坡度的分级结果
2 模式分级
按固定模式进行分级,级差由特定的算法自动设定。
(1)等间距分级 (2)分位数分级 (3)等面积分级 (4)标准差分级 (5)自然裂点法分级 (6)其他分级方法
(1)等间距分级 按某个恒定间隔来对数据进行分级。 间距D=(最大值-最小值)÷分级数
(一)基本分析工具
1 直方图 2 QQplot分布图 3 变异函数 4 Voronoi图
1 直方图
对采样数据按一定的分级方案进行分级,统计采样点落入 各个级别中的个数,并通过条带图或柱状图表现出来。
2 QQplot分布图
(1) 正态QQPlot分布图
用来评估单变量样本数据是否服从正态分布。
河南省18个地级市2010年人均GDP Q-Q图
当Z值为负且显著时,表明存在负的空间自相 关,相似的观测值趋于分散分布;
当Z值为零时,观测值呈独立随机分布。
(2) Geary 系数C
基于相关位置间的数字差分:
n n
n 1
wij xi x j 2
C
i1 j1
nn
n
2 wij xi x2
i1 j1
自然裂点法分级结果
(6)其他分级方法
*有规律的不等间距分级 *按嵌套平均值分级 *按面积正态分布分级
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
四 空间插值
*由点→面,涉及到3方面问题: ① 内插点邻域范围的确定 ② 权值确定方法 ③ 内插函数的选择
(三)寻找数据离群值
数据离群值分为全局离群值和局部离群值 两大类。全局离群值是指对于数据集中所有点 来讲,具有很高或很低的值的观测样点。局部 离群值值对于整个数据集来讲,观测样点的值 处于正常范围,但与其相邻测量点比较,它又 偏高或偏低。
用直方图查找离群值
离群值在直方图上表现为孤立存在或被一群显著不同 的值包围。
w11 w12 w1n
W w21
w22
w2n
wn1
wn2
wnn
式中:Wij表示区域i与j的临近关系,它可以根据邻 接标准或距离标准来度量。
(1) 简单的二进制邻接矩阵
1 当区域i和j相邻接
wij 0
其他
123 456 789
车的行走方式
123 456 789
二 探索性数据分析
Exploratory Data Analysis—EDA
对样本数据性质的研究,没有先验的理论 假设,通过对数据全面深入分析来了解其在空 间分布、空间结构以及空间相互影响方面的特 征。
二 探索性数据分析
(一)基本分析工具 (二)检验数据分布 (三)寻找数据离群值 (四)全局趋势分析 (五)空间自相关分析
基于的思想:分而治之
分块单元常用的内插数函数
1 线性内插 2 双线性内插 3 样条函数 4 克里格插值法
分块内插
能够较好地保留变量变化细节,并通过 块间一定重叠范围保持内插曲面的连续 性。分块内插方法的一个主要问题是分 块大小的确定。
(三)逐点内插法
*逐点内插法:以内插点为中心,确定一个邻域
范围,用落在邻域范围内的采样点计算内插点的;
(一) 分级的概念与目的
概念: 根据一定的方法或标准把数据分
成不同的级别。 目的:
区分数据集中个体的差别。
(二) 分级的原则
*科学性原则 *完整性原则 *适用性原则 *美观性原则
(三)分级统计的方法
*单一分级法和复合分级法 *等值分级法和不等值分级法 *自定义分级法和模式分级法
1 自定义分级—根据自己的应用目的设定
wij xi x x j x
I i1 j1
nn
n
wij xi x 2
i1 j1
i 1
nn
wij (xi x)(xj x)
i1 j1
nn
S 2
wij
i1 j1
nn
wij zi z j
i1 j1 nn wij i1 j1
Voronoi图的特点: 1 组成多边形的边总是与两相邻样点的连线垂直;
2 多边形内的任意位置总是离该多边形内样点的距 离最近,离相邻多边形内样点距离远;
3 每个多边形内包含且仅包含一个样点。
简化(simple) Voronoi图 熵(entropy) Voronoi图
(二)检验数据分布
在地统计分析中,克里格方法是建立在平 稳假设的基础上,这种假设在一定程度上要求 所有数据值具有相同的变异性。另外,一些克 里格插值都假设数据服从正态分布。如果数据 不服从正态分布,需要进行一定的数据变换, 从而使其服从正态分布。因此,检验数据分布 特征,了解和认识数据具有非常重要的意义。
四 空间插值
(一)整体内插 (二)局部分块内插 (三)逐点内插法
(一)整体内插
整个区域用一个数学函数来表达变量的空 间变化特征。
河南省人均GDP分布1-4次趋势面
整体内插法
若选取采样点个数较少时,不足以 描述整个变量变化特征,若选用较 多的采样点则内插函数易出现振荡 现象,很难获得稳定解。
(二)局部分块内插
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
一 基本统计量
平均数
集中趋势
中位数 众数
描述数据特征 的统计量
离散程度
分位数 偏度
基
分布特征
本
峰度
统
计
总和
量
比率
其他统计量
比例
种类
极差
离差 平均离差 离差平方和 方差 标准差 变异系数
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
王、后的行走方式
(2) 基于距离的二进制空间权重矩阵
1 j重心位于i重心d距离范围之内
wij 0
其他
3 空间自相关系数
(1) Moran’s I
设研究区域中存在n个面积单元,第i个 单元上的观测值记为xi,观测变量在n个单 元中的均值记为x ,Moran’s I定义为:
n n
n
2 空间权重矩阵(空间接近性矩阵)
基于“距离”的空间接近性测度就是使用面 积单元之间的距离定义接进行。 如何测度任意两个面积单元之间的距离呢?
① 按照面积单元之间是否有邻接关系的邻接法; ② 基于面积单元中心距离的重心距离法。
假设研究区有n个多边形,任何两个多边形都存 在一个空间关系,这样就有n×n对关系,需要n×n的 矩阵存储这n个单元之间的空间关系。
*逐点内插本质上是局部内插,但与局部分块内
插有所不同;
*逐点内插法的邻域范围大小、形状、位置乃至
采样点个数随内插点的位置而变动,又称为移动 曲面法。
逐点内插法的基本步骤为:
1 定义内插点的邻域范围; 2 确定落在邻域内的采样点; 3 选定内插数学模型; 4 通过邻域内的采样点和内插模型计算内
插点的值;
(2)普通QQPlot 分布图 (General QQPlot)
用来评估两个数据集的分布的相似性。
河南省18个地级市2010年人均GDP与第三产业比值 普通Q-Q图
3 变异函数
r(h) 1 N(h)
N (h) i1
2
z(xi ) z(xi h)
3 变异函数
r(h)
۰ ۰۰ ۰۰
首先要保证数据的分布具有正态分布的规律, 才可计算平均值和标准差,然后根据数据波 动情况划分等级。
1倍标准差分级结果
1/2倍标准差分级结果
(5)自然裂点法分级
基于让各级别中的变异总和达到最小的原 则来选择分级断点的。
任何统计数列都存在一些自然转折点、特征 点,用这些点可以把研究的对象分成性质 相似的群组。
我们在分析某变量的空间分布模式时,实际 上是在测度空间自相关程度或者说空间依赖程度。
空间自相关是指属性值在空间上相关是由要 素的地理位置造成的。
空间自相关是根据位置相似性和属性相 似性的匹配情况来测度的。
位置的相似性可以通过空间接近性矩阵(或 权重矩阵)W来描述;
属性的相似性一般通过交叉乘积xixj,或平方 差异(xi-xj)2,或绝对差异│xi-xj│来描述。
逐点内插
计算简单,比较灵活,主要问题是内 插点邻域的确定,它不仅影响到内插 精度,也影响到内插速度。
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
五 空间回归分析
空间回归在经典的统计回归分析中考虑 了空间的自相关性,这种模型在20世纪 70年代后期开始出现并逐步成熟。
用半变异函数云图识别离群值
如果数据集中有一个异常高值的离群值,则与这 个离群值形成的样点对,无论距离远近,在半变异/ 协方差函数云图中都具有很高的值。
用Voronoi图查找局部离群值
熵(entropy) Voronoi图
聚类(cluster) Voronoi图
(四)全局趋势分析
空间趋势反映了空间物体在空间区域上变化的主 体特征,它主要揭示了空间物体的总体规律,而 忽略局部的变异。
i 1
0≤C≤2 C>1表示负相关, C=1表示不相关, C<1表示正相关。
本章主要内容:
一 基本统计量 二 探索性数据分析 三 分级统计分析 四 空间插值 五 空间回归分析
三 分级统计分析
把数据划分成不同的级别,体现 数据自身的特征,为应用研究及专题 制图提供基础。
三 分级统计分析
(一)分级的概念与目的 (二)分级的原则 (三)分级统计的方法
聚集模式
分散模式
随机模式
真实世界中的大部分模式都介于随机与分散 模式或随机与聚集模式之间,极少能遇到极端聚 集、极端分散或极端随机的模式。
既然现实模式很难轻易归入聚集、分散或 随机型,那么我们就要考虑某一给定的空间模 式与这三种模式中的某一种到底有多接近?如 果它接近其中的一种模式,那么这种接近到底 是有偶然因素还是系统过程造成的?
-1≤ I ≤1
1表示极强的正空间自相关,-1表示极强的 负空间自相关。
对于Moran指数,可以用标准化统计量Z来检 验n个区域是否存在空间自相关关系,Z的计算公 式为:
Z I E(I) VAR(I )
当Z值为正且显著时,表明存在正的空间自相 关,也就是说相似的观测值(高值或低值)趋于空间 集聚;
块金C0 0
变程α
۰ ۰ ۰۰ ۰
基台C0+C h
变异函数图
4 Voronoi图
由俄国数学家M.G.Voronoi 于1908年发现并以他 的名字命名的。
又称泰森多边形。
思考题:
中央电视台天气预报,那个省会 城市的天气情况与你家乡最接近?
Voronoi图的定义:
平面n个离散点,把平面分成n个区,每个 区包括一个点,该点所在的区是到该点 距离最近的点的集合。
等间距分级结果
(2)分位数分级
把数列划分为相等个数的分段。
先将数列按大小排列,从一端开始计算其 分位数,把处于分位数上的那个值作为分级 值。
分位数分级可以使每一级别的数据个数接近 一致,往往能产生较好的制图效果。
分位数分级结果
(3)等面积分级
等面积分级结果
(4)标准差分级
标准差可以反映各数据间的离散程度。
趋势面分析是根据空间抽样数据,拟合一个数学 曲面,用该数学曲面来反映空间分布的变化情况。
趋势分析透视图
(五)空间自相关分析
1 空间分布模式 2 空间权重矩阵 3 空间自相关系数
1 空间分布模式
可以划分为聚集模式(clustered pattern)、分散模 式(dispersed pattern)和随机模式(random pattern) 三类。
第10章 空间统计分析
空间统计分析,即空间数据的统计分析, 通过空间位置建立数据间的统计关系。
空间统计分析含义: “空间数据的统计分析”
着重于空间物体和现象的非空间特性的统计分析,研 究如何以数学统计模型来描述和模拟空间现象和过程。
“数据的空间统计分析”
直接从空间物体的空间位置、联系等方面出发,研究 既具有随机性和结构性,或具有空间相关性和依赖性 的自然现象。
1. 空间统计学产生的原因?
大多数经典统计学分析要求样本相 互独立,而空间数据间并非完全独 立,而是存在依赖性。
2 空间统计分析的目的?
描述事物在空间上的分布特征(随机的、 聚集的或规则的)。
分析数据的空间自相关性,空间自相关 性对空间格局的影响ห้องสมุดไป่ตู้如何利用这种关 系构建模型
本章主要内容: