探索性空间数据分析

合集下载

空间统计方法概述

空间统计方法概述空间计量探索性空间分析截面数据空间计量模型地理加权回归模型空间面板计量模型一、探索性空间分析：1.探索性空间分析步骤1）对空间单元进行配对和采样，建立起空间权重矩阵。

2）计算空间自相关系数，包括全域空间自相关系数、局域空间自相关系数。

3）空间自相关系数的显著性检验。

2.空间权重矩阵1）空间权重矩阵是一种与被解释变量及被解释变量的空间自回归过程相联系的矩阵，用符号W表示。

2）空间权重矩阵的设定可依据观测对象的地理空间关联或者经济联系来设定权值，W ij衡量地理联系的方法通常有邻近标准和距离标准，按照此种方法确定的W ij为二进制的邻近空间权值矩阵，表示其中的任一元素，采用邻近标准或距离标准。

3）邻近空间矩阵相关概念分为一阶邻近和高阶邻近，在一阶邻近中，当两个地区有共同边界时才会发生空间关联，用1表示，否则用0表示。

邻近规则有线性相邻、车相邻、象相邻、和王后相邻。

邻近空间矩阵对称且计算简单，适用于测算地理空间效应的影响。

4）距离空间矩阵相关概念此方法是假定空间相互作用的强度是决定于地区间的质心距离或者区域行政中心所在地之间的距离。

不同的权值指标随着距离d ij的定义而变化，其取值取决于选定的函数形式，有距离的倒数或倒数的平方、欧式距离等。

空间自相关测度点数据基于密度的方法样方计数法核密度估计基于距离的方法最近邻指数、G-函数、F-函数K-函数、M-函数面数据全局H指数、Moran’s IGeary C、广义G统计量局域局部Moran’s I、局部Geary C局部G统计量、Moran散点图3.空间数据1）空间数据的特征A．观测对象并不独立，所以具有空间依赖性。

B．空间异质性，表示数据的不平稳性。

C．可塑面积单元问题，表示因面积单元的定义不同而导致数据分析结果的不同。

D．空间数据的不确定性，来源于测量上、数据表示方法上、数据分析方法上的不确定性。

2）点数据点数据是零维的，可以是单独对象目标的抽象表达，也可以是地理单元的抽象表达。

数据分析中的数据探索

数据分析中的数据探索数据分析中的数据探索是指通过对数据集进行初步的探索和分析，以了解数据的特征、关系和趋势，为后续的数据分析和决策提供基础。

在数据分析过程中，数据探索是非常重要的一步，它可以匡助我们发现数据中的规律、异常和潜在的问题，为我们提供更深入的理解和洞察。

数据探索的目标是通过对数据进行可视化和统计分析，揭示数据的内在规律和特点。

下面将介绍数据探索的一些常用方法和技术。

1. 数据质量检查在进行数据探索之前，首先需要对数据进行质量检查，确保数据的完整性、准确性和一致性。

可以检查数据是否存在缺失值、异常值和重复值，并进行相应的处理和清洗。

2. 描述性统计分析描述性统计分析是数据探索的基础，通过计算数据的均值、中位数、标准差、最大值、最小值等统计指标，可以对数据的分布和变异性进行描述。

此外，还可以使用频率分布表、直方图、箱线图等图表来展示数据的分布情况。

3. 数据可视化数据可视化是数据探索的重要手段，通过图表和图形的方式展示数据，可以更直观地理解数据的特征和趋势。

常用的数据可视化方法包括折线图、柱状图、散点图、饼图、热力图等，可以根据数据的类型和目的选择合适的图表进行展示。

4. 相关性分析相关性分析可以匡助我们了解数据之间的关系和相互影响程度。

通过计算相关系数（如皮尔逊相关系数）或者绘制散点图，可以判断两个变量之间的线性相关性。

此外，还可以使用热力图来展示多个变量之间的相关性。

5. 探索性数据分析（EDA）探索性数据分析是一种通过可视化和统计分析来发现数据中的模式和结构的方法。

它主要包括单变量分析、双变量分析和多变量分析。

通过对数据的分布、关系和组合进行探索，可以发现数据中的规律和趋势，并提供有关数据的初步结论和假设。

6. 时间序列分析时间序列分析是一种专门用于研究时间序列数据的方法，它可以揭示数据随时间变化的趋势、周期性和季节性。

通过绘制时间序列图、计算挪移平均值和指数平滑值等，可以对时间序列数据进行分析和预测。

探索性空间数据分析

• 地统计核心：根据样本点来确定研究对象（某一变量）随空间位置变化的规律，以此来推算未知点的值。这个规律就是变异函数。
地统计方法
• 变异函数
基台值：反映最大变异情况，越高表明空间异质性越高；变程：空间相关性的作用范围，超出变程则空间相关性不存在；块金值：反映随机变化，受不确定性因素影响部分。
60.37 55.
地统计方法
表4 预测点（1，4）的g向量计算结果
(1,5) (3,4) (1,3) (4,5) (5,1)
距离 1 2 1
3.162 5
g向量 13.5 27 13.5 42.69 67.5
1
(1.5) (3,4) (1,3) (4,5) (5,1) (1,4)
• 直方图 • Normal QQ Plot • 趋势分析 • Voronoi Map • 半变异/协方差云图 • General QQ Plot • 正交协方差云图
直方图
• 将数据分为若干区间，统计每个区间内的要素个数
• 给出一组统计量 • 检验数据是否符合
正态分布以及发现离群值
Normal QQ Plot
感谢聆听! 请关注培训中心更多精彩讲座
表1 半变异值计算结果
半变异值 12.5 12.5 0 112.5 0 12.5 112.5 12.5 50 112.5
距离计算 Sqrt[(1-3)2+(5-4)2] Sqrt[(1-1)2+(5-3)2] Sqrt[(1-4)2+(5-5)2] Sqrt[(1-5)2+(5-1)2] Sqrt[(3-1)2+(4-3)2] Sqrt[(3-4)2+(4-5)2] Sqrt[(3-5)2+(4-1)2] Sqrt[(1-4)2+(3-5)2] Sqrt[(1-5)2+(3-1)2] Sqrt[(4-5)2+(5-1)2]

上海中心城区农行网点的探索性空间数据分析

Ａｂｔａｔｎｏｄｒｔｘｌｒｈｅａｉｎｈｐｂｔｅｐｔｌｓｒｃ：Ｉｒｅｏｅｐｏｅｔｅｒｌｔｓｉｅｗｅｎｓａｉｏａｅｅｏｅｅｔｈｔｒｇｎｉｏｍｉｒｌｃｔｎｌｆｃｏｓａｄｆｎｎｉｌｙｆｃｏｏａｉａａｔｒｎｉａｃａｏ
政府干预以及市场力量的综合作用下所形成的．关键词：银行网点；ＥＤ；集聚；Ｐ神经网络ＳＡＢ
中图分类号：０Ｆ２７文献标识码：Ａ
集群与空间系统研究＿１从微观层面基于选址、＿；９Ｉ商
圈等理论的银行网点空间布局研究ｌ这些研究更＿１引．
Ｓａｇａ００ｈｎｈｉ２０９２．ｉａ；２．ｉｅｅＡｃｄｍｙｏｃｅｃＣｈｎＣｈｎｓａｅｆＳｉｎｅ＆ＴｅｈｏｌｇｃｎｏｙＭａａｅｎｔＳａｈｉ２０９Ｃｈｎ）ｎｇｍｅ，ｈｎｇａ００２，ｉａ
济模型相对较少的缘故．此外，及微观区位因子的涉考察，多采用的是描述对比与分层叠加模式，进大或
ＭｕｊＡＪｎｉ，Ｕｉｘ。ｔＮａｌｅＪｎｉａｎＺｔＧＭｏｎＡｉ
（．ＣｌｇｏＥｏｏｃａｄ１ｏｌｅｆｃｎｍｉｓｎＭａａｅｎ，Ｔｎｊｎｖｒｉ，ｅｎｇｍｅｔｏｇｉＵｉｅｓｔｙ
实上影响着微观区位效益的空间因子，大多作为则

探索性空间统计分析的原理

探索性空间统计分析的原理
探索性空间统计分析是一种用于研究地理空间数据模式、关联性和变异性的统计方法。

它的原理是基于地理空间数据的特殊性，考虑了空间自相关性和空间依赖性。

探索性空间统计分析的原理如下：
1. 空间自相关性：空间自相关性是指地理空间数据中相邻地区之间存在的相关性。

探索性空间统计分析通过计算地理空间数据点之间的距离，从而测量地理空间数据的自相关性。

2. 空间依赖性：空间依赖性是指地理空间数据的空间位置对于数据观测值的影响。

探索性空间统计分析通过使用空间权重矩阵，考虑了地理空间数据的空间依赖性。

空间权重矩阵描述了地理空间数据点之间的空间关系，可以用于计算空间依赖性的指标。

3. 空间模式：探索性空间统计分析旨在发现地理空间数据中的空间模式。

空间模式是指数据分布中的规律、趋势或聚集特征。

探索性空间统计分析通过分析空间自相关性和空间依赖性，可以检测并描述地理空间数据中的空间模式。

4. 统计指标：探索性空间统计分析使用一系列统计指标来描述地理空间数据的属性特征。

常见的统计指标包括Moran's I指数、Geary's C指数和Getis-Ord
G指数等。

这些指标测量了空间自相关性、空间依赖性和空间聚集程度等属性，有助于揭示地理空间数据的空间模式。

通过探索性空间统计分析，可以有效地发现地理空间数据中的空间模式和关联性，为进一步的地理空间分析提供基础。

探索性数据分析

探索性数据分析探索性数据分析是利用ArcGIS提供的一系列图形工具和适用于数据的插值方法，确定插值统计数据属性、探测数据分布、全局和局部异常值（过大值或过小值）、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。

探索性空间数据分析对于深入了解数据，认识研究对象，从而对与其数据相关的问题做出更好的决策。

一数据分析工具1.刷光（Brushing）与链接（Linking）刷光指在ArcMap数据视图或某个ESDA工具中选取对象，被选择的对象高亮度显示。

链接指在ArcMap数据视图或某个ESDA工具中的选取对象操作。

在所有视图中被选取对象均会执行刷光操作。

如在下面章节将要叙述的探索性数据分析过程中，当某些ESDA工具（如直方图、V oronoi图、QQplot图以及趋势分析）中执行刷光时，ArcMap数据视图中相应的样点均会被高亮度显示。

当在半变异/协方差函数云中刷光时，ArcMap数据视图中相应的样点对及每对之间的连线均被高亮度显示。

反之，当样点对在ArcMap数据视图中被选中，在半变异/协方差函数云中相应的点也将高亮度显示。

2.直方图直方图指对采样数据按一定的分级方案（等间隔分级、标准差分级）进行分级，统计采样点落入各个级别中的个数或占总采样数的百分比，并通过条带图或柱状图表现出来。

直方图可以直观地反映采样数据分布特征、总体规律，可以用来检验数据分布和寻找数据离群值。

在ArcGIS中，可以方便的提取采样点数据的直方图，基本步骤为：1）在ArcMap中加载地统计数据点图层。

2）单击Geostatistical Analyst模块的下拉箭头选择Explore Data并单击Histogram。

3）设置相关参数，生成直方图。

A.Bars：直方图条带个数，也就是分级数。

B.Translation：数据变换方式。

None：对原始采样数据的值不作变换，直接生成直方图。

Log：首先对原始数据取对数，再生成直方图。

探索性空间数据分析

研究生课程探索性空间数据分析杜世宏北京大学遥感与GIS研究所提纲一、地统计基础二、探索性数据分析•地统计（Geostatistics）又称地质统计，是在法国著名统计学家Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。

它是以区域化变量为基础，借助变异函数，研究既具有随机性又具有结构性，或空间相关性和依赖性的自然现象的一门科学。

凡是与空间数据的结构性和随机性，或空间相关性和依赖性，或空间格局与变异有关的研究，并对这些数据进行最优无偏内插估计，或模拟这些数据的离散性、波动性时，皆可应用地统计学的理论与方法。

•地统计学与经典统计学的共同之处在于：它们都是在大量采样的基础上，通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析，确定其空间分布格局与相关关系。

但地统计学区别于经典统计学的最大特点是：地统计学既考虑到样本值的大小，又重视样本空间位置及样本间的距离，弥补了经典统计学忽略空间方位的缺陷。

•地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。

• 1. 前提假设–⑴随机过程。

与经典统计学相同的是，地统计学也是在大量样本的基础上，通过分析样本间的规律，探索其分布规律，并进行预测。

地统计学认为研究区域中的所有样本值都是随机过程的结果，即所有样本值都不是相互独立的，它们是遵循一定的内在规律的。

因此地统计学就是要揭示这种内在规律，并进行预测。

–⑵正态分布。

在统计学分析中，假设大量样本是服从正态分布的，地统计学也不例外。

在获得数据后首先应对数据进行分析，若不符合正态分布的假设，应对数据进行变换，转为符合正态分布的形式，并尽量选取可逆的变换形式。

• 1. 前提假设–（3）平稳性。

对于统计学而言，重复的观点是其理论基础。

统计学认为，从大量重复的观察中可以进行预测和估计，并可以了解估计的变化性和不确定性。

–对于大部分的空间数据而言，平稳性的假设是合理的。

其中包括两种平稳性：•一是均值平稳，即假设均值是不变的并且与位置无关；•另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。

探索性空间统计分析和地统计分析

探索性空间统计分析和地统计分析探索性空间统计分析（Exploratory Spatial Data Analysis，简称ESDA）和地统计分析（Geostatistical Analysis）是两种常用的空间数据分析方法。

它们的目标都是通过统计方法来描述和分析地理现象及其空间分布规律，但在方法和应用上存在一些区别。

首先，探索性空间统计分析是一种通过可视化和统计方法来探索和描述空间数据的分析方法。

它主要关注地理现象的空间分布特征，以及空间相邻性和空间自相关性等空间关联性质。

ESDA通常包括一系列的分析步骤，如制作空间点图、计算空间变量的描述统计指标、绘制空间变量的直方图和箱线图等。

其中最重要的是通过制作空间点图来可视化空间分布特征，以便于进一步分析和解释。

其次，地统计分析是一种基于统计和概率方法来模拟和揭示地理现象的空间变异性的分析方法。

它主要关注地理现象在空间上的变异程度、空间趋势以及随机性等方面。

地统计分析通常基于经验半变异函数，通过计算样点之间的空间自相关性来揭示空间变异性的模式。

在地统计分析中最常用的模型是半变异函数模型，通过拟合半变异函数来估计空间自相关的程度和范围。

此外，地统计分析还可用于插值、空间预测和决策支持等方面的应用。

ESDA和地统计分析在应用上有一些区别。

ESDA更适用于对空间数据进行初步的探索和分析，通过可视化和描述统计的方法来了解空间数据的基本特征和分布规律，进而为后续的分析和建模奠定基础。

而地统计分析则更适合于模拟和预测地理现象的空间变异性，通过拟合空间模型来揭示地理现象的空间趋势和变异程度。

地统计分析较为复杂，需要有一定的空间统计知识和数据处理技巧。

总之，探索性空间统计分析和地统计分析是两种常用的空间数据分析方法，它们通过统计方法来描述和分析地理现象及其空间分布规律。

ESDA 注重空间数据的可视化和描述统计，而地统计分析则注重空间变异性的建模和推断。

两种方法在应用上有所区别，但在实际分析中常常可以相互补充和结合使用，以提高对空间数据的理解和解释能力。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

示其空间关系
Analyzing Patterns
分析模式工具集 • 确定研究区域内的要素聚类、离散或随机分布的
程度
• 全局计算定量分析要素的地理模式 • 用于：
• 更好地了解要素的分布
• 研究区域内要素的聚类或离散程度
• 对比不同要素的分布 • 对比不同时相的要素分布的变化
Average Nearest Neighbor
• 对异常点敏感
入入室室盗盗窃窃案案与与汽汽车车盗盗窃窃案案的的分分布布对对比比
Directional Distribution (Standard Deviational Ellipse)
方向性分布（标准差椭圆）工具
• 提炼要素离散的空间趋势 • 用于：
– 对比不同类别要素的分布 – 对比不同时相的同类要素的分布变化 – 显示出要素离散的方向性趋势
平均最近邻工具
• 计算每一个要素到其最近邻要素的平均距离
• 基于面积
• 分析结果：
最近邻比值 (观测值/期望值)
Ratio = 1 Ratio < 1 Ratio > 1
分布模式
随机聚类离散
Shipwrecks
The Florida Keys
Spatial Autocorrelation (Moran’s I)
发掘地图背后的秘密
——探析ArcGIS空间统计工具
讲座人：王珏 wangjue@
内容提要
• 什么是空间统计学 • 为什么要用空间统计 • 空间统计学基础 • 空间统计工具简介
什么是空间统计学
年收入大于20万的家庭占总数的百分比？
传统的统计学
年收入大于20万的家庭分布在哪些地方？
• 用于：
– 验证可视化分析 – 对比不同类别的要素 – 检查随时间的变迁
Mean Center
平均中心工具
• 计算研究区域的平均xy坐标 • 用于:
– 跟踪分布中心的变化 – 对比不同类别要素的分布中心
地理平均中心
人口加权的平均中心
随时间变迁的人口加权的平均中心
Central Feature
中心要素工具 • 找出位于最中心的要素
– 到其他所有要素的距离和最短的那个要素
• 用于：
– 在已有要素中寻找通达条件最佳的
在哪个小区建一个社区图书馆最佳?
总距离最短
人口加权后，总距离最短
Standard Distance
标准差距离工具 • 衡量要素距离平均中心的离散程度
– 结果以距离的形式简单直观地展现出来
超出范围的要素其影响力随距离递减
距离
距离与面积
• Projected Coordinate System
– 使用以米为单位的坐标系统，不要使用经纬度为单位的坐标系统
•
直线距离
B
D = (X1 - X2)2 + (Y1 - Y2)2
A
曼哈顿距离
A
B
D = |X1 - X2| + |Y1 - Y2|
Spatial Statistics
怀俄明州2000年人口普查结果：人口老龄化程度分析
Hot Spot Analysis (Getis-Ord Gi*)
热点分析
• 指示每个要素被相似的高值或低值包围的程度
– 确定研究区域中哪儿存在高值或低值的聚类
• 对每一个要素计算Z值
• 用于：
– 预防犯罪
加加州州 RRiivveerrssiiddee市市人人口口普普查查结结果果：：人人均均收收入入分分析析
眼见一定为实吗？
哪条线更长？
图片会产生错觉眼睛会欺骗大脑用数字说话才可靠
哪个人更高？
哪个点更大？
为什么要用空间统计（2）
地图不能说明问题吗？
为什么要用空间统计（3）
深入发掘隐藏在数据背后的秘密
空间统计学基础
• 影响分析结果的几个因素 • Z值与p值 • 模拟空间关系 • 距离与面积
空间统计工具简介
• 所有license等级均可使用 • 使用python编写
– 源代码公开 – 鼓励用户利用源代码学习、修
改、扩展、分享这些分析工具
Measuring Geographic Distributions
测量地理分布工具集
• 识别分布特征
– 哪里是中心 – 向中心聚集还是发散 – 分布趋势如何
– 定位目标市场
– 查找流行病的
传染源
总结
• 空间统计：
– 制图和传统数理统计的强化和补充 – 发现数据的空间分布模式、趋势、过程和空间关联 – 对人文、社科、经济类数据做研究分析
• ArcGIS提供了很多有效的空间统计工具
王珏 wangjue@
欢迎关注相关ArcGIS培训课程 /
高低聚类工具 • 衡量研究区域内高值和低值的聚集程度 • 基于用户指定的邻域距离来计算
较较高高的的ZZ值值((正正值值)) == 高高值值聚聚类类较较低低的的ZZ值值((负负值值)) == 低低值值聚聚类类
Mapping Clusters
绘制聚类工具集
• 对比研究聚类的要素和区域，有助于更好地理解为什么会出现聚类
印印度度PPeennnnaatthhuurr村村的的登登革革热热新新增增病病例例分分布布
Linear Directional Mean
线性方向均值工具
• 提炼出所有被分析的线要素的平均角度/方向
• 计算从起点到终点的角度 • 用于：
– 对比多组线要素 – 对比不同时相的线要素 – 计算方向性趋势，更直观地显
影响分析结果的几个因素
空间尺度
研究范围
时间周期
分分析析结结果果
数据的细分程度
第一周第二周第三周
第一年第二年第三年
社区
县市
省
Z值与p值
• 零p值：帮助判断是否能够推翻零假设
|Z|越小，p越大：接受零假设 |Z|越大，p越小：拒绝零假设
拒绝域的临界值，由置信水平决定
空间自相关工具
• 衡量要素的相似性
– 距离越近的事物越容易具有相似的特征
• 既考虑空间位置，又考虑属性值
可可乐乐的的销销售售量量是是否否有有空空间间自自相相关关??
Moran’s I
模式
I>0
相似的值呈聚类分布
随机分布， I = 0 无显著的模
式
离散的高值 I < 0 和低值错落
分布
High/Low Clustering (Getis-Ord General G)
拒绝
接受
拒绝
模拟空间关系
反距离/反距离平方
影响力
所有要素都对目标要素产生影响
距离越远，影响越小
固定距离段
距离影响力
只有指定距离之内的要素对目标要素产生影响
影响范围内的所有要素，影响力相同
距离
无差异带
影响
力
反距离与固定距离段的综合
指定范围之内的要素具有相同的影响力，
• 展示研究区域内的聚类或离散区域 • 局部计算
– 计算每一个要素 – 展示出研究区域内的差异
• 用于：
– 定位目标市场 – 预防犯罪
Cluster and Outlier Analysis (Anselin Local Moran’s I)
聚类与离群值分析工具 • 强调研究区域内要素值的特殊性 • 帮助发现数据中的离群值 • 计算结果为Moran’s I索引值和Z值
地图可视化
年收入大于20万的家庭分布有何模式？
分分析析
空间统计学
哪里是高收入人群聚居的热点区域？
空间统计学
什么是空间统计学
• 制图和传统数理统计的强化和补充 • 用于：
– 发现数据的空间分布模式、趋势、过程和空间关联 – 对人文、社科、经济类数据做研究分析
随机分布
聚类分布
离散分布
为什么要用空间统计（1）