空间分析复习重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
空间分析复习重点文件排版存档编号:[UYTR-OUPT28-KBNTL98-UYNN208]
空间分析的概念空间分析:是基于地理对象的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息。包括空间数据操作、空间数据分析、空间统计分析、空间建模。空间数据的类型空间点数据、空间线数据、空间面数据、地统计数据
属性数据的类型名义量、次序量、间隔量、比率量
属性:与空间数据库中一个独立对象(记录)关联的数据项。属性已成为描述一个位置任何可记录特征或性质的术语。
空间统计分析陷阱1)空间自相关:“地理学第一定律”—任何事物都是空间相关的,距离近的空间相关性大。空间自相关破坏了经典统计当中的样本独立性假设。避免空间自相关所用的方法称为空间回归模型。2)可变面元问题MAUP:随面积单元定义的不同而变化的问题,就是可变面元问题。其类型分为:①尺度效应:当空间数据经聚合而改变其单元面积的大小、形状和方向时,分析结果也随之变化的现象。②区划效应:给定尺度下不同的单元组合方式导致分析结果产生变化的现象。3)边界效应:边界效应指分析中由于实体向一个或多个边界近似时出现的误差。
生态谬误在同一粒度或聚合水平上,由于聚合方式的不同或划区方案的不同导致的分析结果的变化。(给定尺度下不同的单元组合方式)
空间数据的性质空间数据与一般的属性数据相比具有特殊的性质如空间相关性,空间异质性,以及有尺度变化等引起的MAUP效应等。一阶效应:大尺度的趋势,描述某个参数的总体变化性;二阶效应:局部效应,描述空间上邻近位置上的数值相互趋同的倾向。
空间依赖性:空间上距离相近的地理事物的相似性比距离远的事物的相似性大。空间异质性:也叫空间非稳定性,意味着功能形式和参数在所研究的区域的不同地方是不一样的,但是在区域的局部,其变化是一致的。
ESDA是在一组数据中寻求重要信息的过程,利用EDA技术,分析人员无须借助于先验理论或假设,直接探索隐藏在数据中的关系、模式和趋势等,获得对问题的理解和相关知识。
常见EDA方法:直方图、茎叶图、箱线图、散点图、平行坐标图
主题地图的数据分类问题等间隔分类;分位数分类:自然分割分类。
空间点模式:根据地理实体或者时间的空间位置研究其分布模式的方法。
茎叶图:单变量、小数据集数据分布的图示方法。
优点是容易制作,让阅览者能很快抓住变量分布形状。缺点是无法指定图形组距,对大型资料不适用。
茎叶图制作方法:①选择适当的数字为茎,通常是起首数字,茎之间的间距相等;②每列标出所有可能叶的数字,叶子按数值大小依次排列;③由第一行数据,在对应的茎之列,顺序记录茎后的一位数字为叶,直到最后一行数据,需排列整齐(叶之间的间隔相等)。
箱线图&五数总结
箱线图也称箱须图需要五个数,称为五数总结:①最小值②下四分位数:Q1③中位数④上四分位数:Q3⑤最大值。分位数差:IQR = Q3 - Q1
3密度估计是一个随机变量概率密度函数的非参数方法。
应用不同带宽生成的100个服从正态分布随机数的核密度估计。
空间点模式:一般来说,点模式分析可以用来描述任何类型的事件数据。因为每一事件都可以抽象化为空间上的一个位置点。
空间模式的三种基本分布:1)随机分布:任何一点在任何一个位置发生的概率相同,某点的存在不影响其它点的分布。又称泊松分布
2)均匀分布:个体间保持一定的距离,每一个点尽量地远离其周围的邻近点。在单位(样方)中个体出现与不出现的概率完全或几乎相等。
3)聚集分布:许多点集中在一个或少数几个区域,大面积的区域没有或仅有少量点。总体中一个或多个点的存在影响其它点在同一取样单位中的出现概率。
点模式的描述:1)一阶效应:事件间的绝对位置具有决定作用,单位面积的事件数量在空间上有比较清楚的变化,如空间上平均值/密度的变化。2)二阶效应:事件间的相对位置和距离具有决定作用,如空间相互作用。
空间点模式分析方法:
1)基于密度的方法:测度一阶效应
①样方分析,包括选取所有点和随机取样法。步骤:a)研究区域中打上网格,建议方格大小为OuadratSize=2A/n A:研究区域面积,n:点的个数。 b)确定每个网格中点的个数。 c)计算均值(Mean)、方差(Var)和方差均值比:VMR=Var/Mean {对于均与分布,方差=0,因此VMR的期望值=0;对于随机分布,方差=均值,因此VMR的期望值=1;对于聚集分布,方差大于均值。因此VME的期望值>1.}
样方分析的缺点:结果依赖于样方的大小和方向;样方分析主要依据点密度,而不是点之间的相互关系,所以不能区别图示的两种情况。
②样方分析的统计检验,包括K-S检验和方差均值比的X2检验。
③核密度估计基本思想:在研究区域内的任一点都有一个密度,而不仅仅是在事件点上。
该密度通过计数一定区域内的事件点数量,或核(Kernel)进行估计。核以估计点为中心,一定距离为半径。
C(s,r)是以点s为圆心、r为半径的圆域,#表示事件S落在圆域C中的数量。
核密度估计(KDE)用途:
a ) 可视化点模式进行热点 (hot spot)探测;
b )离散连续。 如,疾病与污染。
2)基于距离的方法:测度二阶效应
①最近邻距离
计算每个点到其最近邻点之间的距离, 然后计算所有点最近邻距离的平均值。对每一个点,根据其欧几里德距离最小确定其最近邻点。
平均最近邻距离的大小,反映点在空间的分布特征。最近邻距离越小,说明点在空间分布越密集,反之,越离散。
②最近邻距离的方法 G 函数:欧几里德距离
计算G 函数的一般过程:1、计算任一点到其最邻近点的距离d ;2、将所有最邻近距离列表,并按照大小排序;3、计算最邻近距离的变程R 和组距;4、根据组距上线,累计计数点的数量,并计算累计频数;5、画出G (d )关于d 的曲线。 F 函数:与G 函数仅仅基于事件间最近邻距离的频率分布不同,F 函数基于区域内任意位置点与事件间最近邻距离的频率分布。
F 函数计算的三个步骤:随机选择m 个位置{p1, p2, …, pm}; 计算dmin(pi, s) :pi 到点模式S 中的任一事件的最小距离;计算:
K 函数:与G 函数、F 函数只使用事件或点的最近邻距离不同,K 函数基于事件间的所有距离。因此,K 函数不仅能探测空间模式,而且可以给出空间模式和尺度的关系。
定义 2
2)()(),(j i j i j i y y x x s s d -+-=(#())
()d K d λ
=E 距任一事件距离小于的事件