空间数据分析模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7 章空间数据分析模型
7.1 空间数据
按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。
点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。
线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的
线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。
面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。
真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如
相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。
在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面
(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。
7.2 空间数据分析
空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。
1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。
2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是
重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。
3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。
4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。
7.3 空间数据分析的一些基本问题
空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域
单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003 )。
7.3.1 空间自相关空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。
如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种:正自相关,负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;负自相关较少见,指的是附近的观察值很可能是彼此不同的;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。
7.3.2 可变区域单位问题空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。
统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题( modifiable areal unit problem ,MAUP)。
如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。这个问题可以参考图7.1 。图中使用了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1 和 1 之间任意变化。
由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。
图7.1 可变区域单位问题
7.3.3 生态学谬误
可变区域单位问题与更一般的统计问题——生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。事实上,对于这样的数据,有效的精确的说法是:低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象,可能有很大的差异:有可能是低收入地区治安很差,夜贼很多;或者是这些地区的人经常酗酒;或者根本就与收入没有关系。重要的是,高层次汇总数据中出现的关系应该在底层汇总数据中重现并得到解释。
这个问题很普遍。如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死刑,枪支控制与关押率,车祸与车速限制等。不幸的是,生态学谬误在学术界也不少见。这个问题经常发生,其根本的原因可能是为了简化解释。事实上,特别在人文地理中,事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是:统计关系会随着汇总层次而发生变化。