空间数据分析第二章
空间数据分析第二章

空间数据分析第二章2.1地理世界的概念模型与数据模型2.2空间数据的性质2.3空间数据的不确定性2.1 地理世界的概念模型与数据模型空间数据的特殊性质使得很多传统的数据分析方法和技术不能够直接应用于空间数据的分析,大量基于GIS的空间分析技术与传统的数据统计分析技术有着本质的不同,其原因在于这些分析方法和技术是基于空间数据性质的。
2.1.1 地理世界的概念模型--对象和场人类一般以两种观念认识世界,一种认为世界由离散的实体构成,另外一种认为世界是连续的场。
于是,离散的对象和连续的场就构成了表示地理世界的两种基本方式,它提供了概念层次上地理世界的认知模型。
离散实体又称为对象,通过其独特的局部化特征相互区别,并通过其拥有的特定属性的个体被识别。
其重要特征是对象可被计数。
维数是离散实体的显著特征,在离散的世界观中,实体自然地被抽象为点、线和多边形(面)3种类型。
离散对象观将现实世界作为一个能够容纳概念对象、基本对象和复合对象的空间。
在离散对象方法中,空间对象的几何形态及其属性特征共同构成地理信息的完整表示,其属性信息是所描述的地理实体的特性,不因为这个实体位置的不同而改变。
离散对象也可以用来表示连续变化的场,如用等高线表示地形的连续起伏等。
在每一条线上要素点的值处处相等;线的稀疏密集表示空间变化的梯度。
场的观点--用连续表面描述地理现象的方法。
它认为世界被很多变量描述,每一个变量在任何可能的位置都是可量测的。
连续场描述的是在空间—时间框架下地理变量的空间变化。
场的表示:在数字世界中完全地表示连续空间是不可能的,所有表示连续世界的空间数据模型都是某种程度的近似,这些模型包括规则的空间点、不规则的空间点、等值线、规则单元格、不规则三角网,以及多边形等不规则多边形表示场是经常使用的一种近似技术,是典型的用适量数据模型表示连续场的技术,植被覆盖类型、土壤类型和气候类型区等地理场经常使用不规则多边形表示。
在这种情形下,需要多边形不重叠并完整地覆盖所研究的空间范围。
空间数据分析分析解析(课堂PPT)

上下四分位数之间的差值为半极差(H):
H Q3 Q1 极差是度量数据分散性的指标.
36
若数据序列 x1, x2 , , xn 符合正台分布总
体
N (, 2 ) ,则其总体的上下四分位数为:
31
探索性空间数据分析与可视化
1.EDA ESDA与可视化
EDA技术的特点是数据不做假设,而是 利用统计图表,图形和统计概括方法对数据 特征进行分析与描述,从而对数据进行更为 复杂的建模分析.
ESDA技术是EDA的推广,空间数据存 在自相关性,使数据无法满足独立性假设.
32
1.1EDA 与可视化基本方法 包括两种类型:1)计算EDA,2)图形EDA技术 1.1.1箱线图
7
空间分析的研究内容
1)空间数据模型与地理世界的表示 2)探索性空间数据分析与可视化 3)空间数据的性质 4)空间数据分析的点模式方法 5)面数据的空间分析方法与空间回归模型 6)空间连续数据的分析方法 7)地图代数与栅格数据建模技术
8
8)地理模型与决策支持 第2章 空间数据的性质
2.1地理世界的概念模型与数据模型 对现实世界进行高度抽象,概括其概念模型,
然后建立适应于计算机存储与表示的数据模型. 2.1.1地理世界的概念模型
9
1)离散实体
通过其独特的局部化特征相互区别,通过特 定属性的个体被识别,如建筑物,街道等.
离散对象观的重要特征是可以计数.
维数是离散实体的显著特征,实体自然被 抽象为点(只有位置的0维实体),线(具有长 度属性的一维实体)和多边形(占据一定面积 的2维实体).
均海拔高 县的产值
度
份额
道路.河流 区域的人 长度 均收入
土地利用 类型
空间数据的分析

立数据恢复机制,以便于在必要时进行数据恢复。
03 空间数据分析方法
统计分析法
描述性统计
多元统计分析
对空间数据进行基本的统计描述,如 均值、方差、偏度、峰度等,以了解 数据的分布和特征。
运用多元统计方法,如主成分分析、因 子分析等,对空间数据进行降维和特征 提取,以揭示数据的主要特征和结构。
推论性统计
数据预处理与清洗
针对原始空间数据中存在的噪声、异常值和缺失值 等问题,需要进行有效的预处理和清洗。
数据质量评估与改进
建立数据质量评估体系,对空间数据进行定 期评估和改进,提高数据的可用性和可信度 。
算法复杂性与计算效率问题
算法优化与改进
针对空间数据分析中的复杂算法,研究算法优 化和改进方法,提高计算效率和准确性。
时空大数据分析与挖掘
发展时空大数据分析和挖掘技术,揭示时空数据的内在规律和潜在 价值,为决策提供支持。
跨平台、跨领域应用拓展
推动空间数据分析技术在跨平台、跨领域的应用拓展,促进其在智 慧城市、环境保护、公共安全等领域的广泛应用。
THANKS FOR WATCHING
感谢您的观看
缺失值处理
对于缺失的空间数据,可 以采用插值、填充等方法 进行处理,以保证数据的 完整性。
异常值处理
对于异常的空间数据,需 要进行识别和处理,以避 免对分析结果产生不良影 响。
数据转换与标准化
坐标转换
将不同坐标系下的空间数 据转换为统一的坐标系, 以便于进行空间分析和可 视化。
数据格式转换
将不同格式的空间数据转 换为统一的格式,以便于 进行数据处理和分析。
发展多源数据协同分析算法,挖掘多 源数据之间的关联和互补信息,提高
第二章 空间数据模型

2.2栅格数据模型-离散化的方法 栅格数据模型规则的格网(常用三角形,方格,六角形) 规则的格网(常用三角形,方格,六角形),三角形 是最基本的不可再分的单元,根据角度和边长的 不同,可以取不同的形状,方格、三角形和六角 形可完整地铺满一个平面。 不规则的格网,可当做拓扑多边形处理,如按街 不规则的格网 区划分,社会经济分区等。 。
空间数据模型
本章描述的是整个GIS理论中最为核心的内容。 理论中最为核心的内容。 本章描述的是整个 理论中最为核心的内容 为了能够利用信息系统工具来描述现实世界, 为了能够利用信息系统工具来描述现实世界,并 解决其中的问题,必须对现实世界进行建模。 解决其中的问题,必须对现实世界进行建模。对 于地理信息系统而言,其结果就是空间数据模型。 于地理信息系统而言,其结果就是空间数据模型。 空间数据模型可以分为三种: 空间数据模型可以分为三种: 场模型:用于描述空间中连续分布的现象; 场模型:用于描述空间中连续分布的现象; 要素模型:用于描述各种空间地物; 要素模型:用于描述各种空间地物; 网络模型:可以模拟现实世界中的各种网络; 网络模型:可以模拟现实世界中的各种网络;
(一)空间结构特征和属性域 一 空间结构特征和属性域 空间” “空间”经常是指可以进行长度和角度 测量的欧几里德空间。 测量的欧几里德空间。空间结构可以是规 则的或不规则的。 则的或不规则的。 属性域的数值可以包含以下几种类型: 属性域的数值可以包含以下几种类型: 名称、序数、间隔和比率。 名称、序数、间隔和比率。属性域的另一 个特征是支持空值, 个特征是支持空值,如果值未知或不确定 则赋予空值。 则赋予空值。
2011-4-6
25
2.2栅格数据模型 2.2栅格数据模型
栅格模型把空间看作像 元的划分, 元的划分,每个像元都 记录了所在位置的某种 现象,用像元值表示。 现象,用像元值表示。 该值可以表示一个确定 的现象,也可以是一种 模糊的现象。但一个像 元应该只赋一个单一的 值。
第二章 GIS空间数据结构1

二、矢量数据的特点
三、矢量数据结构的类型
1、简单数据结构 空间数据按照以基本的空间对象(点、线或多边形)为单元 进行单独组织,不含有拓扑关系数据,最典型的是面条 (Spaghetti)结构。
主要特点:
(1)数据按点、线或多边形为单元进行组织,数 据编排直观,数字化操作简单。 (2)每个多边形都以闭合线段存储,多边形的公 共边界被数字化两次和存储两次,造成数据 冗余和不一致。 (3)点、线和多边形有各自的坐标数据,但没有 拓扑数据,互相之间不关联。 (4)岛只作为一个单个图形,没有与外界多边形 的联系。
4、坐标系转换
x=f1(L,B) y=f2(L,B)
5、高程
指空间参考的高于或低于某基准平面的 垂直位置,主要用来提供地形信息。我国现 规定的高程基准面为“1985国家高程基准”, 比原“黄海平均海平面”高29mm。我国高程 的起算面是黄海平均海水面。1956年在青岛 设立了水准原点,称此为1956年黄海高程系。 1987年国家测绘局公布:中国的高程基准面 启用《1985国家高程基准》取代国务院1959 年批准启用的《黄海平均海水面》。《1985 国家高程基准》比《黄海平均海水面》上升 29毫米。
优、缺点
优点——文件结构简单,易于实现以多边形为单位的运 算和显示。 缺点—— (1)邻接多边形的公共边被数字化和存储两次(如图 2—19a中的7、8、9三个点),由此会产生数据冗余和 边界不重合(由于数字化误差等因素造成)。 (2) 每个多边形自成体系,缺少有关邻域关系的信 息,难以进行邻域处理。如合并同类时要消除公共边。 (3) 不能解决“洞”或“岛”之类的多边形嵌套问 题,岛只作为单个的图形建造,没有与外包多边形的 联系。 (4)不易检查多边形边界的拓扑关系是否正确,如 无法判断有无不完整的多边形。
第二章 地球空间与空间数据基础

遥感图像及地图表示
五、地理信息的数字化表述
地理信息的数字化表述,就是使计算机能够识别 地理事物的形状。
Open GIS对地理空间的认识模型
九个抽象层次
尺度世界 (尺度语言)
项目世界 (project)
地理点列世界 (坐标几何)
地理空间世界 (GIS语言)
地理几何 特征世界
概念世界
现实世界
(自然语言) (基本语言)
地理要素 集合世界
地理要素 世界
GIS的三个抽象层次
现实世界 地理实体或者现象
概念世界
2
4
12 24
48
96 192
1
4
16 144 576 2304 9216 36864
1
4
36 144 576 2304 9216
第二节 地理空间坐标系与地图投影
地理空间坐标系的主要目的,是确定空间 实体在地理空间中的位置,最直接的方法是用 地理坐标(经度、纬度)和高程来表示。
地理坐标系——球面坐标系
地图投影
平面直角坐标系 (笛卡尔平面直角坐标系、欧几里德空间系)
一、在椭球面上表示点位置的坐标系统
(一)大地坐标系
大地坐标系是大地测 量中以参考椭球面为 基准面的坐标系。
根据不同的应用,域可以表示二维和三维地理 空间。
三、地图对地理空间的描述
地图上各种内容要素之间的关系,是按照 地图投影建立的数学规则,使地面上各点和地 图平面上的相应点保持一定的函数关系,从而 在地图上准确地表达地表空间各要素的关系和
《空间数据分析》课件

分析人口分布、消费水平、交通 状况等数据,评估潜在市场的规 模和需求。
为企业提供选址建议,优化资源 配置和提高市场占有率。
犯罪活动的空间数据分析
详细描述
总结词:通过空间数据分析,揭 示犯罪活动的时空规律和特征, 为预防和打击犯罪提供科学依据 。
利用警务数据和GIS技术,分析犯 罪活动的空间分布和热点区域。
探究犯罪活动与人口分布、社会 经济等因素的关联,揭示犯罪活 动的成因和规律。
为警务部门提供情报支持,制定 针对性的防控措施和巡逻计划。
THANKS
感谢观看
空间数据挖掘的方法
包括空间关联规则挖掘、空间聚类、空间分类、时空数据挖掘等 。
空间数据挖掘的应用
在城市规划、环境保护、灾害预测等领域具有广泛的应用价值。
机器学习在空间数据分析中的应用
监督学习
利用已知结果的数据进行训练,建立预测模型,对新的空间数据进行 预测。
无监督学习
通过对无标签数据进行学习,发现数据的内在结构和规律。
空间聚类分析
总结词
将相似的空间数据点聚集成群组
详细描述
空间聚类分析通过将相似的空间数据点聚集成群组,揭示数 据的内在结构和模式。聚类结果可以根据距离度量、密度等 指标进行评估,并用于分类、识别异常值和进行决策支持。
04
空间数据挖掘与机器学习
空间数据挖掘
空间数据挖掘的定义
空间数据挖掘是指从大量空间数据中提取有用信息的过程,这些 信息可以是隐藏的、未知的或非平凡的。
社交媒体数据的获取方式
社交媒体数据可以通过爬虫等技术获取,但需要遵 守相关法律法规和隐私保护原则。
社交媒体数据的处理和分 析
社交媒体数据处理和分析需要针对其特点进 行,包括文本挖掘、情感分析、用户行为分 析等。
《空间数据分析》总结复习

分布形态度量
偏度和峰度等统计量可以 帮助我们了解空间数据的 分布形态。
探索性空间数据分析方法
空间自相关分析
通过计算Moran's
I、
Geary's C等统计量,评估
空间数据是否存在自相关
性。
空间异常值检测
利用局部空间自相关统计 量(如Local Moran's I) 识别空间异常值或热点区 域。
空间聚类分析
空间数据挖掘流程
包括数据准备、数据选择、数据预处理、空间挖掘、模式评估及 知识表示等步骤。
空间数据挖掘特点
处理海量数据、挖掘空间关系、可视化表达等。
空间关联规则挖掘方法与技术
关联规则基本概念
描述数据项之间存在的某种有趣的关系或模 式。
空间关联规则挖掘方法
包括Apriori算法、FP-Growth算法等,针 对空间数据特点进行改进和优化。
包括地图、遥感影像、GPS数据、地理信息系统等;
采集方法
包括手工数字化、扫描数字化、遥感解译、GPS测量等。
空间数据预处理技术
1 2
数据清理
去除重复、错误和不完整的数据;
数据变换
进行坐标转换、比例尺变换、数据格式转换等;
3
数据集成
将不同来源、不同格式的数据整合到一起。
空间数据质量评价与控制
质量评价
三维空间分析与决策支持
在三维可视化基础上进行空间分析, 为城市规划、环境监测、灾害评估等 提供决策支持。
04 空间数据统计分析方法
描述性统计分析方法
01
02
03
集中趋势度量
包括均值、中位数和众数 等,用于描述空间数据的 中心位置。
离散程度度量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.1地理世界的概念模型与数据模型2.2空间数据的性质2.3空间数据的不确定性2.1 地理世界的概念模型与数据模型空间数据的特殊性质使得很多传统的数据分析方法和技术不能够直接应用于空间数据的分析,大量基于GIS的空间分析技术与传统的数据统计分析技术有着本质的不同,其原因在于这些分析方法和技术是基于空间数据性质的。
2.1.1 地理世界的概念模型--对象和场人类一般以两种观念认识世界,一种认为世界由离散的实体构成,另外一种认为世界是连续的场。
于是,离散的对象和连续的场就构成了表示地理世界的两种基本方式,它提供了概念层次上地理世界的认知模型。
离散实体又称为对象,通过其独特的局部化特征相互区别,并通过其拥有的特定属性的个体被识别。
其重要特征是对象可被计数。
维数是离散实体的显著特征,在离散的世界观中,实体自然地被抽象为点、线和多边形(面)3种类型。
离散对象观将现实世界作为一个能够容纳概念对象、基本对象和复合对象的空间。
在离散对象方法中,空间对象的几何形态及其属性特征共同构成地理信息的完整表示,其属性信息是所描述的地理实体的特性,不因为这个实体位置的不同而改变。
离散对象也可以用来表示连续变化的场,如用等高线表示地形的连续起伏等。
在每一条线上要素点的值处处相等;线的稀疏密集表示空间变化的梯度。
场的观点--用连续表面描述地理现象的方法。
它认为世界被很多变量描述,每一个变量在任何可能的位置都是可量测的。
连续场描述的是在空间—时间框架下地理变量的空间变化。
场的表示:在数字世界中完全地表示连续空间是不可能的,所有表示连续世界的空间数据模型都是某种程度的近似,这些模型包括规则的空间点、不规则的空间点、等值线、规则单元格、不规则三角网,以及多边形等不规则多边形表示场是经常使用的一种近似技术,是典型的用适量数据模型表示连续场的技术,植被覆盖类型、土壤类型和气候类型区等地理场经常使用不规则多边形表示。
在这种情形下,需要多边形不重叠并完整地覆盖所研究的空间范围。
Voronoi多边形是经常使用的表示地理场的模型,它又称为Thiessen多边形。
Voronoi多边形与Delauney三角形密切相关,根据一组空间点,可首先构造Delauney三角形,然后对三角形的边进行垂直等分即可导出Voronoi多边形。
V oronoi多边形常用于气象和水文中,这是在假设观测点代表最邻近的空间位置的基础上,快速构造观测点所代表的空间区域的方法。
但Voronoi多边形的大小主要依赖于观测点分布的疏密,并且可能存在一个观测点不合理地代表了一个很大的区域,而其中的数值处处一致。
这一模型表示场的适合性受到点分布合理性的制约,在样本点的疏密程度变化合理的区域中场的表示好;而样本极度稀疏的区域将会忽视其空间变化。
总之,离散对象和连续场概念模型是建立在两种地理世界认知观的基础上,它反映了地理世界的复杂性及认知的复杂性。
基于离散对象和连续场,GIS实现了两种有效的空间数据模型,即矢量数据模型和栅格数据模型。
2.1.2 GIS空间数据模型——矢量和栅格离散对象和连续场提供了关于表示地理世界的两种不同的概念视图,但是两者都不能解决任何地理现象数字化表示问题。
以数字形式表示地理数据的方法是栅格和矢量。
原理上,两者都可以用编码场和对象,但是在实践中栅格与场、矢量与对象之间形成了强烈的联系。
1.栅格数据在栅格表示中,地理空间被划分成矩形单元格矩阵,通常使用正方形单元格。
所有的地理变化通过对单元格赋予性质或属性来表示。
单元格也被称为像素。
当信息以栅格形式表示时,每个单元格都有一个数值描述其属性特征,单元格内部的细节变化信息都丢失。
常用的编码方式有:最大份额法、中心点法。
2.矢量数据在矢量数据表示中,所有的线通过点之间的直线连接。
为了获取以矢量形式表示的区域对象,只需要形成多边形顶点的点被获取。
这种方法比较简单,并且比栅格表示的效率更高,因为栅格表示多边形需要列出所有的单元格。
为了在栅格中精确地表示一个区域,就必须使用非常小的单元格,单元格的数量会成比例地增加。
2.1.3 属性数据的测度属性是描述实体特征的变量。
地理信息中属性的范围极其广泛,有些属性是自然或环境的而另外一些是社会或经济的。
区分属性信息的测度类型很重要,因为它规定了支撑量测的数字系统的规范性质,并决定了什么样的算术运算有效,以及使用什么样的统计过程。
从量测层次上可将属性数据分为离散尺度的或连续尺度的,定性的或定量的。
虽然这两种分类方法对数据的性质给出了区分,但是不足以明确地定义变量的运算分析方法。
一般划分为名义、序数、间距、比率等属性。
其中前两种属于离散尺度和定性的层次,后两者属于连续尺度和定量的层次。
1)名义属性:是最简单的属性类型,即对地理实体的测度,本质上是对地理实体的分类。
名义属性包括数字、文字,甚至颜色。
即使名义属性是数值的,对其应用算术运算也是没有意义。
2)序数属性:序数属性定义的类型之间存在等级关系。
在序数属性中,属性值具有逻辑顺序。
序数属性遵循明确定义的顺序,无论相继的属性之间的间距已知或未知。
序数数据本质上是一种分类等级数据,即类型必须分为不同的等级。
序数数据可以进行优先级的比较运算。
对名义和序数数据能够进行分类计数,所以常被称为离散变量,或定性变量。
3)间距属性:是一种对地理实体或现象的数量测度方法。
间距属性测度的是一个值对于另一个值差异的幅度,但不是该值和真实零点之间的差值。
由于间距属性的数值测度不是基于自然的或绝对的零点,因此数量关系的运算受到限制。
间距属性值之间的加减算术运算是有效的,但是乘法和除法是无效的。
间距属性数据还可以使用均值、标准差等进行描述。
4)比率属性:是数值和其真实零点之间的差异幅度的测度。
两个比率数值之间的加减乘除算术运算都有效。
对于比率属性的数据可以实施各种数学运算。
间距属性和比率属性是在连续尺度上的数据测度,可以是所定义的连续区间上的任何位置上的数值。
二者之间的重要区别是间距数据没有自然的起点(或其量测的起点是相对的),而比率数据定义在绝对的起点上。
在地理分析中必须注意属性数据的类型特征,因为不同的属性测度规定了可应用的数学运算方法。
在GIS中,属性值是和地图对象相关联的,为了对地图对象规定允许的地图运算还必须区分空间广延量和空间强度量。
例如,区域的面积是空间的广延量,当两个区域合并后的新的地图对象获得的是两个区域面积的和。
密度是空间强度量。
在空间单元聚集后为了获得空间强度量的正确的值,分子和分母必须分别聚集。
这对于空间插值、可视化以及统计分析都有影响。
2.2 空间数据的性质空间数据的特殊性质是多方面的,包括空间异质性、空间自相关、可塑性面积单元问题(MAUP)等。
这些特殊性质直接影响了空间数据分析和建模的方法。
2.2.1 空间依赖性与空间异质性1.空间依赖性空间数据最为著名的特征就是Tobler的地理学第一定律所描述的特征:空间上距离相近的地理事物的相似性比距离远的事物相似性大,它所反映的就是空间数据的空间依赖性。
其含义是在空间的某一位置i处,某个变量的值与其近邻位置j上的观测值有关,可写成式(2.1)的形式:假设每一种地理现象由一个过程及其表述的环境定义,那么过程表示现象的基本因素的变化,环境表示现象的观测框架(即空间和时间)。
空间依赖性表示环境对于过程的重要影响。
传统的统计学理论假设观测是独立的,并服从独立同分布。
因为空间依赖性的存在,在空间分析环境中是一个不能接受的假设。
此外关于残差分布的假设同样受到空间依赖性的影响。
空间依赖性程度是通过空间自相关测度的,这是两个直接关联的概念。
空间自相关的指标有两种类型:全局测度和局部测度。
全局方法对研究区域的整体给出一个参数或指数,而局部方法提供和数据观测点等量的参数或指标。
2.空间异质性空间异质性是空间数据的第二个特性。
异质性源于各地方的独特性质,表示空间数据的变化的不平稳性。
空间异质性与空间上行为关系缺乏稳定性有关,这一特性也称为空间非平稳性,意味着功能形式和参数在所研究区域的不同地方是不一样的,但是在区域的局部,其变化是一致的。
空间非平稳性是空间数据这一特征的数学表述,各向同性是与此概念密切相关的一个概念,即假设模式在所有方向上是一样的。
对于大部分空间数据而言,假设空间过程非平稳和各向异性能更为真实地反映地理问题的实质。
●异质性或非平稳性的存在导致了分析中另外的问题,即需要强调空间—过程相互作用的局部性质。
于是,缺乏局部分析能力的全局模型和全局统计量对于地理问题而言不是很好的工具,因为在很多情况下,全局模型或统计量平均了空间和过程之间的复杂相互作用。
●对于空间异质性或局部性质的强调引起了人们对以局部分析为基础的模型的兴趣。
局部分析模型的结果是随着空间而变化的,而不是全局模型的单一结果。
使用全局模型的一个重要的后果是空间数据的误差和不确定性可能有空间聚集的倾向,即在地图上的某些空间区域出现较大的误差和不确定性。
根据空间异质性的特征,在一般情况下期望空间上每一个点的地理要素之间都有不同的关系。
最简单的情况,可将其描述为线性关系:式中,i表示在空间位置i=l,2,…,n处的观测数据;X i表示和参数相关联的(1*k)阶的解释变量(向量);y i是位置i处的因变量;εi为随机误差项。
比式(2.2)复杂的表示方式是因变量和自变量之间为一般函数关系的情况:从数据出发,建立能够分析异质性的模型一般需要借助于贝叶斯方法,有助于空间异质性的完整分析。
举例说明:将住宅的销售价格从低到高排序,从中选择3组各5000个样本。
其中售价最低的5000个样本用于表示低档房样本,而排序在15001到20000的住宅表示中档房样本,排序在25001到30000的住宅表示高档房样本。
根据这些住宅的经纬度坐标计算所取得的3组样本对于托莱多市中央商务区的距离,分别统计低、中、高档房3组样本的价格和距离之间的关系。
从图2.8中可看出3种不同的分布,低价房最接近CBD,高价房则远离CBD。
这说明了在不同位置上的住宅售价有不同的关系,即住宅售价存在空间异质性。
另外一种揭示空间异质性的方法是采用3种类型住宅的房屋面积和售价之间的关系来表示(图2.9),可以看出仅有两种不同的分布,即高价住宅的面积大,而低中档住宅的面积相似。
比较上述的两种分析,可以看出住宅价值随着空间位置的变化更为重要,即住宅位置对于CBD的距离是更为重要的解释变量,因为它能区分出3种空间模式或关系;而房屋面积对于区分低中档住宅是不重要的因素。
2.2.2 可塑性面积单元问题与生态谬误空间数据分析中存在一类特殊的现象,就是数据分析的结果随着面积单元的定义不同而发生变化,这就是所谓的可塑性面积单元问题(MAUP)。
面积单元对于分析结果的影响来源于两类效应:其一是尺度效应,即当空间单元经过聚合而改变其粒度大小时,空间数据的统计分析结果也会相应地发生变化,由于从精细空间尺度聚集到大的空间单元的组合途径通常很多,不同的聚集方案得到的结果是不同的;其二是划区效应,即在同一粒度或聚合水平上,由于聚合方式的不同或划区方案的不同导致的分析结果的变化。