地理数据分析的艺术6212

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地理数据的特殊性——地理性
地理性对分析的影响
统计与计量经济分析第一假设:所有现象相互 独立
• 相互独立(无自相关) • 差异随机(无关距离)
地理数据的自相关及与距离相关的空间差异违 背分析假设
• 自相关表明现象与现象之间包含重复信息 • 系统变化的空间差异表明变量间关系亦可能存在空间
差异性
新疆大学2012
新疆大学2012
空间回归模型的测试
模型参数测试与最佳模型选择
两个问题
• 空间回归模型是否必要 • 哪一个模型更准确反映数据所代表的关系
应对:
• 拉格朗日乘子测试 • 采用Akaike Information Criterion (AIC)替换R2
对模型评估,越小越好
新疆大学2012
空间分异性对分析的影响及应对
地理加权回归存在的问题
局部多重共线性问题 无法直接处理时空数据问题
区域发展
新疆大学2012
地理加权面板回归分析方法是地理加权 回归方法在时空数据分析方面的延展
面板数据的使用,为消除局部多重共线性提 供可能
i wiji i
j
这一次,空间延迟表现在回归误差之中,λ 为误差延迟的系数
新疆大学2012
空间回归模型的估算
估算方法
显然,由于包括了空间延迟(误差中包括重复 的信息),基于误差最小化的OLS估算方法将 不再有效
不基于误差最小化的ML估算方法成为最佳选择
• 空间回归模型的误差项仍被假设是服从正态分布 • 由该假设可以获得误差项的似然方程 • 通过最大化该似然方程,可以估算出β、ρ或λ
新疆大学2012
地理加权回归的面板数据延展
空间面板数据回归
近年来空间回归的方法(延迟与误差模型) 被延展到面板数据的分析 将地理加权回归的方法应用到时空数据上有 很多探索
• 时空同质加权回归分析 • 地理与时间加权回归分析
我于09年提出地理加权面板回归分析
• 结合地理加权回归方法与面板数据分析方法
误差相互独立性不能满足
• 两个可能来源:
– 因变量存在空间自相关 – 有存在空间自相关的自变量没有包括在模型之中
• 两种不同的模型
– 延迟模型Spatial Lag Model – 误差模型Spatial Error Model
新疆大学2012
空间延迟
空间延迟
概念类同时间序列分析中的时间延迟
• 但空间上并无真正的“延迟”
空间自相关对分析的影响及应对
区域计量经济分析
以回归模型建立变量与变量间关系 历史悠久,分析方法成熟
• 最小二乘法(OLS) • 最大似然法(ML)
OLS简单明了,但假设严格:线性、正态误 差、误差相互独立性
空间自相关的存在直接违背OLS的假设
新疆大学2012
空间回归方法
基于地理性的回归分析
空间回归分析
新疆大学2N01ei2menggu
应用实例
Chengde
Liaoning
大北京地区区域经济 发展机制分析(1995
Zhangjiakou
Qinhuangdao
– 2001)
Beijing
Langfang
县级单位可比价人均 GDP作为区域发展度 Shanxi
Tangshan
Tianjin
±
量 发展机制:人均固定 资产投资 (FIXINVPC)、人均 财政收入 (FININCPC)、人均
确立局部样本之后,可以对地理空间中每一单 元进行简单回归,获得该单元上参数
参数可以地图化
新疆大学2012
地理加权回归的面板数据延展
地理加权回归仍然属于横截面分析
无法处理时间序列数据
• 虽然可以在每个时间点进行GWR分析,但忽略 了时间点间的内在联系
面板数据分析
以地理单元为基础的面板数据同时具备时间 与空间的特性 面板数据分析较少考虑地理数据的空间特性 (空间自相关及空间分异性)
大北京地区而言,地方财政能力(收入能力) 是区域经济发展最有力的驱动力
• GWPR显示该能力在城市地区更为明显
• GWR结果则没有表现出这一分野
新疆大学2012
区域发展
分析对比
对于人均固定资产投资,GWR分析不具备特定 模式,但GWPR清楚反映人均固定资产投资对 区域经济的发展在县比市更明显,对于京津而 言,几乎没有什么作用。这一点与人均财政能 力正好呈鲜明互补。
• GWPR的分析,则清晰地揭示城市化水平在高度城市 化的区域(京津、石家庄)对区域经济的发展是有贡 献的
对比而言,GWPR给出的分析结论更可能符合 实际区域经济发展的内在关系
区域发展
新疆大学2012
地理加权回归分析方法的出现,为从更 详细的角度分析地理数据提供可能
分析结果可视化(地图化) 分析模式具体化 分析结论合理化
• 许多情况下,混合性检验不一定能通过,但研究表明 (Baltagi,2010),即便如此,混合模型比非混合 模型更具有解释力
新疆大学2012
地理加权面板数据分析
在R中SPGWR软件包的基础上,拓展开 发了SPGWPR函数
目前可以进行个体、时点及两者的地理加权 面板回归 混合性检验已经完成 Hausman检验在开发中 暂时只能用于时间序列较短的面板数据分析
分界距离二元矩阵
• 两空间单元间距离小于一定数值即被认为“邻居” • 邻居矩阵元素为1,非邻居元素为0 • 为计算方便,关联矩阵一般都进行行标准化
– 由此计算的空间延迟相当于对某一空间单元“邻居们”进行 算术平均
空间延迟模型
新疆大学2012
假设误差自相关是由因变量的自相关引起
因此,正确的模型可以写做:
Baoding
Shijiazhuang
Cangzhou
Hengshui
Xingtai
Shandong
Prefecture County
外商直接投资(FDIPC)
以及城市化水平(URB)
Handan
生产函数
100 50 0
100
Kilometers
区域发展
横截面地理 加权回归, 采用2001年 的数据
系数随空间位置(i)变化而变化
新疆大学2012
地理加权回归的估算
估算的困难
普通回归中,有n组数据,k个待估参数,n 远大于k,估算有唯一解
地理加权回归中,n组观测数据,但有n×k个 待估参数,普通估算无法进行
新疆大学2012
地理加权回归的估算
估算采用符合第一定律的地理加权
任一点上的观测值,都是一个不断变化,但 平滑的空间过程在该点上的实现 依据空间自相关的原理,可以进一步假设对 于任一位置,其相邻位置上的观测值,都包 含该平滑过程在该相邻位置上,按第一定律 空间递减后的信息 多数实例表明,连续的高斯曲面可以很好模 拟该递减过程
空间自相关的对立统一面
近者相近,则远者相异
空间分异性导致局部差异的形成
总体的与局部的模式、关系、度量可能大不一 样
• 乌鲁木齐今天的平均气温跟新大今天的平均气温会有 差别,跟地窝堡机场今天的平均气温也会有差别等
表现在关系上,指相同的要素(投入),会在 地理空间上导致不同的要素(产出) 是地理加权回归方法(GWR)的理论基础
yi wij y j xi i
j
wij是i与j单元在进行过行标准化后的空间关联矩
阵中对应的元素,wij yj 即i单元的空间延迟,ρ
是空间延迟的系数,j 其他符号与普通回归相同
空间误差模型
新疆大学2012
假设误差自相关是因没有包括某些有自 相关的自变量引起
正确的模型可写成:
yi xi i
地理数据分析的艺术6212
讲座纲要
新疆大学2012
讲座目的
地理数据的特殊性及空间数据分析的方法
地理数据的特殊性 – 地理性
数据空间自相关与分异性(空间效应) 地理性对数据分析,尤其是回归分析的影响 及应对
• 自相关——残差不再相互独立:最小二乘无效 • 应对——空间回归:延迟与误差模型
新疆大学2012
新疆大学2012
地理加权面板数据分析
基本概念类同与横截面GWR分析
将以地理单元为数据收集单元的面板数据称为 “地理面板数据”(Geo-Panel) 在地理面板数据中,首先假设平滑的空间过程 在较短的时间内不会发生大的变化
• 如果时间序列较长,可以考虑对空间平滑过程进行时 间修正
采用类同与横截面GWR分析中的处理,对每一 地理位置获得一个局部样本
• 长序列需要考虑到空间平滑过程的调整,原理虽 然简单,实现颇费工夫
新疆大学2012
应用实例——城市房地产市场分析
密尔沃基城市房地产市场的享乐模型
因变量:房屋评估价格 自变量:房屋面积、年龄、是否有壁炉、是 否有空调、卫生间数量、小区裸露土壤与不 透水面比率 模型对比:最小二乘模型(OLS)、空间回 归(延迟与误差模型)与地理加权回归模型 (GWR)
• 可以理解为高度城市化区域,如京津地区及河北大城 市地区,其经济发展在很大程度上是依赖自身的发展 根底
• 而城市化水平较低区域,国家的支持力度对区域经济 的发展更具备影响力
新疆大学2012
区域发展
分析对比
城市化水平对区域经济发展的贡献
• GWR的分析表明城市化水平对区域经济发展的影响 主要集中在河北的中部,东北部及天津、北京的东部, 而且其影响是负面的。这一点不太符合实际情况,可 能是由于局部自变量的多重共线性所造成
新疆大学2012
城市房地产市场分析
评估参数
均方根误差(RMSE),衡量绝对误差
RMSE 1
n
n
( yi yˆi )2
i 1
相对误差(RE),衡量相对全局均值的误差 n | yi yˆi | RE i1 n | yi y | ii
新疆大学2012
城市房地产市场分析
OLS SA_Lag SA_Err GWR
新疆大学2012
地理加权回归的估算
w
w2 1 w(b)
w3 b
新疆大学2012
地理加权回归的估算
构建局部样本,进行局部回归
依循上述假设,对地理空间中任一单元,可以 构建一套局部样本
• 局部样本由该单元及其相邻位置上的单元构成 • 相邻单元的“观测值”依第一定律进行加权递减 • 局部样本的确定由优化数据获得(耗时最长)
新疆大学2012
区域发展
地理加权面 板回归结果, 个体固定效 应(短面板 一般用固定 效应模型更 准确)
新疆大学2012
区域发展
新疆大学2012
分析对比
除了在京津及河北主要城市外,人均外资投 入似乎对大北京地区区域经济发展作用不大, 这一点横截面GWR和GWPR分析结果较一致, 但GWPR结果更明确
新疆大学2012
地理加权回归方法
1996年由Fotheringham等人提出
2002年出版《地理加权回归》一书,并附实现 软件,使得该方法迅速得到推广 除随书出版的软件外,基于R环境的SPGWR软 件包,也可以提供地理加权回归的估算
基本思路
同一自变量在不同的位置与因变量间关系不一 定相同
• 同样的投资在广州的产出与在白银的产出会一样吗? • 相同的教育水平在上海获得的薪资与在成都获得的薪
资一样吗?
地理加权回归
新疆大学2012
假定任一点上的观测值,都是一个不断变化, 但平滑的空间过程,在该点上的实现
该空间过程基于地理学第一定律,描绘变量间 关系在空间上的差异性
打破传统回归变量间关系普适的规则
• 普通回归:yi=0 + 1x1i+ 2x2i+……+ nxni+i • 地理加权回归: yi=i0 + i1x1i+ i2x2i+……+ inxni+i
空间延迟是某一空间单元“邻居”的观测值的加 权平均
计算空间延迟的步骤
• 设立自相关的空间范围-谁是“邻居” • 加权平均“邻居们”的属性值 • 权重由空间关联矩阵决定
新疆大学2012
空间延迟
空间关联矩阵(W)
距离递减联系矩阵
• 符合地理学第一定律,但计算复杂,数据过大时,可 能无法计算
• 矩阵元素与两空间单元距离成反比
• 称之为局部面板样本
新疆大学2012
地理加权面板数据分析 w
w2 1 w(b)
w3 b
时间2 时间1
新疆大学2012
地理加权面板数据分析
对于每一个局部面板数据做普通面板回归
确定固定效应或随机效应
• 可以采用Hausman检验
依据时点或者个体(或两者)进行数据混合 (pool) 获得面板回归系数为地理加权的面板回归系数 对每一个地理位置进行混合性(poolability)检 验
R2
0.45
AIC 347.03
RMSE 0.012
RE 0.76Hale Waihona Puke Baidu
-328.36 0.007 0.41
-332.33 0.007 0.39
0.90 -254.39 0.006 0.33
新疆大学2012
城市房地产市场分析
空间模型比非空间模型评估误差小 局部模型(地理加权回归)比全局模型 (空间回归模型)评估误差小 简单对比可以看出,忽略地理性(无论 是自相关还是分异性)可能导致分析结 果误差增大,甚至可能误导决策
相关文档
最新文档