空间计量模型选择、估计、权重、检验(Spatialeffect)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
空间计量模型选择、估计、权重、检验(Spatialeffect)
应读者的要求,推送⼀篇关于空间计量⽅⾯的⽂章。
空间计量模型,主要⽤来解决空间被解释
变量⾃相关和测量误差⽅⾯的问题;⽽且两个空间事物存在交互效应和异质性,因此,存在常
系数回归和变异系数的回归区分。
空间计量经济学是计量经济学的⼀个分⽀,研究的是如何在横截⾯数据和⾯板数据的回归模型
中处理空间相互作⽤(空间⾃相关)和空间结构(空间不均匀性)结构分析。
它与地学统计和空间统计学相似。
从某种程度上⽽⾔,空间计量经济学与空间统计学之间的不
同和计量经济学与统计学之间的不同⼀样。
由于对其理论上的关⼼以及将计量经济模型应⽤到
新兴⼤型编码数据库中的要求,近年来这个领域获得了快速发展。
空间数据分析和建模技巧与GIS的结合,现已⼴泛应⽤于经济政策分析中,尤其是实产和房地产
经济[Anselin (1998a), Can(1998)], 环境和资源经济[Bockstael (1996), Geoghegan, Wainger
and Bockstael (1997)], 发展经济[Nelson and Gray (1997)].当⾯临空间⾃相关时,标准的计量分
析技巧通常会失效,⽽这种情形经常在地理或横截⾯数据集中出现,这也是空间计量得以迅速
发展的原因之⼀。
传统的统计理论是⼀种建⽴在独⽴观测值假定基础上的理论。
然⽽,在现实世界中,特别是遇
到空间数据问题时,独⽴观测值在现实⽣活中并不是普遍存在的(Getis, 1997)。
对于具有地
理空间属性的数据,⼀般认为离的近的变量之间⽐在空间上离的远的变量之间具有更加密切的
关系(Anselin & Getis,1992)。
正如著名的Tobler地理学第⼀定律所说:“任何事物之间均相
关,⽽离的较近事物总⽐离的较远的事物相关性要⾼。
”(Tobler,1979)地区之间的经济地理
⾏为之间⼀般都存在⼀定程度的Spatial Interaction,Spatial Effects):Spatial Dependence
and Spatial Autocorrelation)。
⼀般⽽⾔,分析中涉及的空间单元越⼩,离的近的单元越有可能在空间上密切关联(Anselin &
Getis, 1992)。
然⽽,在现实的经济地理研究中,许多涉及地理空间的数据,由于普遍忽视空
间依赖性,其统计与计量分析的结果值得进⼀步深⼊探究(Anselin & Griffin, 1988)。
可喜的是,对于这种地理与经济现象中常常表现出的空间效应(特征)问题的识别估计,空间
计量经济学提供了⼀系列有效的理论和实证分析⽅法。
⼀般⽽⾔,在经济研究中出现不恰当的
模型识别和设定所忽略的空间效应主要有两个来源(Anselin,1988):空间依赖性(Spatial Dependence)和空间异质性(Spatial Heterogeneity)。
空间依赖性(也叫空间⾃相关性)是空间效应识别的第⼀个来源,它产⽣于空间组织观测单元
之间缺乏依赖性的考察(Cliff & Ord, 1973)。
Anselin & Rey(1991)区别了真实(Substantial)空间依赖性和⼲扰(Nuisance)空间依赖性的不同。
真实空间依赖性反映现实中存在的空间交互作⽤(Spatial Interaction Effects),⽐如区域经济
要素的流动、创新的扩散、技术溢出等,它们是区域间经济或创新差异演变过程中的真实成
分,是确确实实存在的空间交互影响,如劳动⼒、资本流动等耦合形成的经济⾏为在空间上相
互影响、相互作⽤,研发的投⼊产出⾏为及政策在地理空间上的⽰范作⽤和激励效应。
⼲扰空间依赖性可能来源于测量问题,⽐如区域经济发展过程研究中的空间模式与观测单元之
间边界的不匹配,造成了相邻地理空间单元出现了测量误差所导致。
测量误差是由于在调查过
程中,数据的采集与空间中的单位有关,如数据⼀般是按照省市县等⾏政区划统计的,这种假
设的空间单位与研究问题的实际边界可能不⼀致,这样就很容易产⽣测量误差。
空间依赖不仅意味着空间上的观测值缺乏独⽴性,⽽且意味着潜在于这种空间相关中的数据结构,也就是说空间相关的强度及模式由绝对位置(格局)和相对位置(距离)共同决定。
空间相关性表现出的空间效应可以⽤以下两种模型来表征和刻画:当模型的误差项在空间上相关时,即为空间误差模型;当变量间的空间依赖性对模型显得⾮常关键⽽导致了空间相关时,即为空间滞后模型(Anselin,1988)。
空间异质性(空间差异性),是空间计量学模型识别的第⼆个来源。
空间异质性或空间差异性,指地理空间上的区域缺乏均质性,存在发达地区和落后地区、中⼼(核⼼)和外围(边缘)地区等经济地理结构,从⽽导致经济社会发展和创新⾏为存在较⼤的空间上的差异性。
空间异质性反映了经济实践中的空间观测单元之间经济⾏为(如增长或创新)关系的⼀种普遍存在的不稳定性。
区域创新的企业、⼤学、研究机构等主体在研发⾏为上存在不可忽视的个体差异,譬如研发投⼊的差异导致产出的技术知识的差异,这种创新主体的异质性与技术知识异质性的耦合将导致创新⾏为在地理空间上具有显著的异质性差异,进⽽可能存在创新在地理空间上的相互依赖现象或者创新的局域俱乐部集团。
对于空间异质性,只要将空间单元的特性考虑进去,⼤多可以⽤经典的计量经济学⽅法进⾏估计。
但是当空间异质性与空间相关性同时存在时,经典的计量经济学估计⽅法不再有效,⽽且在这种情况下,问题变得异常复杂,区分空间异质性与空间相关性⽐较困难。
空间变系数的地理加权回归模型(Geographical Weighted Regression,简记为GWR)是处理空间异质性的⼀种良好的估计⽅法。
将空间依赖性考虑进来以后,在建⽴模型进⾏创新分析研究之前,⼀般必须先进⾏空间相关性的预检验。
如果空间效应在发挥作⽤,则需要将空间效应纳⼊模型分析框架之中,并采⽤适合于空间计量经济模型估计的⽅法进⾏估计。
如果没有表现出空间效应,则可直接采⽤⼀般估计⽅法(如OLS)估计模型参数。
在引⼊空间变量或者经过空间过滤的空间计量模型建⽴之后,其效果的好坏还需要通过空间相关检验进⾏判断,⼀般可通过对真实值和模型估计值之间的残差进⾏空间相关性检验实现。
如果参数经过检验在空间上没有表现出相关性,则表明在引⼊空间变量或者经过考虑了空间效应后的模型已经成功地处理了空间相关性。
计算和检验⼀个地区的创新⾏为在地理空间上有没有表现出空间⾃相关(依赖)性(Cliff & Ord,1981;Cressie,1993)、是否存在集群现象(吴⽟鸣,2006a,2006b)。
空间统计和空间计量经济学的⽅法有许多种,最著名也最常⽤的有:Moran’s I(Moran,1950)、Geary’s C、Getis指数(Ord & Getis,1995)。
计算和检验⼀个地区的创新⾏为在地理空间上有没有表现出空间⾃相关(依赖)性(Cliff & Ord,1981;Cressie,1993)、是否存在集群现象(吴⽟鸣,2006a,2006b)。
空间统计和空间计量经济学的⽅法有许多种,最著名也最常⽤的有:Moran’s I(Moran,1950)、Geary’s C、Getis指数(Ord & Getis,1995)。
全域空间⾃相关(Global Spatial Autocorrelation)是从区域空间的整体上刻画区域创新活动空间分布的集群情况。
在实际的空间相关分析应⽤研究中,由于Moran’s I指数和Geary’s C⽐率的作⽤基本相同,其不同之处是Moran’s I主要针对于全域空间相关性分析,⽽Geary’s C指数则适⽤于局域空间关联分析。
在许多实证研究中,Moran’s I 和Geary’s C是常⽤⽅法,已在⼤量⽂献中出现,尤其是前者。
因此,以下介绍常⽤的Moran’s I指数的计算及检验过程。
Moran’s I定义如下:
为⼆进制的邻近空间权值矩阵,表⽰其中的任⼀元素,采⽤邻近标准或距离标准,其⽬的是定义空间对象的相互邻近关系。
如果Moran’s I的正态统计量的Z值均⼤于正态分布函数在0.05(0.01)⽔平下的临界值1.65(1.96),表明区域创新在空间分布上具有明显的正向相关关系,正的空间相关代表相邻地区的类似特征值出现集群(Clustering)趋势。
⽬前有关研究的计量⽅法主要是传统的回归分析⽅法(如多元统计分析、回归分析、数据包络分析DEA等⽅法),其实质上都是线性的变量之间相互关系的⼀种测量⽅法,适合于企业或产业部门时间序列层⾯的经验研究,未考虑区域(或截⾯单元)之间的空间关联,局限性⽐较明显。
区域之间的经济⾏为会相互影响,这使其存在显著的外部效应,导致地区之间的经济⾏为存在溢出效应。
经济产出不仅受到本地投资的强度、⽽且还会受到周边其他地区的投资活动产⽣的溢出效应及政策的影响。
经济集群⾏为可以通过检验⼀个代表地区间考虑交互作⽤的⽣产函数,即该地区的经济活动及其⾃⾝的特征与其他地区的经济活动的关系,来考察区域经济⾏为的集群⾏为。
可通过纳⼊空间效应(空间相关和空间差异)的空间计量经济模型——空间回归模型,包括常系数的空间滞后模型(Spatial Lag Model,SLM)与空间误差模型两种(Spatial Error Model,SEM)(Anselin,1988;Anselin,Florax,1995;吴⽟鸣,2005)和变系数的地理加权回归模型(Geographical Weighted Regression,GWR)来实现。
空间计量经济学是计量经济学的⼀个分⽀,研究的是在横截⾯数据(Cross-sectional Data)和⾯板数据(Panel Data)的回归模型中如何处理空间交互作⽤(空间⾃相关)和空间结构(空间⾮均匀性)(Anselin,1988)。
最近发展起来的空间统计学和空间计量经济学不仅解决了标准统计⽅法在处理空间数据时的失误问题,更重要的是为测量这种空间联系及其性质、并在建模时明确地引⼊空间联系变量以估算与检验其贡献提供了全新的⼿段(应龙根,宁越
敏,2005)。
实际上,早在1970年代欧洲就展开了空间计量经济学研究,并将它作为⼀个确定的领域。
Paelinck & Klaassen(1979)定义了这个领域,包括:空间相互依赖在空间模型中的任务;空间关系不对称性;位于其他空间的解释因素的重要性;过去的和将来的相互作⽤之间的区别;明确的空间模拟。
Anselin(1988)将空间计量经济学定义为:处理由区域科学模型统计分析中的空间所引起的特殊性的技术总称。
换句话说,空间计量经济学研究的是明确考虑空间影响(空间⾃相关和空间不均匀性)的⽅法。
⽬前,空间计量经济学研究包括以下四个感兴趣的领域:
计量经济模型中空间效应的确定;
合并了空间影响的模型的估计;
空间效应存在的说明、检验和诊断;
空间预测。
空间计量经济学模型有多种类型(Anselin,et al. 2004)。
⾸先介绍纳⼊了空间效应(空间相关和空间差异)、适⽤于截⾯数据的空间常系数回归模型,包括空间滞后模型(Spatial Lag Model,SLM)与空间误差模型(Spatial Error Model,SEM)两种,以及空间变系数回归模型——地理加权回归模型(Geographical Weighted Regression,GWR)。
适⽤于时间序列和截⾯数据合成的空间⾯板数据计量经济学模型将在以后予以介绍。
空间滞后模型(Spatial Lag Model,SLM)主要是探讨各变量在⼀地区是否有扩散现象(溢出
效应)。
其模型表达式为:
区域⾏为受到⽂化环境及与空间距离有关的迁移成本的影响,具有很强的地域性(Anselin et al.,1996)。
由于SLM模型与时间序列中⾃回归模型相类似,因此SLM也被称作空间⾃回归模型(Spatial Autoregressive Model,SAR)。
SEM中参数反映了⾃变量X对因变量y的影响。
参数衡量了样本观察值中的空间依赖作⽤,即相邻地区的观察值y对本地区观察值y的影响⽅向和程度。
存在于扰动误差项之中的空间依赖作⽤,度量了邻近地区关于因变量的误差冲击对本地区观察值的影响程度。
由于SEM模型与时间序列中的序列相关问题类似,也被称为空间⾃相关模型(Spatial Autocorrelation Model,SAC)。
鉴于空间回归模型由于⾃变量的内⽣性,对于上述两种模型的估计如果仍采⽤OLS,系数估计值会有偏或者⽆效,需要通过IV、ML或GLS、GMM等其他⽅法来进⾏估计。
Anselin(1988)建议采⽤极⼤似然法估计空间滞后模型(SLM)和空间误差模型(SEM)的参数。
判断地区间创新产出⾏为的空间相关性是否存在,以及SLM和SEM那个模型更恰当,⼀般可通过包括Moran’s I检验、两个拉格朗⽇乘数(Lagrange Multiplier)形式LMERR、LMLAG及其稳健(Robust)的R-LMERR、R-LMLAG)等形式来实现。
由于事先⽆法根据先验经验推断在SLM和SEM模型中是否存在空间依赖性,有必要构建⼀种判别准则,以决定哪种空间模型更加符合客观实际。
Anselin和Florax(1995)提出了如下判别准则:如果在空间依赖性的检验中发现LMLAG较之LMERR在统计上更加显著,且R-LMLAG显著⽽R-LMERR不显著,则可以断定适合的模型是空间滞后模型;相反,如果LMERR⽐LMLAG在统计上更加显著,且R-LMERR显著⽽R-LMLAG 不显著,则可以断定空间误差模型是恰当的模型。
除了拟合优度R2检验以外,常⽤的检验准则还有:⾃然对数似然函数值(Log
likelihood,LogL)、似然⽐率(Likelihood Ratio,LR)、⾚池信息准则(Akaike information criterion,AIC)、施⽡茨准则(Schwartz criterion,SC)。
对数似然值越⼤,AIC和SC值越⼩,模型拟合效果越好。
这⼏个指标也⽤来⽐较OLS估计的经典线性回归模型和SLM、SEM,似然值的⾃然对数最⼤的模型最好。
就⽬前国内外的研究来看,⼤多直接假定横截⾯单元是同质的,即地区或企业之间没有差异。
传统的OLS只是对参数进⾏“平均”或“全域”估计,不能反映参数在不同空间的空间⾮稳定性(吴⽟鸣,李建霞,2006;苏⽅林,2007)。
当⽤横截⾯数据建⽴计量经济学模型时,由于这种数据在空间上表现出的复杂性、⾃相关性和变异性,使得解释变量对被解释变量的影响在不同区域之间可能是不同的,假定区域之间的经济⾏为在空间上具有异质性的差异可能更加符合现实。
空间变系数回归模型(Spatial Varying-Coefficient Regression Model)中的地理加权回归模型(Geographical Weighted Regression,GWR)是⼀种解决这种问题的有效⽅法。
地理加权回归模型是⼀种相对简单的回归估计技术,它扩展了普通线性回归模型。
在扩展的GWR模型中,特定区位的回归系数不再是利⽤全部信息获得的假定常数,⽽是利⽤邻近观测值的⼦样本数据信息进⾏局域(Local)回归估计⽽得的、随着空间上局域地理位置变化⽽变化的变数,GWR模型可以表⽰为:
实际上,以上模型可以表⽰为在每个区域都有⼀个对应的估计函数,其对数似然函数可以表⽰为:
在空间权值矩阵中,d和θ⾮常关键。
如果d较⼤,则局域模型的解越趋向于全域模型的解;如果d等于所研究空间任意两点间的最⼤距离,则全域和局域两个模型将相等,反之则相反。
若θ趋于⽆穷⼤,任意两点的权重将趋于1,则被估计的参数变成⼀致时,GWR就等于以OLS估计的经典线性回归;反之,当带宽变得很⼩时,参数估计将更加依赖于邻近的观测值。
计算适当的窗宽或衰减函数的原理⽅法很多,最⼩⼆乘法仍然是⼀般常⽤的⽅法,其原理是:
在区域经济管理研究中,将空间效应因素引⼊经济管理过程的研究,建⽴空间计量经济模型进⾏空间统计分析时,⼀般要⽤空间权值矩阵来表达空间相互作⽤。
空间权值矩阵是⼀种与被解释变量的空间⾃回归过程相联系的矩阵。
在实际的区域分析中,该矩阵的选择设定是外⽣的,原因是n×n维的W包含了关于区域i和区域j之间相关的空间连接的外⽣信息,不需要通过模型来估计得到它,只需通过权值计算出来就⾏了。
间权值矩阵W确定的⽅法有多种,根据空间统计和空间计量经济学原理,⼀般可将现实的地理空间关联或者经济联系考虑到模型中来,以达到正确设定权值矩阵的⽬的。
其中,衡量地理联系的⽅法通常有两种主要⽅式:邻近指标和距离指标。
按照这两种⽅法确定的为⼆进制的邻近空间权值矩阵,表⽰其中的任⼀元素,采⽤邻近标准或距离标准,其⽬的是定义空间对象的相互邻近关系,便于把地理信息系统数据库中的有关属性放到所研究的地理空间上来对⽐。
⼀阶邻近矩阵(the First Order Contiguity Matrix)是假定两个地区有共同边界时空间关联才会发⽣,即当相邻地区i和j有共同的边界⽤1表⽰,否则以0表⽰。
⼀般有Rook邻近和Queen邻近两种计算⽅法(Anselin,2003)。
Rook邻近定义为仅有共同边界来定义邻居,⽽Queen邻近则除了共有边界邻区外还包括共同顶点的邻居。
由此可见,基于Queen邻近的空间矩阵常常与周围地区具有更加紧密的关联结构(拥有更过的邻区)。
当然,如果假定区域间公共边界的长度不同(如10km和100km)其空间作⽤的强度也不⼀样,则还可以通过将共有边界的长度纳⼊权值计算过程中,使这种邻近指标更加准确⼀些。
空间矩阵不仅仅局限于第⼀阶邻近矩阵,也可以计算和使⽤更⾼阶的邻近矩阵。
Anselin & Smirnov(1996)提出了⾼阶邻近矩阵的算法,其⽬的是为了消除在创建矩阵时出现的冗余及循环。
⼆阶邻近矩阵(the Second Order Contiguity Matrix)表⽰了⼀种空间滞后的邻近矩阵。
也就是说,该矩阵表达了邻近地区的相邻地区的空间信息。
当使⽤时空数据并假设随着时间推移产⽣空间溢出效应时,这种类型的空间权值矩阵将⾮常有⽤。
在这种情况下,特定地区的初始效应或随机冲击将不仅会影响其邻近地区,⽽且随着时间的推移还会影响其邻近地区的相邻地区。
当然,这种影响是⼏何递减的。
可以看出,邻近空间权值矩阵因其对称与计算简单⽽最为常⽤,适合于测算地理空间效应的影响。
Anselin(2003)介绍了⼀种K值最邻近空间矩阵(K-Nearest Neighbor Spatial Weights)。
之
所以提出这种距离矩阵,主要是因为⼀般使⽤的基于门槛距离(Threshold Distance)的简单空间矩阵常常会导致⼀种⾮常不平衡的邻近矩阵结构。
譬如,在空间单元的⾯积相差甚⼤的情况下,就会出现⼩⼀些的地理单元具有很多邻近单元,⽽较⼤的地理单元则可能很少有邻近单元,甚⾄没有邻近单元⽽成为“飞地”。
在这种情况下,考虑K—最近邻居是⼀种可供选择的常⽤⽅法,这也是创建空间距离权值矩阵的第⼆种选择。
⼀般在给定空间单元周围选择最邻近的4个单元(亦可选4个以上,根据实际的空间关联情况由研究者确定),来计算K值最近邻居权值的⼤⼩。
如果输⼊的时空数据库中有x、y经纬度坐标数据,可以通过x、y坐标计算两点(两个地区的质⼼)之间的距离⽽获得空间权值矩阵。
坐标的度量有欧⽒距离(Euclidean Distance)和弧度距离(Arc Distance)两种,度量坐标系上任意两点间的距离可以通过具有地理坐标(x坐标、y坐标)的变量的点来计算。
值得注意的是,对于经过投影的地理坐标只能计算欧⽒距离,⽽未经投影的经纬坐标适合于计算弧度距离。
除了使⽤真实的地理坐标计算地理距离外,还有包括经济和社会因素的更加复杂的权值矩阵设定⽅法。
⽐如,根据区域间交通运输流、通讯量、GDP总额、贸易流动、资本流动、⼈⼝迁移、劳动⼒流等确定空间权值,计算各个地区任何两个变量之间的距离。
从理论上来看,较之邻近矩阵,距离矩阵在空间效应测算中应该是⽐较科学和理想的⼀个指标。
但是,在实际应⽤中,这种⽅法实⾏起来⽐较困难,原因有⼆:
⼀是社会经济距离的实际统计数据难以获得;
⼆是模型中权值的计算是外⽣的。
当然,基于经济、社会因素的权值计算⽅法更加接近区域经济的现实,因⽽在数据可得和模型结构清晰的情况下,可以考虑选择这种类型的权值。
尽管⼆进制的空间邻近权值矩阵并⾮适⽤于所有的空间计量经济模型,但是,处于某些情况下的实⽤性,空间统计学家在构建空间计量模型时的⾸选就是从⼆进制的邻近矩阵开始的。
⼀般是先从空间邻近的最基本⼆进制矩阵开始,逐步选择确定空间权值矩阵。
关于各种权值矩阵的选择,没有现成的理论根据,⼀般可考虑空间计量模型对各种空间权值矩阵的适⽤程度,检验估计结果对权值矩阵的敏感性,最终的依据实际上就是结果的客观性和科学性。
本研究所有具体应⽤中涉及的空间邻近矩阵的计算,主要采⽤Anselin(1999,2003)研制开发的空间统计分析软件GeoDa095i,直接⽣成邻近矩阵来测算并确定地区之间的空间效应。
推荐教材:
肖光恩《空间计量经济学导论》、《空间计量经济学:从横截⾯数据到空间⾯板》。
龙志和和林光平《空间经济计量:理论与实践》。
沈体雁、叶阿忠《空间计量经济学》。
陈安宁《空间计量学⼊门与GeoDa软件应⽤》。
王庆喜的《区域经济研究实⽤⽅法:基于ArcGIS,GeoDa和R的运⽤》。
软件使⽤,作图⽅⾯可以⽤GeoDa、ArcGIS
注:这绝⾮是@计量哥的纯原创,不过考虑到他⼈有随意摘取的动机,所以在此标注了⼀个原创,请谅解此⽤意。
@计量经济学圈
记录⼀个我们⽣活在其中的时代社会,⼀个⾮常具有潜⼒的深度与客观兼具的⼤号,囊括的主题如下:经济、社会、历史、新闻、世界、计量⼯具。