地理加权回归( GWR)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
空间计量经济学打破大多数经典统计和计量分析中相互独立的基本假设,主要解决如何在横截面数据和面板数据的回归模型中处理空间相互作用(空间自相关)和空间结构(空间不均匀性)分析的问题。
空间计量经济理论认为一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。
也就是说,各区域之间的数据存在与时间序列相关相对应的空间相关。
空间计量模型所研究的空间效应包括空间自相关和空间差异性。
空间相关性在空间回归模型中体现在误差项和因变量的滞后项,因此,空间计量的两个模型分别是空间自回归模型(Spatial Auto Regressive Model , SAR) 与空间误差模型(Spatial Error Model , SEM),空间自回归模型研究各变量在一个地区是否有扩散效应,空间误差模型考察邻接地区关于因变量的误差冲击对本地区观察值的影响。
其表达式分别为:
其中,Y 为因变量;W 为n n ⨯阶的空间权重矩阵,权数系数可以根据实际情况决定,一般用邻接矩阵;Wy 为空间滞后因变量,反映了空间距离对区域行为的作用;ρ为空间自回归系数,反映相邻区域的观测值Wy 对本地区观察值y 的影响方向和程度;X 为k n ⨯的外生解释变量向量(包括常数项),β为变量系数,反映了自变量X 对因变量Y 的影响;ε为误差成分;λ为1⨯n 的因变量向量的空间误差系数,衡量了相邻地区的观察值Y 对本地区观察值Y 的影响方向和程度;γ为正态分布的随机误差向量。
上述两种模型的估计如果仍采用OLS ,往往导致各种结果和推论不够完整、科学。
本文采用极大似然法估计参数。
常用检验准则有拟合优度R 2 和对数似然值LogL 。
拟合优度和对数似然值越大,模型拟合效果越好, 对数似然值最大的模型最好。
( 一) 空间权重矩阵的选取
空间权重矩阵 w 表征了空间单位之间的相互信赖性与关联程度。
实证研究中,通常采用相邻规则与距离规则来定义空间加权矩阵。
为了研究需要,本文从地理位置特征与社会经济特征两个不同角度分别建立包括相邻规则与距离规则的空间加权矩阵,以便更准确地把握房价的区域相关关系。
1. 地理位置特征加权矩阵。
本文采用两种常用的地理位置特征矩阵体现房价的空间相关关系:第一种是空间相邻加权矩阵 W1,其中的元素 wi ,j= 1表示两个地区拥有共同的边界,wi ,j= 0 表示两个地区没有共同的边界,然后对矩阵进行标准化处理。
为了避免“单
个岛屿效应”,设定海南省与广东省、广西壮族自治区有共同边界。
第二种是空间距离加权矩阵 W2,其元素 wi ,j=1 / d2iji ≠ j0{i = j ,即两地区之间距离越远,相互之间的影响程度越小,两地区之间的距离 di ,j 为两地区省会城市之间的距离
于是进一步用更能反映经济变量之间的空间依赖性的地理加权回归(GWR)方法,以全国30个省市为例,建立模型
0(,)(,)i i i k i i ik i k
y u v u v X ββε=++∑,1,2,i =…,n ,其中(,)i i u v 是第i 个样
本点的空间坐标;
利用加权最小二乘法来估计,估计出30个省市的模型参数,并就此分析了各省市之间的差异。
最后比较了普通回归与地理加权回归的优劣,得出了教育支出促进经济增长, 不同地区间促进的效果不同的结论。
长期以来, 在主流的经济学理论中, 空间事物无关联及均质性假定的局限,
以及普遍使用忽视空间效应的普通最小二乘法(OL S) 进行模型估计, 使得在实际应用中往往存在模型的设定偏差问题, 进而导致经济学研究得出的各种结果和推论不够完整、科学, 缺乏应有的解释力。
经典计量经济学中的线性回归模型的经典假定, 以及回归模型的系数β是一个常数假定, 面对异常复杂的经济系统和因素变量之间的交互影响, 尤其是碰到横截面数据之间存在空间自相关性和空间异质性时, 经典计量的线性回归模型就显得有些力不从心, 需要发展新的方法来弥补这种不足。
【1】
空间计量经济学(Anselin ,1988) 理论认为,一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。
几乎所有的空间数据都具有空间依赖性或空间自相关性的特征, 空间依赖的存在打破了大多数经典统计和计量分析中相互独立的基本假设。
也就是说, 各区域之间的数据存在与时间序列相关、相对应的空间相关。
空间统计和空间计量经济方法是在继承和发展完善经典统计和计量方法的基础上, 将经典统计和计量方法应用于与地理位置及空间交互作用相关的地理空间数据, 通过地理位置与空间联系建立的统计与计量关系, 以统计和计量方法识别和度量空间变动的规律与空间模式的决定因素。
(一)空间经济计量学介绍
空间统计和空间计量经济学理论与方法继承和发展了经典统计和计量理论方法,将经典统计和计量方法应用于与地理位置及空间交互作用相关的地理空间数据,通过地理位置与空间联系建立统计与计量关系,以统计和计量方法识别和度量空间变动规律及空间模式的决定因素。
空间经济计量学主要研究存在空间效应的问题。
空间效应主要包括空间相关和空间差异性。
在研究中涉及空间相邻、空间相邻矩阵等概念。
1.空间相关
空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。
测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按盛市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。
2. 空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。
例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。
但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。
3. 时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。
在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。
如果数据不存在空间相关,则可以采用PanelData 模型。
Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR 模型。
【2】
(五) 空间计量经济学中的空间自相关分析【5】
根据空间统计和空间计量经济学原理方法,首先应采用空间统计分析Moran 指数法检验因变量(被解释变量)是否存在空间自相关性或集聚现象,如果存在,则需要在空间计量经济学理论方法支持下,建立空间计量经济模型,进行区域经济增长集聚的空间计量估计和检验。
Moran’s I 定义如下: 11
211()()
n n ij i j i j n n
ij
i j W Y Y Y Y I S W ====--=∑∑∑∑ 其中,2
11()n i i S Y Y n ==-∑,11n
i i Y Y n ==∑, 表示第i 地区的观测值,n 为地区总数,ij W 为二进制的邻接空间权值矩阵,
表示其中的任一元素,采用邻接标准或距离标准,其目的是定义空间对象的相互邻接关系。
一般邻接标准的为1,ij W ⎧=⎨⎩ 当区域i 和区域j 相邻;0, 当区域i 和区域j 不相邻;
式中,1,2,i =…,n ;j=1,2,?…,n ;≠m=n 或m n 。
Moran ’s I 可看作各地区观测值的乘积和,其取值范围为11I -≤≤。
若各地区间经
济行为为空间正相关,I 的数值应当较大;负相关则较小。
(六) 空间变系数回归模型【6】
当用横截面数据建立计量经济学模型时, 由于这种数据在空间上表现出的复杂性、自相关性和变异性, 使得解释变量对被解释变量的影响在不同区域之间可能是不同的, 假定区域之间的经济行为在空间上具有异质性的差异可能更加符合现实。
空间变系数回归模型(Spatial Varying —Coefficient Regression Model) 中的地理加权回归模型( Geographical Weighted Regression , GWR) 是一种解决这种问题的有效方法。
本文即主要采用的这种模型对全国30个省市教育与经济增长之间的关系进行了探究与分析。
1. GWR 基本模型
考虑如下的全局回归模型:
0i k ik i k
y X ββε=++∑ 1,2,i =…,n
地理加权回归( GWR) 扩展了传统的回归框架, 容许局部而不是全局的参数估计, 扩展后模型的参数是位置i 的函数,扩展后的模型如下:
0(,)(,)i i i k i i ik i k y u v u v X ββε=++∑ 1,2,i =…,n
其中(,)i i u v 是第i 个样本点的空间坐标, (,)k i i u v β 是连续函数(,)k u v β 在i
点的值。
如果(,)k u v β 在空间保持不变, 则GWR 模型就变为全局模型 。
因此GWR 方程认可空间变化关系可能是存在的, 并且提供了一种可度量的方法。
由上面可知GWR 模型中的参数在每个回归点是不同的,就不能用最小二乘方法(OL S) 估计参数。
Fotheringham , Brunsdon , Charlton (1996) 依据“接近位置i 的观察数据比那些离位置远一些的数据对(,)k u v β的估计有更多的影响”的思想, 利用加权最小二乘法来估计参数。
因此,其结果是区域性的并非全域性的参数估计,从而就能够探测到空间数据的空间非平稳性。
我们知道,普通最小二乘法可以得到全局的参数估计向量:
1(')'X X X Y β∧-=
值得提到的是,使用最小二乘估计的前提条件是:()E Y X β=,
2()(n n Var Y I I δ=是单位矩阵)成立。
这里第二个条件不满足,可以改为21()i Var Y W δ-=,因为1i W ->0,存在n 阶非奇异对称阵B ,使得12i W B -=。
令1*Y B Y -=,1*X B X -=,则11(*)()*E Y B E Y B X X ββ--===
112(*)()n Var Y B Var Y B I δ--==
于是,我们得到回归点i 的参数估计向量可以表示如下:
1(,)('(,))'(,)i i i i i i u v X W u v X X W u v Y β∧
-=
其中(,)i i W u v 是n n ⨯的加权矩阵,对角线上的每个元素都是关于观测值所在位置j 与回归点i 的位置之间距离的函数,其作用是权衡不同空间位置j ( j = 1 ,2 , ⋯, n) 的观测值对于回归点i 参数估计的影响程度,而非对角元素为0. 矩阵(,)i i W u v 可以表示为如下形式:
12W W (,) W i i i i in W u v ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝
⎭= 记做12W (W ,W ,W )i i i in diag =…,。
2. 加权矩阵函数的选择
为了估计方程中GWR 的参数,选择一个标准来决定加权矩阵W i 是很重要的. 在空间分析中,一般认为距离回归点i 较近的观测值对回归点i 处的参数估计影响较大,而远离回归点i 的观测值的影响就较小. 所以,在估计回归点i 的参数时,必须给予离i 较近的地区更多的关注,也就是优先考虑较近观测值的影响. 根据这一思想,可供选择的权函数有多种形式, 比如距离的倒数. 通常选择Gauss 函数作为权函数,其形式如下:
2exp()ij ij W d λ=-
这里ij d 是回归点i 和位置j 中心的距离, λ是带宽. W ij 是关于ij d 的连续单
调递减函数,随ij d 的增大而减小,并且当ij d = 0 时, W ij = 1。
3. 距离衰减参数λ的确定
式中的λ是一个描述权重与距离之间函数关系的非负距离衰减参数,不同的λ将产生不同的权重W ij . 对于给定的ij d ,如果λ越大,在位置j 的观测值的
权重就越小,反之,则在位置j 的观测值的权重就越大. 另一方面,对于给定的λ,对离i 距离越近的点来说,权重逐渐趋近于1 ,对于那些离i 距离很远的点来说,权重会逐渐减小到0 ,从而在估计回归点i 的参数时能够有效地排除那些远离i 点位置上的观测值,同时又保持了空间数据的连续性。
从上面分析可知不同的λ会产生不同的权重矩阵W i (1,2,i =…,n),而且可以选择的λ不是惟一的。
Brunsdon 等用交叉实证方法(即Cross2Validation) 来选择一个最合适的λ。
如果λ的值过大,这样会使得除回归点外其它观测值点的权重接近零,从而在参数估计中失去作用,因此λ不宜取值太大. 一般选择一个
较小的λ,根据等式来计算加权矩阵W i (1,2,i =…,n),通过加权最小二乘方法获
得参数的估计值i λ∧。
将估计值i λ∧代入地理加权回归(GWR)模型中,我们就得到了i Y 的估计值()i Y λ∧≠ 通过下式计算得到CV 值:
21()n j i i i CV Y Y λ∧≠=⎡⎤=-⎢⎥⎣
⎦∑ (1,2,j =…,m) 这里()i Y λ∧≠表示回归点i 的观测值不参与估算过程得到的i Y 的估计值。
()i Y λ∧≠
作为i Y 的估计值,在迭代的过程中省略了与ik x 有关的计算,只需要计算回归i 附近位置的观测数据,而不计算它本身的观测数据。
重新选择一个λ重复上述过程得到m 个不同的CV 值,通过
12min(,,)m CV CV CV CV =…,
来寻找最合适的λ值(即CV 对应的λ)。
(一) 数据来源[7][8]
为了进一步探索不同地区间教育与经济间的差异关系,本文还引入了30个省市省会地区相互之间的公路营运里程,作为衡量各省之间距离的指标,这些数据来源于《中国高速公路及各等级公路网地图册》。
(二) 各省市地区说明
本文所涉及到得省市地区依次为:北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆。
涉及到得省会地区依次为:北京,天津,石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,上海,南京,杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,重庆,成都,贵阳,昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐。
之所以没有涉及海南省以及其省会城市海口,是因为隔海的原因,不好估算其公路营运历程,故将其舍去。
二、 我国30个省市地区教育经费与经济间的一元线性分析
(一) 模型建立与分析
之前,本文已经对基于最小二乘法(OLS )的传统线性回归做了详细的理论说明,下面,本文将SAS 软件对经过处理得到的省域人均GDP ( 也就是GRP) 、人均教育经费两项指标进行分析,其中省域人均GDP 为因变量,人均教育经费为自变量。
四、 地理加权回归( GWR) 技术
一般线性回归模型把研究区域作为一个整体来看待,其结果是对研究区域整体趋势的一种拟合或平均水平的一种描述,其掩盖了许多有意义的地理、社会、经济现象. 而在更多的情况下,我们需要了解研究区域内部的变化情况,地理加权回归方法是一种局域空间分析的方法,展示了研究区域内部空间关系的变化图景,为我们进一步研究复杂的空间变化提供非常有意义的线索,地理加权回归方法必将成为空间分析的重要工具之一. 不过该技术方法还有些问题需要做进一步研究加以完善,如在整个研究区域内权函数的距离衰减参数λ是固定不变的,作为局域空间分析方法该参数在不同的地区应该是不一样的。
由表1可以看出,当前,我国接受教育的情况还是比较低的。
同时,东部地区明显比西部地区受教育年数高,体现了地区间的差异性。
(一) 地理加权回归模型(GWR)模型建立及分析
通过上述初步分析可以看出,我国省域之间还是存在着一定差距的。
不能用一般线性回归模型把其作为一个整体来看待,应该用地理加权回归方法为进一步研究复杂的空间变化。
关于地理加权回归模型(GWR)模型,其理论部分参见第一部分空间变系数回归模型的GWR 模型。
下面直接用SAS 进行编程建模,以下是建模后得到的各省域的GWR 系数估计结果。
表6 GWR 模型各省域参数估计
由GWR 模型得出的表格6,可以进一步看出地区间的差异。
就教育投入对经济增长的影响来看,不同地区人均教育经费对人均GDP 的作用相差很大,像最高的安徽省市,人均教育经费对人均GDP 的作用达到了39.977127,广西,广东紧随其后,人均教育经费对人均GDP 正效应比较大的地方还有辽宁,福建,新疆,贵州,江苏,浙江,吉林,江西,上海。
而另一方面,陕西人均教育经费对人均GDP 的作用居然是-5.55705,意味着教育投入对经济增长甚至起着抑制的作用,同时,黑龙江,西藏也是紧随其后,教育对经济起着负效应。
比较低的地方还有四川,山西,天津,北京,青海,甘肃,重庆,湖南,宁夏,内蒙古。
将0β,1β进行描述性统计分析,与初次得到一元线性分析得到的结果对比如下: 表7 GWR 模型参数估计分析
表8 线性模型参数估计
为了更好的探索各地区间教育投资与经济增长之间的关系,用EXCEL 将人均GDP 以及表示教育投资与经济增长之间的关系的参数估计量β1进行了逻辑处理,
即如果该数值低于均值,则显示为低,若高于,则显示为高,得到下表:
表9 各省域教育与经济关系
表9中可以看出,西部欠发达地区如西藏,甘肃,青海,宁夏,教育投资对经济增长的促进作用不是很大,这间接反映了这些地区教育依然比较落后的现状。
一些教育大省比如山东,河北,河南,β1的参数估计值普遍比较高,这也可以间接反映出这些地区重视教育发展的现状。
同时,教育对经济增长具有比较高的正效应的地区大多集中在沿海、东部以及中部近几年发展比较迅速的地区,这无疑也暗含着科技是第一生产力的道理。
说明,教育对经济增长起着极大地推动作用。
教育的增长必定会带动生产力的发展,同时也会拉动GDP增长。
但是,一些异常如北京、天津地区的低促进情况,新疆的高促进情况,应该引起进一步思考与讨论。
五、一般线性模型与地理加权回归( GWR)模型的比较
为进一步比较说明两种模型的优劣,跟据得出的模型进行拟合进行比较:
表10 模型拟合值与原始数据的比较
由表10中可以看出,地理加权回归( GWR)模型的拟合精确程度明显优于传统的OLS模型。
进一步说明了传统的OLS 只是对参数进行“平均”或“全局”估计, 不能反映参数在不同空间的空间非稳定性; GWR 是一种简单、有效的技术, 可以反映参数在不同空间的空间非稳定性。