线性Bayes混合地理加权回归模型参数估计及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要
混合地理加权回归模型是一种较为全面的空间分析方法,为了能够全面充分考虑到模型参数的类型,它将模型参数分为全局参数和局部参数,以此来探究空间关系的非平稳性。

本论文主要采用混合地理加权回归模型,重点研究了混合地理加权回归模型的线性Bayes 估计法和两步法估计,并将混合地理加权回归模型线性Bayes 和混合地理加权回归模型两步法估计的运用于实际应用中并作出比较分析,以全国31个省域SO 2的排放量为例,进行Bayes 混合地理加权回归模型探测及分析空间的特殊性质。

首先,阐述了普通线性回归模型的基本理论及最小二乘法估计法,详细介绍了混合地理加权回归模型的基本原理和参数估计,以及将两种参数估计法作出比较。

而在实际应用中,由于最小二乘法参数估计在模型估计中存在一定的误差,并未完整的考虑到模型的特殊性。

因此选取混合地理加权模型并对模型参数估计进行了深入研究,最终采用线性Bayes 估计对混合地理加权模型进行参数估计。

其次,对模型回归参数线性Bayes 估计方法进行介绍,主要采用二阶矩阵的最优化方法降低Bayes 估计风险,进行贝叶斯混合地理加权回归模型估计法及统计模拟。

最后以全国31个省域的SO 2的排放量为例,选取人口密度、就业率、人均第一产业
额、人均第二产业额、人均第三产业额以及人均电力消费为变量进行如下分析:
(1)空间自相关分析,从全局空间自相关和局部空间自相关两个方面进行分析,通过全局空间自相关和局部空间自相关的理论介绍,进一步计算sI n Mora ′值、绘制sI n Mora ′散点图和LISA 集聚图及显著性来说明SO 2的排放量由于空间地理位置差异,即
存在明显的空间集聚现象和空间依赖性。

(2)其次对SO 2的排放量和选取的六个解释变量建立普通线性回归模型并对其进行
最小二乘法估计,通过对P 值及拟合优度的计算和分析以及变量显著性的分析。

发现线性回归模型并没有考虑到空间非平稳性和地理空间位置的变化影响,因此本文对SO 2的排放量和变量进行建立混合地理加权回归模型并对其模型参数进行两步法估计与Bayes 估计法。

(3)在混合地理加权回归模型理论知识的基础上,在实际应用分析中,本文分别采用两步法估计和线性Bayes 估计方法对模型的参数估计分析比较,并对其进行计算P 值以及绘制拟合残差图,将SO 2的排放量的分级图与残差图进行比较分析。

(4)最终得出结果,全国31个省域SO 2的排放量存在空间的依赖性和和较强的集
聚性;线性Bayes 混合地理加权回归模型的显著性和拟合要优于混合地理加权回归模型
两步法估计优于普通线性回归模型参数估计,同时线性Bayes混合地理加权模型能更好的探测到空间的非平稳性,分析结果与事实相吻合。

关键词:混合地理加权回归模型;空间非平稳性;两步法估计;线性Bayes估计
Abstract
The hybrid geographic weighted regression model is a more comprehensive spatial analysis method. In order to fully consider the type of the model parameters, it divides the model parameters into global parameters and local parameters to explore the non-stationarity of the spatial relationship. In this dissertation, a hybrid geographic weighted regression model is used. The linear Bayesian estimation and two-step estimation of the hybrid geographically weighted regression model are mainly studied. The two-step estimation of the linear Bayes and the hybrid geographic weighted regression model of the hybrid geographically weighted regression model is used. In actual application and comparison analysis, taking the emission of SO2 in 31 provinces as an example, the Bayes hybrid geographic-weighted regression model was used to detect and analyze the special nature of space.
Firstly, the basic theory of ordinary linear regression model and the method of least squares estimation are expounded. The basic principle and parameter estimation of the hybrid geographic weighted regression model are introduced in detail, and the two parameter estimation methods are compared. In practical applications, due to the least squares parameter estimation in the model estimation there is a certain error, and does not fully consider the specificity of the model. Therefore, the hybrid geographic weighted model was selected and the model parameter estimation was deeply studied. Finally, the linear Bayesian estimation was used to estimate the parameters of the hybrid geographic weighted model.
Secondly, the third chapter introduces the linear Bayes estimation method of regression parameters of the model, mainly uses the second-order matrix optimization method to reduce the risk of Bayesian estimation, and deduces the Bayesian hybrid geographic-weighted regression model estimation method.
Finally, taking the emissions of SO2 in 31 provinces as an example, the following analysis was conducted by selecting population density, employment rate, per capita primary industry, per capita secondary industry, per capita tertiary industry, and per capita electricity consumption as variables.
(1) Analysis of spatial autocorrelation analysis from global spatial autocorrelation and local spatial autocorrelation. Through the theory of global spatial autocorrelation and local spatial autocorrelation, we further calculated values, plotted scatter plots, and LISA cluster
maps. And significance to explain SO2 emissions due to spatial differences in space, that there is a clear spatial agglomeration and spatial dependence.
(2) Secondly, establish a general linear regression model for the SO2 emissions and the selected six explanatory variables and perform a least-squares estimation. The calculation and analysis of the P value and the goodness of fit and the analysis of the significance of the variables. The linear regression model does not take into account the effects of spatial non-stationarity and geospatial location changes. Therefore, this paper establishes a hybrid geographically weighted regression model of SO2 emissions and variables and performs two-step estimation and Bayesian estimation of the model parameters. .
(3) Based on the theoretical knowledge of the hybrid geographically weighted regression model, in the actual application analysis, this paper adopts the two-step method and the linear Bayes estimation method respectively to compare the parameter estimation of the model, and to calculate the P value and draw it. The residual plot was fitted, and the SO2 emission level map was compared with the residual plot.
(4) The final result shows that there are spatial dependence and strong agglomeration of the emission of SO2 in 31 provinces across the country; the significance and fitting of the linear Bayes hybrid geographically weighted regression model is better than the hybrid geographically weighted regression. The two-step estimation of the model is better than the parameter estimation of the ordinary linear regression model, and the linear Bayes hybrid geographic weighted model can better detect the non-stationarity of the space. The analysis results are consistent with the facts.
Keywords: hybrid geographically weighted regression model; spatial nonstationarity; two-step estimation; linear Bayesian estimation
目录
1. 绪论 (1)
1.1研究背景和意义...... . (1)
1.2国内外研究现状 (2)
1.2.1国外研究现状 (2)
1.2.2国内研究现状 (3)
1.3空间计量经济学的研究进展 (5)
1.4简要评述 (6)
1.5研究内容与方法 (6)
2模型及其参数估计方法 (8)
2.1线性回归模型及参数估计 (8)
2.2混合地理加权回归模型及参数估计 (10)
3线性Bayes混合地理加权回归模型估计及模拟实验 (13)
3.1线性Bayes混合地理加权回归模型估计 (13)
3.2 统计模拟 (17)
4 中国经济增长与空气污染的空间分析 (20)
4.1数据选取 (21)
4.2 空间自相关 (21)
4.2.1全局空间自相关 (22)
4.2.2局部空间自相关 (23)
4.3线性回归模型应用分析 (25)
4.4混合地理加权回归模型两步法估计的应用分析 (26)
4.5线性Bayes混合地理回归模型应用分析 (29)
5结论建议与研究展望 (33)
5.1结论与建议 (33)
5.2研究创新 (34)
5.3研究展望 (35)
参考文献 (36)
致谢 (41)
硕士期间发表论文 (42)
1. 绪论
1.1 研究背景和意义
空间计量学的发展是以空间统计学为基础。

随着空间统计分析在经济学、生态学、环境学、气象学、地理学以及流行病学等众多领域的应用日渐广泛,并逐步形成了的空间统计学的理论体系,提出了所有被观测的数据一般都与地理位置有着一定的关系,因此,这种具有空间位置属性称之为空间数据。

空间数据具有一定的特殊的性质,如空间依赖性和空间非平稳性[1]。

根据Tobler[2]提出的地理学第一定律(Tobler,1970):任何事物与其他事物之间都具有空间相关性,他们之间的距离越近的事物之间具有的相关关系越相近,从这一定义可反映出空间依赖性。

空间自相关性主要是对空间的依赖性和集聚性的深度分析,在空间中存在某一地理位置i处,观测值i与其相邻的地理位置观测值j相关。

在空间分析(spatial analysis)中,通常根据地理位置为抽样单位界定变量观测值,由于地理位置变化,空间关系结构对变量的影响也会随之变化,引起变量之间的变化因素是由地理位置的因素而引起称之为空间非平稳性(spatial non-stationgarity)或空间异质性(spatial heterogeneity)[3]。

空间数据中普遍存在空间非平稳性现象,若以空间数据回归分析为例,回归函数中的因变量与自变量的观测点都会随着地理位置变化而发生一定的变化,这个过程一般比较复杂,用一个特定函数形式来描述比较困难。

因此,人们在分析空间数据之前,通常没有深入考虑到地理位置的影响情况,仅采用非线性回归函数与普通的线性模型分析空间数据变化时,结果并不准确,这是因为全局性的模型(global model)在变量之间具有一定同质性(homogengity),从而掩盖了变量之间的的局部性。

因此,普通的线性模型通常忽略了数据空间位置属性,结果也只能显示出因变量与自变量之间的关系,并非能够充分反映出变量之间的空间非平稳性特征。

因此,在实际数据回归问题中,正确的探测数据的空间地理位置及分析回归关系中空间位置变化变量之间关系显得十分重要[3]。

在统计学中,引起空间非平稳性的原因可将其归纳为以下三点原因(Fotheringham,1998):首先,由于抽样中会发生不可避免或观测不到的数据时存在一定误差,假定在统计学中它只是服从某一分布,但对于空间数据本身没有影响时称是随机误差而引起的误差。

其次,由于人们在各个地区生活有所差异,政治经济政策管理的不同所引起的观测值中随地理位置的变化或“漂移”发生时,通常反映出的空间数据本质及空间数据重要性。

最后,在实际问题中通常忽略一些变量而使得的空间数据模型与问题不符合时,
1
因而导致出空间非平稳性[3]。

目前我国空气污染状况十分严重,而空气污染中的悬浮颗粒普遍存在超标,二氧化硫一直处于较高水平。

其中对于所有的排放源中,二氧化硫的主要来源分为:工业以煤炭消耗量排放量增加引起空气污染不断加剧,烟尘与灰尘也是一大来源,通常这种低效能的除尘器对于烟尘排放量一般是国家电厂排放的5-10倍,同时过多的二氧化硫排放还导致酸雨范围的不断扩大;机动车尾气排放也是空气污染主要来源,由于经济的持续推动,机动车的数量激增,尤其在一些大城市如上海、北京、广州等动车数量增长速度已经远远超过了全国的平均水平,汽车的排放的二氧化硫、氮氧化合物等排放总量逐年上升,由于城市人口密集,交通运输量相对较大,机动车的污染在空气污染中所占的比例也不断上升。

综合以上的对空气污染的分析,空气污染成为首要解决的问题。

1.2国内外研究现状
1997年Brunsdon和Fothingham[4]等人提出地理加权回归(Geograically Weighted Regression,GWR)模型,基于非参数建模的思想深入研究了空间非平稳性。

虽然混合地理加权回归模型在空间统计的研究时间较短,但在理论方面的研究已经很成熟了,渐渐地混合地理加权回归模型已经在应用领域方面应用的很广泛,如:医学的疾病控制领域生态学、环境学以及经济学等领域[5-6]。

《Geographically Weighted Regression:The Analysis of Spatially Varying Relationships》[7]提出混合地理加权回归模型的基本理论知识、参数选择、变量的选择和比较、误差项的空间自相关性等分析中使得对混合地理加权回归模型有了更深的理解,国内外学者都做出了不少贡献。

1.2.1国外研究现状
国外在空间统计方面理论研究已经相当成熟。

1996年Brundon使用地理加权回归模型对疾病进行了空间分布分析,最终发现地理加权回归模型对模型的估计更加精确,更优于普通的线性回归模型其残差平方和也小很多[8-10];1999年LeSage对中国GDP与各省贡献之间进行地理加权回归模型,通过对地理加权模型的估计能够进一步更透彻的解释了趋于经济增长的过程变化[11-12];2000年HuangYefang对江苏工业进行了时空动态分析,由于在地理位置不 同的地区之间某一因素的影响在地区之间影响程度并不一样并再次建立地理加权回归模型,得出人均GDP和工业化基础水平有显著地差异[13];2001年Brundon以英国全年的平均降水量与海拔高度为例,建立地理加权回归模型并对模型进行估计与计算,最终得出模型估计拟合程度很好[14];2002年Páez等人对误差空间异质性的角度进一步提出了地理加权回归模型的最大似然估计和统计推断等[15-16];2005年
2
Tiefelsdorf研究了自变量的共线性对地理加权回归模型分析参数估计相关性的影响,通过研究发现自变量的共线性使得参数估计之间的相关性增强,通过参数的估计绘制二元散点图和局部参数相关图,得出参数的估计与自变量共线性间的影响[17];2011年Sa Ana通过研究坏境因素和火灾发生率的空间异质性的关系,并将普通线性回归模型与地理加权回归模型比较,得出地理加权回归模型能够更好的降低残差,得出地理加权回归模型拟合度达到87%,最终得出火灾的发生率石油由于植被的覆盖不均衡造成的,而人为因素占少部分[18]。

在经济方面,2006年Benedict利用地理加权回归模型(GWR)调查分析出了新西兰非娱乐赌博机器与赌博行为的分布影响[19];2008年Noresah和Ruslan 等人利用地理加权回归模型和普通线性模型的对比分析,通过构建城市空间模型对马兰西亚的吉达州进行分析,深入研究1992年至2002年城市变化间因素与城市建成区之间的关系[20];LeSage提出了贝叶斯地理加权回归模型(BGWR),提出了三种平滑方法,即“距离平滑”,“单位平滑”,“邻近平滑”,同时对抽样对模型进行参数估计,与此同时LeSage对我国的经济增长进行了贝叶斯地理加权回归模型(BGWR),地理加权回归模型(GWR)和最小二乘法(OLS)研究及对比,研究表明,与最小二乘法(OLS)相比,贝叶斯地理加权回归模型(BGWR)和地理加权回归模型(GWR)更符合实际情况,而对于参数估计的平稳性而言,贝叶斯地理加权回归模型(BGWR)明显优于地理加权回归模型(GWR)[21]。

混合地理加权回归(MGWR)模型是对地理加权回归模型的进一步扩展。

在2008年Pecci和Sassi通过研究15个欧盟国的农业生产力,通过MCMC检验,以人口密度、GDP 为全局变量,以失业率和林业面积为局部变量,通过MGWR基础建立模型,得出区域农业生产力的空间分异[22];2010年Helbich和Brunauer通过对建筑和住宅周围坏境的影响建立MGWR模型,对奥地利的房价进行研究,而局部变量对房价的影响较大,房价会随空间局部变量的变化而变化[23]。

1.2.2国内研究现状
我国的研究者也做出了不少贡献。

2007年覃文忠对上海市住宅销售平均价格空间非平稳性进行分析,通过对地理加权模型与普通的线性模型以及混合地理加权模型进行对比,进一步统计检验,最终得出混合地理加权模型优于地理加权模型优于普通的线性模型[24];2000-2012年范新英在空间计量经济学的基础上,建立混合地理加权回归,选取全国35个大中城市服务销售价格,将城市间纳入空间地理位置,研究了价格对中国城市房地产的影响因素以及引起价格波动的成因分析,通过方差分析检验得出GWR模型估计优于OLS估计,说明影响房价因素在地理位置上存在一定的空间异质性且有明显的空
3
间效益[25];扈瑞鹏和马玉琪等人,利用混合地理加权回归模型对中国城镇居民文化消费进行空间统计分析,结果表明:省城城镇居民文化消费呈现空间相关性和异质性[26];2009年魏传华等人利用混合地理加权回归模型(MGWR)解决空间非平稳性,通过对混合地理加权模型以及地理加权回归模型理论简介以,进一步采用混合地理加权模型进行两步法估计,并相应提出相应的构造并检验异常点,由于半参数在参数中占据重要作用,其次研究了混合地理加权模型(MGWR)对于的数据删除模型影响分析和均值漂移模型,并提出了Cook统计量,最后检验异常点统计量,将混合地理加权模型从参数范围推广到了半参数模型中[27]。

在地理加权回归模型的基础上,2007年覃文忠进一步对地理加权回归模(GWR)进行了理论的完善,通过地理加权回归模型(GWR)中的回归模型的空间非平稳性显著性检验,回归参数空间非平稳性检验,以及对回归参数的预测的置信区间的统计推断,其次对地理加权回归模型(MGWR)如何选择合适的带宽对长参数的作出了估计和推断,最终对混合地理加权回归模型(MGWR)作出空间尺度效应研究[28];2010年齐飞等人分别对地理加权模型(GWR)和混合地理加权模型(MGWR)的理论简介基础下,进一步对混合地理加权模型(MGWR)进行模型的约束估计与检验,利用约束OLS估计,Back-Fitting 方法的模型约束估计,以及PLES方法的模型约束估计与检验,最终对混合地理加权回归模型(MGWR)进行了模型误差空间自相关检验,完整的对混合地理加权回归模型(MGWR)进行了统计推断[29];2012年崔长彬选取了2006年-2009年样本数据,利用河北省136个县市经济建立贝叶斯地理加权回归模型及卢卡斯内生增长理论模型的方法对经济的
影响因素进行了回归分析,最终得出河北省县域经济存在着显著性空间异质性,并以此上的结论提出了相关建议对经济的发展[30];2013年丁刚选取2006年-2009年我国30个省政府能效、区域创新能力为变量,使用BGWR模型中的“单中心城市平滑”“邻近平滑”“距离平滑”三种平滑方式,通过贝叶斯估计进行后验比较,最终得出结论提出检验[31];2013年乔宁宁利用三阶2χ逼近法对于混合地理加权回归模型提出了新的空间相关性检验统计,而为了处理空间异质性,对模型进行模拟实验与验证,最终得出该估计方法具有较高的稳健性,空间滞后模型处理空间异质性表现更好[32];2017年李腾、魏传华等人,以小域估计方法为基础对混合地理加权回归模型深度分析研究,通过将模型参数的分类深入研究了空间的非平稳[33];朱明慧等人通过利用多元线性回归模型对其进行贝叶斯统计推断,其次采用了多重线性回归模型和VAR预测模型分布贝叶斯估计对参数进行了统计推断[34]。

4
1.3空间计量经济学的研究进展
伴随着空间计量经济学的研究发展,2007年Anselin将空间计量经济学的发展大致分为:“萌芽阶段”、“腾飞阶段”和“成熟阶段”三个阶段[35]。

第一阶段“萌芽阶段”重点研究了模型的设定(空间滞后模型和空间误差模型)、残差之间的空间自相关和多元回归模型的估计(极大似然估计),主要充分考虑到了空间自相关。

1984年Mardia and Marshall等人对空间自回归模型的ML估计进行深入的研究[36];1974年Hordijk主要探讨了误差项存在的空间相关性和多元回归模型中模型估计的问题。

其中在模型估计问题中,除了ML估计法之外,继而提出了Bayesian估计法[37]。

1988年Anselin引入空间计量模型解决空间异方差问题,建立模型及进行空间自相关的检验[38],1981年Cliff和Ord初次提醒研究者要不断地对空间自相关问题进行检验,1981年基于在回归残差发展了sI
Moran'统计量的渐进分布,King检验了小样本性质[39]。

1988年Anselin通过分析在ML估计下,空间自回归模型和空间滞后模型中的空间自相关检验的LM检验方法和LR检验方法[40],下半年Anselin分析出似无关回归模型中的空间自相关的检验以及空间依赖性和空间异方差的LM检验程序[41]。

第二阶段“腾飞阶段”空间计量经济学在阶段领域已经有了较为正规和清晰的定义,其中估计方法也得到了进一步的发展,在ML估计和Bayesian估计发展的同时,GMM等估计法业逐渐出现,而普通的模型也渐渐地开始从界面数据模型发展成为面板数据模型和离散模型。

1998年Kelejian and Prucha利用CMM估计法对既含有因变量的空间自回归又包含的空间自回归成分中的混合截面模型进行了估计[42]。

在这一阶段中,空间计量经济学是一个重要发展阶段,虽然初步涉及空间面板数据模型,但在经济学中得到广泛的应用[43],如:1991年利用面板数据对家庭的大米需求进行研究,1992年利用面板数据进行研究各地区人均警备指出对降低犯罪率的影响以及这种影响空间溢出效应,1998年利用GMM方法估计了误差项空间自回归过程的probit模型,并对probit模型分析了
Moran'统计量以及其他相关的空间自相关检验统计统计量的参数的估计,同年研究了sI
渐进性质。

综上述的研究中,对于空间自回归及自变量模型中,模型的参数都是固定不变的,一般处理空间自回归中的变量的空间自相关问题时,除了空间效应的空间自相关外,还存在空间异质性。

1996年Brunsdon和Fotheringham提出了地理加权回归模型(GWR)的空间变系数模型。

第三阶段“成熟阶段”空间计量经济学的进一步在估计方法和模型设定等方面的深
5
入发展。

在模型的估计中,GMM和Bayesian的深入研究,非参数方法也不断引入了空间计量模型的估计中,在实际应用中,空间计量经济学普遍运用到经济、坏境、房地产等各个领域。

1988年Anselin除了对空间残差回归固定效应空及空间自回归固定效应模型等模型进行深入研究,还曾提出空间联立方程模型,空间联立方程模型重点研究了模型的识别度、工具变量的处理及选取的估计量[38]。

基于上述静态空间面板数据的研究,2005 年Elhorst提出空间误差自相关的动态固定效应,并利用逼近法得出模型的极大似然估计量,2007年Su and Yang[44]通过考虑空间相关因素,结合固定效应和随机效应充分考虑了的内生和外生变量两种情况,并在极大似然的基础上推导出在EH下的估计量[43]。

在应用部分,Elhorst通过假设残差存在空间自回归,利用动态面板数据研究了美国各个州烟草的需求量,2004年采用了MCMC对probit模型进行深入的研究并讨论了模型估计模拟了估计量。

总之,空间计量经济学无论在模型的估计方法、设定检验还是应用研究中都得到了长足的发展。

1.4简要评述
在国内外文献中,空间计量经济学是研究空间统计学最常用的方法,在对空间面板数据进行深入的研究时,通常采用固定效应模型及随机效应模型、固定系数模型解决空间空间自相关和异方差的问题,一般采用MCMC抽样方法对参数进行估计。

而对于地理
加权回归模型和混合地理加权回归模型通常采用最小二乘法估计、Back-fitting法和两步法估计,通过对模型参数估计深入的研究并应用于各个领域的实证分析,由于混合地理加权回归模型要优,全面的考虑了地理位置的存在性,结果过程更规范清晰。

诸多的国内外文献在对经济的发展和环境问题研究时,通常混考虑到直接原因与间接原因,但在研究间接原因的时候往往具有一定的局限性,未能全面与系统的考虑到模型的地理位置及空间上的不稳定性等因素,如二氧化硫排放量的研究中,只考虑带来经济因素与排放量之间的关系,并未考虑到其他的控制因素对二氧化硫排放量的影响,由于我国的地域面积广阔,不仅生态环境存在地域上的差异,人口密度和技术水平也存在一定的差异。

为了全面的分析经济增长对环境的影响,将该问题放在具有空间作用下的空间变系数模型中进行实证分析。

1.5研究内容与方法
为了完善混合地理加权回归模型分析的理论框架和突出空间样本数据的空间非平稳性(空间异质性)。

本文主要采用的分析方法有最小二乘估计法、两步法估计法和Bayes 估计法。

相关文档
最新文档