地理加权回归-空间分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.473628
224.6719
0.00038
758.6155
110111
46.62295
52.79277
208.7774
2.333494
532.4592
0.000457
2082.544
110112
55.23023
51.21378
201.2761
2.186171
1454.807
0.00036
2406.252
PerGdp
人均国内生产总值
千元
rate
发病率
此外,还需要的数据是包含该地区所有区县的地图文件(.dbf文件和.shp文件从光盘中获取,C:\Example\Data\Geodata\JJT)。该文件也可以通过arcgis软件从全国各区县地图中选择生成。
(2)采用R语言建立地理加权回归模型
第一步,加载如下程序包,代码如下:
以上两式中的 为点 到点 的距离。 被称为带宽,是需要人工选择的参数。这两个函数中,距离越大,函数值都越小。这说明选择这两个函数时,都假设观测点越远,影响越小。
地理加权回归模型将数据的空间位置嵌入到回归参数中,因此考虑了空间的异质性。同时,由于不同位置的观测点对回归参数的影响大小不同(通常离回归点越近,影响越大),因此该模型也考虑了空间相关性。地理加权回归的使用,也当同时以空间相关性与异质性为前提。如果没有空间相关性,那么该模型就缺乏合理性。如果没有空间异质性,那么该模型就缺乏必要性。
110107
52.39305
50.77886
205.6759
2.255836
8249.254
0.000541
1561.691
110108
52.13075
51.01494
207.5023
2.255693
8524.685
0.001021
1010.973
110109
44.66608
53.70504
218.3655
地理加权回归-空间分析
1.1
空间回归模型中的回归系数 不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(GeographicallyWeighted Regression, GWR)的提出。地理加权回归同时考虑了空间的相关性与异质性。
地理加权回归模型一般形式如下:
;
其中, 与 是因变量 与自变量 在 处的观测值, 为第 个采样点的坐标, 是第 个采样点上的第 个回归参数,点 被称为回归点。 ,当 时, 。简便记为:
地理加权回归会得出 个回归方程,对应每个回归点 ,都会有一个回归方程。若 ,则地理加权回归模型退化为普通线性回归模型。
library(spgwr)
第二步,导入所需的数据,代码如下:
hData <- read.csv("C:/Example/Data/7.3WGR/地区汇总.csv")#导入发病率和影响因素的数据
dbf <- read.dbf("C:/Example/Data/Geodata/JJT.dbf")#导入地图的数据(dbf格式)
表732011年某地区的某疾病发病情况
code
precp
relHum
sunShn
wndspd
PopuDen
PerGdp
rate
110101
58.06842
49.82318.95
0.002438
347.1859
110102
62.59835
52.05048
202.8901
2.169381
14956.04
0.003675
447.7185
110105
57.65938
50.06015
205.5302
2.189571
8528.913
0.00096
1139.069
110106
55.73981
50.20182
205.5477
2.215026
7698.981
0.000419
1759.943
110113
50.22722
55.34219
195.5819
2.014273
967.6505
0.001211
1643.1
表74各变量的含义
变量名称
变量含义
单位
code
地理编码
无
precp
降水量
毫米
relHum
相对湿度
%
sunShn
日照强度
瓦/平方米
wndspd
风速
千米/时
popuDen
人口密度
千人/平方公里
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵;
bandwidth:带宽,由上步gwr.sel生成;
gweight:不指定时,默认使用高斯函数确定权重矩阵;
hatmatrix:如果为TRUE,帽子矩阵作为结果的一部分返回。
模型回归参数需要通过局部加权最小二乘进行估计。假设在位置 的权重为 ,( ),那么位置 的参数估计为使 达到最小的 值。
上式中的 为权函数,反映其他观测点的样本对回归点的影响。权函数值越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:
(1)Gauss函数:
(2)bi-square函数:
coords:代表空间观测值位置的坐标矩阵。
代码如下:
col.bw <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd,data=data, coords=cbind(data$x, data$y))#利用交叉验证选择最优带宽
第五步,生成地理加权回归模型,采用gwr函数,使用的各参数意义如下:
第三步,将导入的两组数据合并,代码如下:
Data <- merge(hData,dbf, by.x="code" , by.y = "CNTY_CODE" , all.x =T)
第四步,确定带宽,采用gwr.sel函数。所使用的参数如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
【案例72】
以2011年北京、天津、唐山各县(区)疾病发病率和同期各县(区)的人口密度、人均GDP、年平均风速、光照强度、相对湿度、年降水量等数据为例,研究社会经济和气象因素对该疾病发病率在各地区影响的不稳定性。
本节所用的数据为2011年某地区某疾病的发病率(C:\Example\Data\7.3WGR\地区汇总.csv),命名为“地区汇总.csv”。此处只展示前10条
224.6719
0.00038
758.6155
110111
46.62295
52.79277
208.7774
2.333494
532.4592
0.000457
2082.544
110112
55.23023
51.21378
201.2761
2.186171
1454.807
0.00036
2406.252
PerGdp
人均国内生产总值
千元
rate
发病率
此外,还需要的数据是包含该地区所有区县的地图文件(.dbf文件和.shp文件从光盘中获取,C:\Example\Data\Geodata\JJT)。该文件也可以通过arcgis软件从全国各区县地图中选择生成。
(2)采用R语言建立地理加权回归模型
第一步,加载如下程序包,代码如下:
以上两式中的 为点 到点 的距离。 被称为带宽,是需要人工选择的参数。这两个函数中,距离越大,函数值都越小。这说明选择这两个函数时,都假设观测点越远,影响越小。
地理加权回归模型将数据的空间位置嵌入到回归参数中,因此考虑了空间的异质性。同时,由于不同位置的观测点对回归参数的影响大小不同(通常离回归点越近,影响越大),因此该模型也考虑了空间相关性。地理加权回归的使用,也当同时以空间相关性与异质性为前提。如果没有空间相关性,那么该模型就缺乏合理性。如果没有空间异质性,那么该模型就缺乏必要性。
110107
52.39305
50.77886
205.6759
2.255836
8249.254
0.000541
1561.691
110108
52.13075
51.01494
207.5023
2.255693
8524.685
0.001021
1010.973
110109
44.66608
53.70504
218.3655
地理加权回归-空间分析
1.1
空间回归模型中的回归系数 不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(GeographicallyWeighted Regression, GWR)的提出。地理加权回归同时考虑了空间的相关性与异质性。
地理加权回归模型一般形式如下:
;
其中, 与 是因变量 与自变量 在 处的观测值, 为第 个采样点的坐标, 是第 个采样点上的第 个回归参数,点 被称为回归点。 ,当 时, 。简便记为:
地理加权回归会得出 个回归方程,对应每个回归点 ,都会有一个回归方程。若 ,则地理加权回归模型退化为普通线性回归模型。
library(spgwr)
第二步,导入所需的数据,代码如下:
hData <- read.csv("C:/Example/Data/7.3WGR/地区汇总.csv")#导入发病率和影响因素的数据
dbf <- read.dbf("C:/Example/Data/Geodata/JJT.dbf")#导入地图的数据(dbf格式)
表732011年某地区的某疾病发病情况
code
precp
relHum
sunShn
wndspd
PopuDen
PerGdp
rate
110101
58.06842
49.82318.95
0.002438
347.1859
110102
62.59835
52.05048
202.8901
2.169381
14956.04
0.003675
447.7185
110105
57.65938
50.06015
205.5302
2.189571
8528.913
0.00096
1139.069
110106
55.73981
50.20182
205.5477
2.215026
7698.981
0.000419
1759.943
110113
50.22722
55.34219
195.5819
2.014273
967.6505
0.001211
1643.1
表74各变量的含义
变量名称
变量含义
单位
code
地理编码
无
precp
降水量
毫米
relHum
相对湿度
%
sunShn
日照强度
瓦/平方米
wndspd
风速
千米/时
popuDen
人口密度
千人/平方公里
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵;
bandwidth:带宽,由上步gwr.sel生成;
gweight:不指定时,默认使用高斯函数确定权重矩阵;
hatmatrix:如果为TRUE,帽子矩阵作为结果的一部分返回。
模型回归参数需要通过局部加权最小二乘进行估计。假设在位置 的权重为 ,( ),那么位置 的参数估计为使 达到最小的 值。
上式中的 为权函数,反映其他观测点的样本对回归点的影响。权函数值越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:
(1)Gauss函数:
(2)bi-square函数:
coords:代表空间观测值位置的坐标矩阵。
代码如下:
col.bw <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd,data=data, coords=cbind(data$x, data$y))#利用交叉验证选择最优带宽
第五步,生成地理加权回归模型,采用gwr函数,使用的各参数意义如下:
第三步,将导入的两组数据合并,代码如下:
Data <- merge(hData,dbf, by.x="code" , by.y = "CNTY_CODE" , all.x =T)
第四步,确定带宽,采用gwr.sel函数。所使用的参数如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
【案例72】
以2011年北京、天津、唐山各县(区)疾病发病率和同期各县(区)的人口密度、人均GDP、年平均风速、光照强度、相对湿度、年降水量等数据为例,研究社会经济和气象因素对该疾病发病率在各地区影响的不稳定性。
本节所用的数据为2011年某地区某疾病的发病率(C:\Example\Data\7.3WGR\地区汇总.csv),命名为“地区汇总.csv”。此处只展示前10条