基于地统计的徐州市人口密度空间分布研究_闫庆武
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地统计学运用变异函数 ( variogram) 和克里金 法进行空间模式分析[5], 常用来分析各种自然现象的 空间变异规律和空间格局, 并已被证明是研究空间 变异和空间格局的有效方法。进行地统计研究可以 分 3 步进行: ( 1) 获得数据空间分布的初步信息, 即 探 索 性 数 据 分 析 ( Exploratory data analysis,E- DA) , 从 而 决 定 是 否 进 行 数 据 正 态 变 换 ; ( 2) 进 行变异函数的最优拟合及其参数计算, 研究区域化 变量的空间分异特征; ( 3) 依据拟合得到的变异 函数作克里金插值, 得到区域化变量空间分布直观 表达图。 1.2.1 探索性数据分析
文献标识码: A
文章编号: 1001- 7852 ( 2007) 04- 0013- 06
0 引言
随着计算机技术与统计方法的迅速发展, 空间 数据分析 ( Spatial data analysis) 已得到多个学科的 越来越多的关注。空间数据分析是数据分析的一个 分支, 它研究地理参照物体的重要信息, 主要包括 这类信息的收集技术与精确分析模型[1]。空间数据分 析涉及空间数据的各个方面, 其内容至少包括空间 数据处理、空间数据分析 ( 指空间数据的描述性 ( CSDA) 和 探 索 性 的 分 析 ( ESDA) ) 、 空 间 统 计 分 析、空间模型四个领域[2]。它正逐步成为社会科学研 究的关键性因素[3], 在社会科学领域有着十分广泛的 应用。地统计 ( Geostatistics) 分析作为空间统计分 析 的 一 个 主 要 内 容 , 首 先 是 由 G.Matheron 于 1962 提出的, 是以区域化变量理论为基础, 以变异函数 为主要工具, 研究那些在空间分布上既有随机性又 有结构性, 或空间相关和依赖性的科学[4]。最近 20
摘要: 依据徐州市 2004 年乡镇统计数据, 以 ArcGIS 为技术平台, 采用地统计学的方法, 对其人口密 度 的 空 间 分
布进行了研究。首先借助直 方 图 、 半 方 差 云 图 和 Voronoi 多 边 形 等 方 法 对 人 口 密 度 数 据 作 探 索 性 数 据 分 析 , 获 取
对于变异函数的有效性的验证一般采用交叉证 实法, 其基本思路是: 依次假设每一个实测数据点 未被测定, 由所选定的变异函数模型, 根据 n- 1 个 其它测定点数据采用普通克里金估算这个点的值, 通过分析误差来检验模型的合理性[16]。 1.2.3 克里金估值及结果的验证
克里金法也称空间局部估计或空间局部插值, 是地统计学的两大主要内容之一[4]。其实质是如果区 域化变量 在 满 足 二 阶 平 稳 (Second- order stationary) 或本征假设 ( Intrinsic hypothesis) 前提下, 利用区 域化变量的原始数据和变异函数的结构特点, 对未 采样点进行线性无偏最优估计。克里金法已成为目 前最优秀的空间局部插值一类方法, 可以分为克里 金 法 ( 单 变 量 ) 与 协 同 克 里 金 法 ( Co- Kriging) ( 多个变量) 两种类型。
选 取 徐 州 市 各 行 政 的 中 心 为 基 点 生 成 Voronoi 图, 采用局部平滑法计算每个多边形的属性值 ( 图
γ 10
7.15
5.72
4.29 2.86
1.43
0 0.25
0.5 0.75 1 1.25 Distance.H.105
1.5 1.75 2
图 3 徐州市对数人口密度的半方差云图 Fig.3 Semivariogram cloud for log- population density of Xuzhou
425345321166277272727272555555555555000000000000............000000000000 725500..00
图 1 徐州市人口密度分布直方图 Fig.1 Histogram for population density of Xuzhou
30
第 19 卷第 4 期 2007 年 7 月
云南地理环境研究
YUNNAN GEOGRAPHIC ENVIRONMENT RESEARCH
Vol.19 No.4 Jul., 2007
基于地统计的徐州市人口密度空间分布研究
闫庆武 1, 2, 马晓冬 2, 卞正富 1
( 1.中国矿业大学 环境与测绘学院, 江苏 徐州 221008; 2.徐州师范大学 城市与环境学院, 江苏 徐州 221116)
了人口密度空间分布的初步信息; 然后, 采用曲线拟合和交叉证实法确立了徐州市对数人口密度空间分布的变异
函数模型 ( 指数模型) 及其相关参数; 最后运用对数克里金法 ( LK) 得到徐州市人口密度空间分布的等值线地图
和三维直观表达地图。
关键词: 地统计; 克里金法; 人口密度; 徐州市
中图分类号: C922
20
图 4 徐州市对数人口密度的 Voronoi 分析 Fig.4 Voronoi polygons for log- population density of Xuzhou 10
第 19 卷
人口密度的区域化, 它以空间坐标为自变量, 也是 区 域 化 变 量 ( Regionalized variable) 一 种 类 型 , 因 此人口密度的空间分布研究可以借用地统计学的方 法。
1 研究方法
1.1 研究区域及数据来源 研究区域为江苏省徐州市, 位于黄淮海平原的
南部, 处于长江流域与黄河流域过渡地带,地处北纬 33°43′~34°58′, 东经 116°22′~118°40′, 土地总面积 11 258 km2。 行 政 区 划 由 五 区 ( 鼓 楼 区 、 云 龙 区 、 贾汪区、泉山区、九里区) 、六县 ( 丰县、沛县、 铜山县、睢宁县四县, 邳州市、新沂市二市) 和 114 个 乡 镇 构 成 。 利 用 徐 州 市 1 ∶10 万 地 图 数 据 ( 2005 年镇级行政单元图层, 图形数据) 和 《徐州 市的统计年鉴》 ( 2005) 的分镇数据中的人口与土 地面积数据 ( 属性数据) , 运用 ArcGIS 建立徐州市 图形属性一体化数据库, 并计算各行政单元的人口 密度 ( 人 /km2) 。 1.2 地统计学方法
Voronoi 图 也 常 被 用 来 开 展 空 间 数 据 的 探 索 性
数 据 分 析 工 作 。Voronoi 多 边 形 是 不 规 则 的 最 基 本 的 和 最 重 要 的 几 何 构 造[20], 是 一 种 重 要 的 空 间 内 插 方法[21]。每个 Voronoi 多边形仅包含一个基点, 并且 满足多边形内的任一点到其基点的距离小于其他多 边 形 到 该 点 的 距 离 。Voronoi 多 边 形 生 成 以 后 , 相 邻的点就被主义为具有相同连接边的样点。Voronoi 多 边 形 属 性 值 的 计 算 方 法 有 局 部 平 滑 ( Local Smoothing) 、局部变异 ( Local Variation) 、局部特异 值 ( Local Outliers) 和 局 部 影 响 ( Local Influence) 等 4 种类型[22]。 1.2.2 变异函数的最优拟合
合理选择变异函数的模型是地统计分析中的关 键一步。变异函数 ( 或称变差函数, 变异矩) 是地 统计学所特有基本工具, 是进行空间变异和结构分 析的最为有效的手段[4, 5]。如果区域化变量 Z (x) 具 有二阶平稳性, 则变异函数γ^ (h) 为:
N( h)
! γ^( h)
=
1 2N(
h)
"Z(xi)- Z(xi+h) #2
100
80
60
40
20
0
( 2.827) , 偏度系数为 1.97, 略大于对称值 0, 峰值 系数为 5.58, 略大于正态分布值wenku.baidu.com3, 可以近似看作 正态分布。
半 方 差 云 图 (图 3) 的 横 坐 标 为 两 个 行 政 单 元 几何中心之间的空间距离, 纵坐标为反映了对数人 口密度的变异函数值 ( 用式 2- 1 计算) , 它反映了 对数人口密度空间关系。从图 3 可以看出, 空间上 愈接近的点对具有更相似的值; 距离愈远的点对具 有更多的不相似性。
探索性数据分析是最基本的统计分析方法, 是 分析研究工作的起点。通过探索性数据分析, 从复 杂的数据中分离出数据的基本模式和特点, 了解和 发现其中的规律, 以便选择分析方法。探索性数据 分析主要开展统计数据的属性的确定、全局变化趋 势的找寻、数据分布特点的探测、数据全局和局部 异常值的发现、数据相关性的研究等工作, 并可得 到许统计数据的多个统计学的基本指标, 如均值 值、百分比、范围、方差、峰度、偏态、中数、极 值等。常用的分析方法主要有直方图分析、茎叶图 分析、趋势分析、相关分析等。
人口密度是人口学、社会学、地理学等学科研 究核心内容之一, 是表现人口分布的主要形式和衡 量人口分布差异的主要指标, 指特定地域范围内 ( 全球、大洲、国家以至各级更小的行政区、经济 区等) 单位面积上的常住人口数[17]。在研究工作中, 我们倾向于把人口密度看作一个连续的变量, 可以 用位置的函数来表达[1]。由此可见, 人口密度数值的 大小与研究区域的位置密切相关, 是空间数据 ( Spatial data) 的一种类型; 人口密度的空间分布即
多年的发展表明, 地统计学不仅在地质学中广泛应 用, 而且还被广泛应用在土壤、水文地质、图像分 析、遥感、犯罪分析、土地、环境、生态、气象等 各个领域[5-14]。目前, 地统计学与 GIS 相结合被广泛 用于建立各种环境过程模型, 如气候变化、空气污 染 、 土 地 污 染 、 动 植 物 与 人 类 的 空 间 分 布 等 [15]。 在 许 多 的 GIS 应 用 中 , 许 多 研 究 通 过 各 种 插 值 ( in- terpolate) 方法来实现数据的直观表达 。 [5~8,15~16]
克里金法对于正态分布的拟合效果最好, 但是 如果区域化变量 Z ( x) 是对数正态分布的, 那么 Y ( x) =lgZ ( x) 就是一个正态分布, 并且 Z 的估计值 可以通过 Y 的克里金估计值来计算, 这种方法被称
闫庆武等: 基于地统计的徐州市人口密度空间分布研究
15
为对数正态克里金法。
( 1)
i=1
式 中 N (h) 是 以 h 为 间 距 的 所 有 观 测 点 的 成 对 数 目 , Z (xi) 和 Z ( xi+h) 为 区 域 化 变 量 分 别 在 xi 和 xi+h 的取值。根据变异函数在原点处的性状可以将 变异函数分为抛物线型、线性型、间断型、随机型 和过渡型 ( 有拱型) 5 种类型。
收稿日期: 2006- 07- 24; 修订日期: 2006- 10- 25. 基金项目: 全国优秀博士论文基金资助 (200044); 徐州师范大学自然科学基金资助. 作者简介: 闫庆武 ( 1975- ) , 男, 山东省邹城人, 讲师, 博士生, 研究方向为资源环境与信息决策支持.
14
云南地理环境研究
2 研究结果与讨论
2.1 探索性数据分析 运用上述建立的徐州市人口分布数据库, 对徐
州市 118 个行政单元的人口密度数据作探索性数据 分 析 。 徐 州 市 2005 年 平 均 人 口 密 度 为 799.33 人 / km2, 通过运用 EDA 技术分析, 可知徐州市人口密 度的空间分布极度不均衡, 其频率分布是偏态的。 均 值 ( 799.33 人 /km2) 大 于 中 值 ( median) ( 671.81 人 /km2) , 偏 度 系 数 为 ( Skewness) 5.10, 远大于对称值 0, 为正偏分布; 峰值系数 (Kurtosis) 为 32.56, 远大于正态分布值 3, 为高狭峰分布 ( 图 1) 。如果对人口密度进行对数变换的新变量基本符 合 正 态 分 布 ( 图 2) , 均 值 为 2.864 略 大 于 中 值
文献标识码: A
文章编号: 1001- 7852 ( 2007) 04- 0013- 06
0 引言
随着计算机技术与统计方法的迅速发展, 空间 数据分析 ( Spatial data analysis) 已得到多个学科的 越来越多的关注。空间数据分析是数据分析的一个 分支, 它研究地理参照物体的重要信息, 主要包括 这类信息的收集技术与精确分析模型[1]。空间数据分 析涉及空间数据的各个方面, 其内容至少包括空间 数据处理、空间数据分析 ( 指空间数据的描述性 ( CSDA) 和 探 索 性 的 分 析 ( ESDA) ) 、 空 间 统 计 分 析、空间模型四个领域[2]。它正逐步成为社会科学研 究的关键性因素[3], 在社会科学领域有着十分广泛的 应用。地统计 ( Geostatistics) 分析作为空间统计分 析 的 一 个 主 要 内 容 , 首 先 是 由 G.Matheron 于 1962 提出的, 是以区域化变量理论为基础, 以变异函数 为主要工具, 研究那些在空间分布上既有随机性又 有结构性, 或空间相关和依赖性的科学[4]。最近 20
摘要: 依据徐州市 2004 年乡镇统计数据, 以 ArcGIS 为技术平台, 采用地统计学的方法, 对其人口密 度 的 空 间 分
布进行了研究。首先借助直 方 图 、 半 方 差 云 图 和 Voronoi 多 边 形 等 方 法 对 人 口 密 度 数 据 作 探 索 性 数 据 分 析 , 获 取
对于变异函数的有效性的验证一般采用交叉证 实法, 其基本思路是: 依次假设每一个实测数据点 未被测定, 由所选定的变异函数模型, 根据 n- 1 个 其它测定点数据采用普通克里金估算这个点的值, 通过分析误差来检验模型的合理性[16]。 1.2.3 克里金估值及结果的验证
克里金法也称空间局部估计或空间局部插值, 是地统计学的两大主要内容之一[4]。其实质是如果区 域化变量 在 满 足 二 阶 平 稳 (Second- order stationary) 或本征假设 ( Intrinsic hypothesis) 前提下, 利用区 域化变量的原始数据和变异函数的结构特点, 对未 采样点进行线性无偏最优估计。克里金法已成为目 前最优秀的空间局部插值一类方法, 可以分为克里 金 法 ( 单 变 量 ) 与 协 同 克 里 金 法 ( Co- Kriging) ( 多个变量) 两种类型。
选 取 徐 州 市 各 行 政 的 中 心 为 基 点 生 成 Voronoi 图, 采用局部平滑法计算每个多边形的属性值 ( 图
γ 10
7.15
5.72
4.29 2.86
1.43
0 0.25
0.5 0.75 1 1.25 Distance.H.105
1.5 1.75 2
图 3 徐州市对数人口密度的半方差云图 Fig.3 Semivariogram cloud for log- population density of Xuzhou
425345321166277272727272555555555555000000000000............000000000000 725500..00
图 1 徐州市人口密度分布直方图 Fig.1 Histogram for population density of Xuzhou
30
第 19 卷第 4 期 2007 年 7 月
云南地理环境研究
YUNNAN GEOGRAPHIC ENVIRONMENT RESEARCH
Vol.19 No.4 Jul., 2007
基于地统计的徐州市人口密度空间分布研究
闫庆武 1, 2, 马晓冬 2, 卞正富 1
( 1.中国矿业大学 环境与测绘学院, 江苏 徐州 221008; 2.徐州师范大学 城市与环境学院, 江苏 徐州 221116)
了人口密度空间分布的初步信息; 然后, 采用曲线拟合和交叉证实法确立了徐州市对数人口密度空间分布的变异
函数模型 ( 指数模型) 及其相关参数; 最后运用对数克里金法 ( LK) 得到徐州市人口密度空间分布的等值线地图
和三维直观表达地图。
关键词: 地统计; 克里金法; 人口密度; 徐州市
中图分类号: C922
20
图 4 徐州市对数人口密度的 Voronoi 分析 Fig.4 Voronoi polygons for log- population density of Xuzhou 10
第 19 卷
人口密度的区域化, 它以空间坐标为自变量, 也是 区 域 化 变 量 ( Regionalized variable) 一 种 类 型 , 因 此人口密度的空间分布研究可以借用地统计学的方 法。
1 研究方法
1.1 研究区域及数据来源 研究区域为江苏省徐州市, 位于黄淮海平原的
南部, 处于长江流域与黄河流域过渡地带,地处北纬 33°43′~34°58′, 东经 116°22′~118°40′, 土地总面积 11 258 km2。 行 政 区 划 由 五 区 ( 鼓 楼 区 、 云 龙 区 、 贾汪区、泉山区、九里区) 、六县 ( 丰县、沛县、 铜山县、睢宁县四县, 邳州市、新沂市二市) 和 114 个 乡 镇 构 成 。 利 用 徐 州 市 1 ∶10 万 地 图 数 据 ( 2005 年镇级行政单元图层, 图形数据) 和 《徐州 市的统计年鉴》 ( 2005) 的分镇数据中的人口与土 地面积数据 ( 属性数据) , 运用 ArcGIS 建立徐州市 图形属性一体化数据库, 并计算各行政单元的人口 密度 ( 人 /km2) 。 1.2 地统计学方法
Voronoi 图 也 常 被 用 来 开 展 空 间 数 据 的 探 索 性
数 据 分 析 工 作 。Voronoi 多 边 形 是 不 规 则 的 最 基 本 的 和 最 重 要 的 几 何 构 造[20], 是 一 种 重 要 的 空 间 内 插 方法[21]。每个 Voronoi 多边形仅包含一个基点, 并且 满足多边形内的任一点到其基点的距离小于其他多 边 形 到 该 点 的 距 离 。Voronoi 多 边 形 生 成 以 后 , 相 邻的点就被主义为具有相同连接边的样点。Voronoi 多 边 形 属 性 值 的 计 算 方 法 有 局 部 平 滑 ( Local Smoothing) 、局部变异 ( Local Variation) 、局部特异 值 ( Local Outliers) 和 局 部 影 响 ( Local Influence) 等 4 种类型[22]。 1.2.2 变异函数的最优拟合
合理选择变异函数的模型是地统计分析中的关 键一步。变异函数 ( 或称变差函数, 变异矩) 是地 统计学所特有基本工具, 是进行空间变异和结构分 析的最为有效的手段[4, 5]。如果区域化变量 Z (x) 具 有二阶平稳性, 则变异函数γ^ (h) 为:
N( h)
! γ^( h)
=
1 2N(
h)
"Z(xi)- Z(xi+h) #2
100
80
60
40
20
0
( 2.827) , 偏度系数为 1.97, 略大于对称值 0, 峰值 系数为 5.58, 略大于正态分布值wenku.baidu.com3, 可以近似看作 正态分布。
半 方 差 云 图 (图 3) 的 横 坐 标 为 两 个 行 政 单 元 几何中心之间的空间距离, 纵坐标为反映了对数人 口密度的变异函数值 ( 用式 2- 1 计算) , 它反映了 对数人口密度空间关系。从图 3 可以看出, 空间上 愈接近的点对具有更相似的值; 距离愈远的点对具 有更多的不相似性。
探索性数据分析是最基本的统计分析方法, 是 分析研究工作的起点。通过探索性数据分析, 从复 杂的数据中分离出数据的基本模式和特点, 了解和 发现其中的规律, 以便选择分析方法。探索性数据 分析主要开展统计数据的属性的确定、全局变化趋 势的找寻、数据分布特点的探测、数据全局和局部 异常值的发现、数据相关性的研究等工作, 并可得 到许统计数据的多个统计学的基本指标, 如均值 值、百分比、范围、方差、峰度、偏态、中数、极 值等。常用的分析方法主要有直方图分析、茎叶图 分析、趋势分析、相关分析等。
人口密度是人口学、社会学、地理学等学科研 究核心内容之一, 是表现人口分布的主要形式和衡 量人口分布差异的主要指标, 指特定地域范围内 ( 全球、大洲、国家以至各级更小的行政区、经济 区等) 单位面积上的常住人口数[17]。在研究工作中, 我们倾向于把人口密度看作一个连续的变量, 可以 用位置的函数来表达[1]。由此可见, 人口密度数值的 大小与研究区域的位置密切相关, 是空间数据 ( Spatial data) 的一种类型; 人口密度的空间分布即
多年的发展表明, 地统计学不仅在地质学中广泛应 用, 而且还被广泛应用在土壤、水文地质、图像分 析、遥感、犯罪分析、土地、环境、生态、气象等 各个领域[5-14]。目前, 地统计学与 GIS 相结合被广泛 用于建立各种环境过程模型, 如气候变化、空气污 染 、 土 地 污 染 、 动 植 物 与 人 类 的 空 间 分 布 等 [15]。 在 许 多 的 GIS 应 用 中 , 许 多 研 究 通 过 各 种 插 值 ( in- terpolate) 方法来实现数据的直观表达 。 [5~8,15~16]
克里金法对于正态分布的拟合效果最好, 但是 如果区域化变量 Z ( x) 是对数正态分布的, 那么 Y ( x) =lgZ ( x) 就是一个正态分布, 并且 Z 的估计值 可以通过 Y 的克里金估计值来计算, 这种方法被称
闫庆武等: 基于地统计的徐州市人口密度空间分布研究
15
为对数正态克里金法。
( 1)
i=1
式 中 N (h) 是 以 h 为 间 距 的 所 有 观 测 点 的 成 对 数 目 , Z (xi) 和 Z ( xi+h) 为 区 域 化 变 量 分 别 在 xi 和 xi+h 的取值。根据变异函数在原点处的性状可以将 变异函数分为抛物线型、线性型、间断型、随机型 和过渡型 ( 有拱型) 5 种类型。
收稿日期: 2006- 07- 24; 修订日期: 2006- 10- 25. 基金项目: 全国优秀博士论文基金资助 (200044); 徐州师范大学自然科学基金资助. 作者简介: 闫庆武 ( 1975- ) , 男, 山东省邹城人, 讲师, 博士生, 研究方向为资源环境与信息决策支持.
14
云南地理环境研究
2 研究结果与讨论
2.1 探索性数据分析 运用上述建立的徐州市人口分布数据库, 对徐
州市 118 个行政单元的人口密度数据作探索性数据 分 析 。 徐 州 市 2005 年 平 均 人 口 密 度 为 799.33 人 / km2, 通过运用 EDA 技术分析, 可知徐州市人口密 度的空间分布极度不均衡, 其频率分布是偏态的。 均 值 ( 799.33 人 /km2) 大 于 中 值 ( median) ( 671.81 人 /km2) , 偏 度 系 数 为 ( Skewness) 5.10, 远大于对称值 0, 为正偏分布; 峰值系数 (Kurtosis) 为 32.56, 远大于正态分布值 3, 为高狭峰分布 ( 图 1) 。如果对人口密度进行对数变换的新变量基本符 合 正 态 分 布 ( 图 2) , 均 值 为 2.864 略 大 于 中 值