地理学时空数据分析方法_王劲峰
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地理学报ACTA GEOGRAPHICA SINICA 第69卷第9期
2014年9月V ol.69,No.9September,2014
收稿日期:2014-07-08;修订日期:2014-07-27
基金项目:国家自然科学基金(41023010);973课题(2012CB955503)[Foundation:National Natural Science Foundation
of China,No.41023010;The National Basic Research Program of China,No.2012CB955503]
作者简介:王劲峰(1965-),男,研究员,中国地理学会会员(BJ1566),从事地理信息科学的理论创新和实践。
E-mail:wangjf@
1326-1345页
地理学时空数据分析方法
王劲峰1,葛咏1,李连发1,孟斌2,武继磊3,柏延臣4,杜世宏5,廖一兰1,胡茂桂1,徐成东1
(1.中国科学院地理科学与资源研究所,北京100101;
2.北京联合大学应用文理学院,北京100191;
3.北京大学人口研究所,北京100871;
4.北京师范大学遥感与地理学院,北京100875;
5.北京大学地球与空间科学学院,北京100871)
摘要:随着地理空间观测数据的多年积累,地球环境、社会和健康数据监测能力的增强,地
理信息系统和计算机网络的发展,时空数据集大量生成,时空数据分析实践呈现快速增长。本文对此进行了分析和归纳,总结了时空数据分析的7类主要方法,包括:时空数据可视化,目的是通过视觉启发假设和选择分析模型;空间统计指标的时序分析,反映空间格局随时间
变化;时空变化指标,体现时空变化的综合统计量;时空格局和异常探测,揭示时空过程的
不变和变化部分;时空插值,以获得未抽样点的数值;时空回归,建立因变量和解释变量之
间的统计关系;时空过程建模,建立时空过程的机理数学模型;时空演化树,利用空间数据
重建时空演化路径。通过简述这些方法的基本原理、输入输出、适用条件以及软件实现,为
时空数据分析提供工具和方法手段。
关键字:时空数据;时空格局;时空过程;时空机理;样本;对象总体;大数据
DOI:10.11821/dlxb201409007
1引言
随着社会与经济调查与统计、对地观测技术、计算机网络和地理信息系统的快速发展和普及,具有空间位置的自然环境与社会经济数据近几十年快速增长,形成了海量的时空数据集[1]和时空大数据。依据文献分析,目前科学研究对时空数据分析的理论方法探讨日益增多。如以时空分析为题目的专著有Modern Spatiotemporal Geostatistics [2]、Statistics for Spatio-Temporal Data [3]和Spatial Statistics and Spatio -Temporal Covariance Function and Directional Properties [4]等,而时空分析实践论文更加广泛[5-17],涉及各种各样的分析方法。截止2014年8月30日,以“时空数据分析”为关键词检索google 有161万条、百度918万条;以spatiotemporal analysis 为检索词google 有1230万条,Web of Science 标题719条、主题8680条。专著自成体系,Modern Spatiotemporal Geostatistics [2]核心内容是贝叶斯最大熵理论(BME),在BME 框架内可以融合一般知识,例如牛顿定律和传染病SIR 模型,和专有知识,例如具体数值等硬数据和取值范围等软数据。据此进行时空预测。Statistics for Spatio-Temporal Data [3]一书论述了三类方法:反应扩散方程、Kriging 插值和贝叶斯层次回归模型。其中贝叶斯层次模型由数据模型、过程模型、和参数模型逐级嵌套而成。基于这些专著和文献,本文试图通过对现有时空分析理论和实践进行梳理和分析,归纳总结出时空数据分析的方法体系和主要工具。
9期王劲峰等:地理学时空数据分析方法
作为地理学量化研究的工具,空间统计方法基于统计学理论已经发展形成了相对完整的理论体系。借助统计学丰富严谨的数据分析方法,时空数据分析有可能取得更加丰硕的成果。为地理学从统计学“借力”,首先需要沟通地理学和统计学语言(表1),搭建两者连接的桥梁。地理学获取研究对象的数据,据此推断研究对象的格局、过程和机理。空间统计学将研究区域(如中国)看作一个总体(population);而时空统计学将研究区域(如中国)和研究时段(如新中国成立以来)看作一个总体。在统计学中,总体由样本单元(unit)组成;在空间统计学中,样本单元为空间单元,如中国近3000个县或960万个公里网格;在时空统计学中,样本单元为时空单元,如中国近3000个县或960万个公里网格与1949-2014年逐年组合形成的县年或公理年单元。为获取数据,需要从总体中抽取一个样本(sample),由有限个单元组成(如在空间统计中随机抽取300个县,抽样率为10%;或在时空统计中抽取300个县并且从1949-2014年的65年中随机抽取10年,其空间抽样率为10%,时间抽样率为10/65=15%)。
一个属性y (如GDP)值随样本单元s 和随时间t 变化,被看做是一个时空随机变量[3]。
{y (s ,t ):s ∈D s ⊂ℜd ,t ∈D t ⊂ℜ}(1)
式中,D s 是感兴趣的空间域,D t 是感兴趣的时间域,ℜ是实数,d 是维度。一个时空样本的属性值被看做是这个随机变量在一个时空点(s ,t )上的一次实现。在空间统计中,一个随机抽取的样本(300个县2014年GDP)经统计方法(如简单算术平均,再被抽样率除)推断总体参数(得到2014年全国GDP 总量),并进一步推断总体背后的超总体的参数(如全国逐年GDP),需要对超总体的性质做某种假设,一般需要使用基于模型的方法(Model based)。总体被看做是超总体的一次实现。在时空统计中,样本(随机抽取的300个县,随机抽取的10年的GDP)经统计方法(如时空插值,再逐年汇总)推断总体参数(如全国逐年GDP)。总体背后的超总体可能不是唯一的[18],超总体可由过程机理,研究目的和数学处理的方便程度来定义。目前,时空过程的超总体尚不清楚。这几个概念大体的对应关系是:地学数据(data)—统计学样本(sample);地学格局(pattern)—统计学总体(population);地学过程(process)—统计学超总体(superpopulation)。地理学分析立足于数据,通过数据分析揭示的空间格局和过程,讨论地理事物的规律和机理。统计学立足于变量,由变量推断总体,反演超总体的参数和性质。
空间数据分析、时间序列分析和时空数据分析的研究对象分别是空间数据、时间序列表1地理学与统计学名词比较
Tab.1Comparison between terms in geography and statistics 地理学
空间
统计学举例时空统计学举例
过程Process 超总体Superpopulation
Y (s ,t )for ∀s &∀t
GDP(s ,t ),
s =1,…,3000,t =1,…,65
超总体
Superpopulation
?格局Pattern 总体Population Y (s )for ∀s GDP(s ),s =1,…,3000总体Population Y (s ,t )for ∀s &∀t GDP(s,t ),s =1,…,3000t =1,…,65数据集Dataset 样本Sample y (s )for ∃s GDP(s ),s =1,…,300样本Sample y (s ,t )for ∃s &∃t GDP(s,t ),s =1,…,300t =1,…,10数据单元Data unit 样本单元Sample unit s s =1,…,3000样本单元Sample unit (s ,t )s =1,…,3000t =1,…,10数据Data 变量Variable y (s )for s GDP(s )s ∈[1,3000]变量Variable y (s ,t )for (s ,t )
GDP(s,t )s ∈[1,3000]
t ∈[1,65]
注:Y 指总体的变量,对应的样本变量记作y ;s ,t 分别指地点和时间;∀表示所有;∃表示存在,某个或某些;∈表示属于。3000指中国共有3000个县;300指从3000个县中随机抽取的样本单元数,抽样率为10%;t =1,…,65指新中国成立以来至今各年份,1949-2014年;t =1,…,10指从65年中随机抽取10个年份;?指在时空统计学中,超总体的含义尚不清楚。1327