空间统计学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Statistics for spatial data; Noel A.C. Cressie, Wiley& Sons,1991
空间统计学 0 引言 0.1定义
空间统计学由于许多学科的需求发展迅速。
空间统计学涉及的领域:生物学、空间经济学、遥感科学、图像处理、环境与地球科学( 大地测量、地球物理、空间物理、大气科学等等)、生态学、地理学、流行病学、农业经济学、林学及其它学科
空间过程或随机场定义:
{}(),Z s s =∈Z S (1) 式中S 是空间位置s 的集合,可以是预先确定的,也可以随机的,2d
d ⊆=S R 是二维欧
氏空间;()Z s 取值于状态空E 。
空时过程:如考虑时间,则
{}
(,),,(,)d Z s t s s t +=∈∈⨯Z S R R
式中S 是空间位置s 的集合,可以是预先确定的,也可以随机的;t +
∈R ;()Z s 取值于状态空E 。
注意:上述为标量值过程,但也可扩展为向量过程。
0.2 空间数据类型
0.2.1 连续型地学统计数据(Geostatistical data ) 此时, 2d
d ⊆=S R
是连续欧氏子空间,即连续点的集合,随机场{}
(),Z s s ∈S 在实值空间E 上的n 个固定位置n s s s ,,,21 取值。
如图为连续型空间数据
(a )降雨量分布图;(b) 土壤孔穴分布图。
(符号大小正比于属性变量值)
Geostatistical (spatial) data is usually processed by the geostatistical method that has been set out in considerable detail since Krige published his important paper. In summary, this method consists of an exploratory spatial data analysis, positing a model of (non-stationary) mean plus ( intrinsically stationary) error, non-parametrically estimating variogram or covariogram, fitting a valid model to the estimate, and kriging ( predicting )unobserved parts from the available data. This last step yields not only a predictor, but a mean squared prediction error.
0.2.2 离散型格网数据(Lattice data )
此时, 2d
d ⊆=S R
是固定的离散空间点,非随机点集合,随机场{}(),Z s s ∈S 在
2d d ⊆=S R 的空间点采样。
空间点可以是给定邻接图关系、表示成网状的地理区域,
如图2-a 。
()Z s 是在s 观测的某种感兴趣的值状态空间可以是、也可以不是实值的,比如GDP 、工业产值、农业产值、房产价格;在遥感图像分析领域,空间点就是规则的像元(pixel)集合图2-b 。
Goals for these types of data includes constructing and analyzing explicative models, quantifying spatial correlations, classification, segmentation, prediction and image restoration
(a) A 型血人口百分比分布图;(b) 256*256 相元灰度分布图
0.2.3 点数据(point data )
此时, 观测位置(sites)的集合, 12(,,
,)n x x x =x ,d i x ∈⊂S R 是随机的, 观测位置
(sites)的个数()n n =x 也是随机的; x 是空间点过程在窗口S 的观测结果。
如果在每个位置
i x 记录一个值,则称过程为一个记号或标志过程(marked process )。
如图3-a 所示,在显微镜下看到的一个组织切片(histological section )的细胞中心位置;如图3-b 所示,森林中松树的位置和大小(直径)
(a )组织切片细胞中心分布;(b ) 松树位置和直径大小分布
1 Second-order spatial models and geostatistics 1.1 随机过程背景知识 定义1.1. 随机过程
随机过程是在状态空间E 中取值的一族随机变量{}(),Z Z s s S =∈,S 是空间位置s 的集合。
定义1.2. 二阶过程
对所有s S ∈,如果2
(())E Z s <∞ ,则Z 是一二阶过程。
均值是从S 到R 的映射,即
()(())m s E Z s =。
对所有 (,)s t S S ∈⨯, Z 的协方差是函数 :c S S R ⨯→,即(,)((),())c s t Cov Z s Z t =。
非负定:1
11
(())()(,)0m
m m
T
i i i j i j i i j Var a Z s Var a a c s s =====≥∑∑∑a Z
正定:1
11
(()()(,)0m
m m
T
i i i j i j i i j Var a Z s Var a a c s s =====>∑∑∑a Z
定义1.3. 高斯过程(正态过程)
如果随机过程{}(),Z Z s s S =∈是一高斯过程,则1()m
i i i a Z s =∑是高斯随机变量,
12((),(),
,())T m Z s Z s Z s =Z ,12()((()),(()),,(()))T m E E Z s E Z s E Z s ==m Z ,是随
机向量,方差协方差为((,))i j m m c s s ⨯=Z Σ,概率密度为
1/2
/211
()(2)exp(2()())m T f π----=---Z
Z Z ΣZ m ΣZ m
一维布朗运动:(0)0Z =,()()~(0,),0Z t Z s N t s t s -->≥,对disjoint interval,是一独立增量过程,协方差((),())min(,)Cov Z t Z s t s =。
可以扩展到二维:
1.2 平稳过程
1.2.1 定义
定义1.4 二阶平稳过程
常数均值,协方差满足平移不变性,即 期望:()(())m s E Z s ==constant
协方差:((),())((),())()Cov Z t h Z s h Cov Z t Z s c s t ++==-
相关函数:()()/(0)h c h c ρ=
定义1.5 Isotropic covariance
对任意两点,s t S ∈,((),())Cov Z s Z t 仅依赖于s t -,而与位置和方向无关。
1.3 Intrinsic processes and variograms 1.3.1 定义
定义1.6 Intrinsic processes
对每个h S ∈,{}()():,Z Z +-∈s h s s h S 是二阶平稳过程,则{}(),Z Z =∈s s S 是一内蕴过程,其半变异函数( semi-variogram) 为
2()var(()())h Z Z γ=+-s h s ,h =h
条件负定性:给定1
0m i i a ==∑ ,有11
(,)0m m
i j i j i j a a s s γ==<∑∑ 。
Proof
1
11
1111
11(()()(,)(0)(,)(,)0
m
m m
T
i i i j i j i i j m m
m m
i j i j i j i j i j m m
i j i j i j Var a Z s Var a a c s s c a a a a s s a a s s γγ===========∑∑∑=-∑∑∑∑=->∑∑a Z
1.3.2 Variogram for stationary processes
具有协方差的平稳随机过程()Z s ,也为具有变异函数的内蕴过程,满足
2()2((0)())C C γ=-h h
性质:0
lim ()(0)C γ→=h h ,0
lim ()0C →=h h ,(0)var(())sill C Z ==s
如果()Z s 是具有γ的内蕴过程,()εs 是具有方差2
σ的独立白噪声过程,则随机过程
()()()Y Z ε=+s s s 满足:
22()2((0)())Y Y Y h C C h γσ=--=ε,
()εs 称为具有方差2
σ的块金效应。
变程(Range ):()(0)range sill C γ==;()0C range =
二阶平稳过程的统计方法既可以用协方差,也可以用变异函数。
Geostatistics 喜欢后者;统计学家喜欢前者。
图1.1-a 是有块金效应的变异函数图;图1.1-b 是无块金效应时的变异函数图。
1.3.3 Examples of covariance and variogram Isotropic variograms 变异函数 常用模型: 块金效应(Nugget effect ): 222(;),0;(;)0,for otherwise γσσγσ=>=h h h
指数(Exponential):
{}22(;,)1exp(/)a a γσσ=--h h
球状(Spherical): {}232
21.5/0.5(/),(;)a a if a
if a σγσσ⎧-<=⎨>⎩
h h h h h
-广义指数(generalized exponential ):
{}22(;,)1exp((/))a a αγσσ=--h h
-马特龙(Matern ): {
}
12
2
2
()(;,,)1(/)(/)a a a ν
νννγσνσκ-Γ=-h h h ,(/)a νκh 是改进白
塞尔函数,1(2;227;200)ν
>-
幂函数(power ):(;,)c
b c b γ=h h
如果空间过程是k 个不相关的内蕴过程的和,则该过程是一嵌套过程,有
1
1
2()2(),()()k k
j j j j C C γγ====∑∑h h h h
1.3.4 Anisotropy( 各向异性)
上节所讲变异函数与空间位置与方向无关,本节与方向有关,与位置无关,即 ()var(()())h Z h Z γ=+-e s e s
式中1=e 是单位方向向量,当方向不同时,函数不同。
几何各向异性(Geometric anisotropy ):由各向同性模型0()γh (平面上为一等值圆)变形而来,即
1/200()()(())T T γγγ==h Ah h A Ah
式中A 为与方向有关的变形矩阵。
平面上为一等值椭圆,如图1.4-a
1.5 Spatial modeling using convolution( 用卷积方法建立空间过程模型) 1.5.1 连续卷积 1.5.2 离散卷积
1.6 Spatio-temporal models ( 空时模型)
设{}
(,),,,(,)d d Z s t s t s t ++=∈⊆∈∈⨯Z S R R R R 是实值随机过程,S 表空间,t 表时间,Z 是二阶平稳过程,协方差为
112212121212((,),(,))(,)(,)Cov Z t Z t C t t C t t =--=--s s s s s s
可分形式
(a) Additive :(,)()()S T C s t C s C t =+, Separable space +time covariance (b) Factorizing: (,)()()S T C s t C s C t =, Separable space ⨯ time covariance 可分乘积形式:
随机过程空时采样格式: 1212(,,,)(,,,)n m S T s s s t t t ⨯=⨯,
1121112((,),(,),
,(,),,(,),(,),
,(,))T n m m n m Z s t Z s t Z s t Z s t Z s t Z s t =Z
协方差矩阵:ov()C =ΣZ 。
根据(b) 的可分形式,有
{}ov()(,)T S
T S mn mn
C C k l ⨯==⊕=ΣZ ΣΣΣ,
式中((,))T T m m C k l ⨯=Σ,((,))S S n n C k l ⨯=Σ
不可分形式
1.7 Spatial autoregressive models ( 空间自回归模型) 1.7.1 平稳 MA 和ARMA
MA 模型:由一维时间序列扩展而成,与时间序列类似,只是将时间维换成位置向量,空间d R 取自然整数格网,即(
,1,0,1,)d
d R =-。
()d
s R
Z c η-∈=∑s t s t 是无穷滑动平均过程
式中,(,1,0,1,)d
d R ∈=-t s ,η是独立白噪声过程,方差为2
ησ,过程的协方差及
其谱密度分别为
2
()d R
C c c ησ+∈=∑t t h t h
2
22
(2)(2)()T T d
d
d d d i i R R
R
f c c e
c e
η
η
σσππ+∈∈∈=
=
∑∑∑u t
u t
t t h t h t t u
ARMA 模型:由一维时间序列扩展而成,将时间换成位置向量。
()()d d
N
M
Z a Z c ηη-∈∈=-++∑∑s t s t s s s t t s
式中(,1,0,1,)d
d R ∈=-t ,,(,1,0,1,)d d d d N M R ⊆=-是ARMA 的支撑。
等价
地:
(,1,0,1,),()()()d d R P B Z Q B η∀∈=-=t t t
式中()1,()1,d
d
s
s
d
s s s N s M P z a z Q z c z z C ∈∈=-=+∈∑∑是d 维复值变量。
谱密度:
因为:11()()()()()d
s s
s R Z P B Q B P z Q z c z η--∈==∑t
t
协方差函数的谱密度为:222
2
(2)(2)()()T d
d
d Q i i s P
s R
f c e
e η
η
σσππ∈=
=
∑u s
u u
1.7.2 Stationary simultaneous autogression( 平稳同时发生自回归)SAR 模型
()()d
N
Z a Z η∈=-+∑s t s t t s ,≠s 0
纵坐标是时间轴,横坐标是空间轴 图1.6 (a)Semi-causal space-time models
(,)(,1)((1,)(1,))(,)Z s t Z s t Z s t Z s t s t αβε=-+-+++ 图(b)
220
(,)2(1,)(2,)(1,1)(1)(,1)(,)
j j Z s t Z s t Z s t Z s t Z s j t s t δδδδδδε≥=-+----+-+-+∑(c)Isotropic four nearest neighbor SAR models on grid network (一阶四邻域)
(,)((1,)(1,)(,1)(,1))(,)Z s t Z s t Z s t Z s t Z s t s t αε=-+++-+++
(d )二阶8邻域:加上四个对角
Factorizing SAR (1) models
(,)(1,)(,1)(1,1))(,),1Z s t Z s t Z s t Z s t s t and αβαβεαβ=-+----+<
上式等价于: 12(1)(1)(,)(,)B B Z s t s t αβε--=,12,B B 是延迟算子
(,)Z s t 的可分协方差为:2(,)s s t t C s s t t σα
β'
'
--''--=, 222121(1)(1)εσσαβ--=--
1.7.3
Stationary conditional autoregression (CAR )
{
}(),(,1,0,1,)d
d Z R =∈=-Z s s 是一中心化
(零均值)二阶平稳过程,谱密度为f ,如果1
1((,1,0,1,))d f
L -∈-,Z 有无穷非因果线性表达式:
{}
\()()d R Z c Z e ∈=
-+∑s t s 0t t s
式中s s c c -=,e t 是条件残差,即对≠s t , cov(,())0e Z =t s , ()0E e =t
例:22()(2)()()(2)s s s s Z c Z c Z c Z c Z e --=++-+++++t t t s t s t s t s ,22,s s s s c c c c --==
SAR 和CAR 的区别:
1、 系数对称约束,s s c c -=
2、 e t 并不要求白噪声,一般为有色噪声(相关)
3、 对≠s t ,cov(,())0e Z =t s
例子:
如图1.7-(a)
1、Causal AR model:
{}
(,)(1,)(,1)(,)(1,0),(0,1)Z s t Z s t Z s t s t R αβε=-+-+=
{}1,00,11,12222221,00,11,12221
(,)(1,)(,1)(1,1)(,)
(1,0),(0,1),(1,1),,,(1)e Z s t c Z s t c Z s t c Z s t s t L c c c εεακβκαβκσκσκαβ-+--=-+-++-+=-===-==++ 2、如图1.7-(b)
{}
(,)((1,)(1,))((,1)(,1))(,)(1,0),(1,0),(0,1),(0,1)Z s t a Z s t Z s t b Z s t Z s t s t R ε=-+++-+++=--
{}
1,00,12,00,21,11,1222222221,00,12,00,21,11,1(,)(1,)(,1)(2,)(,2)
(1,1)(1,1)(,)
(1,0),(2,0),(1,1),(0,1),(0,2),(1,1)2,2,2,2,2,e Z s t c Z s t c Z s t c Z s t c Z s t c Z s t c Z s t s t L c a c b c a c b c c ab εκκκκκσκ-+-=-+-+-+-++-+--+=-======-=222221
(122)a b εσκ-=++
1.7.4 有限网络上非平稳自回归模型
有限网点{}1,2,,S n =,*n R ∈X 随机向量,
**(),E ==-X μX X μ,
*()()Cov Cov ==ΣX X
1(()),n t t S ε⨯=∈ε,()Cov =εΓ
MA : ,(),,T t s s t S X t b or
ε∈===∑X B εΣB ΓB
AR :11,:()(),,()T t s t s S s t X t a X s or ε--∈≠=+==∑AX εΣA ΓA
ARMA :11,,:()(),,()T t s t s s s S s t t S
X t a X s b or
ε--∈≠∈=+==∑∑AX B εΣA B ΓA B Local one-parameter SAR representation
,:()(),t s t s S s t X t w X s or
ρερ∈≠=+=+∑X WX ε
式中,,()t s t s S w ∈=W 可以是空间邻接权矩阵,由元素1和零组成。
Markov CAR representation
,:()()t s t s S s t
X t c X s e ∈≠=+∑
2()0,()0,((),)0t t t s E e Var e Cov X t e with s t σ==>=≠
=+X CX e
21()()()((()))(())()()()T T T i i i i E E E diag E e X i diag E e e diag σ-=+=+=+=+=-==-XX C XX eX ΣC ΣΣC ΣΣC ΣD D I C ΣD
ΣI C D
Markov Gaussian random fields
~(,)N Z μΣ
我们总可以将()Z t 排第一,\t S t ∂=,即
即
1,,,,,()t t
t t s t n n t t t t q q -∂⨯∂∂∂⎡⎤===⎢⎥⎣⎦
q Q Σq q ((),)T T t Z t ∂=Z Z ,(1)1((),,)t n Z s s t s S ∂-⨯=≠∈Z
条件分布为:
1(()/)exp((()(()/))(()/)(()(()/)))T t t t t f Z t Z t E Z t D Z t Z t E Z t -∂∂∂∂∝---Z Z Z Z 11,,1,,(()/))((),)()(())
(())
(())t t t t t t t t t t t t t t t t t s s s t
E Z t Cov Z t Var E q E q q Z s μμμμ-∂∂∂∂∂-∂∂∂-≠=+-=--=--∑Z Z Z Z Z q Z Z 1,(()/)(()/)t t t t Var Z t D Z t q -∂∂==Z Z =
,11,,()(()),()t t t t t t s s t t s t
Z t q q Z s e Var e q μμ--≠-=--+=∑
1.7.5 具有协变量的自回归模型
ργ=+++X WX Z βWZ ε
Kyriakidis, P.C., Journel, A.G.: Geostatistical space-time models: a review. Mathematical Geology 31, 651–684 (1999) Kolovos, A., Christakos, G ., Hristopulos, D.T., Serre, M.L.: Methods for generating nonseparable spatiotemporal covariance models with potential environmental applications. Advances in Water Resources 27, 815–830 (2004)
Le, N.D., Zidek, J.V.: Statistical Analysis of Environmental Space-Time Processes. Springer, New York (2006) Mardia, K.V., Goodall, C., Redfern, E.J., Alonso, F.J.: The Kriged Kalman filter (with discussion).Test 7, 217–252 (1998)
Jones, R., Zhang, Y.: Models for continuous stationary space-time processes. In: T.G. Gregoire, D.R. Brillinger, P.J. Diggle, E. Russek-Cohen, W.G. Warren, R.D. Wolfinger (eds.)Modelling Longitudinal and Spatially Correlated Data, Lecture Notes in Statistics 122, pp. 289–298. Springer, New York (1997)
Higdon, D.: Space and space-time modeling using process convolutions. In: C. Anderson,
V. Barnett, P.C. Chatwin, A. El-Shaarawi (eds.) Quantitative Methods for Current Environmental
Issues, pp. 37–56. Springer-Verlag, London (2002)
Stroud, J.R., Müller, P., Sansó, B.: Dynamic models for spatio-temporal data. Journal of the Royal Statistical Society, Series B 63, 673–689 (2001)
Wikle, C.K., Cressie, N.A.C.: A dimension-reduced approach to space-time Kalman filtering. Biometrika 86, 815–829 (1999)
Higdon, D.: Space and space-time modeling using process convolutions. In: C. Anderson, V. Barnett, P.C. Chatwin, A. El-Shaarawi (eds.) Quantitative Methods for Current Environmental Issues, pp. 37–56. Springer-Verlag, London (2002) Gneiting, T., Genton, M.G., Guttorp, P.: Geostatistical space-time models, stationarity, separability
and full symmetry. In: B. Finkenstadt, L. Held, V. Isham (eds.) Statistical Methods for Spatio-Temporal Systems, pp. 151–175. Chapman & Hall/CRC, Boca Raton: FL (2007)
Brown, P.E., Kåresen, K.F., Roberts, G.O., Tonellato, S.: Blur-generated non-separable space-time models. Journal of the Royal Statistical Society, Series B 62, 847–860 (2000)
Cressie, N.A.C., Huang, H.C.: Classes of nonseparable, spatio-temporal stationary covariance functions. Journal of the American Statistical Association 94, 1330–1340 (1999)
Gneiting, T.: Nonseparable, stationary covariance functions for space-time data. Journal of the American Statistical Association 97, 590–600 (2002)
E., P.P., Deutsch, S.J.: Identification and interpretation of first order space-time arma models.Technometrics 22, 397–408 (1980)
Pfeifer, P.E., Deutsch, S.J.: A three-stage iterative procedure for space-time modeling. Technometrics 22, 93–117 (1980)。