论述马尔可夫模型的降水预测方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随机过程与随机信号处理课程论文
论述马尔可夫模型的降水预测方法
摘要:预测是人们对未知事物或不确定事物行为与状态作出主观的判断。

中长
期降水量的预测是气象科学的一个难点问题, 也是水文学中的一个重要问题。

今年来,针对降水预测的随机过程多采用随机过程中的马尔可夫链。

本文总结了降水预测的马尔可夫预测的多种方法和模型,对其中的各种方法的马尔可夫链进行了比较和分析,得出了一些有用的结论。

关键字:降水预测,随机过程,马尔可夫链,模拟
前言:大气降水是自然界水循环的一个重要环节。

尤其在干旱半干旱地区, 降
水是水资源的主要补给来源, 降水量的大小,决定着该地区水资源的丰富程度。

因此, 在水资源预测、水文预报中经常需要对降水量进行预报。

然而, 由于气象条件的变异性、多样性和复杂性, 降水过程存在着大量的不确定性与随机性, 因此到目前为止还难以通过物理成因来确定出未来某一时段降水量的准确数值。

在实际的降水预测中,有时不必预测出某一年的降水量,仅需预测出某个时段内降水的状况既可满足工作需要。

因此,预测的范围相应扩大,精度相应提高。

因此对降水的预测可采用随机过程的马尔可夫链来实现。

用随机过程中马尔可夫链进行预测是一种较为广泛的预测方法。

它可用来预测未来某时间发生的变化, 如预测运输物资需求量、运输市场等等。

马尔可夫链, 就是一种随机时间序列, 它表示若已知系统的现在状态, 则系统未来状态的规律就可确定, 而不管系统如何过渡到现在的状态。

我们在现实生活中, 有很多情况具有这种属性, 如生物群体的生长与死亡, 一群体增加一个还是减少一个个体, 它只与当前该生物群体大小有关, 而与过去生物群体大小无关。

]
本文针对降水预测过程中采用马尔可夫链进行模拟进行了综述和总结。

主要的方法有利用传统的马尔可夫链的方法模拟;有采用加权的马尔可夫链模拟来进行预测;还有基于模糊马尔可夫链状模型预测的方法;还有通过聚类分析建立降水序列的分级标准来采用滑动平均的马尔可夫链模型来预测降水量;从这些方法中我们可以看出,马尔可夫链对降水预测有着重要的理论指导意义。

1.随机过程基本原理
我们知道,随机变量的特点是,每次试验结果都是一个实现不可预知的,但为确定的量。

而在实际中遇到的许多物理现象,实验所得到的结果是一个随时间变化的随机变量,且用一个或多个随机变量我们有时无法描述很多这种现象的的全部统计规律,这种情况下把随时间变化的随机变量的总体叫做随机过程。

对随机过程的定义如下:
设E={e}是一个样本空间,若对每一时刻t ∈T,都有定义在E 上的随机变量
X(t,e)与之对应,则称依耐t 的一族随机变量{X(t,e),t ∈T,e ∈E}是一个随机过程,
通常将它简化为{X(t),t ∈T}. 随机过程一般应表示为{X(t),t ∈T}.随机过程可分为
以下两大类,一类为时间参数集T 为离散时间集合,即参数集T 是一个可列集,
如果
}{,k 012N k T t ==,,,..., 或 }
{,k 012k T t ==,,,...,,则称{X(t), t ∈T}为离散时间随机过程,或称随机序列。

另一类为时间参数集T 为连续时间集合,是一个不可列集,如果}{0N t t t T t =≤≤, 或 }{0t t T t =≥, 则称{X(t), t ∈T}为连续时间
随机过程,或简称随机过程。

2.传统的马尔科夫链方法模拟来进行降水预测
“马尔可夫模型”是由俄国数学家A. A. M arkov 在1996年最早提出, 经过
几十年不断的发展,M arkov 过程已成为随机过程的一个重要分支, 该方法利用
变量的状态转移概率矩阵可预报变幅较大的随机波动, 在生物学、物理学、天文
学领域中已有广泛的应用[1, 2 ]。

马尔可夫链可以描绘一个随即变化的动态系统,
它根据状态之间的转移概率来推测一个系统未来的发展变化, 而转移概率反映
了各随机因素的影响程度, 反映了各状态之间转移的内在规律性, 适合描述随机
波动行较大的预测问题.
定义1: 设X ( t) 是一随机过程, 当过程在时刻t0 所处的状态已知的条件下,
过程在时刻t ( t> t0) 所处的状态与过程在时刻t0 之前的状态无关, 这个特性称
为无后效性。

无后效性的随机过程称为马尔可夫过程。

定义2: 时间离散、状态离散的马尔可夫过程称为马尔可夫链[4 ]。

对于马尔
可夫链, 用P ij 表示系统由状态E j 经过一次转移到达状态E j 的转移概率。

由转
移概率构成的矩阵, 即
111213142122232431323334n12n34P P P ...P P P ...P P P P ..................P P P ...n n P P P P ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦
称为马尔可夫链的状态转移概率矩阵。

由于从任何一个状态E i 出发, 经过转移后, 必然出现状态E 1、E 2、E 3, 因此
(0)ik ik k p
p ≥∑
任一系统的状态空间I , 可以分解为下列不相交子集之和
12I=C C ...N +++
其中N 为所有非常返状态组成集合, C i (i = 1, 2, …) 是互不相交的常返状态组成
的闭集.若j 是非周期的正常返状态, 则
(n)ij t n lim p 1/U →∞=
U j 为状态j 的平均返回时间, 我们称概率分布
j {j I}π∈,为马尔可夫链的平稳分
布, 其中I 为状态空间, 若它满足 i i ij i I p ππ∈=

i j i I 0ππ∈≥∑ 若j {j I}π∈,}是马尔可夫链的平稳分布, 则
j j j n lim P (n) = 1/U π→∞=
采用随机过程的马尔可夫进行预测,能充分利用历史数据的信息,其预测精
度较高。

同时可建立在历史数据分析之上,历史数据越多,越准确,预测也越可
靠。

但同时也具有两大缺点: 第一, 只考虑了最大概率, 忽略了其它概率的影响;
第二, 不清楚预报对象在区间内的大致位置, 无法达到预报对象具体值的要求。

3.加权的马尔可夫链的降水预测
对于一列相依的随机变量,用步长为1的马尔可夫链模型和初始分布推算出
未来时段的绝对分布来做预测分析,可称之为基于绝对分布的马尔可夫链预测方
法。

对于利用各阶(多步长)马尔可夫链求得的绝对分布叠加来做预测分析,可称之
为叠加马尔可夫链预测法。

对于这两种Markov 链预测方法,其各自都存在一定的
局限性,对于基于绝对分布的马尔可夫链预测方法,默认所论的马尔可夫链满足
“齐次性”缺乏依据,事实上,应用中所论及的随机变量序列,尽管满足马尔可夫性,
但“齐次性”一般都不满足。

另外该法没有考虑到对应各阶(各种步长)马尔可夫
链的绝对分布在预测中所起的作用,因此没有能充分利用已知数据资料的信息。

而对于叠加马尔可夫链预测方法,尽管应用了各阶(各种步长)马尔可夫链的绝对
分布叠加来预测状态,但没有考虑到各阶马尔可夫链对应的绝对概率在叠加中所
起的作用,即认为各阶马尔可夫链的绝对概率所起的作用是相同的,这显然是不科
学的,事实上满足马尔可夫性的相依时间序列,其各阶自相关性是不一致的。

一列
相依的随机变量,其各阶自相关系数刻画了各种滞时的状态间的相关关系的强
弱。

因此,可考虑先分别依其前面若干时段的指标值的状态进行预测,然后,按前面
各年与该年相依关系的强弱进行加权求和,充分合理地利用信息进行预测,这就是
加权马尔可夫链预测的基本思想。

传统的马尔可夫链预测方法与加权马尔可夫链
预测方法都没有对指标值序列进行马尔可夫性检验,这是一个缺陷。

本研究提出
的加权马尔可夫链预测方法弥补了这个缺陷,具体方法如下:
(1)计算指标值序列的均值、均方差,建立指标值的分级标准,确定马尔可夫链
的状态空间。

可根据资料序列的长短及具体问题的要求进行。

可以样本均方差为
标准[ 5~7 ]也可用有序聚类的方法建立分级标准[ 7 ]将指标进行分级。

确定马尔
可夫链的状态空间E = { 1, 2, ⋯, m }。

(2)按所建立的分级标准,确定资料序列各时段指标值所对应的状态。

(3)对所得结果进行统计,可得到不同步长马尔可夫链的转移概率矩阵,它决
定了指标值状态转移过程的概率法则。

(4)马尔可夫性检验。

(5)计算各阶自相关系数rk , k ∈ E ( E 为所研究序列的状态空间)。

2n k n k l l+k l l 1l=1r (x x)(x x)/(x x)
----==---∑∑
式中: r k 为第k 阶滞时的自相关系数; x l 为第l 时段的指标值; x 为指标均值; n 为指
标序列的长度。

对各阶自相关系数规范化,即
m k k k k 1w |r |/|r |
==∑
将wk 作为各种滞时(步长) 的马尔可夫链的权重(m 为按时间需要计算到的最大
阶数) 。

(6) 分别以前面若干时段的指标值为初始状态, 结合其相
应的各阶转移概率矩阵即可预测出该时段的状态概率P( k)i , i ∈ E, k 为滞时(步
长),k=1,2,…m .
(7) 将同一状态的各预测概率加权和作为指标值处于该状态的预测概率,即
m (k )i k i i 1p w
p ==∑
i max(p i E)∈, 所对应的状态即为该时段指标值的预测状态。

待该时段的指标值
确定后,将其加入到原始序列中,再重复步骤(1) ~ (7) ,可进行下一时段指标值
状态的预测。

随机序列是否具有马尔可夫性,是应用马尔可夫链模型分析和解决实际问题
的必要前提[ 5 ]。

通常离散序列的马尔可夫链可用x2 统计量来检验。

对于指标值的分级,传统的方法是应用样本均值与样本标准差来刻画指标
值的变化区间, 设指标值序列为x 1 , x 2 , …, x n ,样本均值为x,样本标准差为
(相关系数的绝对值≤ 0. 2) 序列,则可
以看做是独立同分布的序列。

由中心极限定理知: P{ x - - 1. 5s ≤ x < x -
+1. 5s} ≈
2Φ (1. 5) - 1 = 0. 87; P{ x - - s ≤ x < x - + s} ≈ 2 Φ (1. 0)- 1 = 0. 68。

于是, 可按
指标是否落在( - ∞, x - - 1. 0s) , (x - -1. 0s, x - - 0. 5s) , (x - - 0. 5s, x - + 0. 5s) , (x -
+ 0. 5s, x - + 1. 0s) , (x - +1. 0s, + ∞) 内,把指标值分成5组。

利用这种方法对指标
值进行分类,不考虑物理成因对指标值的影响, 仅仅从统计的角度简单地把样本
均值作为指标值的中心, 这种方法操作较为方便,因此应用也较广泛。

采用加权的马尔可夫来进行降水的预测主要优点有(1)应用样本均值- 标准
差分级法来确定分级数,再取适当的α1、α2 值,可以更加充分地应用到降水序列的
数据结构,从而可以更加有效地刻画降水序列内在的分布规律,使划分的降水量区
间分级标准更合理。

(2)预测结果为降水量的某一个状态(区间值) ,而不是一个具体的数值,在可以
完全满足实际工作的前提下,预测的范围更广,其可靠性也得到了提高。

(3)由于各种步长的自相关系数为权重,用各种步长的马尔可夫链加权来预测
降水状态,与普通的马尔可夫链预测相比较,它可以更充分、更合理地利用信息,
使其成功地将马尔可夫链与相关分析结合起来进行预测。

(4)根据最后计算出来的状态概率分布,求所预测的降水量的具体值,仍是一
个有待解决的问题,加权马尔可夫链的方法为这样的预测提供了一个新的思路。

4.基于模糊马尔可夫链状模型预测的方法
模糊有序聚类是对有序样品进行分类的一种方法,以往通常应用降水量序列
的均值与方差的方法来刻画降水量丰枯状况的变化区间,本文提出应用模糊有序
聚类的方法来划分降水量的变化区间,可以更加充分地考虑降水量序列的数据结
构,使划分的区间更加合理。

模糊有序聚类实现的经典算法是Fisher 算法,其基本原理为:设变量x1 , ⋯, xn
的某一归类是{ xi , …, xj} , j ≥ i ,定义其均值向量为
j ij
l l i 1x x j-i+1-==∑ 将公式/
D(,)()()j l ij l ij l i i j x x x x --==--∑定义为{ xi , ⋯, xj} , j ≥i 的直径,其含义表
示该变量段内部各变量之间的差异情况. 其值越小,表示该段内变量之间差异越
小,或相互间越接近;反之,表示该段内变量之间差异越大,或相互间越分散。

设将n 个有序变量分为K 类,某一分法为
1223(,):{1,...,1};{,...,1};...,{,...,}
k p n k i i i i i n =-- 将公式11[(,)](,1)
k j j j e p n k D i i +==-∑ 定义这一分类的误差函数,从理论上可以证明,
所谓的最优分法就是使e[ P( n , K) ] 达到最小值时的一种分法. 至于分类数K 的
确定, 可以通过做e[ P( n , K) ] 与K 关系的曲线图,曲线拐弯处的K 值即为最优分
类数.
通常一个时间序列X ( t) 的可能取值范围是一个连续的实数区间, 如果采用
上述马尔可夫链状模型预测方法, 就必须先将这个实数区间划分成有限个明确
的状态。

但是在许多问题中, 状态并不是明确的子集合。

例如我们利用降雨量来
确定旱、偏旱、正常、偏涝和涝等状态。

因为它们都是模糊状态, 故要用降雨量
上的模糊子集来表示才更近似于实际情况。

因此, 针对此类情况必须采用基于模
糊状态的马尔可夫链状模型的预测方法。

而马尔可夫链预测的关键问题在于计算
转移矩阵中的概率值, 概率计算的基础在于状态的划分矩阵, 显然, 将状态划分
明确的状态划分矩阵即布尔矩阵进一步拓广为表示状态划分模糊的模糊状态划
分矩阵转移概率问题就可以解决了。

设时间序列X ( t) : x 1, x 2, x 3,…, x n , 在其论域X(t) 上划分出K 个模糊状态E 1,
E 2,. . . , E k 按照一定的方法总能得X ( t) 隶属于模糊状态E i 的隶属度函数, 满
足:
1()01,2,...,,1,2,...()1i i E t k E t i x i k t n x μμ=≥⎫⎪==⎬=⎪⎭∑
从而得到矩阵~E
12~~~22~~~~~12~12~12~~~()()...()...()()()...()...()E ...()()...()...()n m m n m m k k n m n E E E n m E n E E E n m E n E E E n m E n x x x x x x x x x x x x μμμμμμμμμμμμ------⎡⎤
⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦
称~E
为时间序列X ( t) 在论域X 上的模糊状态划分特征值矩阵, 简称模糊状
态划分矩阵。

显然式( 1) 为, ~E
为时间序列X ( t ) : x 1, x 2,x 3,. . . , x n , 在其论域X 上划分
的模糊矩阵, 顾及一般性, 由于数据序列最后的状态转向不明确, 故计算 ~i M 时不考虑时间序列X ( t) 中最后的m 个数据, 则模糊状态的马尔可夫链转
移概率可作如下定义:
()~~1()n m
m i t
i i M E x μ-==∑为x t ( t= 1, 2,. . . , n- m ) 落入
~i E 状态的数据个数, 易证()~k m i i M n m
=-∑()()~~()~m m i k
i m i i M
P M
=∑即()()~~n m m m i i M P =-为状态~i E 的初始概率E E i j
~~n m ()t t+m ~j t 1
(x )(x )m i M μμ-==•∑为状态~i E 经m 步转移到状态j ~E 的数据个数,且有k ()()~~j j 1m m i i M M ==∑ ()~()j ()
~j ~m m i m i i M P M =即为状态~i E 经m 步转移到状态j
~E 的转移
概率,且满足k ()~j j 11m i P ==∑,从而获得模糊状态划分下转移概率矩阵
(m)~E P 。

系统各种状态转移的统计规律在状态概率矩阵
(m)~E P 中得到了反映, 通过考
虑状态转移概率矩阵(m)~E P , 则可预测系统未来的发展变化。

预测时需要先列出预
测表。

表的编制方法是: 选取离预测年最近的j 个年份, 按离预测年的远近, 转移
步数分别为1, 2,…, j , 在转移步数所对应的转移矩阵中, 取起始状态所对应的行
向量, 从而组成新的概率矩阵。

对新的概率矩阵将其列向量求和, 其和最大的列
向量的状态为预测状态, 从而实现了模糊状态的马尔可夫链预测计算。

5滑动平均- 马尔可夫模型
根据降水过程存在大量不确定性的特点, 通过聚类分析建立降水序列的分
级标准, 采用规范化的各阶自相关系数为权重, 用滑动平均的马尔可夫链模型,
通过状态转移概率矩阵预测未来时段的降水状态, 并根据模糊集理论中的级别
特征值计算具体的降水量,传统的马尔可夫链模型采用最大隶属原则来确定预报
对象的状态, 具有两大缺点: 第一, 只考虑了最大概率, 忽略了其它概率的影响;
第二, 不清楚预报对象在区间内的大致位置, 无法达到预报对象具体值的要求。

模糊集理论中的级别特征值可以有效地解决这个问题, 具体计算方法如下:
首先给各状态赋以相应的权重, 构成权重集D = {d 1, d 2,d 3, d 4, …d m }, 其中
m 为研究系统的状态数。

其中权重的大小取决于各状态概率的大小, 即
/m n
n i i i i d P p =∑式中: G ——最大概率的作用系数, 通常取2。

级别特征值H 可
以通过下式进行计算。

m i i H i d =
⨯∑
确定最大概率的状态i 后, 可以根据上式确定系统在预报时段的预报值
i i T H(i+0.5) B H(i-0.5) X H i X H i =>⎧⎪⎨=<⎪⎩预报预报
与传统的马尔可夫过程相比, 滑动平均- 马尔可夫模型具有以下特点:
①采用了滑动平均的思想, 预测未来某时段的滑动平均降水量, 预测范围扩大,
预测精度提高。

②采用了聚类的方法对滑动平均降水量进行等级划分,更加充分地考虑了序列中数据结构的合理性, 更加有效地显示了降水量序列的内在分布规律, 使得区间的划分更加合理。

③计算序列的各阶自相关系数, 归一化后作为马尔可夫模型的权重, 充分、合理地利用已有信息, 使得预测结果更为精确。

结论:通过以上分析,针对降水预测,从中可以看出,随机过程中的马尔可夫
链模型在降水预测中有重要的实际指导意义。

文中分析了马尔可夫链在其中的应用的各种模型,对具体的降水分析,可采取不同的模型。

每个模型都有自身的优缺点,可以采取将两者或两者以上方法结合的思想。

比如利用模糊马尔可夫链模型与加权马尔可夫链结合进行结合,产生一种模糊权马尔可夫链模型,将两者优势结合在一起,必定会受到更好的效果。

此外,对随机过程马尔可夫链的广大应用背景,在这方面的应用研究也必将越来越多。

参考文献:
[1]Schoof JT Pryor SC On the proper order of Markov chain model for daily precipitation occurrence in the contiguous United States Journal of applied meteorology and climatology V olume 47 Issue 9 Sept 2008 Pages:2477-2786 [2] Gaston Samba, Marcel Mpounza Application of the Markov process for daily precipitation occurrences in Congo-Brazzaville Comptes Rendus Geosciences V olume 337 Issue 15 Nov-Dec 2005 Page 1355-1364
[3] 李娟,张维江,马铁滑动平均-马尔可夫模型在降水预测中的应用水土保持研究第12卷第6期2005-07 98-99
[4] 孙才志,林学钰降水预测的模糊权马尔可夫模型及应用系统工程学报第18卷第4期2003-08 295-297
[5] 张宸,林启太模糊马尔可夫链状模型在矿区降水灾害预测中的应用国外建材科技第25卷第1期2004 57-58
[6] 刘海波,陈孝思,秦玉才,刘晖随机过程在灾变预测中的应用系统工程理论与实践第9期1996-09 20-21。

相关文档
最新文档