ARMA-GARCH-M模型的马氏链抽样算法与实证分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

密级: 公开
ARMA-GARCH-M模型的马氏
链抽样算法与实证分析 
A Markov-Chain Sampling Algorithm
and Empirical Analysis for
ARMA-GARCH-M Models
(申请清华大学理学硕士学位论文)
院(系、所):数学科学系
专业:概率论与数理统计
研究生:李萌
指导教师:叶俊(副教授)
二○○二年五月
中文摘要
MCMC算法在近10年来越来越受到统计界与计量经济界的广泛重视,自从Chib和Greenberg(1994)开创性地提出了对ARMA模型的MCMC算法后,国内外有许多学者开始对自回归条件异方差模型的MCMC算法进行了大量的研究。

MCMC算法与经典的MLE方法相比,它具有更好的稳定性,同时也避免了用MLE方法所带来的极值优化的复杂性。

为了将市场风险更好地反应在投资回报中,Engle等人(1987)引入了GARCH-M模型。

作为该模型的推广,我们在本文中提出了一个一般的ARMA(p,q)-GARCH(r,s)-M(k)模型,并在详细给出模型的后验分布以及模型的所有参数的满条件分布的基础上,结合Chib and Greenberg (1994)与 Nakatsuma (2000)等人的工作,对此新模型设计了一个可行的混合Metropolis-Hastings算法,简化了MA块与GARCH块的估计。

同时,使用该算法对上证指数(1998年1月1日至2001年12月31日)的收益率的AR-GARCH-M模型的参数进行了估计,并分析了数据的整合性与市场的风险效应。

在论文的第二大部分内容(第五章)中,我们独立地利用经典的统计方法,用两个模型(IGARCH(1,1)-M模型和EGARCH(1,1)-M模型)对中国股票市场的风险特征加以讨论。

通过统计分析得到,对上证指数的收益率,IGARCH(1,1)-M模型与EGARCH(1,1)-M模型的统计描述效果基本相同,其结果各有千秋;而对深圳成份指数的收益率,IGARCH(1,1)-M模型的描述结果要略好于EGARCH(1,1)-M模型。

这个结果对研究我国证券市场的风险补偿和波动率依赖的特征具有重要的意义。

关键词: ARMA(p,q)-GARCH(r,s)-M(k),IGARCH-M,MCMC,满条件分布,Metropolis-Hastings算法
i 
Abstract
Markov Chain Monte Carlo (MCMC) algorithms have achieved a considerable following in the statistics and econometrics literature in the last ten years. There has been considerable research on so-called generalized autoregressive conditional heteroskedastic (GARCH) models for dealing with these methods since the remarkable works of Chib and Greenberg (1994). Compared to MLE procedures, MCMC algorithms are more stable and the problems such as searching the multiple maximal are avoided.
In order to allow the mean value of returns to depend upon volatility in the market, Engle,Lilien and Robins(1987) introduced the GARCH-M models. Here we developed the general ARMA(p,q)-GARCH(r,s)-M(k) models, which maybe become increasingly important for estimating volatility returns and exogenous shocks for finance data. After we present the posterior distribution of the model and the full conditional distributions of all the parameters of the model, we develop a hybrid Metropolis-Hastings algorithm for estimating the parameters of ARMA-GARCH-M models based on the works of Bayesian Chib and Greenberg (1994) and Nakatsuma (2000). Here we simplified the estimations in MA and GARCH block. Using the data of Shanghai security market index (1998/01/01-2001/12/31), we estimate an AR-GARCH-M model for the return of Shanghai market, and analyse the integration property of the data and the risk effect of the market. In the second part of our paper (chapter 5), we only use the classical statistical methods to analyse the risk characteristic of Chinese stock markets by using two GARCH (1,1)-M models. We find that the IGARCH (1,1)-M model have almost the same efficacy with the EGARCH (1,1)-M model in Shanghai market and the former is a little better than the latter in Shenzhen market. Then we forecast the volatility of the two index’s returns.These results are very important to describe the features between the risk compensates and volatilities in Chinese stock markets.
Key words: ARMA(p,q)-GARCH(r,s)-M(k), IGARCH-M, MCMC, full conditional distribution,Metropolis-Hastings algorithm
ii 
目录
第一章引言 (1)
1.1课题目的和意义 (1)
1.2国际国内研究状况和进展 (2)
1.3 论文各部分的主要内容 (8)
第二章对ARMA-GARCH-M模型以及MCMC算法的详细说明 (9)
2.1 ARMA(P,Q)-GARCH(R,S)-M(K)模型 (9)
2.2 MCMC (M A R K O V C H A I N M O N T E C A R L O) 算法 (9)
第三章模型的参数估计与M C M C方法的应用 (13)
3.1模型的假设条件 (13)
3.2 模型参数的满条件分布 (16)
3.3 M-H算法 (21)
第四章模型的实证分析 (24)
4.1 模型的算法 (24)
4.2 MCMC方法对模型的估计结果 (28)
第五章 IGARCH-M和EGARCH-M模型的实证分析 (31)
5.1上证指数及深证成份指数的日收益率的实证分析 (31)
5.2结论 (36)
第六章结论 (38)
参考文献 (40)
致谢 (44)
个人简历 (45)
iii 
第一章引言
1.1课题目的和意义
很大一部分的非线性时间序列模型都是在研究金融领域的非线性特征时所提出的(如ARCH模型族等)。

把非线性时间序列分析的方法用于金融风险的预测分析,是近几年国际金融数学界正在进行的研究工作,如何从中发掘出符合金融市场发展规律的非线性时间序列模型,并应用于金融市场的风险预测与预警,是一件十分有意义的工作,目前,虽然在国内也已经开始重视对金融市场风险的定量化研究,但总体来讲,研究水平与国外相比有相当的差距,研究投入有待加强。

由于在用经典的统计方法研究非线性时间序列模型时经常会遇到象非线性目标函数的优化等等的一些困难。

因此,由Chib and Greenberg(1994)首先提出的对线性时间序列模型的MCMC算法,就越来越受到统计界与计量经济界的重视。

目前,MCMC方法是统计学中最受人们关注的方法之一,虽然它在统计物理学中得到广泛应用已有四十多年的历史,但它在贝叶斯统计、显著性检验、极大似然估计等方面的应用则是近十年内的事情。

把MCMC方法应用于时间序列分析是近几年来时间序列分析以及计量经济学中的重要研究课题之一。

本文将MCMC方法应用于一个在金融领域中有着重要意义的新的条件异方差模型—ARMA(p,q)-GARCH(r,s)-M(k)模型。

我们在给出此模型的一般提法之后,用Metropolis-Hastings算法对模型的参数估计等相关问题进行了详细的讨论,避免了用极大似然估计(MLE)方法所带来的计算的复杂性问题,并将该方法应用到上证指数的收益率的研究中。

本文的理论研究部分强调非线性时间序列模型中MCMC方法的建立,应用研究与实证分析重视结合当前国际金融界所关注的焦点(如股票市场、汇率市场、衍生证券市场等)。

因此,无论从理论的角度,还是从应用的角度来看,此课题的研究具有十分重要的意义。

- 1 - 
1.2国际国内研究状况和进展
在对金融数据,特别是对外汇、股票及利率等投机市场的分析中,发现有些时间序列数据模型,其扰动的项在较大的波动之后伴随着较大幅度的波动,较小幅度的波动之后伴随着较小幅度的波动,即随机扰动项的无条件方差是常量,但条件方差却是变化的量。

作为资产持有者,感兴趣的不是收益率的无条件方差,而是它的条件方差。

Eng le (1982) 为研究这类现象提出了条件异方差模型。

现在ARCH、GARCH等模型已经被广泛地应用于金融时间序列的分析中,在Bollerslev, Chou and Kroner (1992); Bollerslev, Engle and Nelson(1994); Bera and Higgins (1995); Diebold and Lopez(1995) 等的文章中有对这一模型的全面的研究。

Ahlstedt (1998) 在最近的一篇关于金融时间序列的GARCH模型的文章中应用极大似然估计方法估计了多种汇率和利率波动率之后,发现GARCH (1,1) 模型在描述潜在的条件方差方面表现得相当好。

GARCH (1,1) 模型以其简单性和它的良好的统计性质而十分的引人注目。

对金融时间序列的传统看法认为它们表现为随机徘徊,而它们的差分序列是尖峰和有偏的。

刻划金融时间序列偏度和尖峰分布的一种方法是应用简单的GARCH或EGARCH模型,它们可以刻划金融时间序列的分布特征。

有很多观点支持这一模型,如Lamoureux and Lastrapes (1993) 证明了GARCH (1,1) 或EGARCH (1,1) 模型可以对股票市场中随时间变化的变量的潜在价值的刻划加以改善。

在Black-Scholes期权定价模型的背景下Day and Lewis (1992) 应用GARCH (1,1) 或EGARCH (1,1) 模型进行了包括期权价格在内的条件波动率的持久性检验,Engle and Mustafa (1992) 应用ARCH模型作了同样的工作。

GARCH (1,1) 模型的理论性质在Nelson (1990) 和Hansen (1991) 中给出。

Lumdaine (1995) 计算了IGARCH (1,1) 模型在有限样本下的性质。

包含非线性随机变量期望值的IGARCH (1,1) 模型的抽样检验性质难以推导。

然而在贝叶斯数值计算中这样的检验相对容易进行。

- 2 - 
- 3 - 
Nakatsuma and Tsurumi (1999) 应用GARCH (1,1) 模型估计了五种货币(英镑、加拿大元、德国马克、日元和瑞士法郎,以美元为基准货币)的周汇率收益率,并得到了GARCH (1,1) 模型的后验概率的性质。

在大多数回归分析中我们主要是对变量的均值建立模型,然而
ARCH 方法中我们关注于对方差的建模。

传统的方法通常将异方差性与时间序列数据的自相关性问题相联系。

与此相联系的是时间序列的预测误差时大时小。

于是预测的误差方差就不是一个常数,这违背了经典线性回归模型的一个假设。

预测误差的特征依赖于回归误差的特征。

因此回归的误差方差可能是自相关的。

为了描述这一想法Engle (1982) 引入了ARCH 模型。

t t y ε+=ãx t , 1−t t |Fε~),0(2t N σ (1.1) ∑=−+=r
i i t i t
1202
εαασ (1.2) 等式(1.1)是均值等式,因变量是外部变量和误差项的函数。

等式(1.2)表明条件方差是均值和波动率的函数,通过均值等式中的残差平方的滞后来衡量(ARCH 项)。

Bollerslev (1986)将 ARCH 模型推广,得到了GARCH 模型,它将等式(1.2)中加入了一个过去时期的预测方差。

∑∑=−=−++=s i i t i r i i t i t
1
21202
σβεαασ (1.3) ARCH-M 模型是 Engle, Lilien and Robins(1987)给出的。

在这个模型中均值等式写成如下的形式:
t t y µ++=äóãx t t (1.4) 因此,在ARCH-M 模型中均值等式中加入了条件标准差项。

这里t y 是额外收益或风险费,t x 是外部变量向量,t ε是随机误差,2t σ是t ε的条件方差,t F 是到时刻t 为止信息集。

ã是参数向量或带有适当维数的量,t 是时间指标。

由等式(1.1)-(1.3)描述的GARCH(p ,q )-M 模型中额外收益t y 由向量t x 和其自身的条件方差决定。

条件方差2t σ线性依赖于过去的误差平方条件方差的移动平均的特征。

误差平方项的使用表明如果新息的绝对值非常大,那么它们在未来的时间中也将会很大。

i α确
- 4 - 
定滞后新息的权重。

为了确保这一个定义完备的过程,参数i αα,0和i β都必须是非负的。

上面的定义都是一般的,并保证各种各样的异方差参数形式。

例如,当ã为0时,模型就简化为GARCH 模型。

如果等式(1.2)中除了截距项0α之外的参数都等于0(0,=i i βα)的话,那么模型将简化为传统的方差固定的类型。

参数0α是依赖于时间的风险因素,是上面讨
论的模型所共有的。

ARCH 和GARCH 模型共有的特征是它们都将条件方差作为过去波动的函数,承认波动率随着时间而发展,并允许波动率持续震动。

这两种方法的不同在于ARCH 模型中条件方差是由有限个滞后推导出的,而GARCH 不仅包含误差平方的过去值还包括条件方差自身,从而允许所有的滞后都对自变量施加影响。

因此A R C H 模型被视为短记忆模型,而GARCH 模型被视为长记忆的模型。

在ARCH-M 和GARCH-M 模型中,收益序列的均值作为过程的条件方差的一个函数,承认“速度反馈” 影响,同时考虑一个随时间变化的风险费用。

这一模型族的重要性在于,和基本的ARCH 和GARCH 模型不同,它们描绘出在期望收益和波动率量度(2t σ)之间的基本的抵消关系,而参数ä则抓住了风险费随时间变化的动态特征。

在证明这一框架的正确性的过程中Engle 等 (1987)引入了一个理论模型,它建立了一个在平均收益和波动率量度(2t σ)之间的联系。

引入这一联系的模型类是一个向前的显著的进步,它使得经典的模型更加接近ex-ante 收益与收益的条件方差相关的资产定价理论(如CAPM 和APT )(如Sharp (1964); Ross(1976)等)。

Neuberger (1994) 指出在均值等式中引入2t σ 在直观上是很吸引人的,因为投资者对于他们持有的股票的波动率不是无差别的;当不确定的股票收益变化时,投资者需要的风险费也将改变。

在Pindyck(1984) 和 French et al. (1987)中也强调了加入这一影响的重要性。

在均值等式中包含2t σ的情形在近十年来一再被强调的原因是因为收益的波动率在这一时期内在一个很大的范围内波动,这对银行尤其重要,因为在这个行业中高的杠杆作用率和延申。

抵消参数ä解释为与Campbell and Hentschel (1992)提到的风险规避相关的系数。

Engle et al.(1987)证明这个参数的符号和大小依赖于动
原的效用函数和资产的供给条件。

因此,有了这些特征作为基础,ä既可能取正,也可能取负,也可能为零。

GARCH-M模型与GARCH类模型相比有两大优势。

首先,基本的GA RC H模型的假设隐含着在取样区间内平均风险费固定的。

GARCH-M族通过加入速度反馈影响,从而放松了这个限制使其更易于操作。

在这一框架下,当ä是统计显著时,波动率(2
t
σ)确实对风险费有所影响,因此风险费在相对不稳定的时期和相对稳定的时期可能会不同。

其次,GARCH-M类似于ARCH /GARCH 是一般用到的传统的方差为常数的模型的推广。

GARCH- M模型将后面的那些模型嵌入其中作为其特殊情形,并可以得到它们的有效性检验,而不是任意的假定它们成立或不成立。

这一灵活性特征对于结果的准确性是非常关键的,因为任意施加的限制条件(ä=0)意味着较简单的模型可能会扭曲最后的结果。

由于只有持续的波动率改变才对风险费的调整起作用,所以波动率波动的持续性程度是确定收益和波动率之间联系的重要因素。

所有ARCH类模型都抓住了波动持续性的趋势。

和GARCH过程中一样,波
动持续的简单的量度是系数∑
∑+
j j
i
i
β
α必须小于等于1,从而保证平稳
性。

如果这个和的值接近于1,这样的过程称为整合,这时当前的信息对于所有时段的条件方差的预测都是非常重要的(Engle and Bollerslev (1986))。

Bollerslev et al.(1992)认为在解决资产收益的条件方差是随时间
变化的时间序列问题时,ARCH-M模型是一个理想的选择,该模型的方法已广泛地应用于金融领域,特别是股票收益模型中。

其应用的例子包括:Glosten et al.(1993), Campbell and Hentschel (1992), Engle et al. (1990), Lamoureux and Lastrapes (1990), Bollesrev et al. (1988)。

正如 Laux and Ng (1993)所指出的,GARCH(1,1)-M 模型在波动率过程中同时允许长记忆性时表现的非常好。

Bollerslev (1987)也证明了GARCH(1,1)恰当的拟合了大多数经济时间序列数据。

由于经典的统计方法(如MLE等方法)在估计与分析ARCH族模型
- 5 - 
中会遇到象求非线性最优等较为复杂的问题,因此,国际上应用MCMC 方法来处理相关领域中问题的思想越来越流行。

近些年来用MCMC方法进行模拟已经在贝叶斯统计计算以及金融计算中占据了主导地位。

MCMC算法使得贝叶斯统计产生变革。

这一算法通过模拟一平稳分布恰为其后验分布的马氏链的方法,得到一个高维的参数空间上的复杂的后验分布的推断。

在弱条件下该链收敛于它的平稳分布,于是后验量就可以从模拟的结果中估计。

现在围绕一般的MCMC算法已经有了许多的理论和实践的方法。

相关的材料可以在以下文章中找到:Neal (1993), Smith 和Roberts (1994), Tierney (1994), Besag et al. (1995), Kass et al. (1998)。

MCMC算法一般包括gibbs抽样和Metropolis-Hastings算法。

某些MCMC算法用到较多的后验分布信息;一般说来算法用到的信息越多就会越有效。

Gibbs样本(参见Geman and Geman(1984); Gelfand and Smith(1990))要求在给定其他参数的条件下,从每个参数的后验条件分布中抽样。

其他的算法,如Langevin算法和混合算法(参见Duane et al.(1987); Neal(1993))要求计算对数非标准化后验密度和其一阶偏导数。

与之相比,简单形式的Metropolis算法仅要求计算非标准化的后验密度。

例如,随机徘徊Metropolis算法是通过在现在的状态加入噪声使得马氏链转移到一个候选状态。

在实际应用中这一算法通常用来更新那些不服从Gibbs抽样的“顽固”的参数元素。

随机徘徊Metropolis算法的研究工作作为计算的主题出现在Muller and Rios Insua (1995)中。

对这一算法的广泛研究主要是由于它在应用上的简便性,因为也有许多较之有效但却很复杂的算法。

无论是不是以随机徘徊Metropolis算法为基础,许多MCMC算法在它们的后验分布的探测中都表现出一些随机徘徊性质,也就是说在每次转移中马氏链试图移动的方向是随机的。

这可能会花费许多叠代步才能使链穿过某一距离,因此这样的特性看上去是缺乏效率的。

正由于这个原因,研究者考虑了一些算法,试图在某种程度上去除这些随机徘徊性质,使得链能够更快地穿过后验概率分布。

Neal (1995) 和其他人已经研究了在Gibbs抽样中去除随机徘徊性的方法。

混合算法及其变形可以
- 6 - 
视为改进的带有抑制随机徘徊特征的Langevin算法。

由于应用者对算法的简单性的要求超过了有效性,所以常常会选择随机徘徊Metropolis算法。

Paul Gustafson (1998) 研究了消除随机性的方法,修改了随机徘徊Metropolis算法,提出了引导徘徊的Metropolis算法,使得链在连续的转移步中趋于向相同的方向移动。

这一修改后的算法在实际应用中并不比随机徘徊Metropolis算法复杂,而且研究表明它在有效性和收敛时间上表现得好于随机徘徊Metropolis 算法。

在经典的或频率学派的研究框架中已有许多关于GARCH 和EGARCH模型的研究,而在贝叶斯分析中也有了一些这样的研究,如Geweke(1989a,b);Kleibergen和Van Dijk (1993); Müller和P o l e (1995); Nakatsuma (1997,2000), 等等。

Geweke和Kleibergen以及Van Dijk应用重要抽样算法,而Müller和Pole,Nakatsuma应用马氏链蒙特卡罗 (Markov Chain Monte Carlo , MCMC) 算法。

Nakatsuma (1998)提出了A RM A-GARCH模型,他的模型比其他人的模型更为全面之处在于他假设回归方程的误差项服从ARMA (p,q) 过程而非一个白噪声过程。

ARMA-GARCH模型可以和波动率值域转换回归模型相结合。

Nakatsuma (2000) 设计了波动率值域转换模型来估计日汇率。

这一模型被应用于6种亚洲通货的日汇率收益率。

Jacquier et al. (1994) 介绍了一个S V模型的MCMC估计过程。

Tierney (1994) 提出了一个应用拒绝抽样的混合M-H链(称为M-H接受/拒绝算法)。

近期MCMC算法的发展在很大程度上消除了GARCH 和S V模型中估计的困难。

Nakatsuma (1998) 应用MCMC算法于ARMA-GARCH模型中。

- 7 - 
1.3 论文各部分的主要内容
本文在第一章中,在详细地介绍了国内外对ARCH模型族的研究情况与MCMC方法的发展简史的基础上,对本文要研究的问题的重要性与可行性做了分析。

论文的第二章中,我们对所要研究的一般的ARMA(p,q)-GARCH(r,s)-M(k)模型以及它与其他模型的区别进行了说明,同时对在该模型中所要使用的Metropolis-Harstings进行了介绍。

论文的第三章是本文的核心部分,在给出模型的先验估计与后验估计分布的基础上,讨论了模型的预样本误差以及模型各个参数的满条件分布,并给出了它们的所有结果。

在此基础上,我们构造了模型的M-H算法。

在第四章中,我们利用前面的结论与算法,对上证指数的收益率的AR(1)-GARCH(1,1)-M(0)模型,用混合的M-H算法给出了估计结果,并对其模型的整合性与δ效应性进行了研究。

而第五章基本上是一个独立于前面的结果,这里我们利用经典的统计分析的方法,借助SAS/E T S 程序,分别对上证指数与深圳成分指数的收益率的两个模型(IGARCH-M与EGARCH-M)的参数进行估计,并分析了风险补偿与波动率的特征,同时给出了它们的预测结果,第六章是我们的结论与说明。

- 8 - 
- 9 - 
第二章 对ARMA-GARCH-M 模型以及MCMC 算法的
详细说明
2.1 ARMA(p ,q )-GARCH(r ,s )-M(k )模型
考虑如下最一般形式的ARMA(p ,q )-GARCH(r ,s )-M(k )模型
),...,2,1(n t y t
t =++=µδσγx t t (2.1) 111|−=−−=∑∑++=t t q i i
t i t i t p i i t Fεεθεµφµ~),0(2t N σ (2.2)
∑∑=−=−++=s
i i t i r i i t i t
121202
σβεαασ (2.3) 这里t y 是一个标量(在经济学中,可以解释为超额收益或风险费用等);t x 是一个l ×1的外部变量向量,如可取),...,,(21l t t t y y y −−−=t x ;γ为1×l 的回归系数向量,),...,,(211l t t t t y y y −−−−=σF为由},...,,{21l t t t y y y −−−生成
的σ-域,它表示到时刻1−t 为止所有可获得的信息;2t σ为t ε的条件方差;
而),...,(22k t t −=σσ2t σ;δ
为1)1(×+k 参数向量,表示前k 步的条件方差均会影响到期望方程(2.1);i i i i βαθφ,,,为误差项t µ的参量。

2.2 MCMC (Markov Chain Monte Carlo ) 算法
MCMC 方法在统计物理学中得到广泛应用已有四十多年的历史,但它在贝叶斯统计、显著性检验、极大似然估计等方面的应用则是近十年内的事情。

在对数据进行分析时我们常常希望得到一些后验量,如后验均值、后验方差、后验分布的分位数等等。

计算这些后验量都可归结为关于后验分布的积分计算。

具体的,设Χ∈x x ),(π为后验分布,我们要计算的后验量可以写为某函数)(x f 关于)(x π的期望
∫Χ
=dx x x f f E )()(ππ
- 10 - 
对于较简单的后验分布,我们可以直接计算上式或利用正态近似、数值积分、静态Monte Carlo 等近似计算方法。

但当后验分布为高维或很复杂时,这些方法都难以实施,而在实际中,观测的后验分布往往是复杂的、高维的、非标准形式的分布。

因此,我们必须探讨一些新的计算方法。

MCMC 方法就是最近发展起来的一种简单且行之有效的贝叶斯计算方法。

MCMC 方法的基本思想是通过建立一个平稳分布为)(x π的马尔可夫链,来得到)(x π的样本,基于这些样本就可以作各种统计推断。

比如,若得到了)(x π的样本)()1(,,n X X L ,则)(x f 的期望可估计为
∑==n i i n x f n f 1
)(^
)(1 这便是Monte Carlo 积分。

我们知道当)()1(,,n X X L 独立时,由大数定律有
∞→ → n f E f s a n ,..^π
但当)()1(,...,n X X 是平稳分布为)(x π的马尔可夫过程的样本时,上式也成立。

以马氏链命名是由于MCMC 算法的理论基础是马氏链(或者更确切地说是转移概率核)收敛于一个固定的分布。

因此就要求马氏链满足某些条件,如遍历性和常返性。

M-H 算法是大部分MCMC 算法的基本模块。

给定了一个目标分布π,它将是贝叶斯推断的后验分布。

我们希望构造一个以π为平稳分布的马氏链∞
=0}{i i X 。

若n n x X =为链现在的状态,则M-H 算法将从转移密度
),(⋅x q 中模拟一个候选或建议值y ,于是下一状态1+n X 以概率),(y x n α取y ,以概率),(1y x n α−取n x 。

其中
=1,),()(),()(min ),(y x q x x y q y y x n ππα 为接受概率。

易证从n X 转移到1+n X 时π保持不变。

通过选择不同的建议转移概率密度),(⋅⋅q ,我们得到了不同的MCMC 算法,包括:Gibbs 抽样,Langevin 算法,随机徘徊Metropolis 算法等等。

- 11 - 
当π为R 上定义的连续单变量分布时,随机徘徊MCMC 算法如下:通过在现在状态中加入噪声的方法来得到候选状态。

特别, )(),(x y f y x q −=,f 满足关于零点对称。

一般f 选为均值为0方差为2σ的正态分布。

在这种情况下,从n n x X =转移到11++=n n x X 的算法可以表述如下:
z z x y n +←~),0(2σN
←1,)()(min n x y ππα ←+αα-以概率以概率11n n x y x
值得注意的是,建议转移概率密度的对称性),(),(x y q y x q =使得接受概率有了简单的形式。

最简单、应用最广泛的MCMC 方法是Gibbs 抽样,它是由Geman 最先提出并命名的,它的想法很直观。

设),...,(1n X X X =的密度函数为)(x π,任意固定N T ⊂,在给定T T x X −−=条件下,如下定义随机变量T T n X X X X X −−==':)',...,'('1而T X '具有密度函数)|'(T T x x −π,则对任一可测集B ,
')'|'()'()'(dx x x x B X P B
T T T ∫−−=∈ππ ∫=B
dx x ')'(π )(B π=
因而'X 的密度函数也是)(x π。

上述过程定义了一个由X 到'X 的转移核,
且其相应的平稳分布是π。

这样构造的MCMC 称为Gibbs 抽样,单元素Gibbs 抽样是最简单的MCMC 。

易见Gibbs 抽样的接受概率为1,即Gibbs 抽样的所有候选点均被接受,这样Gibbs 样本全部是从满条件分布中抽样的。

在MCMC 算法中,作为Gibbs 抽样算法的推广,有一个称为Block-at-a-Time 的算法,其实该算法是Hastings 在1970年就提出的,
- 12 - 
它的想法是将Metropolis-Hastings 算法应用于向量的子块来进行处理,从而简化建议分布的搜索。

我们以只分成两块的情形为例来说明,设i d i R X X X X ∈=),,(21,假如存在条件转移核),(2111x dy x P ,其相应的条件平稳分布为)(2*21x ⋅π(其密度为)(221x ⋅π),即
12121211121*21)(),()(dx x x x dy x P x dy ππ∫=
同样地,存在条件转移核),(1222x dy x P ,其相应的条件平稳分布为
)(2*21x ⋅π。

那么可以证明其转移核的乘积所对应的平稳分布恰好为),(21*x x π(其密度为),(21x x π)。

Block-at-a-Time 算法的最大的好处在于,我们只需要较为容易地找出几个收敛于它们相应的条件平稳分布的条件转移核,而不用直接去找一个转移核使其收敛到它的联合平稳分布。

这样就可以建立一个平稳分布为),(*21x x π的马尔可夫链。

值得注意的是,当),(2111x dy x P )(21*21x dy π=,且),(1222x dy x P )(12*12x dy π=,即样本是直接从满
条件分布中产生时,Block -at-a-Time 算法就是通常的Gibbs 抽样算法。

而Gibbs 抽样算法就是要求在每一个满条件分布中独立地产生样本是可行的条件下进行的。

MCMC 算法由具有收敛性质的后验概率密度决定,因此算法的内容就是从转移核中抽样。

简单说来,当样本可以从转移概率核中取时应用Gibbs 抽样;当我们需要从建议密度中抽样时则用M-H 算法。

我们真正关心的问题是高维目标分布,但是关于一维分布的算法也是有用的。

应用Gibbs 抽样方法,将单个变量的更新用于与目标相联系的满条件分布,即1x 依据目标分布),...,|(21p x x x π转移,2x 依据目标分布)...,,|(312p x x x x π转移,以此类推。

由于每一步都保持π不变,整个的转移为所有元素转移的循环也保持不变。

大多数贝叶斯问题都可用此种方法来解决。

相关文档
最新文档