第19章马尔科夫链蒙特卡洛法

合集下载

大学《统计学习方法》第2版教学课件-第19章马尔科夫链蒙特卡洛法

返的 • 当 p≤q 时，不存在平稳分布，马尔可夫链不是正常返的。
马尔可夫链的性质
马尔可夫链的性质
• 遍历定理的直观解释： • 满足相应条件的马尔可夫链，当时间趋于无穷时，马尔可夫链的
状态分布趋近于平稳分布，随机变量的函数的样本均值以概率1 收敛于该函数的数学期望。
• 样本均值可以认为是时间均值，而数学期望是空间均值。遍历定理实际表述了遍历性的含义：当时间趋于无穷时，时间均值等于空间均值。
马尔可夫链的性质
• 直观上，一个非周期性的马尔可夫链，不存在一个状态，从这一个状态出发，再返回到这个状态时所经历的时间长呈一定的周期性
例
• 图上所示的马尔可夫链是周期的
例
• 转移概率矩阵
• 其平稳分布是
。此马尔可夫链从每个状态出发，
返回该状态的时刻都是3的倍数，{3,6,9}，具有周期性，最终
在平稳分布
连续状态马尔可夫链
• 连续状态马尔可夫链定义在连续状态空间S
，随机变量
• 转移概率分布由概率转移核或转移核(transition kernel）表示。
• 设S是连续状态空间，对任意的
定义为
• 其中是概率密度函数，满足
连续状态马尔可夫链
• 转移核
表示从 x ~ A的转移概率
• 有时也将概率密度函数
积分计算
• 给定一个概率密度函数p(x)，只要取 • 就可得
• 就是说，任何一个函数的积分都可以表示为某一个函数的数学期望的形式，而函数的数学期望又可以通过函数的样本均值估计
• 于是，就可以利用样本均值来近似计算积分
例
• 用蒙特卡罗积分法求
•令 • 也就是说，假设随机变量x在(0,1)区间遵循均匀分布

马尔可夫链蒙特卡洛方法的并行化实现技巧

马尔可夫链蒙特卡洛方法的并行化实现技巧马尔可夫链蒙特卡洛（MCMC）方法是一种用于进行概率计算的重要技术，能够在估计复杂的概率分布时发挥重要作用。

然而，MCMC方法在处理大规模数据时通常需要较长的计算时间，因此并行化实现成为了研究的热点之一。

本文将讨论MCMC方法在并行化实现中的一些关键技巧。

1. 理解马尔可夫链蒙特卡洛方法MCMC方法是一种用于从复杂概率分布中抽样的技术，其核心思想是通过构造一个马尔可夫链，在该链上进行随机抽样，最终得到概率分布的近似值。

常见的MCMC算法包括Metropolis-Hastings算法、Gibbs抽样算法等。

在实际应用中，MCMC方法通常需要进行大量的迭代计算，因此其计算效率成为了一个重要的问题。

2. 并行化实现技巧在实现MCMC方法的并行化时，通常需要考虑以下几个关键技巧：（1）任务划分：MCMC方法通常涉及大量的随机抽样和计算操作，因此在并行化实现时需要合理地划分计算任务，确保各个处理器能够充分利用计算资源。

（2）通信开销：并行化计算通常涉及不同处理器之间的通信，而通信开销可能成为影响并行计算效率的一个关键因素。

因此在MCMC方法的并行化实现中，需要合理地设计通信模式，减小通信开销。

（3）随机性控制：MCMC方法的核心在于随机抽样，而在并行计算中随机性控制往往会成为一个复杂的问题。

在MCMC方法的并行化实现中，需要设计合理的随机数生成策略，确保并行计算结果的准确性。

（4）性能优化：在实际应用中，MCMC方法通常涉及大规模的数据计算，因此在并行化实现中需要考虑诸如缓存优化、向量化计算等技术，以提高计算效率。

3. 实际案例在实际应用中，MCMC方法的并行化实现已经得到了广泛的应用。

以贝叶斯统计模型为例，MCMC方法能够对模型参数进行贝叶斯估计，但在实际应用中通常需要处理大规模数据。

因此，研究人员通常会采用并行化的MCMC方法来加速计算。

以Metropolis-Hastings算法为例，研究人员可以通过合理地划分计算任务、设计有效的通信模式、控制随机性等技巧，实现对贝叶斯统计模型的快速估计。

马尔可夫链蒙特卡罗模拟方法及其应用举例

马尔可夫链蒙特卡罗模拟方法及其应用举例随着科技的不断发展，人们可以更加准确地预测一些复杂的现象，为生产生活提供更好的帮助。

马尔科夫链蒙特卡罗模拟方法便是一种优秀的解决方案。

一、什么是马尔科夫链蒙特卡罗模拟方法？马尔可夫链蒙特卡罗模拟方法是一种利用概率统计学原理和数学计算来进行计算机模拟的方法。

这种方法建立在马尔可夫链的基础上，利用概率分布和转移矩阵进行模拟。

马尔可夫链是指一个随机过程，按照一定的规则进行状态转移。

在这个过程中，转移的下一个状态只与当前状态有关，与之前的状态无关。

这种性质称为“马尔可夫性”。

蒙特卡罗方法则是一种以概率为基础的数值计算方法，通过大量的随机采样来获得估计值。

采用蒙特卡罗方法可以在数学上得到比较复杂的解决方案。

马尔可夫链蒙特卡罗模拟方法将马尔可夫链和蒙特卡罗方法融合在一起，利用马尔可夫链的转移和状态分布特性和蒙特卡罗采样方法来对等式进行求解或概率分析。

二、马尔可夫链蒙特卡罗模拟方法的一些应用1.金融领域中的风险分析金融领域中的风险问题是一个复杂的问题，需要考虑许多不确定的因素，例如市场波动等。

利用马尔可夫链蒙特卡罗方法可以对这些不确定因素进行分析，预估市场风险。

2.物理学中的介观尺度在物理学中，许多问题都涉及到介观尺度。

由于这些尺度的存在，通常需要使用统计物理学方法进行研究。

利用马尔可夫链蒙特卡罗方法可以对这些问题进行深入分析和优化。

3.蛋白质结构预测蛋白质结构的预测是一个重要的问题。

结构预测需要进行大量的计算，而马尔可夫链蒙特卡罗方法可以对这个问题进行比较准确的模拟。

三、马尔可夫链蒙特卡罗模拟方法的局限性虽然马尔可夫链蒙特卡罗模拟方法有很多优点，但是它也存在一些局限性。

其中最主要的一个是计算时间较长。

由于需要进行大量的随机采样，所以计算时间非常长。

此外，正确计算蒙特卡罗方法的统计误差也是一个挑战。

四、总结马尔可夫链蒙特卡罗模拟方法作为一种优秀的计算机模拟方法，在许多领域都有广泛的应用。

马尔可夫链蒙特卡洛方法及其r实现

马尔可夫链蒙特卡洛方法及其r实现马尔可夫链蒙特卡洛（Markov Chain Monte Carlo，MCMC）方法是一种统计推断方法，主要用于解决难以直接计算的问题。

它的基本思想是通过构造一个马尔可夫链，使其平稳分布为所要求解的分布，然后通过迭代这个马尔可夫链来得到所要求解的分布的样本。

在R语言中，我们可以使用`rstan`包来实现MCMC方法。

下面是一个简单的例子，说明如何使用MCMC方法来估计一个简单模型的参数。

首先，你需要安装和加载`rstan`包：```r("rstan")library(rstan)```然后，定义一个Stan模型。

这里我们使用一个简单的线性回归模型作为例子：model_code <- "data {int<lower=0> N; // number of data pointsvector[N] y; // response variablevector[N] x; // predictor variable};parameters {real mu; // mean of yreal beta; // slope of the regression line};model {y ~ normal(mu, 1); // normal distribution for ymu ~ normal(0, 1); // normal distribution for mu beta ~ normal(0, 1); // normal distribution for beta };"```接着，使用`stan`函数来拟合模型：Generate some fake dataN <- 100 number of data pointsx <- rnorm(N) predictor variabley <- 3x + rnorm(N) response variable with added noiseFit the model using MCMC methodfit <- stan(model_code, data = list(N = N, y = y, x = x))```最后，你可以使用`print`函数来查看模型拟合的结果：```rprint(fit)```这只是一个非常简单的例子。

马尔可夫链蒙特卡洛算法

马尔可夫链蒙特卡洛算法
马尔可夫链蒙特卡洛算法（Markov Chain Monte Carlo，
MCMC算法）是一类经典的统计模拟方法，用于从复杂的概
率分布中进行抽样，以求解各种统计问题。

MCMC算法的核心是利用马尔可夫链的性质进行概率抽样。

具体步骤如下：
1. 确定目标分布：首先需要确定所要抽样的目标分布，通常是在计算困难的概率模型中计算概率密度（或概率质量）函数的常数比例。

2. 构建马尔可夫链：构建一个马尔可夫链，使得其平稳分布等于目标分布。

常见的马尔可夫链包括Metropolis-Hastings算法、Gibbs采样等。

3. 进行迭代抽样：从适当的初始状态开始，根据马尔可夫链的转移规则进行迭代。

每次迭代都根据当前状态和转移规则生成一个新的候选状态，接受或者拒绝该状态作为下一步的状态，通过计算接受概率等条件转移概率来决定是否接受。

4. 收敛检验：经过充分迭代后，进行收敛检验，判断抽样结果是否已经达到平稳分布，通常使用自相关函数等进行检验。

5. 统计分析：使用抽样结果进行统计分析，例如估计分布的均值、方差等参数。

MCMC算法具有广泛的应用，如蒙特卡洛积分、贝叶斯统计、马尔可夫链模型参数估计等。

但是，MCMC算法的主要困难
在于如何构建合适的马尔可夫链、如何设置收敛准则以及如何处理高维空间中的抽样问题。

马尔可夫链蒙特卡罗方法

马尔可夫链蒙特卡罗方法一、概述马尔可夫链蒙特卡罗方法（Markov Chain Monte Carlo，简称MCMC），是一种基于马尔可夫链的随机采样方法，主要用于求解复杂的概率分布问题。

该方法在统计学、物理学、计算机科学等领域有着广泛的应用。

二、基本原理MCMC方法通过构建一个马尔可夫链来实现对目标分布进行采样。

具体来说，首先需要定义一个状态空间S和一个转移概率矩阵P，使得对于任意状态i和j，都有P(i,j)>0。

然后，在状态空间上构建一个初始状态为x0的马尔可夫链{Xn}，并按照转移概率矩阵P进行转移。

当经过足够多次迭代后，该马尔可夫链将会收敛到目标分布π(x)。

三、具体步骤1. 确定目标分布π(x)及其形式。

2. 构建马尔可夫链的状态空间S和转移概率矩阵P。

3. 设定初始状态x0，并进行迭代。

每次迭代时，根据当前状态xi和转移概率矩阵P确定下一步的状态xi+1。

4. 对于每个生成的状态xi，计算其对应的目标分布π(x)的值。

5. 对于生成的状态序列{Xn}，进行收敛性检验。

通常采用Gelman-Rubin诊断法或自相关函数法进行检验。

6. 得到收敛后的状态序列{Xn}，根据需要进行统计分析。

四、常用算法1. Metropolis-Hastings算法：该算法是MCMC方法中最基本和最常用的一种算法。

它通过引入接受概率来保证马尔可夫链能够收敛到目标分布。

具体来说，在每次迭代时，先从一个提议分布中生成一个候选状态y，然后计算接受概率α=min{1,π(y)/π(x)}。

如果α≥1，则直接接受y作为下一步状态；否则以概率α接受y作为下一步状态，否则保持当前状态不变。

2. Gibbs采样算法：该算法是一种特殊的Metropolis-Hastings算法。

它在每次迭代时只更新一个维度上的变量，并且候选状态是直接从条件分布中抽取得到。

由于Gibbs采样只需考虑单个维度上的变化，因此在高维问题上具有较好的效率。

马尔科夫链蒙特卡洛方法

马尔科夫链蒙特卡洛方法
马尔科夫链蒙特卡洛方法（Markov Chain Monte Carlo, MCMC）是一种基于马尔科夫链的随机模拟算法，用于概率模型的采样和积分计算。

它是由维尔斯特拉斯（Metropolis）、罗斯（Rosenbluth）、波特（Teller）、鄂德曼（Etzltin）等人在1953年提出的。

MCMC方法的基本思想是通过构建一个马尔科夫链，使其稳定分布为待采样的概率分布，并用采样得到的样本进行统计推断。

这种方法克服了传统的随机采样方法中难以得到精确样本的问题。

常用的MCMC方法有马尔科夫蒙特卡洛（MCMC）、吉布斯采样（Gibbs sampling）和Metropolis-Hastings算法等。

其中，Metropolis-Hastings算法是最常用的MCMC算法之一，它允许从任意分布中采样，并在不知道概率分布的归一化常数的情况下计算出概率比值。

吉布斯采样是Metropolis-Hastings 算法的一种特殊情况，适用于联合分布可分解为条件分布的情况。

MCMC方法在统计学、机器学习、物理学等领域被广泛应用，它能够解决很多实际问题，如参数估计、模型选择、图像处理等。

然而，MCMC方法的计算效率较低，需要进行大量的迭代和计算。

因此，近年来还出现了一些改进的MCMC 算法，如哈密顿蒙特卡洛（Hamiltonian Monte Carlo）、推土机蒙特卡洛（Particle Monte Carlo）等，以提高采样效率。

马尔科夫链蒙特卡罗方法（MCMC）

马尔科夫链蒙特卡罗⽅法（MCMC）⼀.蒙特卡罗法的缺陷通常的蒙特卡罗⽅法可以模拟⽣成满⾜某个分布的随机向量，但是蒙特卡罗⽅法的缺陷就是难以对⾼维分布进⾏模拟。

对于⾼维分布的模拟，最受欢迎的算法当属马尔科夫链蒙特卡罗算法(MCMC)，他通过构造⼀条马尔科夫链来分步⽣成随机向量来逼近制定的分布，以达到减⼩运算量的⽬的。

⼆.马尔科夫链⽅法概要马尔科夫链蒙特卡罗⽅法的基本思路就是想办法构造⼀个马尔科夫链，使得其平稳分布是给定的某分布，再逐步⽣模拟该马尔科夫链产⽣随机向量序列。

其基本思路如下。

就像是普通的蒙特卡罗⽅法本质上依赖于概率论中的⼤数定理，蒙特卡罗⽅法的理论⽀撑是具有遍历性的马尔科夫链的⼤数定理。

马尔科夫链蒙特卡罗⽅法的⼤体思路如下：(1)给定某个分布p(x), 构造某个马尔科夫链\lbrace X_{t}\rbrace_{t\in\mathbb{N}}使得p是其平稳分布，且满⾜⼀定的特殊条件；(2)从⼀点x_{0}出发，依照马尔科夫链\lbrace X_{t}\rbrace_{t\in\mathbb{N}}随机⽣成向量序列x_{0},x_{1},...；(3)蒙特卡罗积分估计：计算E_{p}(f)\approx\sum_{t=1}^{N}f(x_{t})三.MCMC的数学基础——马尔科夫链的遍历性，⼤数定理MCMC为什么可以近似计算积分? 其实在数学上这是不太平凡的，下⾯简要介绍⼀下其数学理论依据。

3.1 马尔科夫链与其遍历性, 马尔科夫链的⼤数定理：所谓马尔科夫链通俗的说就是⼀个随机过程，其满⾜，t时刻的状态和t-1之前的状态⽆关。

我们⽤严格的测度论语⾔说就是：定义3.1：定义于概率空间(\Omega,\mathcal{G},P), 取值于\mathcal{Y}\in\mathbb{R}^{K}的随机向量序列\lbraceX_{t}\rbrace_{t\in\mathbb{N}}称为离散时间马尔科夫链(Markov Chain of discrete time)如果其满⾜：对于任意\mathcal{Y}的Borel集B\in \mathcal{B}_{\mathcal{Y}}P(X_{t+1}^{-1}(B)\mid X_{t},...,X_{1})=P(X_{t+1}^{-1}(B)\mid X_{t})进⼀步的，如果\lbrace X_{t}\rbrace_{t\in\mathbb{N}}还满⾜：\begin{equation}P(X_{t+1}^{-1}(B)\mid X_{t})=P(X_{1}^{-1}(B)\mid X_{0})\end{equation}我们称马尔科夫链\lbrace X_{t}\rbrace_{t\in\mathbb{N}}为时间齐次（time homogeneous)的，这时我们定义该马尔科夫链的转移核(transition kernel)$P_{t}: \mathbb{N}\times\mathcal{B}_{\mathcal{Y}}\longrightarrow [0,1]:$P_{t}(y,A)\triangleq P(X_{t}\in A\mid X_{0}=y),对任意t\in\mathbb{N}, 并且我们直接简记P(y,A)=P_{1}(y,A), 对y\in\mathcal{Y}, A\in\mathcal{B}_{\mathcal{Y}}。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

返的 • 当 p≤q 时，不存在平稳分布，马尔可夫链不是正常返的。
马尔可夫链的性质
马尔可夫链的性质
• 遍历定理的直观解释：
• 满足相应条件的马尔可夫链，当时间趋于无穷时，马尔可夫链的状态分布趋近于平稳分布，随机变量的函数的样本均值以概率1 收敛于该函数的数学期望。
• 样本均值可以认为是时间均值，而数学期望是空间均值。遍历定理实际表述了遍历性的含义：当时间趋于无穷时，时间均值等于空间均值。
例
• 使用蒙特卡罗积分法，如图所示，在(0,1)区间按照均匀分布抽
取10个随机样本
。计算样本的函数均值
• 也就是积分的近似
• 随机样本数越大，计算就越精确
例
• 用蒙特卡罗积分法求
•令
• p(x) 是标准正态分布的密度函数
• 使用蒙特卡罗积分法，按照标准正态分布在区间
抽样
, 取其平均值，就得到要求的积分值。当样本
例
• 假设每个单词只依赖于其前面出现的单词，也就是说单词序列具有马尔可夫性，那么可以定义一阶马尔可夫链，即语言模型，如下计算语句的概率
• 这里第三个等式基于马尔可夫链假设。这个马尔可夫链中，状态空间为词表，一个位置上单词的产生只依赖于前一个位置的单词，而不依赖于更前面的单词。
• 以上是一阶马尔可夫链，一般可以扩展到 n 阶马尔可夫链。
• 假设天气的变化具有马尔可夫性，即明天的天气只依赖于今天的天气，而与昨天及以前的天气无关。
例
• 转移矩阵为
• 如果第一天是晴天的话，其天气概率分布（初始状态分布）如下：
例
• 根据这个马尔可夫链模型，可以计算第二天、第三天及之后的天气概率分布（状态分布）
平稳分布
• 直观上，如果马尔可夫链的平稳分布存在，那么以该平稳分布作为初始分布，面向未来进行随机状态转移，之后任何一个时刻的状态分布都是该平稳分布
马尔可夫链的性质
• 直观上，一个非周期性的马尔可夫链，不存在一个状态，从这一个状态出发，再返回到这个状态时所经历的时间长呈一定的周期性
例
• 图上所示的马尔可夫链是周期的
例
• 转移概率矩阵
• 其平稳分布是
。此马尔，{3,6,9}，具有周期性，最终
• 比如，从样本得到经验分布，从而估计总体分布 • 或者从样本计算出样本均值，从而估计总体期望
• 所以蒙特卡罗法的核心是随机抽样(random sampling)。
随机抽样
• 蒙特卡罗法
• 直接抽样法 • 接受-拒绝抽样法 • 重要性抽样法
• 接受-拒绝抽样法、重要性抽样法适合于概率密度函数复杂(如密度函数含有多个变量，各变量相互不独立，密度函数形式复杂)，不能直接抽样的情况。
• 马尔可夫链蒙特卡罗法构建一个马尔可夫链，使其平稳分布就是要进行抽样的分布，首先基于该马尔可夫链进行随机游走，产生样本的序列，之后使用该平稳分布的样本进行近似数值计算
马尔可夫链蒙特卡罗法
• Metropolis-Hastings算法是最基本的马尔可夫链蒙特卡罗法
• 吉布斯抽样（Gibbs sampling）是更简单、使用更广泛的马尔可夫链蒙特卡罗法，
例
• 语言模型的学习等价于确定马尔可夫链中的转移概率值，如果有充分的语料，转移概率可以直接从语料中估计
• 直观上，“wreck a nice”出现之后，下面出现 “beach” 的概率极低，所以第二个语句的概率应该更小，从语言模型的角度看第一个语句的可能性更大
转移概率矩阵和状态分布
• 马尔可夫链 X 在时刻 t 的状态分布，可以由在时刻 (t − 1) 的状态分布以及转移概率分布决定
转移概率矩阵和状态分布
• 有限离散状态的马尔可夫链可以由有向图表示
• 结点表示状态，边表示状态之间的转移，边上的数值表示转移概率
• 从一个初始状态出发，根据有向边上定义的概率在状态之间随机跳转（或随机转移），就可以产生状态的序列
• 马尔可夫链实际上是刻画随时间在状态之间转移的模型，假设未来的转移状态只依赖于现在的状态，而与过去的状态无关。
• 遍历定理的三个条件：不可约、非周期、正常返，保证了当时间趋于无穷时达到任意一个状态的概率不为0
马尔可夫链的性质
• 理论上并不知道经过多少次迭代，马尔可夫链的状态分布才能接近于平稳分布
• 在实际应用遍历定理时，取一个足够大的整数m，经过m次迭代之后认为状态分布就是平稳分布
• 这时计算从第 m＋1次迭代到第n次迭代的均值，即
• 假设 q(x) 是建议分布的概率密度函数，并且有 q(x) 的 c 倍一定大于等于 p(x)，其中 c > 0，如图中所示
接受-拒绝法
接受-拒绝法
• 接受-拒绝法的优点是容易实现，缺点是效率可能不高
• 如果p(x)的涵盖体积占cq(x)的涵盖体积的比例很低，就会导致拒绝的比例很高，抽样效率很低。
积分计算
• 一般的蒙特卡罗法也可以用于定积分的近似计算，称为蒙特卡罗积分（Monte Carlo integration)
• 假设有一个函数h(x)，目标是计算该函数的积分 • 如果能够将函数h(x)分解成一个函数f(x)和一个概率密度函数p(x)的
乘积的形式，那么就有
• 于是函数h(x)的积分可以表示为函数f(x)关于概率密度函数p(x)的数学期望。
随机抽样
• 接受-拒绝抽样法(accept-reject sampling method)
• 假设有随机变量 x，取值 x ∈ X ，其概率密度函数为 p(x)
• 目标是得到该概率分布的随机样本，以对这个概率分布进行分析
随机抽样
• 假设 p(x) 不可以直接抽样。找一个可以直接抽样的分布，称为建议分布(proposal distribution)
停留在每个状态的概率都为1/3.
马尔可夫链的性质
• 直观上，一个正常返的马尔可夫链，其中任意一个状态，从其他任意一个状态出发，当时间趋于无穷时，首次转移到这个状态的概率不为0。
例
• 图上所示无限状态马尔可夫链，当p>q时是正常返的，当p≤q不是正常返的。
例
• 转移概率矩阵
• 当 p > q 时，平稳分布是 • 当时间趋于无穷时，转移到任何一个状态的概率不为 0，马尔可夫链是正常
• 目标是求函数f(x) 关于密度函数p(x)的数学期望
数学期望佑计
• 针对这个问题，蒙特卡罗法按照概率分布p(x)独立地抽取n个样
本
，比如用以上的抽样方法，之后计算函数f(x)的样本
均值
• 作为数学期望
的近似值
• 根据大数定律可知，当样本容量增大时，样本均值以概率1收敛于数学期望：
• 这样就得到了数学期望的近似计算方法：
平稳分布
平稳分布
• 证明 - 必要性
• 假设 (19.18)。又
•即 • 满足式(19.16)
是平稳分布，显然满足式(19.17)和式
平稳分布
• 证明 – 充分性
• 由式（19.17）和式（19.18）知
• 假设
为Xt的分布，则
是一概率分布
• • 所以
也为Xt-1的分布，这对任意t成立是马尔可夫链的平稳分布
马尔可夫链的性质
• 直观上，如果有可逆的马尔可夫链，那么以该马尔可夫链的平稳分布作为初始分布，进行随机状态转移，无论是面向未来还是面向过去，任何一个时刻的状态分布都是该平稳分布。
离散状态马尔可夫链
• 转移概率矩阵和状态分布
• 离散状态马尔可夫链
，随机变量
定义在离散空间S，转移概率分布可以由矩阵表示
• 若马尔可夫链在时刻(t-1)处于状态j，在时刻t移动到状态i，将转移概率记作
• 满足
转移概率矩阵和状态分布
• 马尔可夫链的转移概率 pij 可以由矩阵表示，即
• 称为马尔可夫链的转移概率矩阵，转移概率矩阵P满足条件 • 这两个条件的矩阵称为随机矩阵（stochastic matrix) • 矩阵列元素之和为1
• 马尔可夫链蒙特卡罗法被应用于概率分布的估计、定积分的近似计算、最优化问题的近似求解等问题，特别是被应用于统计学习中概率模型的学习与推理，是重要的统计学习计算方法。
蒙特卡罗法
随机抽样
• 蒙特卡罗法要解决的问题是，假设概率分布的定义己知，通过抽样获得概率分布的随机样本，并通过得到的随机样本对概率分布的特征进行分析。
第十九章马尔可夫链蒙特卡罗法
马尔可夫链蒙特卡罗法
• 蒙特卡罗法（Monte Carlo method)，也称为统计模拟方法（statistical simulation method)，是通过从概率模型的随机抽样进行近似数值计算的方法。
• 马尔可夫链蒙特卡罗法（Markov Chain Monte Carlo, MCMC)，则是以马尔可夫链（Markov chain)为概率模型的蒙特卡罗法。
例
• 自然语言处理、语音处理中经常用到语言模型(language model)，是建立在词表上的n阶马尔可夫链
• 比如，在英语语音识别中，语音模型产生出两个候选：“How to recognize speech”与“How to wreck a nice beach” 要判断哪个可能性更大
• 显然从语义的角度前者的可能性更大，语言模型可以帮助做出这个判断
增大时，积分值趋于0
马尔可夫链
基本定义
基本定义
• 马尔可夫性的直观解释是“未来只依赖于现在（假设现在已知），而与过去无关”
• 若转移概率分布
与t无关，即
• 则称该马尔可夫链为时间齐次的马尔可夫链（(time homogenous Markov chain)。
• 以上定义的是一阶马尔可夫链，可以扩展到n阶马尔可夫链，满足n阶马尔可夫性