马尔可夫模型介绍(从零开始)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

马尔可夫模型介绍（从零开始）
（一）：定义及简介：
介绍（introduction）
通常我们总是对寻找某一段时间上的模式感兴趣，这些模式可能出现在很多领域：一个人在使用电脑的时候使用的命令的序列模式；一句话中的单词的序列；口语中的音素序列。

总之能产生一系列事件的地方都能产生有用的模式。

考虑一个最简单的情况：有人(柯南？)试图从一块海藻来推断天气的情况。

一些民间的传说认为“soggy”的海藻意味着潮湿（wet）的天气，“dry”的海藻预示着晴朗（sun）。

如果海藻处于中间状态“damp”，那就无法确定了。

但是，天气的情况不可能严格的按照海藻的状态来变化，所以我们可以说在一定程度上可能是雨天或是晴天。

另一个有价值的信息是之前某些天的天气情况，结合昨天的天气和可以观察到的海藻的状态，我们就可以为今天的天气做一个较好的预报。

这是在我们这个系列的介绍中一个非常典型的系统。

∙首先我们介绍一个可以随时间产生概率性模型的系统，例如天气在晴天或者雨天之间变动。

∙接下来我们试图去预言我们所不能观察到的"隐形"的系统状态，在上面的例子中，能被观察到的序列就是海藻的状态吗，隐形的系统就是天气情况
∙然后我们看一下关于我们这个模型的一些问题，在上面那个例子中，也许我们想知道
1. 如果我们观察一个星期每一天的海藻的状态，我们是否能知相应的其天气情况
2. 如果给出一个海藻状态的序列，我们是否能判断是冬天还是夏天？我们假设，如果海藻干（d
ry）了一段时间，那就意味着是夏天如果海藻潮湿（soggy）了一段时间，那可能就是冬天。

（二）：生成模式（Generating Patterns）
∙确定的模式（Deterministic Patterns）
考虑交通灯的例子，一个序列可能是红-红/橙-绿-橙-红。

这个序列可以画成一个状态机，不同的状态按照这个状态机互相交替
我们可以注意到，每一个状态都只依赖于此前的状态，如果当前的是绿灯，那么接下来就是橙灯，这就是一个确定型的系统。

确定型的系统更容易理解和分析，只要这些状态转移都是已知的。

不确定的模式（Non-Deterministic Patterns）
为了让之前那个天气的例子更贴近现实，我们可以添加一个状态-多云。

和交通灯的例子不同，我们不能得到一个确定的状态转移系统，但是我们还是希望能得到一个天气的模式。

一种办法就是假设这个模型的每个状态都只依赖于之前的状态，这个假设被称为马尔科夫假设，这个假设可以大大的简化这个问题。

显然，这个假设可能是一个非常糟糕的假设，导致很多重要的信息都丢失了。

当涉及到天气的时候，马尔科夫假设假设如果我们知道之间一些天的天气的信息，不考虑风力、气压等因素，那么我们就能预言今天的天气。

当然，和其他许多例子一样，这个列子也是不合实际的。

但是，这样一个简化的系统可以有利于我们的分析，所以我们通常接受这样的假设，因为我们知道这样的系统能让我们获得一些有用的信息，尽管不是十分准确的。

一个马尔科夫过程就是指过程中的每个状态的转移只依赖于之前的n个状态，这个过程被称为1个n阶的模型，其中n是影响转移的状态的数目。

最简单的马尔科夫过程就是一阶过程，每一个状态的转移只依赖于其之间的那一个状态。

注意这和确定型的系统不一样，因为这种装因是有概率的，而不是确定的。

下面这个图展示了天气这个例子中所有可能的一阶转移：
注意一个含有M个状态的一阶过程有M的平方个状态转移。

每一个转移的概率叫做状态转移概率（state transition probability），就是从一个状态转移到另一个状态的概率。

这所
间的变化而变化，这又是一个不现实但很重要的假设。

下面就是一个状态转移矩阵的列子：为了初始化这样一个系统，我们需要一个初始的概率向量：
是一个简单的一阶马尔科夫过程，并且他们两两之间都可以相互转换。

来说，用λ={ π, A, B} 表示HMM参数。

被分别观察成集中不同的可以观察的状态的概率，在天气的例子中，这个矩阵如下图：
（四）：隐马尔科夫模型（Hidden Markov Models）
定义：隐马尔科夫模型可以用一个三元组(π,A,B)来定义:
1. π 表示初始状态概率的向量
2. A =（aij）（隐藏状态的）转移矩阵P（Xit|Xj（t-1））t-1时刻是j而t时刻是i的概率
3. B =（bij）混淆矩阵P（Yi|Xj）在某个时刻因隐藏状态为Xj而观察状态为Yi的概率
值得注意的是，在状态转移矩阵中的每个概率都是时间无关的，也就是说我们假设这个概率是固定的，不随时间变化。

当然，这是马尔科夫模型最不切合实际的一个假设。

隐马尔科夫模型的使用
如果一个模型可以被描述成一个隐马尔科夫模型，有三个问题可以得到解决。

前两个是模式识别的问题：1）根据隐马尔科夫模型得到一个可观察状态序列的概率（评价）；
2）找到一个隐藏状态的序列使得这个序列产生一个可观察状态序列的概率最大(解码)。

第三个问题就是根据一个可以观察到的状态序列集产生一个隐马尔科夫模型（学习）。

1.评价
假设我们有很多隐马尔科夫模型（也就是说一个三元组的集合）描述不同的系统和一个可观察状态序列集。

我们也许想知道哪一个隐马尔科夫模型最可能产生某个可观察状态序列。

比如说，我们也许有一个海藻的“Summer”模型和一个“Winter”模型，因为海藻在夏天和冬天的状态应该是不同的，我们希望根据一个可观察状态（海藻的潮湿与否）序列来判断现在是夏天还是冬天。

我们可以使用前向算法来计算在某个特定的HMM下一个可观察序列的概率，然后据此找到最可能的模型。

这种类型的应用通常出现在语音设别中，通常我们会使用很多HMM，每一个针对一个特别的单词。

一个可观察状态的序列是从一个可以听到的单词向前得到的，然后这个单词就可以通过找到满足这个可观察状态序列的最大概率的HMM来识别。

2.解码
根绝可观察状态的序列找到一个最可能的隐藏状态序列。

和上面一个问题相似的并且更有趣的是根据可观察序列找到隐藏序列。

在很多情况下，我们队隐藏状态更有兴趣，因为其包含了一些不能被直接观察到的有价值的信息。

比如说在海藻和天气的例子中，一个隐居的人只能看到海藻的状态，但是他想知道天气的状态。

这时候我们就可以使用Viterbi算法来根据可观察序列得到最优可能的隐藏状态的序列，当然前提是已经有一个HMM。

1.穷举搜索
加入给定一个HMM，也就是说(,A,B)这个三元组已知，我们想计算出某个可观察序列的概率。

考虑天气的例子，我们知道一个描述天气和海藻状态的HMM，而且我们还有一个海藻状态的序列。

假设这个状态中的某三天是（dry，damp，soggy），在这三天中的每一天，天气都可能是晴朗，多云或者下雨，我们可以用下图来描述观察序列和隐藏序列：
假设一个T时间段的可观察序列是：
下面这张图表示了一个观察序列（dry，damp，soggy）的一阶转移
我们用t(j)来表示在t时刻是状态j的概率，t ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t)。

是通过下列路径计算得到的：
2b.计算t = 1时候的部分概率
计算部分概率的公式是：t ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t)
当t = 1的时候，没有路径到某个状态，所以这里是初始概率，Pr( state | t = 1) = (st ate)，这样我们就可以计算t=1时候的部分概率为：
2c.计算t > 1时候的部分概率
还是看计算部分概率的公式：t ( j )= Pr( observation | hidden state is j ) x Pr(all pa ths to state j at time t)
之前的所有路径，所以在t+1时刻只需要根据t时刻的概率来计算就可以了：
2d.降低计算复杂度
我们可以比较穷举和递归算法的复杂度。

假设有一个HMM l =(,A,B)，其中有n个隐藏状态，我们有一个长度为T的观察序列。

穷举算法的需要计算所有可能的隐藏序列：
需要计算：
每一个y就是观察状态。

在t=1时刻的中间节点的部分状态可以用下面的公式计算：对于t>1的情况，部分概率的计算可以用下面的公式：
算公式为
使用天气的例子，计算t = 2时刻的cloud状态的概率方法如图：
我们可以在下图中看到每个状态和观察的关系。

2.使用递归降低复杂度
在给定了一个可观察序列和HMM的情况下，我们可以考虑递归的来寻找最可能的隐藏序列。

我们可以先定义一个部分概率，既是到达某个中间状态的概率。

接下来我们将讨论如果计算t = 1和t = n（n> 1）的部分概率。

三个状态都有一个如下的最可能的路径：
我们可以称这些路径为部分最优路径。

这些部分最优路径都有一个概率，也就是部分概率。

和前向算法中的部分概率不一样，这里的概率只是一个最可能路径的概率，而不是所有路径的概率和。

我们可以用(i,t)来表示在t时刻，到状态i的所有可能的序列（路径）中概率最大的序列的概率，部分最优路径就是达到这个最大概率的路径，对于每一个时刻的没一个状态都有这样一个概率和部分最优路径。

时刻某个状态的概率和这个状态到可观察序列k1的转移概率：
有个了这个公式，我们就可以利用t - 1时刻的结果和状态转移矩阵和混淆矩阵的数据：率的计算公式：
考虑下图
在每一个中间状态和结束状态都有一个部分最优概率(i,t)。

但是我们的目的是找到最可能的隐藏状态序列，所以我们需要一个方法去记住部分最优路径的每一个节点。

考虑到要计算t时刻的部分概率，我们只需要知道t-1时刻的部分概率，所以我们只需要记录那个导致了t时刻最大部分概率的的状态，也就是说，在任意的时刻，系统都必须处在一个能在下一时刻产生最大部分概率的状态。

我们可以利用一个后向指针来记录导致某个状态最大部分概率的上一个状态，形式化的描述为：
2. 可以根据可观察序列找到最优的隐藏序列，这个的计算公式是：
where
这里就是一个从左往右翻译的过程，通过前面的翻译结果得到后面的结果，起始点是初始向量。

（七）：前向后向算法（Forward-Backward Algorithm）
和隐马尔科夫模型相关的有趣的问题就是判断一个模型的实用性（前向算法）和找到一个隐藏在可观察序列背后的隐藏序列（Viterbi算法）。

当然，这两个过程都需要知道HMM 的一些信息，比如转移矩阵，混淆矩阵以及初始的π向量。

但是在很多实际的情况下，HMM不能被直接的判断，这就变成了一个学习问题，前向后向算法可以根据一系列可观察序列来对HMM进行评测。

一个可能的例子就是一个很大的语音处理数据库，语音序列可能被建模为一个马尔科夫链，可观察的序列可以被建模为可识别的状态，但是不能直接获得一些其他的相关信息。

前向后向算法理解起来并不困难，但是却要比前向算法和Viterbi算法要复杂，所以这里我们不再详细的介绍。

总的来说，这个算法先对一些参数进行猜测，然后再通过评估这些参数的价值来修改这些参数，使得和给定的训练数据的误差变小，这其实是机器学习中的梯度下降的思想。

前向后向算法的名称来源于对于每一个状态，这个算法既要计算到达这一状态的前一个状态的概率，也要计算产生终止状态的后向状态的概率，这两个概率都可以通过递归的方法来实现。

对HMM参数的调整可以提高中间概率的准确性，并且这些调整是算法迭代的基础。

详细介绍：
根据观察到的序列集来找到一个最有可能的HMM。

在很多实际的情况下，HMM不能被直接的判断，这就变成了一个学习问题，因为对于给定的可观察状态序列O 来说，没有任何一种方法可以精确地找到一组最优的HMM参数λ使P(O | λ) 最大，于是人们寻求使其局部最优的解决办法，而前向后向算法（也称为Baum-Welch算法）就成了HMM 学习问题的一个近似的解决方法。

前向后向算法首先对于HMM的参数进行一个初始的估计，但这个很可能是一个错误的猜测，然后通过对于给定的数据评估这些参数的的有效性并减少它们所引起的错误来更新HMM参数，使得和给定的训练数据的误差变小，这其实是机器学习中的梯度下降的思想。

对于网格中的每一个状态，前向后向算法既计算到达此状态的“前向”概率，又计算生成此模型最终状态的“后向”概率，这些概率都可以通过前面的介绍利用递归进行高效计算。

可以通过利用近似的HM M模型参数来提高这些中间概率从而进行调整，而这些调整又形成了前向后向算法迭代的基础。

另外，前向后向算法是EM 算法的一个特例，它避免了EM 算法的暴力计算，而采用动态规划思想来解决问题，Jelinek 在其书《Statistical Methods for Speech Recognition》中对前向后向算法与E M 算法的关系进行了详细描述，有兴趣的读者可以参考这本书。

类似于上面讲到的前向算法，我们也可以定义后向变量βt(i) 来计算给定当前隐藏状态i 时，部分观察序列o t+1，o t+2，…，o T的概率，即：
与前向算法类似，我们也可以通过迭代算法有效计算βt(i)，计算公式如下：
其中
进一步我们可以发现
因此
下面开始介绍前向后向算法。

首先我们需要定义两个辅助变量，这两个变量可以用前文介绍过的前向变量和后向变量进行定义。

第一个变量定义为t 时状态i 和t+1 时状态j 的概率，即
该变量在网格中所代表的关系如下图所示：
该等式等价于
利用前向变量和后向变量，上式可以表示为
第二个变量定义为后验概率，也就是在给定观察状态序列和HMM 的情况下，t 时状态i 的概率，即
利用前向变量和后向变量，上式可以表示为
因此，下式为在任意时刻状态i 的期望，也就是从状态i 转移到观察状态o 的期望
同样，下式也就是从状态i 转移到状态j 的期望
我们可以发现定义的这两个变量之间的关系为
如果我们定义当前的HMM模型为λ={ π，A，B }，那么可以利用该模型计算上面三个式子的右端；我们再定义重新估计的HMM模型为，那么上面三个式子的左端就是重估的HMM模型参数。

Baum 及他的同事在70年代证明了，因此如果我们迭代地计算上面三个式子，由此不断地重新估计HMM的参数，那么在多次迭代后可以得到HMM模型的一个最大似然估计。

不过需要注意的是，前向后向算法所得的这个最大似然估计是一个局部最优解。

1. 评价：一个给定的模型在多大的概率下能产生某个可观察的序列，这个问题可以用前向算法
来解决。

2. 解码：给定一个模型和某个可观察序列，最可能的隐藏序列是什么，这个问题可以用Viter
bi算法来解决。

3. 学习：给定某个可观察序列，怎么知道这个模型的一些参数，这个问题可以用前向后向算法
来解决。

隐马尔科夫模型在分析真实系统的时候表现出了巨大的价值，但是它也有一些缺点，一个最大的缺点就是由于之前的假设导致的过于简化——一个状态只依赖其之间的状态，而且这种依赖是时间无关的。