马尔科夫链与马尔科夫过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于马尔科夫链与马尔科夫过程

人生中第一次接触到马尔科夫链不是在随机过程的课上,是在大三时候通信大类开设的两门专业课上,一个是大名鼎鼎的通信原理,另一个是模式识别这门课。

1 关于马尔科夫脸的概念

在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概念。马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈·马尔可夫(俄语:АндрейАндреевичМарков)得名,不愧是切比雪夫同志的弟子。其为状态空间中经过从一个状态到另一个状态的转换的随机过程。

这个过程强调的性质,不光是独立性,还有记忆性。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。但是绝对意义上的这个时候的状态与之前的一切毫无关系的案例十分少见,只能人为的创造满足这样性质的条件,不光是在机器学习的实际应用上,在随机过程中的更新过程或者是其他的某些过程都是这种解题思路,使用一定的数学上的处理进行一定的转化,从而使得后来得到的序列可以适应马尔科夫链的相关性质。

在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。随机漫步就是马尔可夫链的例子。随机过程中反映这样的一个变化往往使用一个矩阵进行表示。

随机漫步(其实就是随机过程)中每一步的状态是在图形中的点,每一步可以移动到任何一个相邻的点,在这里移动到每一个点的概率都是相同的(无论之前漫步路径是如何的)。

2 一个经典的实例

概括马尔科夫链的话,那就是某一时刻状态转移的概率只依赖于它的前一个状态。这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等。

这个马尔科夫链是表示股市模型的,共有三种状态:牛市(Bull market), 熊市(Bear market)和横盘(Stagnant market)。每一个状态都以一定的概率转化到下一个状态。比如,牛市以0.025的概率转化到横盘的状态。这个状态概率转化图可以以矩阵的形式表示。如果我们定义矩阵阵P某一位置P(i, j)的值为P(j|i),即从状态i变为状态j的概率。另外定义牛市、熊市、横盘的状态分别为0、1、2,这样我们得到了马尔科夫链模型的状态转移矩阵为:

不过对于初学者而言,经常容易写着写着就忘了各个状态的代号是什么了。。。。。

套用的相关的概率论模型中的理解如下图所示:

3 关于马尔科夫决策过程

3.1关于马尔科夫性

3.2关于马尔科夫决策过程MDP

意思是:在t时刻所在的状态是s,采取a动作后在t+1时刻到达s^的概率。

3.3公式说MDP

这个问题的求解很容易让人们想到经典的高考数学必考的数列问题

当然了,因为这个过程牵扯到了条件概率的问题,这一部分就说明这个过程中,与之前的相关部分是没有关系的,仅仅与此刻的时间有关。

这里感觉经过一定程度的拆解与简化与代换之后,并没有实质上简化很多的计算,无论是数量级还是作为开发者而言最为关心的计算量。

其实这个时候相当的设定就已经十分接近比较经典的贝叶斯分类器了,经过进一步的化简之后,可以进一步将模型变为更加像贝叶斯分类器的形式了

由于状态值函数是以期望定义的,根据期望的计算规则,状态值函数应该是:

根据需要,动作概率感觉也可以变成类似权值的东西

不过这里的理解根据实际情况的不同可能会有天差地别,根据我的经验,相关的理由有两点。一个是上文仿佛强调模型的重新构筑十分像是贝叶斯分类器,实际上如果使用上述的模型进行分类的时候,也确实需要满足贝叶斯分类器在进行分类的需要满足的先决条件——满足克摩洛哥莫夫定理,也就是说待分类的数据实际上在大多数条件之下是正态分布的,如果这个条件不满足,可能在代际设定的很大的前提之下看不出误差,但是需要强调的是,这个时候模型并不能发挥其本来的作用甚至是相关的性质也不能完整的体现出来。比如云南大学早几年有人使用贝叶斯分类器进行了垃圾邮件的分类操作,似乎还取得了不错的效果。但是实际上人工与邮件的接触的相关模型中,实际上垃圾邮件接收到的模型并不是完全符合正态分布的,而应该符合的是泊松分布,因为人类在一定时间内能够阅读的邮件是拥有一定数目的,而且邮箱的容量也并不是无穷大的。所以,这个时候模型应该套用数学建模中十分常见的排队模型,当然了数据的分布也就是经典的泊松分布。

然后,在训练的过程中,因为使用了很多权值或者是类似权值的东西,这就导致很可能粗看之下相当多的时候会造成越训练反倒结果越糟糕的情况,实际上大都由于最开始的训练的时候参数选择的不好或者是权值设定的不佳,实际上由于相关的机制问题这些权值进行翻天覆地的变化的概率是很大的,并不会出现一条路走到黑的情况,而且也可以根据实际上的需要引入相关的第三方算法,从而解决后期神经网络中会出现的梯度下降问题或者是局部极小值问题。

4 强化学习的目的

强化学习的目的就是找到最优的策略,使累计回报函数最大,同时,如果累计回报函数最大时,采用的策略也是最优的。

这里可以类比经典的Lagrange方程中的相关设定完成相关的理解,一方面希望目标函数很大,另一方面又要满足限定条件的相关规范。

所以强化学习的优化有两种方法:(1)基于策略的优化;(2)基于累计回报函数的优化。另外,强化学习算法根据策略是否是随机的,分为确定性策略强化学习和随机性策略强化学习。根据转移概率是否已知可以分为基于模型的强化学习算法和无模型的强化学习算法。另外,强化学习算法中的回报函数R十分关键,根据回报函数是否已知,可以分为强化学习和逆向强化学习

相关文档
最新文档