关于TD Learning算法的分析

合集下载

相关主题

关于TD Learning算法的分析
导读：人工智能之机器学习主要有三大类：1）分类；2）回归；3）聚类。

今天我们重点探讨一下TD Learning算法。

TD Learning时序差分学习结合了动态规划DP和蒙特卡洛MC方法，且兼具两种算法的优点，是强化学习的核心思想。

虽然蒙特卡罗MC方法仅在最终结果已知时才调整其估计值，但TD Learning时序差分学习调整预测以匹配后，更准确地预测最终结果之前的未来预测。

TD Learning算法概念：TD Learning（Temporal－Difference Learning）时序差分学习指的是一类无模型的强化学习方法，它是从当前价值函数估计的自举过程中学习的。

这些方法从环境中取样，如蒙特卡洛方法，并基于当前估计执行更新，如动态规划方法。

TD Learning算法本质：TD Learning（Temporal－DifferenceLearning）时序差分学习结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。

时序差分不好理解。

改为当时差分学习比较形象一些，表示通过当前的差分数据来学习。

蒙特卡洛MC方法是模拟（或者经历）一段序列或情节，在序列或情节结束后，根据序列或情节上各个状态的价值，来估计状态价值。

TD Learning时序差分学习是模拟（或者经历）一段序列或情节，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。

可以认为蒙特卡洛MC方法是最大步数的TD Learning时序差分学习。

TD Learning算法描述：如果可以计算出策略价值（状态价值v（s），或者行动价值q（s，a）），就可以优化策略。

在蒙特卡洛方法中，计算策略的价值，需要完成一个情节，通过情节的目标价值Gt来计算状态的价值。

其公式：
MC公式：V（St）V（St）＋t
t＝［Gt？V（St）］
这里：。