第 2 章 马尔可夫决策过程

第 2 章马尔可夫决策过程

全栈程序员-站长 • 2026年3月17日下午3:31 • 未分类 • 阅读 3

马尔可夫奖励过程（Markov reward process, MRP）是马尔可夫链加上奖励函数。在马尔可夫奖
励过程中，状态转移矩阵和状态都与马尔可夫链一样，只是多了奖励函数（reward function）
。奖励函数 R 是一个期望，表示当我们到达某一个状态的时候，可以获得多大的奖励。这里另外定义了折扣因子 γ。如果状态数是有限的，那么 R 可以是一个向量。

其中， Gt 是之前定义的折扣回报（discounted return）。我们对 Gt 取了一个期望，期望就是从这个状态开始，我们可能获得多大的价值。

当我们有了一些轨迹的实际回报时，怎么计算它的价值函数呢？

1.2)贝尔曼方程

贝尔曼方程描述的就是当前状态到未来状态的一个转移

第 2 章马尔可夫决策过程 1.3)计算马尔可夫奖励过程价值的迭代算法

2. 马尔可夫决策过程

第 2 章马尔可夫决策过程

在当前状态与未来状态转移过程中多了一层决策性，这是马尔可夫决策过程与之前的马尔可夫过程/马尔可夫奖励过程很不同的一点.马尔可夫决策过程，它的中间多了一层动作 a ，即智能体在当前状态的时候，首先要决定采取某一种动作，这样我们会到达某一个黑色的节点

第 2 章马尔可夫决策过程

马尔可夫决策过程的不同之处在于有一个智能体控制船，这样我们就可以尽可能多地获得奖励。

第 2 章马尔可夫决策过程

2.3）预测与控制

第 2 章马尔可夫决策过程

在马尔可夫决策过程里面，预测和控制都可以通过动态规划解决。要强调的是，这两者的区别就在于，预测问题是给定一个策略，我们要确定它的价值函数是多少。而控制问题是在没有策略的前提下，我们要确定最佳的价值函数以及对应的决策方案。实际上，这两者是递进的关系，在强化学习中，我们通过解决预测问题，进而解决控制问题

第 2 章马尔可夫决策过程在控制问题中，问题背景与预测问题的相同，唯一的区别就是：不再限制策略。也
就是动作模式是未知的，我们需要自己确定

第 2 章马尔可夫决策过程

控制问题要做的就是，给定同样的条件，求出在所有可能的策略下最优的价值函数是什么，最优策略是什么

2.4）动态规划

策略评估的核心思想就是把如式 (2.39) 所示的贝尔曼期望备份反复迭代，然后得到一个收敛的价值函数的值。

第 2 章马尔可夫决策过程

策略迭代和价值迭代来解决马尔可夫决策过程的控制问题

2.7）策略迭代

策略迭代由两个步骤组成：策略评估和策略改进（policy improvement）。在初始化的时候，我们有一个初始化的状态价值函数 V 和策略 π ，然后在这两个步骤之间迭代

第一个步骤是策略评估，当前我们在优化策略 π，在优化过程中得到一个最新的策略。我们先保证这个策略不变，然后估计它的价值，即给定当前的策略函数来估计状态价值函数。第二个步骤是策略改进，得到状态价值函数后，我们可以进一步推算出它的 Q 函数。得到 Q 函数后，我们直接对 Q 函数进行最大化，通过在Q 函数做一个贪心的搜索来进一步改进策略。这两个步骤一直在迭代进行。

第 2 章马尔可夫决策过程

图 2.21b 上面的线就是我们当前状态价值函数的值，下面的线是策略的值。策略迭代的过程与踢皮球一样。我们先给定当前已有的策略函数，计算它的状态价值函数。算出状态价值函数后，我们会得到一个Q 函数。我们对 Q 函数采取贪心的策略，这样就像踢皮球，“踢”回策略。然后进一步改进策略，得到一个改进的策略后，它还不是最佳的策略，我们再进行策略评估，又会得到一个新的价值函数。基于这个新的价值函数再进行 Q 函数的最大化，这样逐渐迭代，状态价值函数和策略就会收敛。

对于每个状态，策略改进会得到它的新一轮的策略，对于每个状态，我们取使它得到最大值的动作，即

第 2 章马尔可夫决策过程