如何理解马尔可夫决策过程？

全栈程序员-站长 • 2025年11月3日下午7:15 • 未分类 • 阅读 3

1 引言

2 马尔可夫决策过程

$\{s_1, s_2, \dots, s_k\}$ ：状态集(states)， $s_i$ 表示第 $i$ 步的状态;
$\{a_1, a_2, \dots, a_k\}$ ：一组动作(actions)， $a_i$ 表示第 $i$ 步的动作;
$P_{sa}$ ：状态转移概率，当前 $s_i \in S$ 状态下，经过 $a_i \in A$ 作用后，会转移到的其它状态的概率分布情况，例如比如，在状态 $s_i \in S$ 下执行动作 $a_i \in A$ ，转移到 $s_{i+1} \in S$ 的概率可以表示为 $p(s_{i+1} \vert s_i, a_i)$ ;
$\times A \mapsto \mathbb{R}$ ：回报函数(reward function)，如果回报只与状态有关，可以简化为 $\mapsto \mathbb{R}$ 。如果一组 $s_{i},a_i)$ 转移到了下个状态 $s_{i+1}$ ，那么回报函数可记为 $r(s_{i+1}|s_i, a_i)$ 。如果 $s_i,a_i)$ 对应的下个状态 $s_{i+1}$ 是唯一的，那么回报函数也可以记为 $r(s_i,a_i)$ 。

MDP 的动态过程如下：

智能体(agent)的初始状态为 $s_0$ ;
从 $A$ 中挑选一个动作 $a_0$ 执行，执行后，agent 按 $P_{sa}$ 概率随机转移到了下一个 $s_1$ 状态， $s_1 \in P_{s_0a_0}$ 。
然后再执行一个动作 $a_1$ ，就转移到了 $s_2$ ，接下来再执行 $a_2$ ，…；
可以用下面的图表示状态转移的过程：

如果回报 $r_i$ 是根据状态 $s_i$ 和动作 $a_i$ 得到的，则MDP可以如图表示：
在这里插入图片描述

3 值函数(value function)

增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略 $π : S \to A$ 。而增强学习往往又具有延迟回报的特点: 如果在第 $n$ 步输掉了棋，那么只有状态 $s_n$ 和动作 $a_n$ 获得了立即回报 $r(s_n,a_n)=-1$ ，前面的所有状态立即回报均为0。所以对于之前的任意状态 $s$ 和动作 $a$ ，立即回报函数 $r (s, a)$ 无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略 $π$ 的长期影响。

$V^π(s)$ ：策略 $π$ 下，状态 $s$ 的值函数；
$r_i$ ：未来第 $i$ 步的立即回报。

$V^π(s) = \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag3$

$V^π(s) = E_{\pi}\left[\sum_{i=0}^{\infty} \gamma^{i} r_i \vert s_0 = s \right] \tag4$
其中：
a) 是采用策略π的情况下未来有限h步的期望立即回报总和；
b) 是采用策略π的情况下期望的平均回报；
c) 是值函数最常见的形式，式中 $γ \in [0, 1]$ 称为折合因子，表明了未来的回报相对于当前回报的重要程度。特别的， $γ = 0$ 时，相当于只考虑立即不考虑长期回报， $γ = 1$ 时，将长期回报和立即回报看得同等重要。

4 策略

在这里插入图片描述

5 对2048游戏的建模

$s_1$ ：初始化状态，随机产生的棋盘；
$a_1$ ：用户连接相同的数字后，系统为棋盘分配新数字的动作；
$s_2$ ：用户选择如何连线后导致的下一个棋盘，该棋盘依然有空缺，需要填充新数字；
$p(s_{2} \vert s_1, a_1)$ ：经过 $a_1$ 操作后状态从 $s_1$ 到 $s_2$ 的概率，这个我觉得可以通过统计得到；
奖励函数：是设计的难点
如何进行训练：也是一个难点

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/232069.html原文链接：https://javaforall.net

如何理解马尔可夫决策过程？

1 引言

2 马尔可夫决策过程

3 值函数(value function)

4 策略

5 对2048游戏的建模

相关推荐

怎么使用nbtscan工具一条命令扫描局域网内所有的IP及MAC

hackbar2.2.9在Firefox中的安装

数据挖掘十大算法之CART详解

三种主流内存技术（DDR、GDDR、LPDDR）的速度对比与应用和DDR5芯片的设计「建议收藏」

JSONArray转换成List＜T＞

定时关机命令——shutdown

发表回复