如何理解马尔可夫决策过程?

如何理解马尔可夫决策过程?1 引言马尔可夫性 无后效性 指系统的下个状态只与当前状态信息有关 而与更早之前的状态无关 马尔可夫链 MarkovChain MC 系统的下一个状态只与当前状态相关 马尔可夫决策过程 MarkovDecisi MDP 具有马尔可夫性 与 MC 不同的是 MDP 还考虑了动作 即系统下个状态不仅和当前的状态有关 也和当前采取的动作有关 以下棋为例 我们在某个局面 状态 sis isi 走了一步 动作 aia iai 这时对手的选择 导致下个状态 si 1s i 1 si 1

1 引言

2 马尔可夫决策过程

  • S = { s 1 , s 2 , … , s k } S = \{s_1, s_2, \dots, s_k\} S={
    s1,s2,,sk}
    :状态集(states), s i s_i si表示第 i i i步的状态;
  • A = { a 1 , a 2 , … , a k } A = \{a_1, a_2, \dots, a_k\} A={
    a1,a2,,ak}
    :一组动作(actions), a i a_i ai表示第 i i i步的动作;
  • P s a P_{sa} Psa:状态转移概率,当前 s i ∈ S s_i \in S siS状态下,经过 a i ∈ A a_i \in A aiA作用后,会转移到的其它状态的概率分布情况,例如比如,在状态 s i ∈ S s_i \in S siS下执行动作 a i ∈ A a_i \in A aiA,转移到 s i + 1 ∈ S s_{i+1} \in S si+1S的概率可以表示为 p ( s i + 1 ∣ s i , a i ) p(s_{i+1} \vert s_i, a_i) p(si+1si,ai);
  • R : S × A ↦ R R: S \times A \mapsto \mathbb{R} R:S×AR:回报函数(reward function),如果回报只与状态有关,可以简化为 R : S ↦ R R: S \mapsto \mathbb{R} R:SR。如果一组 ( s i , a i ) (s_{i},a_i) (si,ai)转移到了下个状态 s i + 1 s_{i+1} si+1,那么回报函数可记为 r ( s i + 1 ∣ s i , a i ) r(s_{i+1}|s_i, a_i) r(si+1si,ai)。如果 ( s i , a i ) (s_i,a_i) (si,ai)对应的下个状态 s i + 1 s_{i+1} si+1是唯一的,那么回报函数也可以记为 r ( s i , a i ) r(s_i,a_i) r(si,ai)

MDP 的动态过程如下:

  • 智能体(agent)的初始状态为 s 0 s_0 s0;
  • A A A 中挑选一个动作 a 0 a_0 a0执行,执行后,agent 按 P s a P_{sa} Psa概率随机转移到了下一个 s 1 s_1 s1状态, s 1 ∈ P s 0 a 0 s_1 \in P_{s_0a_0} s1Ps0a0
  • 然后再执行一个动作 a 1 a_1 a1,就转移到了 s 2 s_2 s2,接下来再执行 a 2 a_2 a2,…;
  • 可以用下面的图表示状态转移的过程:

在这里插入图片描述
如果回报 r i r_i ri是根据状态 s i s_i si和动作 a i a_i ai得到的,则MDP可以如图表示:
在这里插入图片描述

3 值函数(value function)

增强学习学到的是一个从环境状态到动作的映射(即行为策略),记为策略 π : S → A π: S→A π:SA。而增强学习往往又具有延迟回报的特点: 如果在第 n n n步输掉了棋,那么只有状态 s n s_n sn和动作 a n a_n an获得了立即回报 r ( s n , a n ) = − 1 r(s_n,a_n)=-1 r(sn,an)=1,前面的所有状态立即回报均为0。所以对于之前的任意状态 s s s和动作 a a a,立即回报函数 r ( s , a ) r(s,a) r(s,a)无法说明策略的好坏。因而需要定义值函数(value function,又叫效用函数)来表明当前状态下策略 π π π的长期影响。

  • V π ( s ) V^π(s) Vπ(s):策略 π π π下,状态 s s s的值函数;
  • r i r_i ri:未来第 i i i步的立即回报。

V π ( s ) = lim ⁡ h → ∞ E π [ 1 h ∑ i = 0 h r i ∣ s 0 = s ] (3) V^π(s) = \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag3 Vπ(s)=hlimEπ[h1i=0hris0=s](3)

V π ( s ) = E π [ ∑ i = 0 ∞ γ i r i ∣ s 0 = s ] (4) V^π(s) = E_{\pi}\left[\sum_{i=0}^{\infty} \gamma^{i} r_i \vert s_0 = s \right] \tag4 Vπ(s)=Eπ[i=0γiris0=s](4)
其中:
a) 是采用策略π的情况下未来有限h步的期望立即回报总和;
b) 是采用策略π的情况下期望的平均回报;
c) 是值函数最常见的形式,式中 γ ∈ [ 0 , 1 ] γ∈[0,1] γ[0,1]称为折合因子,表明了未来的回报相对于当前回报的重要程度。特别的, γ = 0 γ=0 γ=0时,相当于只考虑立即不考虑长期回报, γ = 1 γ=1 γ=1时,将长期回报和立即回报看得同等重要。



4 策略

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 对2048游戏的建模

s 1 s_1 s1: 初始化状态,随机产生的棋盘;
a 1 a_1 a1:用户连接相同的数字后,系统为棋盘分配新数字的动作;
s 2 s_2 s2:用户选择如何连线后导致的下一个棋盘,该棋盘依然有空缺,需要填充新数字;
p ( s 2 ∣ s 1 , a 1 ) p(s_{2} \vert s_1, a_1) p(s2s1,a1):经过 a 1 a_1 a1操作后状态从 s 1 s_1 s1 s 2 s_2 s2的概率,这个我觉得可以通过统计得到;
奖励函数:是设计的难点
如何进行训练:也是一个难点




版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232069.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • yuicompressor java_YUI Compressor使用配置方法 JS/CSS压缩工具

    yuicompressor java_YUI Compressor使用配置方法 JS/CSS压缩工具YUICompressor是一个用来压缩JS和CSS文件的工具,采用Java开发。YUICompressor下载地址:https://www.jb51.net/softs/25860.html使用方法://压缩JSjava-jaryuicompressor-2.4.2.jar–typejs–charsetutf-8-vsrc.js>packed.js//…

    2022年7月18日
    19
  • 圆柱体积立方计算公式_圆的体积公式怎么算

    圆柱体积立方计算公式_圆的体积公式怎么算圆柱的体积=底面积x高,即V=S底面积×h=(π×r×r)h。假设圆柱的底面半径为2米,高为2米,则此圆柱的体积为:8π立方米。再根据1立方米=1000立方分米,转换成立方分米。其他转换类似。圆柱体是由两个底面和一个侧面组成的。在同一个平面内有一条定直线和一条动线,当这个平面绕着这条定直线旋转一周时,这条动线所成的面叫做旋转面,这条定直线叫做旋转面的轴,这条动线叫做旋转面的母线。扩展资料:圆柱的性…

    2022年9月20日
    2
  • 计算机可靠度计算公式,可靠性计算公式大全

    计算机可靠度计算公式,可靠性计算公式大全《可靠性计算公式大全》由会员分享,可在线阅读,更多相关《可靠性计算公式大全(3页珍藏版)》请在人人文库网上搜索。1、计算机系统的可靠性是制从它开始运行(t=0)到某时刻t这段时间内能正常运行的概率,用R(t)表示所谓失效率是指单位时间内失效的元件数与元件总数的比例,以表示,当为常数时,可靠性与失效率的关系为:()=e-u(u为次方)两次故障之间系统能够正常工作的时间的平均值称为平均为故障时…

    2022年7月26日
    10
  • Dedecms_DedeCMS提示信息

    Dedecms_DedeCMS提示信息dedecms:说这个是国内人气最旺的cms,我想没有人反对吧?中国站长站(chinaz.com),站长资讯(admin5.com),称这两个站点是大站,没人反对吧?如果你做的是个人站点,如果数据不是很大,那么dedecms依然是首选,dedecms在20w数据就会反应迟钝,有过技术文章分析的,dedecms的数据表频繁查询,导致性能不过关,但是首选你的站有多大?10w篇文章,每天发10篇那…

    2022年9月30日
    4
  • redis常用命令及详解_Redis数组添加命令

    redis常用命令及详解_Redis数组添加命令这里写目录标题NoSQLRedisNoSQLNoSQL == Not Only SQL(不仅仅是关系型数据库)出现原因:随着web2.0互联网的诞生,传统的关系型数据库很难对付web2.0时代!尤其是超大规模的高并发的社区,暴露出来很多难以克服的问题,NoSQL在当今大数据环境下发展的十分迅速,Redis是发展最快的。RDBMS 和 NoSQL的对比RDBMS 结构化组织SQL数据和关系都存在单独的表中 row col操作,数据定义语言严格的一致性基础的事务NoSQL不仅仅是数

    2022年8月8日
    5
  • ssm框架过时了吗_mybatis分页插件

    ssm框架过时了吗_mybatis分页插件日志如果一个数据库操作,出现了异常,我们需要排错,日志就是最好的助手曾经:sout,debug现在:日志工厂掌握STDOUT_LOGGINGLOG4Jlog4j什么是Log4j?我们可以控制日志信息输送的目的地是控制台我们也可以控制每一条日志的输出格式通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程通过一个配置文件来灵活地进行配置,而不需要修改应用的代码。分页减少数据量selsect * from user limit startIndex,pageS

    2022年8月8日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号