深度强化学习之模仿学习(Imitation Learning)

深度强化学习之模仿学习(Imitation Learning)  上一部分研究的是奖励稀疏的情况,本节的问题在于如果连奖励都没有应该怎么办,没有奖励的原因是,一方面在某些任务中很难定量的评价动作的好坏,如自动驾驶,撞死人和撞死动物的奖励肯定不同,但分别为多少却并不清楚,另一方面,手动设置的奖励可能导致不可控的行为。要解决此类问题,可以将人类专家的范例作为强化学习代理的参考去学习,因此模仿学习又叫演示学习(Learningbydemonstration)…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

在这里插入图片描述
  上一部分研究的是奖励稀疏的情况,本节的问题在于如果连奖励都没有应该怎么办,没有奖励的原因是,一方面在某些任务中很难定量的评价动作的好坏,如自动驾驶,撞死人和撞死动物的奖励肯定不同,但分别为多少却并不清楚,另一方面,手动设置的奖励可能导致不可控的行为。要解决此类问题,可以将人类专家的范例作为强化学习代理的参考去学习,因此模仿学习又叫演示学习(Learning by demonstration)或学徒学习(Apprenticeship Learning)。下面将介绍两种模仿学习方法:行为克隆和逆向强化学习。
1、行为克隆(Behavior Cloning)
  行为克隆和监督学习的思想如出一辙,人类专家采取什么动作,代理就采取什么动作。以自动驾驶为例,收集很多人类专家的驾驶资料,这些资料的状态s是开车的场景,动作a是在此场景下的动作。把这些资料输入到神经网络中,使网络的输出尽可能地接近人类实际做出的动作,就可以完成任务。
在这里插入图片描述
  但是在这个过程中,专家观察到的状态是有限的。比如在实验中,让人去开车就都能顺利转弯,而不会出现撞墙的情况,而这时让代理去开车,如果某一时间它没能和人类专家一样及时转弯导致出现快撞墙的状态,由于人类专家并没有给出这种情况下的处理动作,代理就不知道下一步应该怎么办。一种解决方法就是让代理收集更多的数据——Dataset Aggregation。
在这里插入图片描述
Dataset Aggregation
在这里插入图片描述
  通过Behavior Cloning得到actor Π1,使用Π1与环境进行交互,即开车;让专家坐在车里观察所处的状态并告诉actor做出什么动作;但是actor并不会听取专家的建议,还是以actor的意愿开车,如果最终撞墙一个episode就结束了;这时actor就知道在快要撞墙的时候采取什么动作了,然后用这个新的数据去训练新的策略Π2;重复多次步骤1~4。 以上就是Dataset Aggregation的过程。
  从上面可以看出行为克隆很容易实现,但是也存在问题:

  1. 代理会完全复制专家的行为,不管这个行为对不对,因为没有奖励,代理会将人类专家的行为当成圣旨;
  2. 代理的学习能力有限,代理会选择错误的行为进行复制,那什么该学什么不该学就显得很重要;
  3. 有可能出现mismatch的问题(上面开车的例子)。

  什么是mismatch问题呢?
在这里插入图片描述
  在监督学习中,期望训练数据和测试数据具有相同的分布,而在行为克隆中,代理做出的动作是会影响后续状态的。因为神经网络的训练存在误差,训练出来的actor Π*与人类专家Π不可能完全一模一样,就会导致某个状态下,两者采取的动作不一样,自然而然就会导致后面的状态完全不同,最坏的情况就是actor遇到了专家从未遇到过的状态,这时actor就完全懵逼了,即失之毫厘,差之千里。
  所以,虽然行为克隆简单但是并不是一种很好的方法,所以就出现了第二种方法:逆向强化学习。
2、逆向强化学习(Inverse Reinforcement Learning,IRL)
在这里插入图片描述
  上面的左图是熟悉的强化学习的步骤,通过环境和奖励函数,最终得到理想的actor。右图是逆向强化学习的步骤,由于无法从环境中获得奖励,那就需要通过收集人类专家的资料和环境的信息,来反推奖励函数,推出奖励函数后就可以使用正常强化学习的做法了。
在这里插入图片描述
 emsp;具体来看逆向强化学习的运作步骤:

  1. 让专家先玩游戏,记录游戏过程,形成n个episode;
  2. actor再去玩游戏啊,记录游戏过程,形成n个episode;
  3. 设定一个奖励函数,这个奖励函数强制要求专家的累计得分一定要高于actor的累计得分;
  4. 有了奖励函数就可以使actor去更新出更强的actor;
  5. 当actor能在此时的奖励函数下得到很高的奖励(还是要求专家的得分高于actor),让actor根据新的奖励函数更新出更强的actor;
  6. 重复执行以上步骤。

  逆向强化学习可以实现只用很少的专家示范资料,就可以训练出一个很理想的actor。
  看了以上步骤,可以 想到,actor和奖励函数对应于GAN中的generator和discriminator。通过奖励函数的不断修正,使actor越来越接近专家的水平。
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193153.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Ubuntu20.04安装输入法_ubuntu20中文输入法

    Ubuntu20.04安装输入法_ubuntu20中文输入法这篇文章主要介绍了ubuntu20.04中文输入法安装步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本文安装谷歌输入法。其实之前一直用的是搜狗输入法,因为20.04取消qt4了没装成,就去尝试别的输入法了。发现谷歌输入法用起来极舒服,比sougouforlinux好用多了。记得谷歌的中文输入法主要是北京分部在做,对googlecn的好感度飙升!!!安装fcitx-googlepinyinCtrl+Alt+T..

    2022年9月26日
    1
  • 博客日记-澄清自己「建议收藏」

    博客日记-澄清自己「建议收藏」关于我的博客https://blog.csdn.net/csdnhsh/article/details/91410753#comments_17668907,这是一些csdn朋友对我的误解,说我的文章不是原创,我不得已出来澄清下:那个jt_sinlio说的其它文章,还有哪个账号已失效的留言,说要我拿出证据,我想了想,为了csdn的声誉,就简约证明下自己。哪个jt_sinlio说的其它网站的文章,打开一看发表时间是2013年8月29日19:28分,比我自己大号发表过的,现在设置私密的要晚几个

    2022年6月3日
    27
  • 排序二叉树的建立与中序遍历

    排序二叉树的建立与中序遍历树结构练习——排序二叉树的中序遍历TimeLimit:1000msMemorylimit:65536K有疑问?点这里^_^题目描述在树结构中,有一种特殊的二叉树叫做排序二叉树,直观的理解就是——(1).每个节点中包含有一个关键值(2).任意一个节点的左子树(如果存在的话)的关键值小于该节点的关键值(3).任意一个节点的右子树(如果存在的话)的关键值大于该节点的关键值。现

    2022年7月25日
    6
  • 如何写好缺陷报告「建议收藏」

    如何写好缺陷报告「建议收藏」今天开始和大家分享缺陷报告的内容,在这部分会讲一下缺陷的基本属性,缺陷的处理过程和如何书写缺陷报告。一、什么是缺陷在第一章我们说过了什么事缺陷,一切不满足用户需求的都是缺陷。下面我们对缺陷的概念在详细的介绍一下。佩腾在《软件测试》一书中说符合下面5个规则的就可以成为软件缺陷:1、软件未达到产品说明书标明的功能。2、软件出现了产品说明书中指明不会出现的错误。3、软件功

    2022年9月18日
    0
  • Linux的DNS配置[通俗易懂]

    Linux的DNS配置[通俗易懂]一,配置实验环境1,安装DNS服务yuminstallbind利用yum将DNS服务下载下来2,关闭防火墙3,重启DNS服务4,netstat-antlpe|grepnamed查看53接口是否打开,下图表示53接口未对本机打开:5,vim/etc/named.conf编辑dns配置文件,将接口打开:6,systemctlrestartnamed重启服务让修改生效7,netstat-ant…

    2025年5月27日
    0
  • java switch基础介绍及具体使用方法

    java switch基础介绍及具体使用方法switch的case语句可以处理int,short,byte,char类型的值,但是不能处理long,String等类型。javaswitch基础语法witch(表达式){case表达式常量1:语句1;break;case表达式常量2:语句2;break;……case表达式常量n:语句n;break;[default:语句n+1;]…

    2022年7月8日
    15

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号