8. 强化学习之——模仿学习

8. 强化学习之——模仿学习课程大纲注:本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2感谢周老师:)…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

目录

课程大纲

Introduction & Behavioral Cloning

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

Inverse RL & GAIL

Inverse RL

GAIL

Connection between IRL & GAIL

改进模仿学习的性能

模仿学习与强化学习结合

(1)最简单直接的结合:预训练和调整 Pretrain and Finetune【应用十分广泛】

(2)IL 结合 Off-Policy RL:算是对 Pretrain and Finetune 的改进

(3)另一种结合方式:把 IL 作为一项辅助的损失函数

一个有趣的 Case Study—— motion imitation

IL 本身存在的问题

总结


课程大纲

模仿学习介绍

行为克隆 BC 和 DAGGER 算法

逆强化学习 IRL 和 生成对抗模仿学习GAIL

改进模仿学习的性能

把模仿学习和强化学习结合

Introduction & Behavioral Cloning

从最简单的行为克隆方法开始介绍:比较简单的思想就是把策略的学习当做有监督的学习来进行,例如学习出来策略网络

8. 强化学习之——模仿学习

这样直接把它当做一个有监督的问题来解决的话其实是有问题的:数据的分布假设相矛盾 —— 有监督学习假设数据是 IID 的,但是一个时序的决策过程采集到的数据是有关联的;而且如果模型进入到 off-course 状态(训练时没见到过的状态)时不知道怎么回来

8. 强化学习之——模仿学习

一个可能的解决方案就是:不断添加数据,变成 online 的过程

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

DAGGER 的缺点在于第三步实在是太耗费时间了,可以改进 DAGGER 吗?第三步是不是可以用其他的算法来打标签呢?

改进DAGGER:

8. 强化学习之——模仿学习

Inverse RL & GAIL

Inverse RL

IRL 与 RL 的对比:

8. 强化学习之——模仿学习

IRL的举例:

8. 强化学习之——模仿学习

GAIL

类似于 IRL,GAN 学习了一个目标函数用于生成模型,GAIL 模仿了 GAN 的思想

8. 强化学习之——模仿学习

Connection between IRL & GAIL

8. 强化学习之——模仿学习

改进模仿学习的性能

怎样提升我们的策略模型?

问题一:Multimodal behavior

8. 强化学习之——模仿学习

解决方案:

①输出一个多高斯模型,也就是多峰的叠加的形式

8. 强化学习之——模仿学习

②隐变量模型

③自回归离散

问题二:Non-Markovian behavior

8. 强化学习之——模仿学习

解决方案:

①建模整个观测历史,比如说 LSTM

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

用 LSTM 和 示教数据 完成机械臂抓取的例子【AAAI 2018】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

那么其实在机器人领域,如何 scale up 数据一直是一个很大的问题

8. 强化学习之——模仿学习

斯坦福的李飞飞组提出的 crowdsourcing 的方法来采集很多很多很多人的示教数据,RoboTurk项目出了一种解决方案

模仿学习其实还有一些问题

①人为提供数据,这个数据本身就有限

②人有时候不能很好提供数据,例如对无人机示教、对复杂机器人的示教

③人本身是可以在环境中自由探索的,是否可以借鉴这一点呢?

所以下面我们就想把模仿学习与强化学习结合起来

模仿学习与强化学习结合

模仿学习与强化学习的各自的特点对比

8. 强化学习之——模仿学习

怎么把两者结合起来,既有 Demonstration 又有 Rewards?

(1)最简单直接的结合:预训练和调整 Pretrain and Finetune【应用十分广泛】

也就是说用 Demonstration 预训练一个 Policy(解决 exploration 的问题),然后用 RL 去 improve policy 和解决那些 off-policy 的状态,最终达到超过示教者表现的过程

Pretrain and Finetune 的流程如下: 

8. 强化学习之——模仿学习

这里是之前的 DAGGER 算法,可以和 Pretrain and Finetune 进行对比:

8. 强化学习之——模仿学习

Pretrain and Finetune 的应用:

①应用于 AlphaGo【Nature 2016 Silver】

8. 强化学习之——模仿学习

②应用于 Starcraft2【DeepMind工作】

8. 强化学习之——模仿学习

Pretrain and Finetune 的问题:

8. 强化学习之——模仿学习

①在第三步的时候我们之前获得的比较好的 Policy 用强化学习来训练的时候,可能会面临分布不一致的问题

②最开始的 experience 可能是很糟糕的,这样在进行训练时会摧毁 policy network

解决Pretrain and Finetune 问题的方案:考虑怎样把 Demonstration 一直保留下来 —— Off-Policy RL

 

(2)IL 结合 Off-Policy RL:算是对 Pretrain and Finetune 的改进

off-policy RL 可以用任意的 experience data ,例如对Q-Learning来说,只要把它们放到 replay buffer 里面就可以一直用

8. 强化学习之——模仿学习

①形式一:Policy Gradient with Demonstration

8. 强化学习之——模仿学习

应用举例:

8. 强化学习之——模仿学习

②形式二:Q-Learning with Demonstration

8. 强化学习之——模仿学习

(3)另一种结合方式:把 IL 作为一项辅助的损失函数

8. 强化学习之——模仿学习

    优化 RL的期望回报 + IL的极大似然

    应用举例:【2017年】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

一个有趣的 Case Study—— motion imitation

可以在实际的人的关节贴传感器采数据,甚至还可以从视频里通过姿态估计来采数据训练agent

详细内容去听周老师的课吧~

IL 本身存在的问题

(1)怎样去收集 Demonstration 

         ① Crowdsourcing

         ② Guided policy search or optimal control for trajectory optimization

(2)怎样优化 Policy 使得 Agent 能处理 off-course 的状况

         ① 把这些 off-course 的状况也建模进来,打好标签

         ② Use off-policy learning with the already collected samples

         ③ 结合 IL 和 RL 

总结

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

 

注:本文所有内容源自于B站周博磊老师更新完成的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/192003.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Mariadb源代码编译过程

    Mariadb源代码编译过程

    2022年3月6日
    43
  • 【C++学习五】STL库的应用

    【C++学习五】STL库的应用文章目录初识C++之STL标准库1.C++STL的三大核心组件2.自定义函数与算法对容器实现操作3.基于自定义函数以及操作模板实现简易数字图像处理3.1图像灰度变换3.2图像二值化4.初识STL容器之:set集合5.初识STL容器之:map(关联容器)结语初识C++之STL标准库STL是StandardTemplateLibrary的缩写,中文译为“标准模板库”。STL是C++标准库的一部分。我们之前已经基本了解了C++中的模板templet,以及模板的作用。可以说,C

    2022年10月15日
    2
  • idea vim 配置[通俗易懂]

    idea vim 配置[通俗易懂]imapjkimapkjsettimeoutlen=300setkeep-english-in-normal-and-restore-in-insertsetkeep-english-in-normalsetclipboard=unnamedsetignorecase

    2022年9月30日
    3
  • DAC904硬件电路「建议收藏」

    DAC904硬件电路「建议收藏」DAC904一、DAC904特性二、电路原理图一、DAC904特性●单电源供电+5V或+3V●高SFDR(无杂散动态范围):在100MSPS64dBc时20MHz输出●低干扰:3PV-S●低功耗:170MW(+5V时)DAC904是一款高速数模转换器,14位分辨率,引脚兼容DAC908、DAC900、DAC902,分别提供8-,10-,12-位分辨率选择。该系列DAC…

    2022年9月20日
    5
  • navicat15激活码-激活码分享

    (navicat15激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~M…

    2022年3月21日
    132
  • ISO IEC 27001 企业信息安全管理要求[通俗易懂]

    ISO IEC 27001 企业信息安全管理要求[通俗易懂]ISO27001和ISO20000认证已经成为企业核心竞争力的重要标志。ISOIEC270012013中文版-制造文档类资源-CSDN下载ISOIEC270012013中文版更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/std86021/83901501?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164816627616780255250066%2522%252C%

    2025年6月6日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号