DQN简介

DQN简介DQN 可以视为 Q learning 的进阶版 DQN 与 Q learning 十分相似 DQN 解决了 Q learning 解决不了的问题 DQN 解决的问题 Q learning 的核心在于 Q 表格 通过建立 Q 表格来为行动提供指引 但这适用于状态和动作空间是离散且维数不高时 当状态和动作空间是高维连续时 Q 表格将变得十分巨大 对于维护 Q 表格和查找都是不现实的 设想一下如果 AlphaGo 使用 Q learning 将会是什么样的场景 围棋的可能性量级为 10 170 如此巨大的 Q 表格已经丧失了的它的价值 Q 表格无法解决 人们开

DQN可以视为Q-learning的进阶版,DQN与Q-learning十分相似,DQN解决了Q-learning解决不了的问题。

一、DQN解决的问题

二、DQN面临的问题

三、DQN的两大改进

1.experience replay 经验池

s,a,r,s’

随机抽取一条经验

behavior-policy

经验池

target-policy

2.固定Q-target

L O S S ( θ ) = E [ ( T a r g e t Q − Q ( s , a ; θ ) ) 2 ] LOSS(θ)=E[(TargetQ−Q(s,a;θ))^2] LOSS(θ)=E[(TargetQQ(s,a;θ))2]
过程描述:初始化MainNet和target,根据损失函数从而更新MainNet参数,而target则固定不变,在经过多次迭代之后,将MainNet的参数全部复制给target网络,并一直如此循环迭代。这样一段时间内的targetQ是固定不变的,从而使得算法更新更加稳定

四、DQN算法

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232114.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【Hive】SQL语句大全

    【Hive】SQL语句大全文章目录库操作创建数据库查询数据库修改数据库删除数据库表操作创建表查看表修改表删除表内部表(管理表)和外部表两者的区别互相转换分区表创建分区表添加分区往分区表中添加数据查询分区表数据删除分区查看分区修复分区数据操作数据导入Load导入Insert插入Import导入数据查询基本查询Floor取整Like和RlikeDistinct去重GroupBy分组查询Having语句Join语…

    2022年5月19日
    42
  • JS生成guid方法

    JS生成guid方法

    2022年4月2日
    72
  • 毕业设计之我的项目—-旅游管理系统的设计与实现[通俗易懂]

    毕业设计之我的项目—-旅游管理系统的设计与实现[通俗易懂]本项目需求来源于网络,有需要源码和交流的评论额?喜欢软件对软件有着很高程度认识的朋友也可以指出我的设计问题等等。欢迎与我交流角色分析角色:用户:管理员:功能分析用户:登录注册:修改个人信息预定酒店功能个人酒店订单查询:景点信息查询:酒店评价:景点评价:游记功能:增-查线路查询:轮播图:结伴游:…

    2022年6月3日
    47
  • loadrunner使用教程图文_loadrunner controller怎么使用

    loadrunner使用教程图文_loadrunner controller怎么使用http://v.youku.com/v_playlist/f2058721o1p11.html

    2022年10月14日
    2
  • vue 上传插件_vue上传文件前端完整实例

    vue 上传插件_vue上传文件前端完整实例插件描述:vue文件上传插件,可配置更新时间:2020-12-2310:17:131、本插件基于vue+element,使用前请先使用npminstall安装相关依赖2、运行项目npmrunserve3、打包项目npmrunbuild4、dist文件夹内为打包后的文件5、src内components组件为组件的源码6、因为是本地项目,因此不支持预览,但可在本插件基础上进行修改7、e…

    2022年8月16日
    4
  • UVA 707 – Robbery(内存搜索)

    UVA 707 – Robbery(内存搜索)

    2021年12月17日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号