DQN简介

DQN简介DQN 可以视为 Q learning 的进阶版 DQN 与 Q learning 十分相似 DQN 解决了 Q learning 解决不了的问题 DQN 解决的问题 Q learning 的核心在于 Q 表格 通过建立 Q 表格来为行动提供指引 但这适用于状态和动作空间是离散且维数不高时 当状态和动作空间是高维连续时 Q 表格将变得十分巨大 对于维护 Q 表格和查找都是不现实的 设想一下如果 AlphaGo 使用 Q learning 将会是什么样的场景 围棋的可能性量级为 10 170 如此巨大的 Q 表格已经丧失了的它的价值 Q 表格无法解决 人们开

DQN可以视为Q-learning的进阶版,DQN与Q-learning十分相似,DQN解决了Q-learning解决不了的问题。

一、DQN解决的问题

二、DQN面临的问题

三、DQN的两大改进

1.experience replay 经验池

s,a,r,s’

随机抽取一条经验

behavior-policy

经验池

target-policy

2.固定Q-target

L O S S ( θ ) = E [ ( T a r g e t Q − Q ( s , a ; θ ) ) 2 ] LOSS(θ)=E[(TargetQ−Q(s,a;θ))^2] LOSS(θ)=E[(TargetQQ(s,a;θ))2]
过程描述:初始化MainNet和target,根据损失函数从而更新MainNet参数,而target则固定不变,在经过多次迭代之后,将MainNet的参数全部复制给target网络,并一直如此循环迭代。这样一段时间内的targetQ是固定不变的,从而使得算法更新更加稳定

四、DQN算法

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232114.html原文链接:https://javaforall.net

(0)
上一篇 2025年11月1日 上午8:01
下一篇 2025年11月1日 上午8:22


相关推荐

  • EasyAdmin 注解权限

    EasyAdmin 注解权限控制器注解权限控制器类注解 tag ControllerAn 注解类 EasyAdmin annotation ControllerAn 作用范围 CLASS 参数说明 title 控制器的名称 必填 auth 是否开启权限控制 默认为 true 选填 Enum true false 示例备注 注解前请先引用 useEasyAdmin annotation ControllerAn phpnam

    2026年3月19日
    2
  • Android界面设计适配不同屏幕的尺寸和密度解读[通俗易懂]

    Android界面设计适配不同屏幕的尺寸和密度解读[通俗易懂]Android是运行在各种提供不同的屏幕尺寸和密度的设备。Android系统提供跨设备的统一开发环境和处理大部分的工作,以调整每个应用程序的用户界面,以在其上显示的画面。 同时,该系统提供了API,允许您控制您的应用程序的UI特定的屏幕尺寸和密度,以优化你的用户界面设计,不同的屏幕配置。作为设计师也要最大程度地为所有设备的体现良好的用户体验或是方便使用阅读,而不是简单地拉伸以适应屏幕上的设备。

    2022年6月17日
    31
  • 如何更改pycharm项目路径_怎么修改pycharm文件路径

    如何更改pycharm项目路径_怎么修改pycharm文件路径pycharm中更改python安装路径前言有时python安装的路径不太合适需要重新安装python,如果之前已经安装过pycharm,那么新装python路径发生改变就会使pycharm无法正常使用,需要更改pycharm配置。本文就是记录下pycharm中如何更改python路径。操作方法点击file->Setting依次点击上图按钮选择python新更改的安装路径即可…

    2022年8月28日
    5
  • decimal 整数 mysql_MySQL decimal类型

    decimal 整数 mysql_MySQL decimal类型在本教程中,我们将向您介绍MySQLDECIMAL数据类型以及如何在数据库表中有效地使用它。MySQLDECIMAL数据类型简介MySQLDECIMAL数据类型用于在数据库中存储精确的数值。我们经常将DECIMAL数据类型用于保留准确精确度的列,例如会计系统中的货币数据。要定义数据类型为DECIMAL的列,请使用以下语法:column_nameDECIMAL(P,D);在上面的语法中:P…

    2022年7月17日
    22
  • openclaw 报错 Agent failed before reply: OAuth token refresh failed for qwen-portal: Qwen OAuth refres

    openclaw 报错 Agent failed before reply: OAuth token refresh failed for qwen-portal: Qwen OAuth refres

    2026年3月12日
    4
  • 【Mask RCNN】论文详解(真的很详细)

    【Mask RCNN】论文详解(真的很详细)论文:http://cn.arxiv.org/pdf/1703.06870v3本文主要是针对论文的详细解析,选出文章各部分的关键点,方便阅读立即。目录:摘要:1、Introduction2、RelatedWork3、MaskR-CNN3.1ImplementationDetails4、Experiments:InstanceSegmentation4…

    2022年6月4日
    48

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号