DDPG存疑

DDPG存疑存疑的点:value函数的参数是(s,a)。离散状态下s,a作为横纵坐标来获取Q值。q-learningDQN情况下,输出的是最大Q值。PG里面输出的是action的概率分布。DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim,30)(a_dim,30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_d

大家好,又见面了,我是你们的朋友全栈君。

存疑的点:value函数的参数是(s, a)。
离散状态下 s, a 作为横纵坐标来获取Q值。q-learning
DQN情况下,输出的是最大Q值。
PG里面输出的是action的概率分布。
DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim, 30) (a_dim, 30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_dim + a_dim, output_dim)。

ddpg多出的部分有
①action数值 首先经过tanh(),其次再判断上下限界。
②噪音,对action添加噪音(可能tanh()这种本来就不精确吧)。
③对环境的action幅度进行normalization。
④是两个target网络的参数都采用soft更新,这与Dqn不同。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149436.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • softmax、softmax损失函数、cross-entropy损失函数[通俗易懂]

    softmax、softmax损失函数、cross-entropy损失函数[通俗易懂]softmaxsoftmax,顾名思义,就是soft版本的max。在了解softmax之前,先看看什么是hardmax。hardmax就是直接选出一个最大值,例如[1,2,3]的hardmax就是3,而且只选出最大值,非黑即白,但是实际中这种方式往往是不合理的,例如对于文本分类来说,一篇文章或多或少包含着各种主题信息,我们更期望得到文章属于各种主题的概率值,而不是简单直接地归类为某一种唯一的主题。这里就需要用到soft的概念,即不再唯一地确定某一个最大值,而是为每个输出分类

    2022年6月26日
    33
  • Idea激活码最新教程2018.2.8版本,永久有效激活码,亲测可用,记得收藏

    Idea激活码最新教程2018.2.8版本,永久有效激活码,亲测可用,记得收藏Idea 激活码教程永久有效 2018 2 8 激活码教程 Windows 版永久激活 持续更新 Idea 激活码 2018 2 8 成功激活

    2025年5月24日
    7
  • ocr字符识别原理及算法_产品系列之一

    ocr字符识别原理及算法_产品系列之一最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。什么是OCR?OC

    2022年8月6日
    11
  • 基于MVP架构设计ASP.Net的应用研究

    基于MVP架构设计ASP.Net的应用研究

    2021年7月26日
    56
  • 字符指针 赋值

    字符指针 赋值字符串赋值给字符指针(char*a=“hello”)的正确理解方式 对于语句 char*a=”hello”;       对于这个声明方式,会造成的误解是:声明了一个字符指针(它会指向一个位置),将“字符串”赋值给指针表达式”*a”所指向的地址。但正解是:声明了一个字符指针后,并用字符串常量的第一个字符的地址赋值给指针变量a。       即正确顺序是:1.分配

    2022年7月11日
    16
  • davinci DM365-DM368开发攻略—linux-2.6.32移植

    davinci DM365-DM368开发攻略—linux-2.6.32移植本文最始出自http://www.360doc.com/content/12/0318/16/532901_195392228.shtml一、介绍linux-2.6.32:Linux-2.6.32的网上介绍:增添了虚拟化内存de-duplicacion、重写了writeback代码、改进了Btrfs文件系统、添加了ATIR600/R7003D和KMS支持…

    2022年8月13日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号