DDPG存疑

DDPG存疑存疑的点:value函数的参数是(s,a)。离散状态下s,a作为横纵坐标来获取Q值。q-learningDQN情况下,输出的是最大Q值。PG里面输出的是action的概率分布。DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim,30)(a_dim,30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_d

大家好,又见面了,我是你们的朋友全栈君。

存疑的点:value函数的参数是(s, a)。
离散状态下 s, a 作为横纵坐标来获取Q值。q-learning
DQN情况下,输出的是最大Q值。
PG里面输出的是action的概率分布。
DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim, 30) (a_dim, 30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_dim + a_dim, output_dim)。

ddpg多出的部分有
①action数值 首先经过tanh(),其次再判断上下限界。
②噪音,对action添加噪音(可能tanh()这种本来就不精确吧)。
③对环境的action幅度进行normalization。
④是两个target网络的参数都采用soft更新,这与Dqn不同。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149436.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 提交本地jar到Maven中央仓库(Windows&码云gitee托管代码)的那些小事

    提交本地jar到Maven中央仓库(Windows&码云gitee托管代码)的那些小事

    2022年4月2日
    49
  • fun.xls.exe病毒分析、查杀及批处理清除「建议收藏」

    fun.xls.exe病毒分析、查杀及批处理清除「建议收藏」大家经常用U盘,也许就和我一样,遇到过这种叫fun.xls.exe的病毒.fun.xle.exe是一种叫做U盘病毒tel.xls.exe的变种,会在电脑里注入文件,这个病毒目前应该有四个变种.用记事本打开AUTORUN是如下代码:[AutoRun]open=fun.xls.exeshellexecute=fun.xls.exeshell\Auto\command=fu…

    2022年10月4日
    0
  • 哈佛幸福课笔记下篇

    哈佛幸福课笔记下篇改变一生的课:哈佛幸福课笔记第1课什么是积极心理学?第2课为什么要学习积极心理学?第3课幸福是一种随机现象吗?第4课积极的环境能改变人第5课环境的力量第6课乐观主义第7课逆境还是机遇?第8课感激第9课积极情绪第10课如何去改变第11课养成良好习惯第12课写日记第13课面对压力第14课过犹不及第15课完美主义第16课享受过程第17课运动与冥想第18课睡眠、触摸和爱情的重要性第19课如何让爱情天长地久第20课幸福与幽默第21课爱情与自尊第22课自尊与自我实现第23课

    2022年7月25日
    4
  • Java中&和&&,|和||的区别(超详细讲解),细节请必会!

    Java中&和&&,|和||的区别(超详细讲解),细节请必会!一、&是与,&&是短路与&&是左边条件不满足就终止了,不会继续计算右边条件;而&是无论左边是否满足都会继续执行右边。比如a&&b,假如计算a是假,那么就不会继续计算b的真假值了;假如a是真,那么会继续计算b,当b也是真时,a&&b为真。而a&b,无论a是真假,都会继续计算…

    2022年7月9日
    23
  • Java面试宝典(2019版)

    Java面试宝典(2019版)附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全:书单导航页(点击右侧极客侠栈即可打开个人博客):极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本(珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本(珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HT…

    2022年7月14日
    13
  • 什么是C语言数组地址

    什么是C语言数组地址还记得以前有和同事聊过C语言数组这个概念,那时候大家都还不是掌握的很好,总会搞错数组的地址。但是总有人会对数组的地址这个概念产生怨念,他们认为一个数组a本身就是地址,殊不知数组名a只是其首元素的地址,而&a才是数组a的地址。拓展:假设有一个数据inta[5];那么,a代表的是a[0]的地址,换句话说,a等价于&a[0],假如这个地址值是0x123,那么a+1的值是0…

    2022年7月22日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号