DDPG存疑

DDPG存疑存疑的点:value函数的参数是(s,a)。离散状态下s,a作为横纵坐标来获取Q值。q-learningDQN情况下,输出的是最大Q值。PG里面输出的是action的概率分布。DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim,30)(a_dim,30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_d

大家好,又见面了,我是你们的朋友全栈君。

存疑的点:value函数的参数是(s, a)。
离散状态下 s, a 作为横纵坐标来获取Q值。q-learning
DQN情况下,输出的是最大Q值。
PG里面输出的是action的概率分布。
DDPG里,actor网络输出的是Action。critic网络里输出的是Q值,依然和s,a有关,由s,a确定。只不过这里确定的方式是①将s,a分别经过一个输出维度为30的网络后 得到的值 相加(两个网络分别为:(s_dim, 30) (a_dim, 30)。②将s,a维度拼接再经过网络计算(这个网络的维度是(s_dim + a_dim, output_dim)。

ddpg多出的部分有
①action数值 首先经过tanh(),其次再判断上下限界。
②噪音,对action添加噪音(可能tanh()这种本来就不精确吧)。
③对环境的action幅度进行normalization。
④是两个target网络的参数都采用soft更新,这与Dqn不同。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149436.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 如何面对大容量的数据存储问题_最安全的数据存储方式

    如何面对大容量的数据存储问题_最安全的数据存储方式公司在高速发展中,总会遇到各种各样的网络问题,今天笔者和大家分享一个“公司网站存储需求”的实际案例。 案例背景客户公司网站的存储需求越来越大,已有NAS存储服务器的空间不能满足业务日趋增长的需求,此时网站面临如下问题: 网站存储扩容需要另行申请采购和做规划采购,需要一定周期才能使用,无法解决燃眉之急; 网站的视频资源访问速度慢; 已有存储NAS存储使用时间长,…

    2022年10月6日
    2
  • 游戏中的“垂直同步”与“三重缓冲”究竟是个啥?[通俗易懂]

    游戏中的“垂直同步”与“三重缓冲”究竟是个啥?[通俗易懂]从今天开始,我们会开启“小教程”的兄弟栏目——小科普,给大家介绍在配电脑或玩游戏过程中经常会遇到的专业名词。第一期“小科普”我们来讲讲游戏中经常会遇到的一个画面选项——垂直同步我们曾在一期语音里和大家讲探讨过垂直同步的功用,可惜语音有60秒的长度限制,并不能和大家解释清楚,那么今天就来详细分析一下“垂直同步”:它到底是干嘛用的?它有什么缺点吗?

    2022年5月11日
    138
  • axios上传文件以及遇到的问题

    axios上传文件以及遇到的问题axios上传文件以及遇到的问题1,这里上传文件使用的是elementUI的上传,也用原生的input上传写了,但是没有时间做多文件上传,下面会把代码贴出。2,这里上传文件我是先获取OSS权限和上传路径,然后再上传。但是权限获取成功后,上传到阿里云服务器时,OPTION请求报403。原因是项目中axios设置了拦截器,添加了config配置,但是在axios发送OPTION测试接口是否有权限访…

    2022年6月17日
    331
  • ThinkPHP URL 路由简介

    ThinkPHP URL 路由简介

    2021年10月23日
    42
  • dos攻击防范措施_属于被动攻击的手段是

    dos攻击防范措施_属于被动攻击的手段是常见的网络攻击方式##攻击防御一、Dos攻击(DenialofServiceattack)DoS是DenialofService的简称,即拒绝服务,造成DoS的攻击行为被称为DoS攻击,其目的是使计算机或网络无法提供正常的服务。最常见的DoS攻击有计算机网络带宽攻击和连通性攻击。作个形象的比喻来理解DoS。街头的餐馆是为大众提供餐饮服务,如果一群地痞流氓要DoS餐…

    2022年10月1日
    2
  • 数据库MySQL学习——内含34道MySQL练习题及答案

    数据库MySQL学习——内含34道MySQL练习题及答案数据库MySQL1MySQL数据库简介1.1sql、DB、DBMS分别是什么,关系?DB:DataBase数据库DBMS:DateBaseManagementSystem数据库管理系统SQL:结构化查询语言、sql语句的编译有dbms完成DBMS负责执行sql语句,通过之心sql语句来操作DB当中的数据1.2什么是表?table是数据库的基本组成单元,所有的数据都以表格的形式组织,目的是可读性强行:被称为数据/记录(data)列:被称为字段(column)学号(

    2022年9月16日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号