基于Pytorch的强化学习(DQN)之 Multi-agent 基本概念

基于Pytorch的强化学习(DQN)之 Multi-agent 基本概念

目录

1. 引言

2. 基本分类

2.1 Fully cooperative

2.2 Fully competitive

2.3 Mixed cooperative&competitive

2.4 Self interested

3. 专业术语

3.1 state and Agent 智能体 action

3.2 state transtition

3.3 reward and return

3.4 policy network

3.5 state value function

3.6 convergence


我们之前所学的所有DQN的内容都基于一个前提:系统中只有一个agent,也就是进行决策的主体只有一个,但是在现实中往往存在需要多个主体同时进行决策的情况,下面我们来学习多智能体(Multi-agent)的一些基础概念。

我们人类之前存在合作、竞争等简单的交互关系,agents之间通常也存在以下几种关系。

完全合作关系(fully cooperative),一些agents可能需要共同完成一个任务,这时它们有一个共同的目标,这便是完全合作,例如汽车制造厂中有许多机器臂对汽车进行不同的操作,最终目标就是组装一辆汽车,因此它们是完全合作关系。

完全竞争关系(fully competitive),有一些agents目标对立,一方胜利另一方就失败,例如两个搏击机器人,它们都想赢下比赛,让对手输掉比赛,这就会出现一个胜利另一个失败的结果,这便是完全竞争。

混合关系(mixed cooperative&competitive),如果在一个系统中同时出现完全合作和完全竞争关系的agents,那么这些agents就是混合关系,例如搏击机器人团队赛,任意一个agent都与和自己一队的agent是完全合作关系,而与其他队的agent是完全竞争关系,所以它们是混合关系。

利己主义(self interested),有一些agent只关心怎么将自己的利益最大化,而不在乎其他agents怎么变化,我们称这种agent为利己主义者,它们将其他agents看作环境的一部分,最终目标就是最大化自己的利益,例如无人驾驶汽车,agent的目标就是安全快速地到达目的地,其他的无人驾驶汽车在它看来就是环境的一部分,所以它是一个利己主义者。

Multi-agent与Single-agent的一些专业术语有些不同。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/241673.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 上午1:31
下一篇 2026年3月16日 上午1:31


相关推荐

关注全栈程序员社区公众号