我在博客 中介绍了自定义 rllib 强化学习环境的方法与使用示例,但是那个示例是针对单智能体强化学习环境的。自定义多智能体强化学习环境及使用, 与单智能体方法步骤类似,单细节上有许多不同, 相对更复杂一些 。
大概的三个步骤是:
1. 定义多智能体强化学习环境
2. 向ray注册环境
3. 配置并使用环境执行训练与评估。
环境配置:
torch==2.5.1
ray==2.10.0
ray[rllib]==2.10.0
Agent 智能体 ray[tune]==2.10.0
ray[serve]==2.10.0
numpy==1.23.0
python==3.9.18
需要继承自 “ray.rllib.env.multi_agent_env.MultiAgentEnv”. reset 函数和step函数接口需要与下面保持严格一致。每一个输出都变成了 key:value 字典。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/239270.html原文链接:https://javaforall.net
