强化学习&基础1.1 | 智能体与环境交互过程

强化学习&基础1.1 | 智能体与环境交互过程

强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。
在这里插入图片描述
智能体首先接受环境的状态S0
Agent 智能体在这里插入图片描述
智能体在S0的环境下采取行动A0
在这里插入图片描述
环境收到智能体的行动后从S0 变化到S1
在这里插入图片描述
环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1
在这里插入图片描述
智能体收到奖励后对环境采取行动A1
在这里插入图片描述
环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。

如果需要定义一个强化学习问题,需要指定状态、动作和奖励并制定环境规则。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/245424.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月15日 下午7:49
下一篇 2026年3月15日 下午7:50


相关推荐

关注全栈程序员社区公众号