强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。

智能体首先接受环境的状态S0
Agent 智能体
智能体在S0的环境下采取行动A0

环境收到智能体的行动后从S0 变化到S1

环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1

智能体收到奖励后对环境采取行动A1

环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去
目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。
如果需要定义一个强化学习问题,需要指定状态、动作和奖励并制定环境规则。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/245424.html原文链接:https://javaforall.net
