DQN可以视为Q-learning的进阶版,DQN与Q-learning十分相似,DQN解决了Q-learning解决不了的问题。
一、DQN解决的问题
二、DQN面临的问题
三、DQN的两大改进
1.experience replay 经验池
2.固定Q-target
L O S S ( θ ) = E [ ( T a r g e t Q − Q ( s , a ; θ ) ) 2 ] LOSS(θ)=E[(TargetQ−Q(s,a;θ))^2] LOSS(θ)=E[(TargetQ−Q(s,a;θ))2]
过程描述:初始化MainNet和target,根据损失函数从而更新MainNet参数,而target则固定不变,在经过多次迭代之后,将MainNet的参数全部复制给target网络,并一直如此循环迭代。这样一段时间内的targetQ是固定不变的,从而使得算法更新更加稳定
四、DQN算法

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232114.html原文链接:https://javaforall.net
