我最近一直在试验 Gym (和RL),健身房的一个特定行为激起了我的兴趣 . 为什么即使游戏结束,OpenAI Gym也会返回奖励0?例如,在Breakout-v0中,当花费所有五个生命时,env.step将返回 done=True 和 reward=0 . 我们不应该通过返回负面强化/奖励通知经纪人这样的状态是不利的吗?
done=True
reward=0
此外,对于环境中的每一步(仍然是Breakout-v0),如果当时没有砖/块被销毁,它将返回奖励0 . 那么代理商如何能够区分正常行为和不良行为呢?
问题1:当 done == True 时,奖励无关紧要 . 您应该在 done 时通过调用 env.reset() 来重置环境 .
done == True
done
env.reset()
问题2:奖励是轨迹整个生命周期的折扣金额 .
1 回答
问题1:当
done == True
时,奖励无关紧要 . 您应该在done
时通过调用env.reset()
来重置环境 .问题2:奖励是轨迹整个生命周期的折扣金额 .