首页 文章

为什么openai健身房会为终端州提供零奖励? [关闭]

提问于
浏览
-1

我最近一直在试验 Gym (和RL),健身房的一个特定行为激起了我的兴趣 . 为什么即使游戏结束,OpenAI Gym也会返回奖励0?例如,在Breakout-v0中,当花费所有五个生命时,env.step将返回 done=Truereward=0 . 我们不应该通过返回负面强化/奖励通知经纪人这样的状态是不利的吗?

此外,对于环境中的每一步(仍然是Breakout-v0),如果当时没有砖/块被销毁,它将返回奖励0 . 那么代理商如何能够区分正常行为和不良行为呢?

1 回答

  • 1

    问题1:当 done == True 时,奖励无关紧要 . 您应该在 done 时通过调用 env.reset() 来重置环境 .

    问题2:奖励是轨迹整个生命周期的折扣金额 .

相关问题