首页 文章

Q学习Techniuqe没有陷入火灾

提问于
浏览
-1

请看下面的图片:

我的目标是代理在环境中旋转和移动而不是落入火孔中,我想这样:

enter image description here

Do for 1000 episodes:
An Episode :
start to traverse the environment;
if falls into a hole , back to first place !

所以我已经阅读了一些内容:目标是一集的终点,所以如果我们认为目标不是火上浇油,那么目标的反面(即放入火洞)将成为一集的终点 . 您对目标设定的建议是什么?

另一个问题是我为什么要设置奖励矩阵?我读过Q Learning是Model Free!我知道在Q Learning中我们将设定目标,而不是实现目标的方式 . (与监督学习相反 . )

1 回答

  • 1

    许多研究都是针对奖励功能的 . 制作奖励功能以产生期望的行为可能是非直观的 . 正如Don Reba评论的那样,只要保持不动(只要你没有开火状态!)是一种完全合理的避免火灾的方法 . 但那可能不是你想要的 .

    刺激活动(而不是在特定状态下阵营)的一种方法是在非目标状态下经历的每个时间步骤惩罚代理 . 在这种情况下,您可以为在非目标状态下花费的每个时间步长分配-1奖励,为目标状态分配零奖励 .

    为什么不是一个目标?您可以编写一个与1奖励一起使用的解决方案,但考虑到这一点:如果目标状态为1,则代理可以通过简单地停留在目标状态直到奖励变为正数来补偿任何数量的不良,非最佳选择 .

    目标状态为零会强制代理找到目标的最快路径(我认为是期望的) . 最大化奖励(或最小化负面奖励)的唯一方法是尽快找到目标 .

    还有火?为了着火而分配-100(或-1,000或-1,000,000 - 适合您的目标)的奖励 . 目标为0,非目标为-1,火为-100的组合应提供产生所需控制策略的奖励函数 .

    脚注:谷歌“负面有界马尔可夫决策过程(MDP)”,以获取有关这些奖励功能及其可以制定的政策的更多信息 .

相关问题