首页 文章

如何学习马尔可夫决策过程中的奖励功能

提问于
浏览
2

Q-learning期间更新R(s)功能的适当方法是什么?例如,假设代理人五次访问状态s1,并获得奖励[0,0,1,1,0] . 我应该计算平均奖励,例如R(s1)= sum([0,0,1,1,0])/ 5?或者我应该使用移动平均线来为该州最近收到的奖励值提供更大的权重吗?我读过的关于Q学习的大多数描述都将R(s)视为某种常数,并且似乎永远不会涵盖随着经验的积累你如何随着时间的推移学习这个 Value .

编辑:我可能会混淆Q-Learning中的R(s)与R(s,s')在Markov Decision Process中 . 问题仍然类似 . 学习MDP时,'s the best way to update R(s,s')?

2 回答

  • 1

    Q-Learning在贪婪策略下保持每个州的行动值的运行平均值 . 它根据每对步骤的奖励计算这些值 . 贪婪政策下的国家 Value 等于最佳行动的 Value . Q-Learning的规范描述在Reinforcement Learning: An Introduction中给出 .

    没有“最佳”的更新方式,但SARSA是一个很好的默认方式 . SARSA与Q-Learning类似,只是它学习了它遵循的政策,而不是贪婪的政策 .

  • 1

    在标准的无模型RL(如Q-learning)中,您不会学习奖励功能 . 你学到的是 Value 函数或q值函数 . 奖励是通过与环境互动获得的,并且您可以估算状态 - 行动对随时间累积奖励的预期值(折扣) .

    如果您使用基于模型的方法,这是不同的,您尝试学习环境模型,即:转换和奖励功能 . 但这不是Q学习的情况 .

相关问题