对网格世界的政策迭代背后的直觉

提问于 2024-05-09T16:51:11+08:00

浏览次

3

我应该想出一个MDP代理，它使用策略迭代和值迭代进行赋值，并将其性能与状态的效用值进行比较 .

MDP代理如何知道转移概率和奖励，知道要移动哪个动作？

根据我的理解，MDP代理将执行策略迭代，并且在给定策略的情况下，计算在达到终止状态时获得的奖励 . 此策略是从值迭代算法开发的 .

有人能为政策迭代的工作方式提供一些直觉吗？

1 回答

0

假设您已经了解了策略迭代和值迭代算法的内容，代理只需通过为每个状态选择具有最高值的操作来构建新策略 .

动作的值是在该动作的所有可能的下一状态下达到下一状态*（下一状态的值，转换的奖励）的概率的总和 .

回复于 2024-05-09T16:51:11+08:00

相关问题