enter image description here

该图显示了4x3随机网格世界 . 代理商可以采取四项行动,即北,南,西,东 . 对于每个动作,代理以0.8概率前进,以0.1概率左右前进 . 在州(4,2)和(4,3),唯一的行动是退出,给予奖励-1和1.当离开州S时,代理人获得R(S)的奖励,这可能是否定的或正 . 在此设置下,请回答以下问题 .

  • 通过动作序列[北,北,东]以及概率计算可以从(1,1)到达哪些状态 .

  • 假设所有S,R(S)= 2,最优政策是什么?

所以我的老师给了我们这些练习和解决方案:第一个问题
enter image description here
第二个问题
enter image description here

但我不知道他是如何计算问题的 Value 的,任何人都可以解释计算过程吗?