有一个10x10的网格世界,被墙围绕着 . 噪音= 0.15,折扣= 0.91 . 有四个动作:西,东,北,南 . 这些操作在初始策略中都是“北”,所有网格单元格都等于0.00 .

在每次迭代之后,策略中的操作需要更新为指向具有最高值的相邻网格的方向 . 有两个终端网格,一个有奖励2,另一个是-2 . 应该在开头使用给定的变量来设置位置 .

一个网格由一块石头占据,其位置由开头的给定变量指定 .

你知道如何找出然后计算(如果需要,我不明白)这个网格的 Value 迭代算法的转移概率以及如何设置 Value 迭代算法,以便“政策中的行动需要更新到指向具有最高值的相邻网格的方向“?