马尔可夫决策过程： Value 迭代，我如何以及在何处找到转移概率？-Java 学习之路

有一个10x10的网格世界，被墙围绕着 . 噪音= 0.15，折扣= 0.91 . 有四个动作：西，东，北，南 . 这些操作在初始策略中都是“北”，所有网格单元格都等于0.00 .

在每次迭代之后，策略中的操作需要更新为指向具有最高值的相邻网格的方向 . 有两个终端网格，一个有奖励2，另一个是-2 . 应该在开头使用给定的变量来设置位置 .

一个网格由一块石头占据，其位置由开头的给定变量指定 .

你知道如何找出然后计算（如果需要，我不明白）这个网格的 Value 迭代算法的转移概率以及如何设置 Value 迭代算法，以便“政策中的行动需要更新到指向具有最高值的相邻网格的方向“？

马尔可夫决策过程： Value 迭代，我如何以及在何处找到转移概率？