蒙特卡洛树搜索：两个玩家游戏的树策略-Java 学习之路

我对MCTS "Tree Policy"的实现方式感到有些困惑 . 我读过的每篇论文或文章都谈到了从当前游戏状态走下树（在MCTS teminology中：玩家即将采取行动的根源） . 我的问题是，即使我处于MIN玩家级别（假设我是MAX玩家），我如何选择最好的孩子 . 即使我选择MIN可能采取的某些特定动作，并且我的搜索树在该节点中越来越深，但是在转弯时MIN玩家也可以选择一些不同的节点 . （如果最小玩家是业余人类，它可能就像好好选择一些不一定最好的节点 . 由于MIN已经选择了不同的节点，因此这种方式使得MAX的整个工作在该节点上传播是徒劳的 . 对于我所指的步骤：https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/树策略：https://jeffbradberry.com/images/mcts_selection.png让我相信他们是从单个玩家的角度执行它 .

1 回答

0

对于MCTS，您需要某种方法来生成可能移动的概率分布的合理估计 . 对于AlphaGo [1]，这是本文中的快速展开概率$ p_ \ pi $，它采用状态并输出所有可能移动的粗略概率分布 . AlphaGo团队将此实现为一个浅层神经网络，首先在专家游戏上进行训练，然后通过对抗自身进行改进 .

[1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

回复于 2024-05-06T12:24:00+08:00

蒙特卡洛树搜索：两个玩家游戏的树策略

1 回答

相关问题