首页 文章

蒙特卡洛树搜索:两个玩家游戏的树策略

提问于
浏览
2

我对MCTS "Tree Policy"的实现方式感到有些困惑 . 我读过的每篇论文或文章都谈到了从当前游戏状态走下树(在MCTS teminology中:玩家即将采取行动的根源) . 我的问题是,即使我处于MIN玩家级别(假设我是MAX玩家),我如何选择最好的孩子 . 即使我选择MIN可能采取的某些特定动作,并且我的搜索树在该节点中越来越深,但是在转弯时MIN玩家也可以选择一些不同的节点 . (如果最小玩家是业余人类,它可能就像好好选择一些不一定最好的节点 . 由于MIN已经选择了不同的节点,因此这种方式使得MAX的整个工作在该节点上传播是徒劳的 . 对于我所指的步骤:https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/树策略:https://jeffbradberry.com/images/mcts_selection.png让我相信他们是从单个玩家的角度执行它 .

1 回答

  • 0

    对于MCTS,您需要某种方法来生成可能移动的概率分布的合理估计 . 对于AlphaGo [1],这是本文中的快速展开概率$ p_ \ pi $,它采用状态并输出所有可能移动的粗略概率分布 . AlphaGo团队将此实现为一个浅层神经网络,首先在专家游戏上进行训练,然后通过对抗自身进行改进 .

    [1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

相关问题