蒙特卡洛树搜索 - “最有前途”的移动功能-Java 学习之路

我试图实现tic-tac-toe hello-world MCTS游戏玩家，但我遇到了一个问题 .

在模拟游戏并选择“最有希望的”（利用/探索）节点时，我只考虑总胜数（“利用”部分） - 这会导致某些问题，所得算法根本不具防御性 . 因此在选择之间

选择较差的一个（1; 109），因为我的uct函数贪婪计算avg wins而不是“value” .

我是否正确地认识到了这个问题？我应该从“avg wins”切换到考虑所有结果类型的其他 Value 指标吗？

欢迎任何建议，谢谢

1 回答