我正在尝试使用alpha-beta修剪为Java中的跳棋游戏实现minimax . 我的minimax算法运行得很好 . 我的代码运行时使用了alpha-beta代码 . 不幸的是,当我使用标准的极小极大算法玩1000场比赛时,alpha-beta算法总是落后50场左右 .
由于alpha-beta修剪不应该降低移动的质量,只需要实现它们所需的时间,因此必定是错误的 . 但是,我已经拿出笔和纸并绘制了假设的叶节点值,并使用我的算法来预测它是否会计算出正确的最佳移动,并且似乎没有任何逻辑错误 . 我使用了这个视频中的树:Alpha-Beta Pruning来跟踪我的算法 . 它在逻辑上应该做出所有相同的选择,因此是一个有效的实现 .
我还将print语句放入代码中(它们已被删除以减少混乱),并且正确返回值,并且修剪确实发生 . 尽管我付出了最大的努力,但我一直无法找到逻辑错误所在 . 这是我实现这一点的第三次尝试,所有这些尝试都有同样的问题 .
我不能在这里发布完整的代码,它太长了,所以我已经包含了与错误相关的方法 . 我不确定,但我怀疑这个问题可能出现在非递归的move()方法中,虽然我无法在其中找到逻辑错误,所以我只是在其中进行更多的讨论,可能是在制作东西没有押韵或理由,更糟糕而不是更好 .
Is there a trick to recovering multiple integer values from recursive calls in a for loop? 它适用于我的minimax和negamax实现,但alpha-beta修剪似乎产生了一些奇怪的结果 .
@Override
public GameState move(GameState state)
{
int alpha = -INFINITY;
int beta = INFINITY;
int bestScore = -Integer.MAX_VALUE;
GameTreeNode gameTreeRoot = new GameTreeNode(state);
GameState bestMove = null;
for(GameTreeNode child: gameTreeRoot.getChildren())
{
if(bestMove == null)
{
bestMove = child.getState();
}
alpha = Math.max(alpha, miniMax(child, plyDepth - 1, alpha, beta));
if(alpha > bestScore)
{
bestMove = child.getState();
bestScore = alpha;
}
}
return bestMove;
}
private int miniMax(GameTreeNode currentNode, int depth, int alpha, int beta)
{
if(depth <= 0 || terminalNode(currentNode.getState()))
{
return getHeuristic(currentNode.getState());
}
if(currentNode.getState().getCurrentPlayer().equals(selfColor))
{
for(GameTreeNode child: currentNode.getChildren())
{
alpha = Math.max(alpha, miniMax(child, depth - 1, alpha, beta));
if(alpha >= beta)
{
return beta;
}
}
return alpha;
}
else
{
for(GameTreeNode child: currentNode.getChildren())
{
beta = Math.min(beta, miniMax(child, depth - 1, alpha, beta));
if(alpha >= beta)
{
return alpha;
}
}
return beta;
}
}
//Checks to see if the node is terminal
private boolean terminalNode(GameState state)
{
if(state.getStatus().equals(win) || state.getStatus().equals(lose) || state.getStatus().equals(draw))
{
return true;
}
else
{
return false;
}
}
5 回答
我注意到你说你发现了问题,但不应该是minimax alpha beta修剪
你写了:
只是回答你的问题
是的,在Java中,您需要将对象传递给递归函数调用,然后修改该对象的内容 . 函数返回后,您将能够访问修改后的值 .
例如 .
2013年3月16日,sage88问道:
在alpha beta修剪中,唯一感兴趣的输出值是节点的得分:min节点中beta的最终值被认为是其父节点的alpha值;同样地,最大节点中的α的最终值被考虑用于其父节点的β值 . 因此:
The answer to your question is the algorithm itself, as it's the most relevant trick.
也就是说,你的实现中有两个错误:1)正如Adrian Blackburn最初指出的那样,它错误地从最小节点返回alpha,反之亦然,从而扭曲了它的准确性; 2)通过过早考虑当前节点值中的父alpha或beta,它放弃了修剪机会 . 此版本修复了返回值并最大化了修剪:
感谢您提供有趣和有趣的问题:)
为了更有趣,这里是对
move()
方法的澄清,删除了对Math.max()
的冗余调用:最后(更有趣),只是一个建议,一个方法名称更改,以澄清
terminalNode()
的意图,虽然我会将其移动到GameState
所以它可以不带参数调用:要获得结果,您应该实施某种移动排序 . 在国际象棋中,它通常是捕获或检查 . 这种举动倾向于最大程度地改变评价,因此它们对狡猾的影响很大 . 在跳棋中,它可能会在第8级采用对手的石头或促进自我结石(抱歉不知道使用的术语) .
您已经解决了问题,但遇到的问题很常见 . 因此,无论何时为AI代理构建算法的一部分,都必须正确地进行测试 . 因此,一旦您的minimax算法正确,您可以生成许多随机树并检查结果是否相同 . 例如在python中,你可以这样做:
现在,您可以生成包含许多随机树的树并比较结果 .
不要忘记minimax和alpha-beta只返回最佳值,而你是什么对真正的游戏感兴趣是一个举动 . 可以直接修改它们以便它们可以返回移动,但这取决于开发人员决定如何返回移动 . 这是因为可以有许多移动导致最佳解决方案(您可以返回第一个,最后一个或最常见的是找到所有移动并返回随机移动) .
在您的情况下,问题在于返回值的随机性,因此在测试期间,好的方法是修复随机性 .