我正在实现一个游戏代理,它使用minimax算法进行alpha-beta修剪和早期截止 . 我的minimax算法在8的深度切断,并使用近似于效用值的评估函数 . 我已经硬编码了这个实用功能 .

我想使用TDLeaf算法来改变这个实用程序函数的常量,但我不确定采用哪个选项:

1.在对抗好对手时应用TDLeaf算法并对生成的效用函数进行硬编码 .
2.保持我当前的硬编码效用函数并为我玩的每个对手应用TDLeaf算法并动态学习常量(这是不好的,因为代理总是在学习)?
3.遵循另一种策略?