Java 学习之路

1 votes

answers

views

MDP和强化学习 - VI，PI和Q学习算法的收敛性比较

我已经使用python实现了VI（Value Iteration），PI（Policy Iteration）和QLearning算法 . 比较结果后，我发现了一些东西 . VI和PI算法汇聚于相同的实用程序和策略 . With same parameters, QLearning algorithm converge to different utilities, but same poli...

python machine-learning reinforcement-learning q-learning mdp

热门问题