-
1 votesanswersviews
MDP和强化学习 - VI,PI和Q学习算法的收敛性比较
我已经使用python实现了VI(Value Iteration),PI(Policy Iteration)和QLearning算法 . 比较结果后,我发现了一些东西 . VI和PI算法汇聚于相同的实用程序和策略 . With same parameters, QLearning algorithm converge to different utilities, but same poli...