Q学习收敛和局部最优问题-Java 学习之路

我是强化学习（RL）和特别是Q学习的新手 . 我有一组20个州和9个行动 . 我的目标是从一些随机状态开始，通过执行操作以最短的步数到达最终的第20个状态 . 我正在尝试使用Q-learning来解决这个问题 .

states: [20,22,24，....，40,44 ......，50 .... 60] 20个州
actions: [（ - ，），（ - ，0），（ - ， - ）......] 9动作
rewards: 尝试了二元奖励功能以及持续目标偏向奖励塑造功能
initial Q-values: 尝试了均匀的Q值以及目标偏差的初始Q值
Optimization function:
Q[s][a] = Q[s][a] + alpha*(r + GAMMA*max_q_s2a2 - Q[s][a]) where
GAMMA (discount factor) = 0.9 and
alpha = ALPHA / update_counts_sa[s][a], ALPHA= 0.1

我在10,000-20,000集中运行这个问题，但仍然可以看到学习的Q值导致在大多数时间达到某些中间状态，如40（局部最优），而不是最终状态60，所有时间 . 我正在使用epsilon-greedy进行探索 . eps=0.5/t where t is updated after every 50 episodes, eps is (0,1)

关于如何解决这个局部最优问题的任何建议？或者这总是RL的问题（缓慢收敛和局部最优）？进一步增加剧集的数量？此外，在Q学习中，学习的Q值是否适合或过度拟合给定的问题？

Q学习收敛和局部最优问题

相关问题