我是强化学习(RL)和特别是Q学习的新手 . 我有一组20个州和9个行动 . 我的目标是从一些随机状态开始,通过执行操作以最短的步数到达最终的第20个状态 . 我正在尝试使用Q-learning来解决这个问题 .

states: [20,22,24,....,40,44 ......,50 .... 60] 20个州
actions: [( - ,),( - ,0),( - , - )......] 9动作
rewards: 尝试了二元奖励功能以及持续目标偏向奖励塑造功能
initial Q-values: 尝试了均匀的Q值以及目标偏差的初始Q值
Optimization function:
Q[s][a] = Q[s][a] + alpha*(r + GAMMA*max_q_s2a2 - Q[s][a]) where
GAMMA (discount factor) = 0.9 and
alpha = ALPHA / update_counts_sa[s][a], ALPHA= 0.1

我在10,000-20,000集中运行这个问题,但仍然可以看到学习的Q值导致在大多数时间达到某些中间状态,如40(局部最优),而不是最终状态60,所有时间 . 我正在使用epsilon-greedy进行探索 . eps=0.5/t where t is updated after every 50 episodes, eps is (0,1)

关于如何解决这个局部最优问题的任何建议?或者这总是RL的问题(缓慢收敛和局部最优)?进一步增加剧集的数量?此外,在Q学习中,学习的Q值是否适合或过度拟合给定的问题?