首页 文章

用强化学习训练神经网络

提问于
浏览
59

我知道前馈神经网络的基础知识,以及如何使用反向传播算法训练它们,但我正在寻找一种算法,而不是我可以用来通过强化学习在线训练ANN .

例如,cart pole swing up问题是我知道应该如何控制钟摆的问题,我只知道我与理想位置有多接近 . 我需要根据奖励和惩罚来学习ANN . 因此,监督学习不是一种选择 .

另一种情况类似于snake game,其中反馈被延迟,并且仅限于目标和反目标,而不是奖励 .

我可以为第一种情况考虑一些算法,比如爬山或遗传算法,但我猜它们都会很慢 . 它们也可能适用于第二种情况,但速度极慢,不利于在线学习 .

我的问题很简单: Is there a simple algorithm for training an artificial neural network with reinforcement learning? 我主要对实时奖励情况感兴趣,但如果基于目标的情境算法可用,甚至更好 .

2 回答

相关问题