用强化学习训练神经网络-Java 学习之路

我知道前馈神经网络的基础知识，以及如何使用反向传播算法训练它们，但我正在寻找一种算法，而不是我可以用来通过强化学习在线训练ANN .

例如，cart pole swing up问题是我知道应该如何控制钟摆的问题，我只知道我与理想位置有多接近 . 我需要根据奖励和惩罚来学习ANN . 因此，监督学习不是一种选择 .

另一种情况类似于snake game，其中反馈被延迟，并且仅限于目标和反目标，而不是奖励 .

我可以为第一种情况考虑一些算法，比如爬山或遗传算法，但我猜它们都会很慢 . 它们也可能适用于第二种情况，但速度极慢，不利于在线学习 .

我的问题很简单： Is there a simple algorithm for training an artificial neural network with reinforcement learning? 我主要对实时奖励情况感兴趣，但如果基于目标的情境算法可用，甚至更好 .

2 回答