-
2 votesanswersviews
如何学习马尔可夫决策过程中的奖励功能
在Q-learning期间更新R(s)功能的适当方法是什么?例如,假设代理人五次访问状态s1,并获得奖励[0,0,1,1,0] . 我应该计算平均奖励,例如R(s1)= sum([0,0,1,1,0])/ 5?或者我应该使用移动平均线来为该州最近收到的奖励值提供更大的权重吗?我读过的关于Q学习的大多数描述都将R(s)视为某种常数,并且似乎永远不会涵盖随着经验的积累你如何随着时间的推移学习这个 Va... -
3 votesanswersviews
Q学习:改变环境后重新学习
我已经在一个大小(n x n)的网格上实现了Q学习,中间只有一个奖励100 . 代理人通过以下机构学习1000个历元以达到目标:他以概率0.8选择具有最高状态 - 动作 - 值的移动并选择随机移动0.2 . 移动后,状态动作值由Q学习规则更新 . 现在我进行了以下实验:除了底部的邻居之外,目标旁边的所有字段都获得-100的奖励 . 在学习了1000个时代之后,代理人明显避免走向最高位并且最频繁地从... -
1 votesanswersviews
DQN - Q-Loss没有收敛
我正在使用DQN算法在我的环境中训练代理,如下所示: 代理通过选择离散动作(左,右,上,下)控制汽车 目标是以所需的速度行驶而不会撞到其他车辆 状态包含代理商的汽车和周围汽车的速度和位置 奖励:-100用于撞入其他车辆,根据所需速度的绝对差值给出正奖励(如果以所需速度行驶,则为50) 我已经调整了一些超参数(网络架构,探索,学习率),它给了我一些下降的结果,但仍然没有它应该/可... -
1 votesanswersviews
MDP和强化学习 - VI,PI和Q学习算法的收敛性比较
我已经使用python实现了VI(Value Iteration),PI(Policy Iteration)和QLearning算法 . 比较结果后,我发现了一些东西 . VI和PI算法汇聚于相同的实用程序和策略 . With same parameters, QLearning algorithm converge to different utilities, but same poli... -
0 votesanswersviews
Q学习收敛和局部最优问题
我是强化学习(RL)和特别是Q学习的新手 . 我有一组20个州和9个行动 . 我的目标是从一些随机状态开始,通过执行操作以最短的步数到达最终的第20个状态 . 我正在尝试使用Q-learning来解决这个问题 . states: [20,22,24,....,40,44 ......,50 .... 60] 20个州actions: [( - ,),( - ,0),( - , - )........ -
17 votesanswersviews
Keras的政策梯度
我've been trying to build a model using '深度Q-Learning'我有很多动作(2908) . 在使用标准DQN取得了一些有限的成功之后:(https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf),我决定做更多的研究,因为我认为动作空间太大而无法进行有效的探索 . 然后我发现了这篇论文:https://arxiv.or... -
0 votesanswersviews
将Tensorflow数据集API应用于在培训期间更改的数据集
我想应用Tensorflow's Dataset API来训练数据集,该数据集在每次通过网络传播一批数据时都会发生变化 . 我遇到了这个代码(下面),它使用了向Tensorflow提供数据的feed_dict实现,我想让它适应使用Tensorflow API,因为Tensorflow自己说 "Feeding" is the least efficient way to feed... -
-1 votesanswersviews
为什么openai健身房会为终端州提供零奖励? [关闭]
我最近一直在试验 Gym (和RL),健身房的一个特定行为激起了我的兴趣 . 为什么即使游戏结束,OpenAI Gym也会返回奖励0?例如,在Breakout-v0中,当花费所有五个生命时,env.step将返回 done=True 和 reward=0 . 我们不应该通过返回负面强化/奖励通知经纪人这样的状态是不利的吗? 此外,对于环境中的每一步(仍然是Breakout-v0),如果当时没有砖... -
2 votesanswersviews
如何实现Q学习以近似最优控制?
我有兴趣实现Q学习(或某种形式的强化学习)来找到最佳协议 . 目前,我有一个用Python编写的函数,我可以在其中接受协议或“动作”和“状态”并返回一个新状态和一个“奖励” . 但是,我很难找到可以在这种情况下使用的Q-learning的Python实现(即可以学习该功能的东西,就好像它是一个黑盒子) . 我看过OpenAI健身房,但这需要编写一个新的环境 . 有人会知道我可以采用的更简单的包或脚... -
13 votesanswersviews
如何使用Tensorflow Optimizer而不重新计算在每次迭代后返回控制的强化学习程序中的激活?
编辑(1/3/16):corresponding github issue 我正在使用Tensorflow(Python接口)来实现一个q-learning代理,其函数逼近使用随机梯度下降进行训练 . 在实验的每次迭代中,调用代理中的步骤函数,其基于新的奖励和激活来更新近似的参数,然后选择要执行的新动作 . 这是问题(加强学习术语): 代理计算其状态 - 操作值预测以选择操作 . 然后控制... -
-1 votesanswersviews
Q学习Techniuqe没有陷入火灾
请看下面的图片: 我的目标是代理在环境中旋转和移动而不是落入火孔中,我想这样: Do for 1000 episodes: An Episode : start to traverse the environment; if falls into a hole , back to first place ! 所以我已经阅读了一些内容:目标是一集的终点,所以如果我们认为目标不是火上浇油,那么目标... -
2 votesanswersviews
为什么DQN会为所有观察结果给动作空间(2)中的所有动作赋予类似的值
我有一个学习的DQN算法(损失收敛到0)但不幸的是它学习了Q值函数,使得两个可能动作中的每一个的两个Q值非常相似 . 值得注意的是,Q值在每次观察时变化很小 . 细节: 该算法从OpenAI Gym中播放CartPole-v1,但使用屏幕像素作为观察而不是提供的4个值 我提供的奖励功能提供以下奖励:如果不是游戏结束则为0.1,如果游戏结束则为-1 衰减率(gamma)为0.95 e... -
4 votesanswersviews
在NetLogo中实施强化学习(在多智能体模型中学习)
我正在考虑在我的模型中为不同类型的代理实施学习策略 . 说实话,我仍然不知道我应该先问什么样的问题或从哪里开始 . 我有两种类型的代理人,我希望他们通过经验来学习,他们有一系列的行动,根据可能发生的具体情况,每个行动都有不同的奖励 . 我是强化学习方法的新手,因此欢迎任何有关我应该问自己的问题的建议:) 以下是我如何制定我的问题: 代理商有生命周期,他们会跟踪一些对他们而言重要的事情,这些指标... -
0 votesanswersviews
努力争取以一种稳定的方式学习双深Q网络
我最近对强化学习感兴趣,目前我正在研究一个侧面项目,我正在考虑使用基于“内在动机”的特定类型的奖励来看看我是否可以在一个简单的玩具系统中获得有趣的行为 . 我的设计 . Here is an image的基本设置(我设计的是当代理能够移动靠近它的许多块时它应该是最大的,所以我认为应该可以用这个来学习正确的行为 . 问题在于,我用来训练神经网络的Q学习算法似乎并不是非常稳定,虽然它最初开始改善并且稍... -
1 votesanswersviews
TypeError:无法将feed_dict键解释为Tensor:名称'save/Const:0'指的是不存在的Tensor
来自此文件:https://github.com/llSourcell/pong_neural_network_live/blob/master/RL.py 我更新了这些台词 #first convolutional layer. bias vector #creates an empty tensor with all elements set to zero with a shape W_c... -
0 votesanswersviews
如何从另一个数组索引到张量张量流
我正在尝试为AI中的问题编写一个深入的q学习网络 . 我有一个函数 predict() ,它产生一个形状张量 (None, 3) 接受形状 (None, 5) 的输入 . (None, 3) 中的3对应于每个州可以采取的每个动作的q值 . 现在,在训练步骤中,我必须多次调用 predict() 并使用结果来计算成本并训练模型 . 为此,我还有另一个名为 current_actions 的数据数...