如何在分布式张量流中传递计算图或训练op-Java 学习之路

我有一个用例，我启动多个节点，只想要一个节点（让我们称之为主节点），以便能够创建 train_op . 一旦 train_op 在此主节点上启动，其他节点（让它成为从属节点）应该能够与传递给它们的图形连接（没有它们自己构建） . 本质上，一旦主节点创建训练操作并准备好进行训练循环，这些从节点应该能够加入主节点，其余的时间从属节点应该只是轮询到主节点 .

我现在能做到这一点的唯一方法是让master在创建op时进行一些广播（http或rpc），并以一些json格式将模型广播到从节点，然后从节点使用这个json数据来构建图形和训练自己然后加入分布式训练作为工作者和ps节点 . 我没有使用分布式培训，所以我不知道什么是正确的方法 . 是否有任何张量流API可以让我轻松实现？

编辑：我认为我没有明确指出主要问题，考虑到这个tensorflow example，特别是按照行 -

# Build model...
loss = ...
global_step = tf.contrib.framework.get_or_create_global_step()

如何在工作节点以某种格式传递损失本身而不是显式构建整个图形？

如何在分布式张量流中传递计算图或训练op

相关问题