我有一个用例,我启动多个节点,只想要一个节点(让我们称之为主节点),以便能够创建 train_op . 一旦 train_op 在此主节点上启动,其他节点(让它成为从属节点)应该能够与传递给它们的图形连接(没有它们自己构建) . 本质上,一旦主节点创建训练操作并准备好进行训练循环,这些从节点应该能够加入主节点,其余的时间从属节点应该只是轮询到主节点 .

我现在能做到这一点的唯一方法是让master在创建op时进行一些广播(http或rpc),并以一些json格式将模型广播到从节点,然后从节点使用这个json数据来构建图形和训练自己然后加入分布式训练作为工作者和ps节点 . 我没有使用分布式培训,所以我不知道什么是正确的方法 . 是否有任何张量流API可以让我轻松实现?

编辑:我认为我没有明确指出主要问题,考虑到这个tensorflow example,特别是按照行 -

# Build model...
loss = ...
global_step = tf.contrib.framework.get_or_create_global_step()

如何在工作节点以某种格式传递损失本身而不是显式构建整个图形?