我正在测试分布式TensorFlow,几乎与inception_distributed_train.py(同步数据并行)相同,但使用的是基本示例的默认mnist dataset .
对于主工作人员(仅限),对于 sv = tf.train.Supervisor
,结束 sv.stop()
给出 RuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4')
.
同时在 ps
节点上,我看到日志 Variable:0: Skipping cancelled dequeue attempt with queue not closed
,同样对于变量1-7,尽管有趣的是不是变量8定义为 global_step = tf.Variable(0)
并且传递到 tf.train.SyncReplicasOptimizer
,方法 minimize
作为 global_step
.
这个错误会对任何人敲响吗?我真的看不出我的逻辑与inception_distributed_train.py的逻辑不同