我正在测试分布式TensorFlow,几乎与inception_distributed_train.py(同步数据并行)相同,但使用的是基本示例的默认mnist dataset .

对于主工作人员(仅限),对于 sv = tf.train.Supervisor ,结束 sv.stop() 给出 RuntimeError: ('Coordinator stopped with threads still running: %s', 'Thread-4') .

同时在 ps 节点上,我看到日志 Variable:0: Skipping cancelled dequeue attempt with queue not closed ,同样对于变量1-7,尽管有趣的是不是变量8定义为 global_step = tf.Variable(0) 并且传递到 tf.train.SyncReplicasOptimizer ,方法 minimize 作为 global_step .

这个错误会对任何人敲响吗?我真的看不出我的逻辑与inception_distributed_train.py的逻辑不同