扩展分布式Tensorflow和GRPC的问题-Java 学习之路

我有一个"embarrassingly parallel"图表，我使用分布式Tensorflow在我的集群中的N台机器上运行，这些图形从单个输入队列（位于一个 device 上）提供，并且在一台机器上的单个 FIFOQueue 中收集结果 .

问题是当我开始使用N> 24台机器时，我得到与GRPC相关的断言失败（我相信），例如：

E0810 18:27:17.823769199 4394 byte_stream.c:59] assertion failed: stream->cursor < stream->backing_buffer->count

和

E0810 17:31:40.015537128 60432 parsing.c:715] ignoring out of order new grpc_chttp2_stream request on server; last grpc_chttp2_stream id=3067, new grpc_chttp2_stream id=3063

是否有创建图表的最佳实践，以便在集群协调方面进行扩展？我该如何调试此问题？

扩展分布式Tensorflow和GRPC的问题

相关问题