我有一个"embarrassingly parallel"图表,我使用分布式Tensorflow在我的集群中的N台机器上运行,这些图形从单个输入队列(位于一个 device 上)提供,并且在一台机器上的单个 FIFOQueue 中收集结果 .

问题是当我开始使用N> 24台机器时,我得到与GRPC相关的断言失败(我相信),例如:

E0810 18:27:17.823769199 4394 byte_stream.c:59] assertion failed: stream->cursor < stream->backing_buffer->count

E0810 17:31:40.015537128 60432 parsing.c:715] ignoring out of order new grpc_chttp2_stream request on server; last grpc_chttp2_stream id=3067, new grpc_chttp2_stream id=3063

是否有创建图表的最佳实践,以便在集群协调方面进行扩展?我该如何调试此问题?