我有两个相关的问题,关于控制实验的分布式培训,其中两台机器都有多个GPU .

  • 在张量流Distributed Inception guidelines之后,我看到每个进程都实现了数据预处理队列和读取器;现在要通过同步或异步复制培训来实现数据并行性,TF如何确保每个工作人员处理其他工作者没有或将要处理特定时期的小批量模式?由于所有队列运行器都指向同一个数据集,因此工作者之间是否存在一些内置协调,以便在一个时期内不多次处理相同的示例(例如同步SGD)?

  • 是否可以为每个工作进程指定GPU设备;作为群集规范的一部分?或者在运行训练操作时是否需要在代码中提及?或者这不推荐?