在TensorFlow中进行多GPU培训的优势是什么？-Java 学习之路

在this TensorFlow tutorial中，您可以使用N个GPU将N个小批量（每个包含M个训练样本）分配到每个GPU并同时计算梯度 .

然后平均从N GPU收集的梯度并更新模型参数 .

但这与使用单个GPU计算N * M训练样本的梯度，然后更新参数具有相同的效果 .

因此，在我看来，唯一的优势是您可以在相同的时间内使用更大尺寸的迷你批次 .

但更大尺寸的迷你批次必然更好吗？

我认为你不应该使用大尺寸的小批量，以使优化对马鞍点更加稳健 .

如果大尺寸的小批量确实不是更好，为什么你会关心多GPU学习，甚至多服务器学习？

（上面的教程是一个同步训练 . 如果是异步训练，那么我可以看到优点，因为参数将被更新而不平均每个GPU计算的梯度）

1 回答