通过在Google上搜索,我可以找到有关tensorflow培训的以下两种类型的部署:
-
在单个节点和多个GPU上进行培训,例如CNN;
-
多个节点上的分布式培训,例如between-graph replica training;
有没有使用多节点多GPU的例子?具体而言,存在两个并行级别:
-
在第一级,参数服务器和工作程序分布在不同的节点之间;
-
在第二级,一台机器上的每个工作人员将使用多个GPU进行培训;
通过在Google上搜索,我可以找到有关tensorflow培训的以下两种类型的部署:
在单个节点和多个GPU上进行培训,例如CNN;
多个节点上的分布式培训,例如between-graph replica training;
有没有使用多节点多GPU的例子?具体而言,存在两个并行级别:
在第一级,参数服务器和工作程序分布在不同的节点之间;
在第二级,一台机器上的每个工作人员将使用多个GPU进行培训;
1 回答
关于GitHub(link)的Tensorflow Inception模型文档对不同类型的培训有很好的解释,请务必查看它们及其源代码 .
另外,你可以看一下这个code,它也会以稍微不同的方式分发训练 .