我正在使用Amazon SageMaker来训练包含大量数据的模型 . 这需要很多时间 - 几小时甚至几天 . 在此期间,我希望能够查询培训师并查看其当前状态,尤其是:
-
它已经完成了多少次迭代,以及它还需要做多少次迭代? (训练算法是深度学习 - 它基于迭代) .
-
完成培训需要多长时间?
-
理想情况下,我想使用当前迭代的模型对测试样本进行分类,以查看其当前性能 .
一种方法是明确告诉培训师在每次迭代后打印调试消息 . 但是,这些消息只能在我运行培训师的控制台上使用 . 由于培训需要很长时间,因此我希望能够从不同的计算机远程查询培训师状态 .
有没有办法远程查询正在运行的培训师的状态?
1 回答
所有日志均可在Amazon Cloudwatch中使用 . 您可以通过编程方式或通过API查询CloudWatch来解析日志 .
您使用的是内置算法还是MXNet或TensorFlow等框架?对于TensorFlow,您可以使用TensorBoard监控您的工作 .
此外,您可以使用describe training job API调用查看高级作业状态: