首页 文章

在训练期间观看SageMaker

提问于
浏览
2

我正在使用Amazon SageMaker来训练包含大量数据的模型 . 这需要很多时间 - 几小时甚至几天 . 在此期间,我希望能够查询培训师并查看其当前状态,尤其是:

  • 它已经完成了多少次迭代,以及它还需要做多少次迭代? (训练算法是深度学习 - 它基于迭代) .

  • 完成培训需要多长时间?

  • 理想情况下,我想使用当前迭代的模型对测试样本进行分类,以查看其当前性能 .

一种方法是明确告诉培训师在每次迭代后打印调试消息 . 但是,这些消息只能在我运行培训师的控制台上使用 . 由于培训需要很长时间,因此我希望能够从不同的计算机远程查询培训师状态 .

有没有办法远程查询正在运行的培训师的状态?

1 回答

  • 2

    所有日志均可在Amazon Cloudwatch中使用 . 您可以通过编程方式或通过API查询CloudWatch来解析日志 .

    您使用的是内置算法还是MXNet或TensorFlow等框架?对于TensorFlow,您可以使用TensorBoard监控您的工作 .

    此外,您可以使用describe training job API调用查看高级作业状态:

    import sagemaker
    sm_client = sagemaker.Session().sagemaker_client
    print(sm_client.describe_training_job(TrainingJobName='You job name here'))
    

相关问题