没有日志，也没有来自Google Cloud ML培训作业的输出-Java 学习之路

我正在尝试在Google的Cloud ML上运行培训工作 . 我工作的迹象是：

这些消息表明包已构建并安装：

INFO 2017-06-07 15:14:01 -0700 master-replica-0成功构建training-job-foo INFO 2017-06-07 15:14:01 -0700 master-replica-0安装收集包：培训 - job-foo INFO 2017-06-07 15:14:01 -0700 master-replica-0成功安装training-job-foo-0.1.dev0 INFO 2017-06-07 15:14:01 -0700 master-replica-0运行命令：pip install --user training-job-foo-0.1.dev0.tar.gz INFO 2017-06-07 15:14:02 -0700 master-replica-0 Processing ./training-job-foo-0.1 . dev0.tar.gz

这样的消息表明我的工作正在开始：

INFO 2017-06-07 15:14:03 -0700 master-replica-0运行命令：python -m training-job-foo.training_routine_bar --job-dir gs：// regional-bucket-similar-to-training -job /输出/

这样的消息表明正在处理我的标量摘要：

INFO 2017-06-07 15:14:21 -0700 master-replica-0摘要名称总准确度是非法的;使用Total_Accuracy代替 .

最后，我还看到CPU，内存使用量增加和我的consumeMLUnits增加
我应该补充一下，我也看到了摘要文件编写者在创建作业之前创建了摘要文件，但我没看到这些文件的大小增加 . 我还看到写入gs的初始检查点文件：// regional-bucket-similar-to-training-job / output /

除此之外，我看不到更多的日志或输出 . 我应该看到日志，因为我打印准确性，经常丢失 . 我还写了摘要和检查点文件 .

我错过了什么？

此类场景中还有哪些其他调试工具可用？我目前所做的只是流式传输日志，在Cloud ML控制台上查看作业状态，CPU使用率，内存使用情况以及观察我的 Cloud 存储桶以进行任何更改

1 回答

2

很抱歉您遇到了问题 . 目前，可用的调试工具是作业日志，指标和TensorBoard，但似乎所有这些都不能在您的情况下使用 . 如果可能的话，您能否将您的项目编号和工作ID发送给cloudml-feedback @ google.com，以便我们仔细查看？

回复于 2024-05-14T16:51:04+08:00

没有日志，也没有来自Google Cloud ML培训作业的输出

1 回答

相关问题