首页 文章

在Google Cloud上关注TensorFlow Pets教程时出现多种远程错误

提问于
浏览
0

按照"Distributed Training on the Oxford-IIIT Pets Dataset on Google Cloud"教程on the official TensorFlow Models repo中的说明,我遇到了一些问题 . 首先,这个:

终止原因:错误 . 回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/runpy.py”,第174行,在_run_module_as_main“main”,fname,loader,pkg_name)文件“/usr/lib/python2.7/ runpy.py“,第72行,在run_globals文件中的_run_code exec代码中”/root/.local/lib/python2.7/site-packages/object_detection/train.py“,第51行,来自object_detection.builders import model_builder文件“/root/.local/lib/python2.7/site-packages/object_detection/builders/model_builder.py”,第29行,来自object_detection.meta_architectures import ssd_meta_arch文件“/root/.local/lib/python2.7/ site-packages / object_detection / meta_architectures / ssd_meta_arch.py“,第32行,来自object_detection.utils import visualization_utils文件”/root/.local/lib/python2.7/site-packages/object_detection/utils/visualization_utils.py“,第25行,在import matplotlib中; matplotlib.use('Agg')#pylint:disable = multiple-statements ImportError:没有名为matplotlib的模块

从中获取的是最后一部分 - “没有名为matplotlib的模块” . 根据网上的一些建议,我编辑了提供的setup.py,添加“matplotlib”作为要求:

REQUIRED_PACKAGES = ['Pillow>=1.0', 'matplotlib']

再次运行它,解决了这个问题 . 奇怪 - 你认为它是一个教程,它不会有这个问题 . 接下来,它遇到了一个新问题:

终止原因:错误 . 回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/runpy.py”,第174行,在_run_module_as_main“main”,fname,loader,pkg_name)文件“/usr/lib/python2.7/ runpy.py“,第72行,在run_globals文件中的_run_code exec代码中”/root/.local/lib/python2.7/site-packages/object_detection/train.py“,第167行,在tf.app.run()中文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py”,第48行,在运行_sys.exit中(main(_sys.argv [:1] flags_passthrough))文件“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第163行,在主worker_job_name中,is_chief,FLAGS.train_dir)文件“/root/.local/lib/python2.7 /site-packages/object_detection/trainer.py“,第264行,列车train_config.prefetch_queue_capacity,data_augmentation_options)文件”/root/.local/lib/python2.7/site-packages/object_detection/trainer.py“,第59行,在create_input_queue tensor_dict = create_tensor_dict_fn()文件“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第120行,in get_next dataset_builder.build(config)) . get_next()文件“/root/.local/lib/python2.7/site-packages/object_detection/builders/dataset_builder.py”,第164行,在build functools.partial(tf . data.TFRecordDataset,buffer_size = 8 * 1000 * 1000),AttributeError:'module'对象没有属性'data'复制工作程序0退出时的非零状态为1 .

由于没有针对此问题的相关搜索结果,很难知道问题所在,尽管一个答案提示TensorFlow已过时 . 该项目所述的TensorFlow版本是TensorFlow 1.2 . TensorFlow现在是版本1.7,所以也许这就是问题所在 . 运行时版本列表的选项为1.2,1.4,1.5和1.6 . 尝试使用1.6,我得到了一个不同的错误:

终止原因:错误 . Traceback(最近一次调用最后一次):[...]文件“/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”,第746行,在火车上master,start_standard_services = False,config = session_config)as sess:文件“/usr/lib/python2.7/contextlib.py”,第17行,在enter中返回self.gen.next()文件“/ usr / local / lib /python2.7/dist-packages/tensorflow/python/training/supervisor.py“,第1000行,在managed_session self.stop(close_summary_writer = close_summary_writer)文件”/usr/local/lib/python2.7/dist-packages/ tensorflow / python / training / supervisor.py“,第828行,停止ignore_live_threads = ignore_live_threads)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/coordinator.py“,第389行,在join six.reraise(* self._exc_info_to_raise)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/supervisor.py”,第989行,在managed_session中start_standard_services = start_standard_services)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/ training / supervisor.py“,第734行,在prepare_or_wait_for_session max_wait_secs = max_wait_secs中)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/session_manager.py“,第402行,在wait_for_session sess中)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/training/session_manager.py”,第486行,在_try_run_local_init_op sess.run(self._local_init_op)文件“/ usr / local / lib /python2.7/dist-packages/tensorflow/python/client/session.py“,第905行,运行run_metadata_ptr)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/ session.py“,第1137行,在_run feed_dict_tensor,options,run_metadata中)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py”,第1355行,在_do_run选项中,run_metadata)文件“/usr/local/lib/python2.7/dist -packages / tensorflow / python / client / session.py“,第1374行,_do_call raise类型(e)(node_def,op,message)UnavailableError:操作系统错误副本工作者1以非零状态1退出 .

同样,现在似乎没有解决此错误的方法 . 所以我在黑暗中刺伤 . 我用TensorFlow 1.4再试一次 . 新错误:

终止原因:错误 . 回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/runpy.py”,第174行,在_run_module_as_main“main”,fname,loader,pkg_name)文件“/usr/lib/python2.7/ runpy.py“,第72行,在run_globals文件中的_run_code exec代码中”/root/.local/lib/python2.7/site-packages/object_detection/train.py“,第167行,在tf.app.run()中文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py”,第48行,在运行_sys.exit中(main(_sys.argv [:1] flags_passthrough))文件“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第163行,在主worker_job_name中,is_chief,FLAGS.train_dir)文件“/root/.local/lib/python2.7 /site-packages/object_detection/trainer.py“,第264行,列车train_config.prefetch_queue_capacity,data_augmentation_options)文件”/root/.local/lib/python2.7/site-packages/object_detection/trainer.py“,第59行,在create_input_queue tensor_dict = create_tensor_dict_fn()文件“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第120行,in get_next dataset_builder.build(config)) . get_next()文件“/root/.local/lib/python2.7/site-packages/object_detection/builders/dataset_builder.py”,第165行,在build process_fn,config.input_path [ :],input_reader_config)文件“/root/.local/lib/python2.7/site-packages/object_detection/utils/dataset_util.py”,第133行,在read_dataset tf.contrib.data.parallel_interleave中(AttributeError:'module' object没有属性'parallel_interleave'副本工作程序0以非零状态1退出

我现在发现自己陷入了错误的世界,并且不知道我的下一步应该是什么 . 我只是按照教程的步骤,执行他们说要执行的代码行,并在执行5-10分钟后接收这些远程错误 .

如何克服这些问题的任何建议将不胜感激 .

2 回答

  • 0

    其中一些错误应该发生在the following commit之前 . 现在使用repo,按照here中的说明为我工作 . 只看起来你需要使用 --runtime-version 1.7 标志 . 如果您遇到问题,请确保使用 sudo 跟踪installation instructions .

    如果没有,有些人仍然说他们需要在setup.py中添加Tensorflow和Jupyter(虽然这不是我的情况)

  • 0

    您有安装问题 . 卸载所有内容并通过启动Python并导入卸载的内容来确认已卸载,以确保您观察每个已卸载软件包的ImportError .

    然后仔细按照the installation page上的步骤进行操作,这些步骤确实表明了matplotlib等的单独安装步骤 .

相关问题