系统配置如下:

Ubuntu 16.04,cuda 9.1,

cudnn 7.0.5,

nvidia driver 390.30,

GTX 1050 TI gpu,

tensorflow-gpu 1.7rc1和1.5,

配置文件和train.py是tensorflow分布的库存,正在使用的训练模型是ssd_mobilenet_v1_coco_2017_11_17 .

以下是从putty终端会话中收集的:

(od)gennis @ AI:〜/ models / research $ ./train_raccoon.sh警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/learn /python/learn/datasets/base.py:198:不推荐使用retry(来自tensorflow.contrib.learn.python.learn.datasets.base),将来的版本将删除它 . 更新说明:使用重试模块或类似的替代方案 .

警告:tensorflow:来自/home/dennis/models/research/object_detection/trainer.py:228:不建议使用create_global_step(来自tensorflow.contrib.framework.python.ops.variables),并将在以后的版本中删除 . 更新说明:请切换到tf.train.create_global_step

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:摘要名称/ clone_loss是非法的;使用clone_loss代替 .

警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/slim/python/slim/learning.py:736: init (来自tensorflow.python . training.supervisor)已弃用,将在以后的版本中删除 .

更新说明:请切换到tf.train.MonitoredTrainingSession

2018-03-23 16:59:01.725435:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1355]找到具有属性的设备0:

名称:GeForce GTX 1050 Ti专业:6个未成年人:1个memoryClockRate(GHz):1.455

pciBusID:0000:01:00.0

totalMemory:3.94GiB freeMemory:3.89GiB

2018-03-23 16:59:01.725484:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1434]添加可见的gpu设备:0

2018-03-23 16:59:02.090533:I tensorflow / core / common_runtime / gpu / gpu_device.cc:922]具有强度1边缘矩阵的设备互连StreamExecutor:

2018-03-23 16:59:02.090592:I tensorflow / core / common_runtime / gpu / gpu_device.cc:928] 0

2018-03-23 16:59:02.090601:I tensorflow / core / common_runtime / gpu / gpu_device.cc:941] 0:N

2018-03-23 16:59:02.090801:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1052]创建TensorFlow设备(/ job:localhost / replica:0 / task:0 / device:GPU:0 with 3631 MB内存) - >物理GPU(设备:0,名称:GeForce GTX 1050 Ti,pci总线ID:0000:01:00.0,计算能力:6.1)

信息:tensorflow:从/home/dennis/models/research/ssd_mobilenet_v1_coco_2017_11_17/model.ckpt恢复参数

信息:tensorflow:运行local_init_op .

信息:tensorflow:完成运行local_init_op .

信息:tensorflow:开始会话 .

INFO:tensorflow:将检查点保存到路径temp / model.ckpt

信息:tensorflow:启动队列 .

信息:tensorflow:global_step / sec:0

此时系统崩溃,我必须关闭系统电源然后重新启动(重新启动) .

除了我的训练数据和配置,我还使用了Dat Tran的一篇文章中的模型和数据,名为“如何使用Tensorflow的对象检测API训练您的对象检测器”,并得到了相同的结果 .

我已经能够运行mnist示例和其他测试,显示tensorflow-gpu正在工作 .

我不知道下一步该做什么 . 我是否可以收集其他信息以帮助进一步诊断问题?

任何建议将不胜感激,

谢谢