-
0 votesanswersviews
Tensorflow您必须使用dtype float为占位符张量'p'提供值
我正在使用mnist数据来查看tf.train.shuffle_batch是如何工作的,我收到了这个错误 InvalidArgumentError(参见上述用于回溯):必须喂为占位符张量 'P' 的值与D型浮子[[节点:P = Placeholderdtype = DT_FLOAT,形状= [],_device =“/作业:本地主机/复制:0 /任务:0 / GPU:0 “]] [[节点:切片/... -
1 votesanswersviews
keras lstm seq2seq示例关键字参数不理解windows上的return_state
我正在运行此示例代码(基于Keras构建的seq2seq)表单https://github.com/fchollet/keras/blob/master/examples/lstm_seq2seq.py . 此代码在我的Ubuntu上正确运行 . 但是当我在Windows上运行相同的代码时发生错误 . 它说: 使用TensorFlow后端 . 样本数:10000唯一输入令牌数:73唯一输出令牌数... -
0 votesanswersviews
修改Tensorflow代码以在CPU上进行预处理并在GPU上进行培训
我正在阅读关于优化TensorFlow代码的最佳实践的performance guide . 他们的一个建议是将预处理操作放在CPU上,以便GPU专门用于培训 . 试图理解如何在实验中实际实现这一点(即learn_runner.run()) . 为了进一步讨论,我想考虑将此策略应用于here的自定义估算器人口普查样本的最佳方法 . 文章建议在预处理操作周围放置 with tf.device('/c... -
0 votesanswersviews
GRPC导致培训暂停个体工作者(分布式张量流,同步)
我试图以同步分布式方式训练模型以实现数据并行 . 我的机器有4个gpus . 每个gpu都应该运行一个worker来训练单独的非重叠数据子集(在图复制之间) . 主数据文件分为16个较小的TFRecord文件 . 每个工作者应该处理4个不同的文件 . 问题是培训在每个 Worker 流程中独立冻结并在不同时间冻结 . 他们在某个时候冻结了 . 跟随grpc相关错误的'ps'报告之一: 2017-... -
0 votesanswersviews
为什么我们需要为服务器中的每个用户重新安装tensorflow?
我在超级计算机上安装了Ubuntu Desktop 16.04,它用于多用户使用 . 让我们知道名字,因为超级计算机是 serverubuntu . 在 serverubuntu 中,我安装了tensorflow-gpu 1.2 serverubuntu$serverubuntu sudo pip install tensorflow-gpu==1.2 完成后,我可以在输入服务器时导入张量流 ... -
0 votesanswersviews
python tensorflow将无法安装
我试图以多种方式安装 tensorflow (python 3.5)而没有成功: 输入"pip install tensorflow"和"pip install tensorflow-gpu"并收到错误: 找不到满足需求张量流的版本(来自版本:)找不到tensorflow的匹配分布 通过命令:“pip install tensorflow-1.2.... -
9 votesanswersviews
如何使用Tensorflow的数据集API将数据移动到多个GPU塔
我们在Tensorflow上运行多GPU作业,并评估从基于队列的模型(使用string_input_producer接口)到新Tensorflow Dataset API的迁移 . 后者似乎提供了一种更简单的方法来同时在Train和Validation之间切换 . 下面的代码片段显示了我们如何做到这一点 . train_dataset, train_iterator = get_dataset(t... -
1 votesanswersviews
TensorFlow:不同GPU上的不同结果
系统信息 What is the top-level directory of the model you are using :使用未经修改的预训练coco模型:faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017,faster_rcnn_resnet101_coco_11_06_2017,rfcn_resnet101_coco_11_... -
8 votesanswersviews
张量流量化
我想使用Tensorflow的transform_graph工具优化图形 . 我尝试从MultiNet(以及其他具有类似编码器 - 解码器架构的图形)优化图形 . 但是,使用quantize_weights时,优化图实际上较慢,使用quantize_nodes时甚至要慢得多 . 从Tensorflow的文档来看,量化时可能没有任何改进,甚至可能更慢 . 知道下面的图形/软件/硬件是否正常吗? 以下... -
8 votesanswersviews
在执行Tensorflow或Theano代码期间GPU丢失
当训练两个不同神经网络中的一个时,一个用Tensorflow,另一个用Theano,有时候经过一段随机的时间(可能是几个小时或几分钟,大多数几个小时),执行冻结,我得到这个消息运行“nvidia-smi”: “无法确定GPU 0000:02:00.0的设备句柄:GPU丢失 . 重新启动系统以恢复此GPU” 我试图监控GPU性能13小时执行,一切似乎都很稳定: 我正在与: Ubuntu 14.0... -
0 votesanswersviews
多台计算机上的分布式Tensorflow无法扩展
我正在尝试运行分布式Tensorflow作业,该作业训练深度卷积MNIST分类器 . 我已将深度卷积mnist分类器组合在:https://github.com/tensorflow/tensorflow/blob/r1.2/tensorflow/examples/tutorials/mnist/mnist_deep.py和分布式mnist中:https://github.com/tensorfl... -
0 votesanswersviews
使用bazel在窗户上使用cuda支持构建张量流的错误
我试图通过bazel在Windows 10 64bit上使用CUDA支持编译TensorFlow . 这就是我的系统设置方式: Windows 10 64位 具有CUDA功能的Nvidia GeForce 1050 6.1 CUDA工具包v8.0 - > C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0 cuD... -
0 votesanswersviews
在Windows 10 x64上编译TensorFlow 1.4.0 GPU
似乎没有关于如何在Windows 10 x64上编译TensorFlow 1.4.0 GPU的任何详细文档 . 我需要重新编译TF以为Windows 7 x64 生产环境 系统添加缺少的功能 . 官方谷歌链接Installing TensorFlow from Sources只是说 我们不正式支持在Windows上构建TensorFlow;但是,如果您不介意在Windows或TensorFlow... -
1 votesanswersviews
Tensorflow GPU停止工作
重现问题 我几天前运行了tensorflow,但它停止了工作 . 在使用教程代码测试后,mnist_softmax和_2536346都失败了 . Tensorflow成功运行简单的helloworld内容 . 我尝试过的 与delton137一样,我尝试将 allow_growth 设置为True或 per_process_gpu_memory_fraction 设置为0.1,但这没有用 .... -
1 votesanswersviews
ValueError:无法推断Tensor的等级:Tensor(“fifo_queue_Dequeue:0”,dtype = float32)
我正在尝试加载每个不同大小的批量图像(具体来说,它们来自pascal voc数据集) . source_images.npy文件包含不同高度,宽度但相同通道的图像 . 我做错了什么?是否有其他方法可以发送不同大小的图像? 这是我的代码: def feed(images, im, epochs=None): epochs_elapsed = 0 while epochs is No... -
0 votesanswersviews
安装tensorflow GPU
我正在尝试在win10上安装tensorflow gpu . 我的步骤: 安装Python 3.5.2 安装Nvidia CUDA(v9)cudnn 复制prog.files目录下的cudnn文件NVIDIA GPU Computing Toolkit 安装tensorflow gpu(pip3 install --upgrade tensorflow-gpu) C:\ Pyt... -
1 votesanswersviews
Tensorflow:图形部分的MultiGPU训练
所有代码都假设为Tensorflow 1.3和Python 3.x. 我们正在研究一种具有有趣损失函数的GAN算法 . Stage 1 - Compute only the completion/generator loss portion of the network Iterates over the completion portion of the GAN for X ... -
4 votesanswersviews
高GPU内存使用但低挥发性gpu-util
Keras和DL新手在这里 . 我想构建一个模型来训练顺序文本数据以进行分类 . 数据看起来像: id,文字,标签 1,tom.hasLunch,0 2,jerry.drinkWater,1 我用python3.5和keras 2(TF作为后端)构建它 . 模型摘要如下: 第一个/输入层是一个word2Vec嵌入,它是从头开始构建的,有4332个字 . 第二层是一个简单的LSTM层,参数包... -
15 votesanswersviews
如何优化推理一个简单,保存的TensorFlow 1.0.1图表?
我无法在一个简单的,保存的TensorFlow图上成功运行 optimize_for_inference 模块(Python 2.7;由 pip install tensorflow-gpu==1.0.1 安装的软件包) . 背景 保存TensorFlow图 这是我的Python脚本,用于生成并保存一个简单的图形,以便为我的输入 x placeholder 操作添加5 . import ten... -
0 votesanswersviews
如何将TensorFlow图(模型)拆分到多个GPU上以避免OOM?
因此,我使用TensorFlow r1.2实现了这个非常大而深的模型,在具有12 GB内存的NVIDIA Tesla k40上运行 . 该模型由几个RNN,一堆权重和嵌入矩阵以及偏差向量组成 . 当我启动培训计划时,它首先需要大约2-3个小时来构建模型,然后由于OOM问题而崩溃 . 我试图将批量大小减少到每批甚至1个数据样本,但仍然遇到了同样的问题 . 如果我google tensorflow ... -
0 votesanswersviews
Tensorflow,在计算图中手动“修剪”梯度流
我正在实现一个非常复杂的非顺序循环计算图,我对使用 RMSProp 批量执行梯度下降所花费的时间不满意 . 原因是反向计算应该是稀疏的,因为有一个输入变量,它确定每个时间步长使用了多大部分的计算图 . 关键代码如下: g_t_ = g_t*c_prev[:,0,1] + tf.stop_gradient(g_t - g_t*c_prev[:,0,1]) A_t = roll_plan(A_prev... -
3 votesanswersviews
使用Tensorflow Slim从Scratch训练ResNetv1
虽然在slim model中声明train_image_classifier.py可用于从头开始训练模型,但我发现在实践中很难 . 就我而言,我试图在6xK80s的本地机器上从零开始训练ResNet . 我用过这个: DATASET_DIR=/nv/hmart1/ashaban6/scratch/data/imagenet_RF_record TRAIN_DIR=/nv/hmart1/ashaba... -
4 votesanswersviews
Tensorflow- ImportError:libcublas.so.8.0:无法打开共享对象文件:没有这样的文件或目录
我正在尝试运行 Tensorflow-gpu . 我安装了Cuda-9.0和cuDNN v7.0.3 . 我测试了两个(如他们的指南中所述)并且它们工作正常 . 然后我使用pip3(我使用python3)安装了Tensorflow-gpu,它在导入时给了我这个错误: Traceback (most recent call last): File "/usr/local/lib/py... -
1 votesanswersviews
Amazon EC2 Tensorflow GPU支持
我试着四处寻找,但还是找不到修复方法 . 我尝试过的事情包括检查所有路径和环境变量 . 当我尝试使用深度学习AMI上的Python 3.6运行带有TensorFlow后端的Keras时(m4.xlarge) 一旦导入Tensorflow,这就是输出: /home/ubuntu/anaconda3/envs/tensorflow_p36/lib/python3.6/importlib/_boots... -
0 votesanswersviews
张量流量ValueError:排名不匹配:标签等级(收到2)应该等于logits减去1(收到2)
张量流1.2.1 python3.6 图像大小= 96像素 发生以下错误,无法继续处理 . train.py from datetime import datetime import tensorflow as tf import numpy as np import model import json import os import time NUM_CLASSES = 10 FLAGS...