我对寻找关于参数(权重和偏差)的神经网络输出的梯度感兴趣 .

更具体地说,假设我有以下神经网络结构[6,4,3,1] . 输入样本大小为20.我感兴趣的是找到权重(和偏差)的神经网络输出的梯度,如果我没有弄错,在这种情况下将是47.在文献中,这个梯度有时被称为Weight_Jacobian .

我在Jupyter Notebook上使用Python 3.6上的Pytorch版本0.4.0 .

我制作的代码是这样的:

def init_params(layer_sizes, scale=0.1, rs=npr.RandomState(0)):
    return [(rs.randn(insize, outsize) * scale,   # weight matrix
                 rs.randn(outsize) * scale)           # bias vector
                 for insize, outsize in 
                 zip(layer_sizes[:-1],layer_sizes[1:])]
layers = [6, 4, 3, 1]
w = init_params(layers)
first_layer_w = Variable(torch.tensor(w[0][0],requires_grad=True))
first_layer_bias = Variable(torch.tensor(w[0][1],requires_grad=True))
second_layer_w = Variable(torch.tensor(w[1][0],requires_grad=True))
second_layer_bias = Variable(torch.tensor(w[1][1],requires_grad=True))
third_layer_w = Variable(torch.tensor(w[2][0],requires_grad=True))
third_layer_bias = Variable(torch.tensor(w[2][1],requires_grad=True))
X = Variable(torch.tensor(X_batch),requires_grad=True)
output=torch.tanh(torch.mm(torch.tanh(torch.mm(torch.tanh(torch.mm(X,first_layer_w)+first_layer_bias),second_layer_w)+second_layer_bias),third_layer_w)+third_layer_bias)
output.backward()

从代码中可以明显看出,我有兴趣找到这个输出向量的梯度w.r.t所有权重(全部47个) . 我已经在here阅读了Pytorch的文档 . 我也见过类似的问题,例如here . 但是,我未能找到输出向量w.r.t参数的梯度 . 如果我使用Pytorch函数backward(),它会生成一个错误

RuntimeError: grad can be implicitly created only for scalar outputs

我的问题是,有没有办法计算输出矢量w.r.t参数的梯度,它基本上可以表示为20 * 47矩阵,因为我的输出矢量大小为20,参数矢量大小为47?如果是这样,怎么样?我的代码有什么问题吗?您可以采用X的任何示例,只要其尺寸为20 * 6即可 .