我正在使用张量流来尝试研究局部重新参数化技巧[Kingma等,2015]及其对梯度方差的影响 . 然而,我得到了奇怪的结果,我担心我可能会误解正在发生的事情 .

我的理解如下:给定损失函数或下限等,可以计算每个数据点的导数矩阵,该矩阵是该损失函数相对于输出层权重矩阵中每个权重的导数(如果这些是我们想要检查的渐变) . 对于这些权重中的任何一个,方差是根据每个数据点相对于该权重的损失函数的导数计算的 . 因此,如果我们从(1000,1000)权重矩阵开始,我们用(1000,1000)矩阵完成,其条目(i,j)由迷你中每个数据点的损失函数的导数的方差给出 . 关于重量(i,j)的批次 .

此时,我们可以采用矩阵中所有方差的均值来给出最终的平均方差 . 当人们谈论渐变的变化时,这是什么?