我试图通过Graves等人的NTM paper来理解复制任务 .

我有使用LSTM进行语言建模的经验,网络通常是一系列单词,一次一个单词,每个时间步的输出是预测的下一个单词 .

然而,对于NTM的复制任务,输出似乎被延迟(这是我猜的整点):

enter image description here

资料来源:https://blog.wtf.sg/2014/11/11/neural-turing-machines-copy-task/

那么在培训期间,这在代码中是如何工作的呢?前半部分的真实输出向量和序列后半部分的输入向量是否为零向量,预计网络将为第一半输出零向量,然后在下半年输出正确的序列?

那部分让我感到困惑 .