对于LSTM(RNN)小区 .

它有三个向量:

  • size = batch_size * decoder_vocab的输出向量

  • Cell_state size = batch_size *嵌入(=每个LSTM单元的大小)

  • 隐藏状态大小=与Cell_state相同

进一步证实:当我们使用seq2seq时,它会给出两个输出

outputs, state = tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq(...)

output是上面提到的1.st变量,state包含上面提到的2.nd和3.rd向量 .

现在在测试/预测时,我们可以直接将输出值传递给下一个解码器输入,但由于空间问题,我们使用output_projection(W,B)作为mentioned here .

现在我怀疑的是,我们使用(W *?B)多少向量/值投影,以减小空间,以及它如何减少空间 .