对于LSTM(RNN)小区 .
它有三个向量:
-
size = batch_size * decoder_vocab的输出向量
-
Cell_state size = batch_size *嵌入(=每个LSTM单元的大小)
-
隐藏状态大小=与Cell_state相同
进一步证实:当我们使用seq2seq时,它会给出两个输出
outputs, state = tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq(...)
output是上面提到的1.st变量,state包含上面提到的2.nd和3.rd向量 .
现在在测试/预测时,我们可以直接将输出值传递给下一个解码器输入,但由于空间问题,我们使用output_projection(W,B)作为mentioned here .
现在我怀疑的是,我们使用(W *?B)多少向量/值投影,以减小空间,以及它如何减少空间 .