我的问题来自于tutorial关于RNN,但它可能是一般RNNs实施问题 .

假设我们想要开发一个模型来使用RNN预测下一个角色,我们有以下训练数据:

X = [A, B, C, D, E, F, G, H]
Y = [B, C, D, E, F, G, H, I]

在训练期间,我们仅使用序列长度n = 4(展开次数)来考虑1个时期并且一次处理1个批次 . 通过引用的tutorial(甚至在Karpathy's famous RNN post中),这将导致两个训练集:

X_0 = [A, B, C, D]
Y_0 = [B, C, D, E],

X_1 = [E, F, G, H]
Y_1 = [F, G, H, I]

我的问题是:为了更好地捕获前n个字符的"influence",不应该将训练数据拆分为

X_0 = [A, B, C, D]
X_1 = [B, C, D, E]
X_2 = [C, D, E, F]
X_3 = [D, E, F, G]
X_4 = [E, F, G, H]

(与相应的Y')?