在给定RNN序列长度的情况下，正确的训练批次是什么？-Java 学习之路

我的问题来自于tutorial关于RNN，但它可能是一般RNNs实施问题 .

假设我们想要开发一个模型来使用RNN预测下一个角色，我们有以下训练数据：

X = [A, B, C, D, E, F, G, H]
Y = [B, C, D, E, F, G, H, I]

在训练期间，我们仅使用序列长度n = 4（展开次数）来考虑1个时期并且一次处理1个批次 . 通过引用的tutorial（甚至在Karpathy's famous RNN post中），这将导致两个训练集：

X_0 = [A, B, C, D]
Y_0 = [B, C, D, E],

X_1 = [E, F, G, H]
Y_1 = [F, G, H, I]

我的问题是：为了更好地捕获前n个字符的"influence"，不应该将训练数据拆分为

X_0 = [A, B, C, D]
X_1 = [B, C, D, E]
X_2 = [C, D, E, F]
X_3 = [D, E, F, G]
X_4 = [E, F, G, H]

（与相应的Y'）？

在给定RNN序列长度的情况下，正确的训练批次是什么？