我们目前正在尝试使用RNN模型来使用文本功能构建分类器 . 我们对培训数据的最终准确率为87%,但我们对验证数据的准确率平均为57%,这显然过度拟合 . 我们认为过度拟合的原因是因为我们只有大约4000个条目,所以数据量很小 . 我们可以做些什么来解决这个问题,我们也考虑过进行数据扩充,但我们所能找到的只是用同义词替换单词,这在我们的案例中是行不通的 . 这是我们的模型代码,并提前感谢您 .

model = Sequential()
model.add(Embedding(num_vocab+1,32))
model.add(SimpleRNN(64))
model.add(Dense(num_classes, activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['acc'])
history = model.fit(f_train, cause_train, epochs=10, batch_size=50, validation_split=0.2)