在LSTM中输入字级和字符级嵌入以进行PoS标记-Java 学习之路

我指的是这篇研究论文“Learning Character-level Representations for Part-of-Speech Tagging ", where the author says: "所提出的神经网络使用卷积层，允许从任何大小的单词中提取有效的特征 . 在标记时，卷积层为每个单词生成字符级嵌入，即使是那些在词汇之外 . “

我正在学习使用这种方法构建一个高效的PoS标记器，但我无法可视化输入格式 .

例如：

x_train, y_train, x_test, y_test = load_dataset()

x_train和y_train的实例是什么样的？

我不明白如何在模型中将word和char嵌入（它们相互依赖）放在一起，以便它可以同时了解它们 .

我打算将此输入数据集放在LSTM模型中，如下所示：

M = Sequential()
M.add(Embedding())
M.add(LSTM())
M.add(Dropout())
M.add(LSTM())
M.add(Dropout())
M.add(TimeDistributed(Dense()))
M.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])

任何有此领域经验的人都可以帮助分享一些方法或见解，让我走上正轨吗？

我尝试用手工制作的功能构建PoS标记器（ total_terms, term, is_first, is_last, is_capitalized, is_all_caps, is_all_lower, prefix-1, prefix-2, prefix-3, suffix-1, suffix-2, suffix-3, prev_word, next_word ），但这次我想 Build 一个没有它们的模型 .

1 回答

0

请参阅此link我认为您必须寻找类似本页提及的模型 .

回复于 2024-05-05T10:52:48+08:00

在LSTM中输入字级和字符级嵌入以进行PoS标记

1 回答

相关问题