就像问题一样:在论文“序列学习的卷积序列”和“注意力都是你需要的”中,将嵌入位置简单地添加到输入词嵌入中,以使模型感知输入序列的顺序 . 这些位置嵌入是根据序列中单词的绝对位置和维度从正弦信号生成的 . 我们获得与单词嵌入相同维度的位置嵌入,我们简单地将这两者相加 .

我可以理解这有助于模型获得输入排序的感觉,但我很不安的是,添加这两个也可能会删除嵌入单词中包含的一些信息 . 你有解释为什么这可能有用(或没有)?有没有关于它的文献? https://datascience.stackexchange.com/questions/40930/why-does-position-embeddings-work