我有一个数据集,其中许多名称被写为man1sh而不是manish,vikas为v1kas .
如何在nlp中更正这些名称?
任何帮助表示赞赏 .
尝试基于深度神经网络的拼写校正https://medium.com/@majortal/deep-spelling-9ffef96a24f6此方法是目前最先进的方法 . 这是代码https://github.com/MajorTal/DeepSpell,有些已经对它进行了改进https://hackernoon.com/improving-deepspell-code-bdaab1c5fb7e.I我无法找到论文,但也有一篇论文发表了字符级深度神经网络,用于编辑距离,具有良好的结果和公共数据集 .
对于上述方法,与所有机器学习解决方案一样,您需要用于培训的数据 . 如果您没有针对您的案例的数据,那么旧的简单编辑距离方法http://norvig.com/spell-correct.html是唯一的方法 .
1 回答
尝试基于深度神经网络的拼写校正https://medium.com/@majortal/deep-spelling-9ffef96a24f6此方法是目前最先进的方法 . 这是代码https://github.com/MajorTal/DeepSpell,有些已经对它进行了改进https://hackernoon.com/improving-deepspell-code-bdaab1c5fb7e.I我无法找到论文,但也有一篇论文发表了字符级深度神经网络,用于编辑距离,具有良好的结果和公共数据集 .
对于上述方法,与所有机器学习解决方案一样,您需要用于培训的数据 . 如果您没有针对您的案例的数据,那么旧的简单编辑距离方法http://norvig.com/spell-correct.html是唯一的方法 .