我正在尝试为Twitter文本分类训练SVM . 显然,相对于NLP更常见的正式文档,推文往往包含许多俚语或拼写错误的单词 . 这是我试图分类的推文的一个例子:

Word I'm bout to holla at her via twitter RT @iamJay_Fresh : #trushit - im tryna fucc nicki minaj lol

我想知道是否有可能对这个文本进行词干/词形化,以便纠正俚语,它看起来像这样:

Word I'm about to holler at her via Twitter RT @iamJay_Fresh : #trushit - I'm trying to fuck Nicki Minaj lol

注意:我并不太关心将“lol”这样的常见缩写扩展为“大笑” . 我想引理的原因是为了减少数据稀疏性:如果SVM在负面情况下多次看到“holler”,但由于人们使用它少了几次“holla”,它将受益于使用“holler”的内涵“用”holla“对推文进行分类 . OTOH“lol”通常用于正面推文中,因此如果SVM看到另一个“lol”,即使它不是正式的英语,它也会知道它的极性 .