首页 文章
  • 0 votes
     answers
     views

    NLTK WordNet Lemmatizer - 如何删除未知单词?

    我正在尝试在推文上使用NLTK WordNet Lemmatizer . 我想删除WordNet中没有找到的所有单词(twitter句柄等),但没有来自WordNetLemmatizer.lemmatize()的反馈 . 如果找不到它,它只会返回未更改的单词 . Is there a way to check if a word is found in WordNet or not? 或者,是否有...
  • 1 votes
     answers
     views

    Python中俚语的词形简化

    我正在尝试为Twitter文本分类训练SVM . 显然,相对于NLP更常见的正式文档,推文往往包含许多俚语或拼写错误的单词 . 这是我试图分类的推文的一个例子: Word I'm bout to holla at her via twitter RT @iamJay_Fresh : #trushit - im tryna fucc nicki minaj lol 我想知道是否有可能对这个文本进行...
  • 1 votes
     answers
     views

    Lemmas而不是斯坦福依赖树中的单词?

    我想知道是否有任何方法可以在斯坦福依赖树中使用引理而不是单词 . 例如,我想要 dobj(see, child) 而不是 dobj(saw, child) . 可能吗? 我知道我可以分别得到单词的引理,但我想知道我是否可以在依赖树中使用lemmas本身 . 原因是我想查看一个大的语料库,看看一个单词以前是否填充了谓词的句法角色 . 例如,我想计算之前为 see 的 dobj 的 child 的数...
  • 7 votes
     answers
     views

    Solr / Lucene用上下文查询词形还原

    我已成功为Lucene实施捷克语引理器 . 我正在使用Solr对它进行测试,它在索引时非常适合 . 但是当用于查询时它不能很好地工作,因为查询解析器不向引理器提供任何上下文(前后的单词) . 例如,在索引时比在查询时不同地分析短语 pila vodu . 它使用含糊不清的单词 pila ,这可能意味着 pila (看到例如电锯)或 pít (动词"to drink"的过去时)...

热门问题