首页 文章
  • 0 votes
     answers
     views

    使用列表中的nltk.corpus删除停用词

    我有一个列表,其中包含评论的所有单独单词的列表,如下所示: texts = [['fine','for','a','night'],['it','was','good']] 我想删除所有的停用词,使用nltk.corpus包,并将所有没有停用词的单词放回列表中 . 最终结果应该是一个列表,由没有停用词的单词列表组成 . 这是我试过的: import nltk nltk.download() # ...
  • 1 votes
     answers
     views

    停用词和矢量制作

    在text2vec中,我能找到的关于停用词的唯一功能是“create_vocabulary” . 但在文本挖掘任务中,我们通常需要消除资源文档中的停用词,然后构建语料库或其他进一步的过程 . 我们如何使用“stopword”来处理使用text2vec构建语料库,dtm和tcm的文档? 我以前用过tm进行文本挖掘 . 它具有分析PDF文档的功能,但它将一篇论文作为几个向量(一行,一个向量)读取,而不...
  • 1 votes
     answers
     views

    停用词从单词之间删除单词,有时根本不删除

    使用tm_map的停用词创建了一些奇怪的问题:它正在从 'fast' 删除 'as' ,而 'ft' ,而后来在语料库中没有删除 'the' , 'they' ... 以下是代码: docs <- Corpus(docsSource) > docs[[1]]$content [1] "Super fast and best for gamers and arch stude...
  • 1 votes
     answers
     views

    不可用类型:停用词的'list'错误

    这是我的代码 CSV文件的URL:https://github.com/eugeneketeni/web-mining-final-project/blob/master/Test_file.csv import pandas as pd data = pd.read_csv("https://raw.githubusercontent.com/eugeneketeni/web- m...
  • 66 votes
     answers
     views

    使用NLTK删除停用词

    我试图通过使用nltk工具包删除停用词来处理用户输入的文本,但是使用停用词删除时,会删除“and”,“或”,“not”等字样 . 我希望在禁用词删除过程之后出现这些单词,因为它们是稍后将文本作为查询处理所需的运算符 . 我不知道哪些是文本查询中可以成为运算符的单词,我还想从文本中删除不必要的单词 .
  • 6 votes
     answers
     views

    是否可以向RTextTools包提供自定义停用词列表?

    使用tm包我可以这样做: c0 <- Corpus(VectorSource(text)) c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords)) mystopwords 是我要删除的其他停用词的向量 . 但我找不到使用RTextTools包的等效方法 . 例如: dtm <- c...
  • 19 votes
     answers
     views

    如何从R中的ngram标记列表中有效地删除停用词

    这是一种更好的方法,可以做一些我已经无法做到的事情: filter a series of n-gram tokens using "stop words" ,这样n-gram中任何停用词术语的出现都会触发删除 . 我非常希望有一个解决方案适用于unigrams和n-gram,虽然可以有两个版本,一个带有“固定”标志,另一个带有“正则表达式”标志 . 我将这个问题的两个方面放在...
  • 0 votes
     answers
     views

    R词 Cloud - 无法删除英语停用词

    我尝试在构建文字 Cloud 之前从文本中删除英语停用词,但它不起作用 . 我读了好几篇文章并尝试了没有运气的建议 . 任何帮助将不胜感激 . library(tm) library(wordcloud) library(RColorBrewer) library(SnowballC) textdata <- c(A secur breach expos privat inform of ...
  • 1 votes
     answers
     views

    从禁用词列表中删除单词

    我之前问过如何通过保留原始格式从字符向量中的停止列表中删除单词的问题 . 任务是在矢量“单词”中删除“words_to_remove”的单词 . 我接受了这个解决方案 words_to_remove = c("the", "This") pattern <- paste0("\\b", words_to_remove, "...
  • 0 votes
     answers
     views

    在java中标记字符串后删除停用词

    我想在标记字符串后删除停用词 . 我有外部文件.txt并读取它然后将它与标记化的字符串进行比较 . 如果标记化的单词与停用词相等,则将其删除 . 这是令牌化的代码 try{ while ((msg =readBufferData.readLine()) != null) { int numberOfTokens; ...
  • 19 votes
     answers
     views

    使用spacy添加/删除停用词

    使用spacy添加/删除停用词的最佳方法是什么?我正在使用token.is_stop函数,并希望对该集进行一些自定义更改 . 我正在查看文档,但找不到关于停用词的任何内容 . 谢谢!

热门问题