使用tm包我可以这样做:
c0 <- Corpus(VectorSource(text))
c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords))
mystopwords
是我要删除的其他停用词的向量 .
但我找不到使用RTextTools包的等效方法 . 例如:
dtm <- create_matrix(text,language="english",
removePunctuation=T,
stripWhitespace=T,
toLower=T,
removeStopwords=T, #no clear way to specify a custom list here!
stemWords=T)
是否有可能做到这一点?我非常喜欢 RTextTools
界面,很遗憾必须回到 tm
.
2 回答
您的问题有三种(或可能更多)解决方案:
首先,仅使用
tm
包来删除单词 . 两个包都处理相同的对象,因此您可以使用tm
来删除单词而不是RTextTools
包 . 即使你在函数create_matrix
内部查看它也会使用tm
函数 .其次,修改
create_matrix
函数 . 例如,添加一个输入参数,如own_stopwords=NULL
,并添加以下行:第三,编写自己的函数,如下所示:
让我们来看看它是否有效:
HTH
您可以在同一列表中添加停用词 . 例如: