首页 文章
  • 1 votes
     answers
     views

    停用词从单词之间删除单词,有时根本不删除

    使用tm_map的停用词创建了一些奇怪的问题:它正在从 'fast' 删除 'as' ,而 'ft' ,而后来在语料库中没有删除 'the' , 'they' ... 以下是代码: docs <- Corpus(docsSource) > docs[[1]]$content [1] "Super fast and best for gamers and arch stude...
  • 1 votes
     answers
     views

    TermDocumentMatrix as.matrix使用大量内存

    我目前正在使用tm软件包来提取出集群的术语,以便在我的桌面上运行的25k项目(30Mb)的大小相当的数据库中进行重复检测,但是当我尝试在我的服务器上运行它时似乎需要一个不节制的时间 . 仔细观察后,我发现我已经通过4GB交换运行了线路应用(posts.TmDoc,1,sum)来计算条款的频率 . 此外,即使运行as.matrix在我的桌面上生成3GB的文档,请参阅http://imgur.com/...
  • 6 votes
     answers
     views

    tm中stemCompletion的最大合理大小?

    我有一个26个纯文本文件的语料库,每个文件在12 - 148kb之间,总共1.2Mb . 我在Windows 7笔记本电脑上使用R. 我做了所有正常的清理工作(停用词,自定义停用词,小写,数字),并希望完成词干 . 我使用原始语料库作为字典,如示例中所示 . 我尝试了几个简单的向量,以确保它可以工作(大约5个术语),它确实很快 . exchanger <- function(x) ste...
  • 10 votes
     answers
     views

    使用tm()从R中的语料库中删除非英语文本

    我正在使用 tm() 和 wordcloud() 进行R中的一些基本数据挖掘,但由于我的数据集中存在非英文字符(即使我已尝试根据背景变量过滤掉其他语言),我遇到了困难 . 假设我的TXT文件中的一些行(在TextWrangler中保存为UTF-8)如下所示: Special satisfação Happy Sad Potential für 然后我将我的txt文件读入R: words <...
  • 6 votes
     answers
     views

    是否可以向RTextTools包提供自定义停用词列表?

    使用tm包我可以这样做: c0 <- Corpus(VectorSource(text)) c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords)) mystopwords 是我要删除的其他停用词的向量 . 但我找不到使用RTextTools包的等效方法 . 例如: dtm <- c...

热门问题