Java 学习之路

1 votes

answers

views

停用词从单词之间删除单词，有时根本不删除

使用tm_map的停用词创建了一些奇怪的问题：它正在从 'fast' 删除 'as' ，而 'ft' ，而后来在语料库中没有删除 'the' ， 'they' ... 以下是代码： docs <- Corpus(docsSource) > docs[[1]]$content [1] "Super fast and best for gamers and arch stude...

r tm stop-words
1 votes

answers

views

TermDocumentMatrix as.matrix使用大量内存

我目前正在使用tm软件包来提取出集群的术语，以便在我的桌面上运行的25k项目（30Mb）的大小相当的数据库中进行重复检测，但是当我尝试在我的服务器上运行它时似乎需要一个不节制的时间 . 仔细观察后，我发现我已经通过4GB交换运行了线路应用（posts.TmDoc，1，sum）来计算条款的频率 . 此外，即使运行as.matrix在我的桌面上生成3GB的文档，请参阅http://imgur.com/...

r tm term-document-matrix
6 votes

answers

views

tm中stemCompletion的最大合理大小？

我有一个26个纯文本文件的语料库，每个文件在12 - 148kb之间，总共1.2Mb . 我在Windows 7笔记本电脑上使用R. 我做了所有正常的清理工作（停用词，自定义停用词，小写，数字），并希望完成词干 . 我使用原始语料库作为字典，如示例中所示 . 我尝试了几个简单的向量，以确保它可以工作（大约5个术语），它确实很快 . exchanger <- function(x) ste...

r tm
10 votes

answers

views

使用tm（）从R中的语料库中删除非英语文本

我正在使用 tm() 和 wordcloud() 进行R中的一些基本数据挖掘，但由于我的数据集中存在非英文字符（即使我已尝试根据背景变量过滤掉其他语言），我遇到了困难 . 假设我的TXT文件中的一些行（在TextWrangler中保存为UTF-8）如下所示： Special satisfação Happy Sad Potential für 然后我将我的txt文件读入R： words <...

r tm
6 votes

answers

views

是否可以向RTextTools包提供自定义停用词列表？

使用tm包我可以这样做： c0 <- Corpus(VectorSource(text)) c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords)) mystopwords 是我要删除的其他停用词的向量 . 但我找不到使用RTextTools包的等效方法 . 例如： dtm <- c...

r text-mining stop-words tm

停用词从单词之间删除单词，有时根本不删除

TermDocumentMatrix as.matrix使用大量内存

tm中stemCompletion的最大合理大小？

使用tm（）从R中的语料库中删除非英语文本

是否可以向RTextTools包提供自定义停用词列表？

热门问题