我正在使用 tm()
和 wordcloud()
进行R中的一些基本数据挖掘,但由于我的数据集中存在非英文字符(即使我已尝试根据背景变量过滤掉其他语言),我遇到了困难 .
假设我的TXT文件中的一些行(在TextWrangler中保存为UTF-8)如下所示:
Special
satisfação
Happy
Sad
Potential für
然后我将我的txt文件读入R:
words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))
这会产生警告消息:
Warning message:
In readLines(y, encoding = x$Encoding) :
incomplete final line found on '/temp/file.txt'
但由于这是一个警告,而不是错误,我继续向前推进 .
words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)
然后产生错误:
Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'
我愿意找到在TextWrangler或R中过滤掉非英文字符的方法;无论什么是最权宜之计 . 谢谢你的帮助!
1 回答
这是一种在创建语料库之前删除包含非ASCII字符的单词的方法: