我有一个包含285000个观察结果的.csv文件 . 一旦我尝试导入数据集,这是警告,它显示166000观察 .
Joint <- read.csv("joint.csv", header = TRUE, sep = ",")
警告消息:在扫描中(file = file,what = what,sep = sep,quote = quote,dec = dec,:引用字符串中的EOF)
当我用引号编码时,如下:
Joint2 <- read.csv("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)
read.table出错(file = file,header = header,sep = sep,quote = quote,:列数比列名多
当我这样编码时,它显示了483000个观察结果:
Joint <- read.table("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)
我该怎么做才能正确读取文件?
1 回答
我认为问题与文件编码有关 . Headers 中有很多特殊字符 . 如果您知道文件的编码方式,则可以使用
fileEncoding
参数指定read.csv
.否则你可以尝试使用data.table来自data.table . 尽管存在编码问题,它仍能读取文件 . 读取如此大的数据文件也会快得多 .