当我将这个文件Chicago_Crimes_2005_to_2007.csv(Link https://www.kaggle.com/currie32/crimes-in-chicago)加载到RStudio时,我总是收到错误(Warnmeldung:在扫描中(文件=文件,什么=什么,sep = sep,quote = quote,dec = dec,:EOF in Zeichenkette /英语:引用字符串中的EOF),并不包括所有obervations . 你知道如何解决这个问题吗?使用其他3个文件我没有问题 . 我使用的代码如下:
c2 = read.csv("Chicago_Crimes_2005_to_2007.csv", header = TRUE)
我尝试使用此代码修复它:
c2 = read.csv("Chicago_Crimes_2005_to_2007.csv", header = TRUE, quote = "", row.names = NULL, stringsAsFactors = FALSE).
没有成功 . 我在stackoverflow中尝试了所有答案,但错误相同 . 什么都没有帮助 . 自1周以来没有成功 . 希望有人可以帮助我 . 在RStudio中使用R.
2 回答
干得好:
您可能决定清理列名,因为有些列中有空格,如果是这样的话:
这是一个读取脚本的版本,它解析文件第一行中的列名称,使用
tidyr::gather()
和gsub()
的组合清除它们,并将它们用作read::read_csv()
的输入 . 然后汇总Row.Number
字段以确认其最大值6254267与文件中最后一行的行号匹配 .......和输出:
NOTE: 该文件未正确读取所有记录,因为在第533,719行,记录似乎以冗余的变量名列表结尾 .
要纠正这个问题,必须手动编辑数据以删除变量名称的冗余列表或错误周围的代码 .
有趣的是,行数计数在原始数据文件的第533,720行中重新开始,这表示创建此数据的人不正确地连接多个文件以创建此数据文件 .