我正在读一个基本的csv文件,其中列用逗号分隔这些列名:
userid, username, body
但是,body列是一个可能包含逗号的字符串 . 显然这会导致问题,并且大熊猫会抛出错误:
CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8
有没有办法告诉大熊猫忽略特定列中的逗号或解决此问题的方法?
想象一下,我们正在读取名为 comma.csv 的数据框:
comma.csv
userid, username, body 01, n1, 'string1, string2'
您可以做的一件事是在列中指定字符串的分隔符:
df = pd.read_csv('comma.csv', quotechar="'")
在这种情况下,由 ' 分隔的字符串被视为总数,无论它们内部是否有逗号 .
'
1 回答
想象一下,我们正在读取名为
comma.csv
的数据框:您可以做的一件事是在列中指定字符串的分隔符:
在这种情况下,由
'
分隔的字符串被视为总数,无论它们内部是否有逗号 .